このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230331となっている論文です。

PDF登録状況(公開日: 20230331)

TitleAuthorsAbstract論文公表日・翻訳日
# 言語」とZipfの法則:ChatGPTで生成された言語は統計的に人間に見えるか?

"Genlangs" and Zipf's Law: Do languages generated by ChatGPT statistically look human? ( http://arxiv.org/abs/2304.12191v1 )

ライセンス: Link先を確認
Justin Diamond(参考訳) OpenAIのGPT-4はLarge Language Model(LLM)で、コヒーレントな構築言語(conlangs)を生成できる。 この研究のためにChatGPTによって作成された言語(Voxphera、Vivenzia、Lumivoxa)は、それぞれ独特の特徴を持ち、顔のコヒーレントに見え、英語に翻訳される。 本研究では, ChatGPT が生成した genlang が Zipf の法則に従うかどうかを検討する。 zipfの法則は、自然言語と人工言語にほぼ共通する。 Zipfの法則によると、テキストコーパスの単語周波数は、周波数表のランクに逆比例する。 これは、最も頻度の高い単語が2番目に多い単語の約2倍、最も頻度の高い単語の3倍の頻度で現れることを意味する。 Zipfの法則は,(1)ChatGPTが生成した言語は,特定のトークンの意味的有用性に関して,基本的には人間の言語と同じ方法で動作し,(2)ChatGPTは多くの異なる言語を含むテキストのコーパスで訓練され,それらすべてがZipfの法則を様々な程度に表している。 統計的言語学を通して,LLMに基づく言語が統計的に人間に見えるかを理解することを目的とする。 本研究は,ChatGPTが生成する言語は自然および人工の言語と類似した統計特性を示すという仮説を支持し,ジグフの法則に密接に従っていることを示唆する。 また、人間の支援により、aiはすでに世界初の完全に機能するgenlangを作成でき、その開発を呼びかけていると結論づけています。

OpenAI's GPT-4 is a Large Language Model (LLM) that can generate coherent constructed languages, or "conlangs," which we propose be called "genlangs" when generated by Artificial Intelligence (AI). The genlangs created by ChatGPT for this research (Voxphera, Vivenzia, and Lumivoxa) each have unique features, appear facially coherent, and plausibly "translate" into English. This study investigates whether genlangs created by ChatGPT follow Zipf's law. Zipf's law approximately holds across all natural and artificially constructed human languages. According to Zipf's law, the word frequencies in a text corpus are inversely proportional to their rank in the frequency table. This means that the most frequent word appears about twice as often as the second most frequent word, three times as often as the third most frequent word, and so on. We hypothesize that Zipf's law will hold for genlangs because (1) genlangs created by ChatGPT fundamentally operate in the same way as human language with respect to the semantic usefulness of certain tokens, and (2) ChatGPT has been trained on a corpora of text that includes many different languages, all of which exhibit Zipf's law to varying degrees. Through statistical linguistics, we aim to understand if LLM-based languages statistically look human. Our findings indicate that genlangs adhere closely to Zipf's law, supporting the hypothesis that genlangs created by ChatGPT exhibit similar statistical properties to natural and artificial human languages. We also conclude that with human assistance, AI is already capable of creating the world's first fully-functional genlang, and we call for its development.
翻訳日:2023-04-30 07:38:11 公開日:2023-03-31
# 制限ボルツマンマシン上での推論に対するハイブリッド量子古典的アプローチ

A hybrid quantum-classical approach for inference on restricted Boltzmann machines ( http://arxiv.org/abs/2304.12418v1 )

ライセンス: Link先を確認
M\=arti\c{n}\v{s} K\=alis, Andris Loc\=ans, Rolands \v{S}ikovs, Hassan Naseri, Andris Ambainis(参考訳) boltzmann machineは、例えば深層信念ネットワークを構築するなど、多くの現実のアプリケーションを持つ強力な機械学習モデルである。 ボルツマンマシンの統計的推論は、その後方分布からサンプリングすることで行うことができる。 しかし、そのようなモデルからの一様サンプリングは、非常に多モード分布のため自明ではない。 量子コンピュータは、いくつかの非自明な問題を効率的に解くことを約束する。 制限されたボルツマンマシンからサンプルを生成するためのd波量子アニーラの応用について検討した。 サンプルは、ハイブリッド量子古典的な構成でマルコフ連鎖によってさらに改善される。 量子アニール試料は, ランダム初期化と比較して, ギブスサンプリングの性能が向上することを示した。 ハイブリッドなセットアップは、純粋なクラシックサンプリングよりもかなり効率的である。 また,アニールパラメータ(温度)が試料の品質に及ぼす影響についても検討した。 古典的処理量を増やす(ギブス更新)ことにより、量子アニーリングの利点は消滅し、これは今日の量子コンピュータの性能が古典的コンピュータに比べて限られていることから正当化される。

Boltzmann machine is a powerful machine learning model with many real-world applications, for example by constructing deep belief networks. Statistical inference on a Boltzmann machine can be carried out by sampling from its posterior distribution. However, uniform sampling from such a model is not trivial due to an extremely multi-modal distribution. Quantum computers have the promise of solving some non-trivial problems in an efficient manner. We explored the application of a D-Wave quantum annealer to generate samples from a restricted Boltzmann machine. The samples are further improved by Markov chains in a hybrid quantum-classical setup. We demonstrated that quantum annealer samples can improve the performance of Gibbs sampling compared to random initialization. The hybrid setup is considerably more efficient than a pure classical sampling. We also investigated the impact of annealing parameters (temperature) to improve the quality of samples. By increasing the amount of classical processing (Gibbs updates) the benefit of quantum annealing vanishes, which may be justified by the limited performance of today's quantum computers compared to classical.
翻訳日:2023-04-30 07:28:23 公開日:2023-03-31
# 複製アルゴリズムに向けて

Towards replicated algorithms ( http://arxiv.org/abs/2304.13524v1 )

ライセンス: Link先を確認
Iztok Fister Jr. and Iztok Fister(参考訳) 現在、デジタルコンピュータ上で実行されるアルゴリズムの主な欠点は、実行中に自分自身を変えることができないことである。 この論文は、人間の脳を開発するという概念に触発された、いわゆる複製アルゴリズムを紹介している。 人間の脳と同様に、思考の過程は強く平行であり、複製されたアルゴリズムは集団に組み込まれており、自分自身を複製し、問題を並列に解くことができる。 既知の入力を既知の出力にマッピングするモデルとして動作する。 予備研究では、これらのアルゴリズムは算術演算子のシーケンスとして構築され、算術式計算に応用され、それらの動作は、それらが開放された進化の状態で動作できることを示しました。

The main deficiency of the algorithms running on digital computers nowadays is their inability to change themselves during the execution. In line with this, the paper introduces the so-called replicated algorithms, inspired by the concept of developing a human brain. Similar to the human brain, where the process of thinking is strongly parallel, replicated algorithms, incorporated into a population, are also capable of replicating themselves and solving problems in parallel. They operate as a model for mapping the known input to a known output. In our preliminary study, these algorithms are built as sequences of arithmetic operators, applied for calculating arithmetic expressions, while their behavior showed that they can operate in the condition of open-ended evolution.
翻訳日:2023-04-30 07:19:28 公開日:2023-03-31
# 文字レベル長手分布のためのシーンテキスト認識の改善

Improving Scene Text Recognition for Character-Level Long-Tailed Distribution ( http://arxiv.org/abs/2304.08592v1 )

ライセンス: Link先を確認
Sunghyun Park, Sunghyo Chung, Jungsoo Lee, Jaegul Choo(参考訳) 近年のシーンテキスト認識(STR)の顕著な改善にもかかわらず、研究の大部分は英語に焦点を合わせており、文字数は少ない。 しかし、STRモデルは、多数の文字(中国語や韓国語など)を持つ言語、特にそのような言語における文字の長い尾の分布のために稀に現れる文字に対して、大きな性能低下を示す。 このような問題に対処するために,文字レベル分布の異なる合成データセット(例えば,バランスとロングテール分布)を用いた経験的分析を行った。 文脈を考慮せずにかなりの数の尾クラスを増やせば、個々の文字を正しく認識できるが、そのような合成データセットを用いた訓練は、単語全体を予測する上でも重要である文脈情報(文字間の関係)を学習することでモデルを妨害する。 このモチベーションに基づいて,2つの専門家を用いた新しい文脈認識フリーエキスパートネットワーク(CAFE-Net)を提案する。 1)コンテキスト認識の専門家は、日常生活で使われる一般的な単語からなる長い尾のデータセットで訓練された文脈表現を学習し、 2)コンテキストフリーの専門家は,バランスの取れた文字数を持つデータセットを利用することで,個々の文字を正確に予測することに焦点を当てている。 2人の専門家にそれぞれ文脈表現と視覚表現の学習に焦点を合わせ、各専門家の限界を補う新しい自信アンサンブル法を提案する。 実験により,多数の文字を含む言語において,CAFE-NetがSTR性能を向上させることを示した。 さらに,CAFE-Netは様々なSTRモデルに容易に適用可能であることを示す。

Despite the recent remarkable improvements in scene text recognition (STR), the majority of the studies focused mainly on the English language, which only includes few number of characters. However, STR models show a large performance degradation on languages with a numerous number of characters (e.g., Chinese and Korean), especially on characters that rarely appear due to the long-tailed distribution of characters in such languages. To address such an issue, we conducted an empirical analysis using synthetic datasets with different character-level distributions (e.g., balanced and long-tailed distributions). While increasing a substantial number of tail classes without considering the context helps the model to correctly recognize characters individually, training with such a synthetic dataset interferes the model with learning the contextual information (i.e., relation among characters), which is also important for predicting the whole word. Based on this motivation, we propose a novel Context-Aware and Free Experts Network (CAFE-Net) using two experts: 1) context-aware expert learns the contextual representation trained with a long-tailed dataset composed of common words used in everyday life and 2) context-free expert focuses on correctly predicting individual characters by utilizing a dataset with a balanced number of characters. By training two experts to focus on learning contextual and visual representations, respectively, we propose a novel confidence ensemble method to compensate the limitation of each expert. Through the experiments, we demonstrate that CAFE-Net improves the STR performance on languages containing numerous number of characters. Moreover, we show that CAFE-Net is easily applicable to various STR models.
翻訳日:2023-04-23 04:27:55 公開日:2023-03-31
# chatgptの教育への悪影響緩和に向けて--bloomの分類による質問設計の最適化

Towards Mitigating ChatGPT's Negative Impact on Education: Optimizing Question Design through Bloom's Taxonomy ( http://arxiv.org/abs/2304.08176v1 )

ライセンス: Link先を確認
Saber Elsayed(参考訳) 質問への回答における生成テキストAIツールの人気は、学生の学業成績に対する潜在的なネガティブな影響と、教育者が学生の学習を評価する際に直面する課題に懸念をもたらしている。 これらの問題に対処するために,Bloomの分類キーワードの最適セットを特定し,これらのツールが回答に対する信頼度を低く抑えるための進化的アプローチを提案する。 このアプローチの有効性は、オーストラリアのキャンベラにあるニューサウスウェールズ大学(university of new south wales)で教えられているデータ構造と表現コースからの質問を用いたケーススタディを通じて評価される。 結果は,ChatGPTが回答の信頼度を低く抑えるために,異なる認知レベルからのキーワードを最適化アルゴリズムで検索できることを実証した。 本研究は,学生間の批判的思考を促進する効果的な質問の作成を目指す教育者に対して,貴重な洞察を提供するための一歩である。

The popularity of generative text AI tools in answering questions has led to concerns regarding their potential negative impact on students' academic performance and the challenges that educators face in evaluating student learning. To address these concerns, this paper introduces an evolutionary approach that aims to identify the best set of Bloom's taxonomy keywords to generate questions that these tools have low confidence in answering. The effectiveness of this approach is evaluated through a case study that uses questions from a Data Structures and Representation course being taught at the University of New South Wales in Canberra, Australia. The results demonstrate that the optimization algorithm is able to find keywords from different cognitive levels to create questions that ChatGPT has low confidence in answering. This study is a step forward to offer valuable insights for educators seeking to create more effective questions that promote critical thinking among students.
翻訳日:2023-04-23 04:25:37 公開日:2023-03-31
# 構造認識拡散モデルによるスケッチによる参照ベース画像合成

Reference-based Image Composition with Sketch via Structure-aware Diffusion Model ( http://arxiv.org/abs/2304.09748v1 )

ライセンス: Link先を確認
Kangyeol Kim, Sunghyun Park, Junsoo Lee, Jaegul Choo(参考訳) 大規模テキストから画像への生成モデルの最近の顕著な改善は、高忠実度画像の生成に有望な結果を示している。 編集性をさらに向上し,詳細な生成を可能にするため,スケッチを参照画像とともに新しいモーダルとして組み込んだマルチインプット条件の画像合成モデルを導入する。 本手法では,スケッチを用いたエッジレベルの制御性により,ユーザが所望の構造(スケッチ)とコンテンツ(参照画像)でサブパーツを編集あるいは完了することができる。 本フレームワークは, スケッチ指導を維持しつつ, 参照画像を用いた欠落領域を完全化するために, 事前学習した拡散モデルを微調整する。 単純なことだが、これは需要の高い画像を得るためにユーザーのニーズを満たす幅広い機会をもたらす。 広範にわたる実験により,提案手法は画像操作にユニークなユースケースを提供し,任意のシーンをユーザ主導で修正できることを示した。

Recent remarkable improvements in large-scale text-to-image generative models have shown promising results in generating high-fidelity images. To further enhance editability and enable fine-grained generation, we introduce a multi-input-conditioned image composition model that incorporates a sketch as a novel modal, alongside a reference image. Thanks to the edge-level controllability using sketches, our method enables a user to edit or complete an image sub-part with a desired structure (i.e., sketch) and content (i.e., reference image). Our framework fine-tunes a pre-trained diffusion model to complete missing regions using the reference image while maintaining sketch guidance. Albeit simple, this leads to wide opportunities to fulfill user needs for obtaining the in-demand images. Through extensive experiments, we demonstrate that our proposed method offers unique use cases for image manipulation, enabling user-driven modifications of arbitrary scenes.
翻訳日:2023-04-23 04:06:47 公開日:2023-03-31
# 自動車品質診断のための2段階因果推論フレームワーク

A Novel Two-level Causal Inference Framework for On-road Vehicle Quality Issues Diagnosis ( http://arxiv.org/abs/2304.04755v1 )

ライセンス: Link先を確認
Qian Wang, Huanyi Shui, Thi Tu Trinh Tran, Milad Zafar Nezhad, Devesh Upadhyay, Kamran Paynabar, Anqi He(参考訳) 自動車業界では、車内品質の問題を管理するのに数週間かかることがある。 このプロセスには、根本原因の分離、適切な治療の定義と実施、必要に応じて治療の精製が含まれる。 主な問題点は、因果関係を同定し、治療効果を評価し、現在の治療が有効でないと判断された場合、次の実行可能な治療を指示する体系的な方法がないことである。 本稿では、因果機械学習(ML)を利用したプロセスの高速化について述べる。 提案フレームワークの実証には,オンデマンド車両から収集した実単語データセットを使用する。 車両品質アプリケーションのオープンチャレンジについても議論する。

In the automotive industry, the full cycle of managing in-use vehicle quality issues can take weeks to investigate. The process involves isolating root causes, defining and implementing appropriate treatments, and refining treatments if needed. The main pain-point is the lack of a systematic method to identify causal relationships, evaluate treatment effectiveness, and direct the next actionable treatment if the current treatment was deemed ineffective. This paper will show how we leverage causal Machine Learning (ML) to speed up such processes. A real-word data set collected from on-road vehicles will be used to demonstrate the proposed framework. Open challenges for vehicle quality applications will also be discussed.
翻訳日:2023-04-16 22:26:15 公開日:2023-03-31
# Por\ownanie metod detekcji zaj\k{e}to\'sci widma radiowego z wykorzystaniem uczenia federacyjnego z oraz bez w\k{e}z{\l}a centralnego

Por\'ownanie metod detekcji zaj\k{e}to\'sci widma radiowego z wykorzystaniem uczenia federacyjnego z oraz bez w\k{e}z{\l}a centralnego ( http://arxiv.org/abs/2304.04754v1 )

ライセンス: Link先を確認
{\L}ukasz Ku{\l}acz(参考訳) 動的スペクトルアクセスシステムは通常、新しいデバイスのためにスペクトルal位置を決定するために、スペクトル占有率と他のユーザの存在に関する情報を必要とする。 スペクトル占有検出の単純な方法は信頼性に欠けることが多いため、機械学習や人工知能がサポートするスペクトル占有検出アルゴリズムがしばしば使われ、成功している。 ユーザデータのプライバシーを保護し、制御データの量を減らすために、連合機械学習を使うのが興味深いアプローチである。 本稿では,連合機械学習を用いたシステム設計における2つのアプローチを比較する。

Dynamic spectrum access systems typically require information about the spectrum occupancy and thus the presence of other users in order to make a spectrum al-location decision for a new device. Simple methods of spectrum occupancy detection are often far from reliable, hence spectrum occupancy detection algorithms supported by machine learning or artificial intelligence are often and successfully used. To protect the privacy of user data and to reduce the amount of control data, an interesting approach is to use federated machine learning. This paper compares two approaches to system design using federated machine learning: with and without a central node.
翻訳日:2023-04-16 22:26:06 公開日:2023-03-31
# 電気自動車による配車・エネルギー共有のためのクラウドソーシングプラットフォーム、$\textit{e-uber}$

$\textit{e-Uber}$: A Crowdsourcing Platform for Electric Vehicle-based Ride- and Energy-sharing ( http://arxiv.org/abs/2304.04753v1 )

ライセンス: Link先を確認
Ashutosh Timilsina and Simone Silvestri(参考訳) 共有経済ベースのビジネスモデルは最近、UberやAirbnbといった企業との交通・宿泊分野で成功している。 ピアツーピア(P2P)エネルギートレーディング、EV(EV)ベースの電気自動車(V2G)、V2H(V2H)、V2V(V2V)、バッテリースワッピング技術(BST)など、エネルギーシステムにこのモデルを適用することへの関心が高まっている。 本研究では,evの普及を生かして,v2g と bst による相乗りとエネルギー共有を実現するクラウドソーシングプラットフォーム e-uber を実現する。 e-Uberは空間的クラウドソーシング、強化学習、リバースオークション理論を利用している。 具体的には、強化学習を使用して、異なるライドシェアリングとエネルギー共有タスクに対するドライバーの好みを理解する。 これらの選好に基づいて、タスク推薦システム(cars)のためのcmabベースのアルゴリズムにより、各ドライバにパーソナライズされたリストが推奨される。 ドライバーは、リストの好きなタスクを逆オークション方式で入札します。 e-uberはコストを最小化し、v2gのエネルギー要求を保証するタスク割り当て最適化問題を解決する。 この問題はNPハードであることが証明され、多項式時間複雑性を持つ二部マッチング型ヒューリスティックな二部マッチングベースのウィンナーセレクション(BMW)が導入された。 ニューヨーク市のタクシー旅行データとエネルギー消費データを用いた実験の結果、e-Uberは最適に近い性能を示し、最先端のアプローチと比較してより良いソリューションを見出した。

The sharing-economy-based business model has recently seen success in the transportation and accommodation sectors with companies like Uber and Airbnb. There is growing interest in applying this model to energy systems, with modalities like peer-to-peer (P2P) Energy Trading, Electric Vehicles (EV)-based Vehicle-to-Grid (V2G), Vehicle-to-Home (V2H), Vehicle-to-Vehicle (V2V), and Battery Swapping Technology (BST). In this work, we exploit the increasing diffusion of EVs to realize a crowdsourcing platform called e-Uber that jointly enables ride-sharing and energy-sharing through V2G and BST. e-Uber exploits spatial crowdsourcing, reinforcement learning, and reverse auction theory. Specifically, the platform uses reinforcement learning to understand the drivers' preferences towards different ride-sharing and energy-sharing tasks. Based on these preferences, a personalized list is recommended to each driver through CMAB-based Algorithm for task Recommendation System (CARS). Drivers bid on their preferred tasks in their list in a reverse auction fashion. Then e-Uber solves the task assignment optimization problem that minimizes cost and guarantees V2G energy requirement. We prove that this problem is NP-hard and introduce a bipartite matching-inspired heuristic, Bipartite Matching-based Winner selection (BMW), that has polynomial time complexity. Results from experiments using real data from NYC taxi trips and energy consumption show that e-Uber performs close to the optimum and finds better solutions compared to a state-of-the-art approach
翻訳日:2023-04-16 22:25:50 公開日:2023-03-31
# Pumas を用いた薬理学におけるベイズ推論の実践者ガイド

A Practitioner's Guide to Bayesian Inference in Pharmacometrics using Pumas ( http://arxiv.org/abs/2304.04752v1 )

ライセンス: Link先を確認
Mohamed Tarek, Jose Storopoli, Casey Davis, Chris Elrod, Julius Krumbiegel, Chris Rackauckas and Vijay Ivaturi(参考訳) 本稿では,pumasワークフローを用いた薬理学のベイズ実践者のための包括的なチュートリアルを提供する。 まず、Pumasが対処している既存のソフトウェアの限界を強調する薬理学のベイズ的推論の簡単な動機を与える。 次に、コードスニペットと例を使って、標準的なベイズワークフローのすべてのステップを薬理学で記述します。 モデル定義、事前選択、後部からのサンプリング、事前および後部シミュレーションと予測、反事実シミュレーションと予測、収束診断、視覚的予測チェック、そして最後にクロスバリデーションによるモデル比較である。 最後に、ベイズ統計学における多くの先進的な概念の背景と直観は単純な言語で説明される。 これには、ベイズ分析の実行時にユーザーが注意する必要がある多くの重要なアイデアと予防が含まれている。 本論文で提示されるアルゴリズム,コード,アイデアの多くは,臨床研究や統計学全般に適用可能であるが,本論文では,より狭い範囲を念頭に置いてPumasの性質を主に薬理学のソフトウェアとして与えるために,薬理学に焦点をあてることにした。

This paper provides a comprehensive tutorial for Bayesian practitioners in pharmacometrics using Pumas workflows. We start by giving a brief motivation of Bayesian inference for pharmacometrics highlighting limitations in existing software that Pumas addresses. We then follow by a description of all the steps of a standard Bayesian workflow for pharmacometrics using code snippets and examples. This includes: model definition, prior selection, sampling from the posterior, prior and posterior simulations and predictions, counter-factual simulations and predictions, convergence diagnostics, visual predictive checks, and finally model comparison with cross-validation. Finally, the background and intuition behind many advanced concepts in Bayesian statistics are explained in simple language. This includes many important ideas and precautions that users need to keep in mind when performing Bayesian analysis. Many of the algorithms, codes, and ideas presented in this paper are highly applicable to clinical research and statistical learning at large but we chose to focus our discussions on pharmacometrics in this paper to have a narrower scope in mind and given the nature of Pumas as a software primarily for pharmacometricians.
翻訳日:2023-04-16 22:25:21 公開日:2023-03-31
# 夜間自律運転におけるFIRによる将来の軌道予測

FIR-based Future Trajectory Prediction in Nighttime Autonomous Driving ( http://arxiv.org/abs/2304.05345v1 )

ライセンス: Link先を確認
Alireza Rahimpour, Navid Fallahinia, Devesh Upadhyay, Justin Miller(参考訳) 自律走行車(av)と先進運転支援システム(adas)における現在の衝突回避システムの性能は、低照度と悪天候によって大きく影響を受ける可能性がある。 低照度での鹿などの大型動物との衝突は、毎年かなりのコストと損傷を引き起こす。 本稿では,大型動物の将来の軌道予測のための最初のaiベース手法を提案し,低光下での衝突リスクを軽減した。 誤衝突警告を最小限に抑えるため,多段階の枠組みでは,まず大型動物を正確に検出し,それに対して予備リスクレベルを予測し,低リスク動物を廃棄する。 次の段階では、多ストリームのCONV-LSTMベースのエンコーダデコーダフレームワークが、潜在的にリスクの高い動物の将来の軌道を予測するように設計されている。 提案モデルでは,映像の局所的・グローバル的文脈だけでなく,カメラの動き予測を用いて正確な予測を行う。 さらに,本研究では,夜間運転シナリオにおける大型動物検出とリスク推定のための新しいFIRビデオデータセットを提案する。 本実験は, 悪条件下でのフレームワークの有望な結果を示す。 私たちのコードはオンラインで入手できる。

The performance of the current collision avoidance systems in Autonomous Vehicles (AV) and Advanced Driver Assistance Systems (ADAS) can be drastically affected by low light and adverse weather conditions. Collisions with large animals such as deer in low light cause significant cost and damage every year. In this paper, we propose the first AI-based method for future trajectory prediction of large animals and mitigating the risk of collision with them in low light. In order to minimize false collision warnings, in our multi-step framework, first, the large animal is accurately detected and a preliminary risk level is predicted for it and low-risk animals are discarded. In the next stage, a multi-stream CONV-LSTM-based encoder-decoder framework is designed to predict the future trajectory of the potentially high-risk animals. The proposed model uses camera motion prediction as well as the local and global context of the scene to generate accurate predictions. Furthermore, this paper introduces a new dataset of FIR videos for large animal detection and risk estimation in real nighttime driving scenarios. Our experiments show promising results of the proposed framework in adverse conditions. Our code is available online.
翻訳日:2023-04-16 22:15:14 公開日:2023-03-31
# 武器を選ぶ - 抑うつしたai研究者の生存戦略

Choose Your Weapon: Survival Strategies for Depressed AI Academics ( http://arxiv.org/abs/2304.06035v1 )

ライセンス: Link先を確認
Julian Togelius and Georgios N. Yannakakis(参考訳) あなたは学術機関のAI研究者ですか? あなたは現在のAI進歩に対処しないことを心配していますか? AI研究のブレークスルーに必要な計算と人的リソースにアクセスできない(あるいは非常に制限されている)と感じていますか? あなたは一人ではありません。私たちは同じ気持ちです。 ますます多くのAI学者は、世界規模で競争する手段やリソースを見つけることができない。 これはやや最近の現象だが、プライベートアクターが最先端のai研究に膨大な計算資源を投資することで加速している。 ここでは、学術的なまま競争力を保つために何ができるかについて議論する。 また,大学や民間部門がどのような状況で改善できるのか,その傾向について簡単に議論する。 これは戦略の完全なリストではなく、それらすべてに同意できないかもしれないが、議論を始めるのに役立ちます。

Are you an AI researcher at an academic institution? Are you anxious you are not coping with the current pace of AI advancements? Do you feel you have no (or very limited) access to the computational and human resources required for an AI research breakthrough? You are not alone; we feel the same way. A growing number of AI academics can no longer find the means and resources to compete at a global scale. This is a somewhat recent phenomenon, but an accelerating one, with private actors investing enormous compute resources into cutting edge AI research. Here, we discuss what you can do to stay competitive while remaining an academic. We also briefly discuss what universities and the private sector could do improve the situation, if they are so inclined. This is not an exhaustive list of strategies, and you may not agree with all of them, but it serves to start a discussion.
翻訳日:2023-04-16 22:06:17 公開日:2023-03-31
# チェリーピッキングと機械学習による系統ネットワークの構築

Constructing Phylogenetic Networks via Cherry Picking and Machine Learning ( http://arxiv.org/abs/2304.02729v1 )

ライセンス: Link先を確認
Giulia Bernardini and Leo van Iersel and Esther Julien and Leen Stougie(参考訳) 一組の系統樹を単一の系統網に組み合わせ、それら全てを説明することは、進化研究における根本的な課題である。 既存の手法は計算コストが高く、少数の系統樹のみを扱うか、厳格に制限されたネットワーククラスに限定される。 本稿では,最近導入されたチェリーピッキングの理論的枠組みを適用し,各入力木を含むネットワークを,二分木からなるデータセットに対して生成することを保証した効率的なヒューリスティックのクラスを設計する。 このフレームワークのヒューリスティックないくつかは、入力ツリーの構造に関する重要な情報をキャプチャし、アルゴリズムをより良いソリューションへと導く機械学習モデルの設計とトレーニングに基づいている。 また,複数回実行した場合に非常に効果的であることが証明された,単純かつ高速なランダム化ヒューリスティックを提案する。 既存の厳密な手法とは異なり、我々のヒューリスティックスは実用規模のデータセットに適用でき、シミュレーションデータと実データの両方で行った実験により、これらの解は定性的に良好であり、常に最適値から小さな定数係数内にあることが示されている。 さらに,機械学習が系統解析に応用された最初の例であり,その可能性を示す。

Combining a set of phylogenetic trees into a single phylogenetic network that explains all of them is a fundamental challenge in evolutionary studies. Existing methods are computationally expensive and can either handle only small numbers of phylogenetic trees or are limited to severely restricted classes of networks. In this paper, we apply the recently-introduced theoretical framework of cherry picking to design a class of efficient heuristics that are guaranteed to produce a network containing each of the input trees, for datasets consisting of binary trees. Some of the heuristics in this framework are based on the design and training of a machine learning model that captures essential information on the structure of the input trees and guides the algorithms towards better solutions. We also propose simple and fast randomised heuristics that prove to be very effective when run multiple times. Unlike the existing exact methods, our heuristics are applicable to datasets of practical size, and the experimental study we conducted on both simulated and real data shows that these solutions are qualitatively good, always within some small constant factor from the optimum. Moreover, our machine-learned heuristics are one of the first applications of machine learning to phylogenetics and show its promise.
翻訳日:2023-04-09 05:25:30 公開日:2023-03-31
# 数量体ランダムフォレストモデルによる密度汎関数理論の完全基底集合極限の補間

Extrapolation to complete basis-set limit in density-functional theory by quantile random-forest models ( http://arxiv.org/abs/2303.14760v2 )

ライセンス: Link先を確認
Daniel T. Speckhard, Christian Carbogno, Luca Ghiringhelli, Sven Lubeck, Matthias Scheffler, Claudia Draxl(参考訳) 密度汎関数理論(DFT)計算の数値的精度は、基底セットのサイズがもっとも重要である様々な計算パラメータに依存する。 最終的な精度は無限に大きな基底集合、すなわち完全な基底集合(CBS)の極限で到達する。 本研究の目的は, 有限基底サイズ計算をCBS限界まで外挿する機械学習モデルを見つけることである。 2つの全電子DFT符号(エキサイティングとFHIエイム)で調べられた63個のバイナリソリッドのデータセットから始める。 基礎集合サイズの関数としての完全収束計算に対する総エネルギー補正を量的ランダム森モデルを用いて推定する。 ランダムフォレストモデルでは、符号の25%未満の対称平均絶対パーセンテージ誤差を達成し、文献における従来のアプローチを上回っている。 提案手法は予測間隔も提供し,モデルの予測の不確かさを定量化する。

The numerical precision of density-functional-theory (DFT) calculations depends on a variety of computational parameters, one of the most critical being the basis-set size. The ultimate precision is reached with an infinitely large basis set, i.e., in the limit of a complete basis set (CBS). Our aim in this work is to find a machine-learning model that extrapolates finite basis-size calculations to the CBS limit. We start with a data set of 63 binary solids investigated with two all-electron DFT codes, exciting and FHI-aims, which employ very different types of basis sets. A quantile-random-forest model is used to estimate the total-energy correction with respect to a fully converged calculation as a function of the basis-set size. The random-forest model achieves a symmetric mean absolute percentage error of lower than 25% for both codes and outperforms previous approaches in the literature. Our approach also provides prediction intervals, which quantify the uncertainty of the models' predictions.
翻訳日:2023-04-05 17:32:24 公開日:2023-03-31
# DoE2Vec:探索的景観分析のためのディープラーニングベースの機能

DoE2Vec: Deep-learning Based Features for Exploratory Landscape Analysis ( http://arxiv.org/abs/2304.01219v1 )

ライセンス: Link先を確認
Bas van Stein, Fu Xing Long, Moritz Frenzel, Peter Krause, Markus Gitterle, Thomas B\"ack(参考訳) 本研究では,変分オートエンコーダ(VAE)に基づく手法であるDoE2Vecを提案し,最適化アルゴリズムの自動選択など,下流メタ学習タスクのランドスケープ特性を学習する。 主に、ランダム関数生成器で生成された大きなトレーニングデータセットを使用して、doe2vecは実験設計(doe)のための情報的潜在表現を自己学習する。 古典的探索的ランドスケープ解析 (ela) 法とは異なり, 本手法は特徴工学を必要とせず, 高次元探索空間にも容易に適用できる。 検証のために, 潜在再構築の品質を検査し, 異なる実験を用いて潜在表現の分析を行う。 潜在表現は、類似する (cheap-to-evaluate) サーロゲート関数を識別する有望な可能性を示すだけでなく、分類タスクで古典elaの特徴を補完するときに性能を著しく向上させる。

We propose DoE2Vec, a variational autoencoder (VAE)-based methodology to learn optimization landscape characteristics for downstream meta-learning tasks, e.g., automated selection of optimization algorithms. Principally, using large training data sets generated with a random function generator, DoE2Vec self-learns an informative latent representation for any design of experiments (DoE). Unlike the classical exploratory landscape analysis (ELA) method, our approach does not require any feature engineering and is easily applicable for high dimensional search spaces. For validation, we inspect the quality of latent reconstructions and analyze the latent representations using different experiments. The latent representations not only show promising potentials in identifying similar (cheap-to-evaluate) surrogate functions, but also can significantly boost performances when being used complementary to the classical ELA features in classification tasks.
翻訳日:2023-04-05 17:12:21 公開日:2023-03-31
# POLAR-Express: ニューラルネットワーク制御系の効率的かつ高精度な形式的到達性解析

POLAR-Express: Efficient and Precise Formal Reachability Analysis of Neural-Network Controlled Systems ( http://arxiv.org/abs/2304.01218v1 )

ライセンス: Link先を確認
Yixuan Wan, Weichao Zhou, Jiameng Fan, Zhilu Wang, Jiajun Li, Xin Chen, Chao Huang, Wenchao Li, Qi Zhu(参考訳) コントローラの役割を担うニューラルネットワーク(nns)は、制御問題に挑戦する経験的なパフォーマンスを示している。 しかし、実際のアプリケーションでNNコントローラを採用する可能性も、特に安全クリティカルなアプリケーションで使用される場合、これらのNNCS(Neural-network Control System)の安全性に対する懸念が高まっている。 本研究では,NNCSの安全性を検証するための,効率的かつ正確な形式的到達性解析ツールであるPOLAR-Expressを提案する。 POLAR-ExpressはTaylorモデル演算を用いて、ニューラルネットワーク層間でTaylorモデル(TM)を伝搬し、ニューラルネットワーク関数の過剰近似を計算する。 連続的な活性化機能を持つフィードフォワードニューラルネットワークの解析に応用することができる。 また,tmsをより効率的に,正確にreluアクティベーション関数に伝達する新しい手法を提案する。 さらに、POLAR-Expressは、TMの層間伝播に対する並列計算サポートを提供し、初期のプロトタイプであるPOLARよりも効率とスケーラビリティを著しく向上させる。 POLAR-Expressは、様々なベンチマークの6つの最先端ツールと比較して、到達可能なセット分析において最高の検証効率と厳密性を達成する。

Neural networks (NNs) playing the role of controllers have demonstrated impressive empirical performances on challenging control problems. However, the potential adoption of NN controllers in real-life applications also gives rise to a growing concern over the safety of these neural-network controlled systems (NNCSs), especially when used in safety-critical applications. In this work, we present POLAR-Express, an efficient and precise formal reachability analysis tool for verifying the safety of NNCSs. POLAR-Express uses Taylor model arithmetic to propagate Taylor models (TMs) across a neural network layer-by-layer to compute an overapproximation of the neural-network function. It can be applied to analyze any feed-forward neural network with continuous activation functions. We also present a novel approach to propagate TMs more efficiently and precisely across ReLU activation functions. In addition, POLAR-Express provides parallel computation support for the layer-by-layer propagation of TMs, thus significantly improving the efficiency and scalability over its earlier prototype POLAR. Across the comparison with six other state-of-the-art tools on a diverse set of benchmarks, POLAR-Express achieves the best verification efficiency and tightness in the reachable set analysis.
翻訳日:2023-04-05 17:12:05 公開日:2023-03-31
# 統合失調症診断と側方化解析のための時間的動的同期機能脳ネットワーク

Temporal Dynamic Synchronous Functional Brain Network for Schizophrenia Diagnosis and Lateralization Analysis ( http://arxiv.org/abs/2304.01347v1 )

ライセンス: Link先を確認
Cheng Zhu, Ying Tan, Shuqi Yang, Jiaqing Miao, Jiayi Zhu, Huan Huang, Dezhong Yao, and Cheng Luo(参考訳) 利用可能な証拠は、動的機能接続(dfc)はrs-fmriデータで脳活動の時間的異常を捉えることができ、統合失調症(sz)患者の脳活動異常のメカニズムを明らかにするのに自然な利点があることを示唆している。 そこで、時間的脳カテゴリグラフ畳み込みネットワーク(temporal-bcgcn)と呼ばれる高度な動的脳ネットワーク解析モデルを用いた。 まず、動的な同期機能を構築するために、ユニークな動的脳ネットワーク解析モジュールdsf-brainnetが設計された。 その後、特徴の同期時間特性に基づいて、革命的グラフ畳み込み法であるTemporalConvが提案された。 最後に, RS-fMRIデータに基づく深層学習における最初のモジュール状異常半球側方化試験ツール, CategoryPoolを提案する。 この研究はCOBREとUCLAのデータセットで検証され、それぞれ83.62%と89.71%の平均精度を達成した。 また,グラフ畳み込みニューラルネットワーク(gcn)の従来のエッジ特徴畳み込みアプローチに対する時間的convの利点と,古典的なグラフプーリングアプローチに対するカテゴリプールの改善を示す。 本研究は,SZの右半球より左半球の低次知覚系と高次ネットワーク領域が高度に機能し,SZにおける左内側上前頭回の重要性を再確認した。 私たちのコアコードは、https://github.com/swfen/Temporal-BCGCN.comで利用可能です。

Available evidence suggests that dynamic functional connectivity (dFC) can capture time-varying abnormalities in brain activity in rs-fMRI data and has a natural advantage in uncovering mechanisms of abnormal brain activity in schizophrenia(SZ) patients. Hence, an advanced dynamic brain network analysis model called the temporal brain category graph convolutional network (temporal-BCGCN) was employed. Firstly, a unique dynamic brain network analysis module, DSF-BrainNet, was designed to construct dynamic synchronization features. Subsequently, a revolutionary graph convolution method, TemporalConv, was proposed, based on the synchronous temporal properties of feature. Finally, the first modular abnormal hemispherical lateralization test tool in deep learning based on rs-fMRI data, named CategoryPool, was proposed. This study was validated on COBRE and UCLA datasets and achieved 83.62% and 89.71% average accuracy, respectively, outperforming the baseline model and other State-of-the-Art methods. The ablation results also demonstrate the advantages of TemporalConv over the traditional edge feature convolution approach of graph convolutional neural network (GCN) and the improvement of CategoryPool over the classical graph pooling approach. Interestingly, this study showed that the lower order perceptual system and higher order network regions in the left hemisphere are more severely dysfunctional than in the right hemisphere of SZ, and reaffirms the importance of the left medial superior frontal gyrus in SZ. Our core code is available at: https://github.com/swfen/Temporal-BCGCN.
翻訳日:2023-04-05 16:28:39 公開日:2023-03-31
# Sparse*BERT: スパースモデルが新しいタスクとドメインに一般化

Sparse*BERT: Sparse Models Generalize To New tasks and Domains ( http://arxiv.org/abs/2205.12452v2 )

ライセンス: Link先を確認
Daniel Campos, Alexandre Marques, Tuan Nguyen, Mark Kurtz, and ChengXiang Zhai(参考訳) 大規模言語モデルは、現代の自然言語処理(NLP)システムが構築するコアアーキテクチャとなっている。 これらのモデルは、タスクやドメイン間で印象的な精度と堅牢性を提供することができるが、高い計算オーバーヘッドによって推論が困難でコストがかかる。 これらのモデルの使用を安価にするために、最近の研究は、推論速度と縮小サイズを改善するために、構造化および非構造化プルーニング、量子化、蒸留を活用することを検討している。 本稿では,段階的非構造的マグニチュードプルーニングによるモデルプルーニングがドメインとタスク間の伝達に与える影響について検討する。 実験により,汎用ドメインマスク型言語モデルを用いた事前学習中のモデルが,超パラメータ探索や専門的なアプローチを伴わずに,新たなドメインやタスクに移行できることが確認された。 Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。 さらに,SparseBioBERTはBioBERTの品質と10倍のパラメータで一致できることを示した。

Large Language Models have become the core architecture upon which most modern natural language processing (NLP) systems build. These models can consistently deliver impressive accuracy and robustness across tasks and domains, but their high computational overhead can make inference difficult and expensive. To make using these models less costly, recent work has explored leveraging structured and unstructured pruning, quantization, and distillation to improve inference speed and decrease size. This paper studies how models pruned using Gradual Unstructured Magnitude Pruning can transfer between domains and tasks. Our experimentation shows that models that are pruned during pretraining using general domain masked language models can transfer to novel domains and tasks without extensive hyperparameter exploration or specialized approaches. We demonstrate that our general sparse model Sparse*BERT can become SparseBioBERT simply by pretraining the compressed architecture on unstructured biomedical text. Moreover, we show that SparseBioBERT can match the quality of BioBERT with only 10\% of the parameters.
翻訳日:2023-04-05 01:24:38 公開日:2023-03-31
# フレキシブルピークストームサージ予測のためのフレームワーク

A Framework for Flexible Peak Storm Surge Prediction ( http://arxiv.org/abs/2204.13168v2 )

ライセンス: Link先を確認
Benjamin Pachev, Prateek Arora, Carlos del-Castillo-Negrete, Eirik Valseth, Clint Dawson(参考訳) 暴風雨は沿岸地域では大きな自然災害であり、大きな被害や生命の喪失の原因となっている。 長期的なリスクの評価と緊急管理判断の指導には,高潮の正確かつ効率的なモデルが必要である。 ADCIRC(Advanced CIRCulation)モデルのような高忠実な地域循環モデルやグローバル循環モデルでは、嵐の急増を正確に予測できるが、計算コストは非常に高い。 本稿では,多段法に基づく高潮高潮予測のための新しいサロゲートモデルを開発した。 第一段階では、点を浸水の有無で分類する。 第二に、浸水レベルが予測される。 さらに,各地点で個別に暴風が予測されるサロゲート問題を新たに定式化することを提案する。 これにより、トレーニングデータに存在しない場所を直接予測することが可能になり、モデルパラメータの数を大幅に削減できる。 我々は, テキサス海岸とアラスカ海岸北部の2つの研究地域において, モデリングの枠組みを実証した。 テキサスでは、このモデルは446の合成ハリケーンのデータベースで訓練されている。 このモデルは、合成嵐のテストセットでADCIRC予測と正確に一致させることができる。 さらに、Huricanes Ike (2008) とHarvey (2017) でモデルのテストを行う。 アラスカでは、109の歴史的なサージイベントのデータセットでトレーニングされている。 トレーニングデータで発生した最近の台風Merbok (2022) など, 実際のサージイベントに対するサージゲートモデルを検証した。 両方のデータセットに対して、サロゲートモデルは観測データと比較した場合の実際の事象におけるADCIRCと同様のパフォーマンスを達成する。 どちらの場合も、サロゲートモデルはADCIRCよりも桁違いに高速である。

Storm surge is a major natural hazard in coastal regions, responsible both for significant property damage and loss of life. Accurate, efficient models of storm surge are needed both to assess long-term risk and to guide emergency management decisions. While high-fidelity regional- and global-ocean circulation models such as the ADvanced CIRCulation (ADCIRC) model can accurately predict storm surge, they are very computationally expensive. Here we develop a novel surrogate model for peak storm surge prediction based on a multi-stage approach. In the first stage, points are classified as inundated or not. In the second, the level of inundation is predicted . Additionally, we propose a new formulation of the surrogate problem in which storm surge is predicted independently for each point. This allows for predictions to be made directly for locations not present in the training data, and significantly reduces the number of model parameters. We demonstrate our modeling framework on two study areas: the Texas coast and the northern portion of the Alaskan coast. For Texas, the model is trained with a database of 446 synthetic hurricanes. The model is able to accurately match ADCIRC predictions on a test set of synthetic storms. We further present a test of the model on Hurricanes Ike (2008) and Harvey (2017). For Alaska, the model is trained on a dataset of 109 historical surge events. We test the surrogate model on actual surge events including the recent Typhoon Merbok (2022) that take place after the events in the training data. For both datasets, the surrogate model achieves similar performance to ADCIRC on real events when compared to observational data. In both cases, the surrogate models are many orders of magnitude faster than ADCIRC.
翻訳日:2023-04-05 01:23:34 公開日:2023-03-31
# 1+1次元量子色力学の量子シミュレーションのための準備:(i)軸ゲージ

Preparations for Quantum Simulations of Quantum Chromodynamics in 1+1 Dimensions: (I) Axial Gauge ( http://arxiv.org/abs/2207.01731v2 )

ライセンス: Link先を確認
Roland C. Farrell, Ivan A. Chernyshev, Sarah J. M. Powell, Nikita A. Zemlevskiy, Marc Illa and Martin J. Savage(参考訳) 1+1 次元量子色力学の量子シミュレーションに必要なツールを開発した。 軸ゲージと2つのクォークのフレーバーで定式化された場合、このシステムは、非局所相互作用によるゲージ場を含む空間的位置当たり12キュービットを必要とする。 古典計算とd波の量子アニーラーの利点はハドロンスペクトルを決定するために使われ、質量の分解とクォークの絡み合いの研究を可能にしている。 格子の端部のスクリーニング長さ内に閉じ込められたカラーエッジ状態が見つかる。 IBM の 7-qubit 量子コンピュータ ibmq_jakarta と ibm_perth は、1つの空間的位置を持つ 1-flavor QCD における自明な真空からのダイナミクスを計算するために用いられる。 より一般的には、1+1$次元のSU(N_c)$ゲージ理論の時間発展のためのハミルトニアン回路と量子回路が開発され、大規模量子シミュレーションのリソース要件が推定される。

Tools necessary for quantum simulations of $1+1$ dimensional quantum chromodynamics are developed. When formulated in axial gauge and with two flavors of quarks, this system requires 12 qubits per spatial site with the gauge fields included via non-local interactions. Classical computations and D-Wave's quantum annealer Advantage are used to determine the hadronic spectrum, enabling a decomposition of the masses and a study of quark entanglement. Color edge states confined within a screening length of the end of the lattice are found. IBM's 7-qubit quantum computers, ibmq_jakarta and ibm_perth, are used to compute dynamics from the trivial vacuum in one-flavor QCD with one spatial site. More generally, the Hamiltonian and quantum circuits for time evolution of $1+1$ dimensional $SU(N_c)$ gauge theory with $N_f$ flavors of quarks are developed, and the resource requirements for large-scale quantum simulations are estimated.
翻訳日:2023-04-05 01:16:50 公開日:2023-03-31
# セマンティクスセグメンテーションにおける近位分割攻撃

Proximal Splitting Adversarial Attacks for Semantic Segmentation ( http://arxiv.org/abs/2206.07179v2 )

ライセンス: Link先を確認
J\'er\^ome Rony, Jean-Christophe Pesquet, Ismail Ben Ayed(参考訳) 分類は対向攻撃の研究の焦点となっているが、意味セグメンテーションのような密集した予測タスクに適した方法を研究する研究はごくわずかである。 本研究で提案する手法は, 逆セグメンテーション問題を正確に解き明かさないため, 騙しモデルに必要な摂動の大きさを過大評価している。 本稿では,より小さい$\ell_\infty$ノルムを持つ逆摂動を生成するための近位分割に基づくモデルに対するホワイトボックス攻撃を提案する。 我々の攻撃は、拡張ラグランジアンアプローチによって非凸最小化フレームワーク内で多数の制約を処理し、適応的制約スケーリングとマスキング戦略を組み合わせることができる。 我々の攻撃は以前提案した攻撃とセグメンテーションに適応した分類攻撃を著しく上回っており、この密集タスクに対する最初の包括的なベンチマークを提供する。

Classification has been the focal point of research on adversarial attacks, but only a few works investigate methods suited to denser prediction tasks, such as semantic segmentation. The methods proposed in these works do not accurately solve the adversarial segmentation problem and, therefore, overestimate the size of the perturbations required to fool models. Here, we propose a white-box attack for these models based on a proximal splitting to produce adversarial perturbations with much smaller $\ell_\infty$ norms. Our attack can handle large numbers of constraints within a nonconvex minimization framework via an Augmented Lagrangian approach, coupled with adaptive constraint scaling and masking strategies. We demonstrate that our attack significantly outperforms previously proposed ones, as well as classification attacks that we adapted for segmentation, providing a first comprehensive benchmark for this dense task.
翻訳日:2023-04-05 01:14:30 公開日:2023-03-31
# DHGE: リンク予測とエンティティタイピングのためのデュアルビューハイパーリレーショナル知識グラフ埋め込み

DHGE: Dual-View Hyper-Relational Knowledge Graph Embedding for Link Prediction and Entity Typing ( http://arxiv.org/abs/2207.08562v4 )

ライセンス: Link先を確認
Haoran Luo, Haihong E, Ling Tan, Gengxian Zhou, Tianyu Yao, Kaiyang Wan(参考訳) 知識グラフ(KGs)の表現学習の分野では、超関係事実は主三重項といくつかの副属性値記述から成り、三重グラフよりも包括的で特異であると考えられている。 しかし、現在利用可能なハイパーリレーショナルkg埋め込みメソッドは、エンティティ間の親和性を表す階層構造を弱めるため、アプリケーションで制限されている。 この制限を克服するために、エンティティのハイパーリレーショナルインスタンスビューとエンティティから階層的に抽象化された概念のハイパーリレーショナルオントロジービューを含むデュアルビューハイパーリレーショナルKG構造(DH-KG)を提案する。 本稿では、DH-KG上のリンク予測とエンティティ型付けタスクを初めて定義し、医療データに基づいてWikidataから抽出された2つのDH-KGデータセットJW44K-6KとHTDMを構築した。 さらに,GRANエンコーダ,HGNN,共同学習に基づくDH-KG埋め込みモデルDHGEを提案する。 実験結果によると、DHGEはDH-KGのベースラインモデルを上回っている。 最後に、高血圧の治療にこの技術をどのように使えるかを示す。 私たちのモデルと新しいデータセットは公開されています。

In the field of representation learning on knowledge graphs (KGs), a hyper-relational fact consists of a main triple and several auxiliary attribute-value descriptions, which is considered more comprehensive and specific than a triple-based fact. However, currently available hyper-relational KG embedding methods in a single view are limited in application because they weaken the hierarchical structure that represents the affiliation between entities. To overcome this limitation, we propose a dual-view hyper-relational KG structure (DH-KG) that contains a hyper-relational instance view for entities and a hyper-relational ontology view for concepts that are abstracted hierarchically from the entities. This paper defines link prediction and entity typing tasks on DH-KG for the first time and constructs two DH-KG datasets, JW44K-6K, extracted from Wikidata, and HTDM based on medical data. Furthermore, we propose DHGE, a DH-KG embedding model based on GRAN encoders, HGNNs, and joint learning. DHGE outperforms baseline models on DH-KG, according to experimental results. Finally, we provide an example of how this technology can be used to treat hypertension. Our model and new datasets are publicly available.
翻訳日:2023-04-05 01:05:26 公開日:2023-03-31
# RibSeg v2: Rib Labelingと解剖学的中心線抽出のための大規模ベンチマーク

RibSeg v2: A Large-scale Benchmark for Rib Labeling and Anatomical Centerline Extraction ( http://arxiv.org/abs/2210.09309v2 )

ライセンス: Link先を確認
Liang Jin, Shixuan Gu, Donglai Wei, Jason Ken Adhinarta, Kaiming Kuang, Jessica Zhang, Hanspeter Pfister, Bingbing Ni, Jiancheng Yang, Ming Li(参考訳) 各種臨床応用において, 自動リブラベリングと解剖学的中心線抽出が必須条件である。 以前の研究では、コミュニティにアクセスできない社内データセットを使用するか、リブラベルの臨床的意義を無視したリブセグメンテーションにフォーカスする。 これらの問題に対処するため、バイナリリブセグメンテーションタスクの以前のデータセット(RibSeg)を、660個のCTスキャン(15,466個の個々のリブ)と、リブラベリングや解剖学的中心線抽出の専門家が手作業で検査したアノテーションで、RibSeg v2という包括的なベンチマークに拡張しました。 RibSeg v2に基づいて,リブラベリングのための深層学習に基づく手法と,中心線抽出のための骨格化に基づく手法を含むパイプラインを開発する。 計算効率を向上させるため,CTスキャンのスパース点クラウド表現を提案し,標準密度のボクセルグリッドと比較した。 さらに,各タスクの課題に対処するため,評価指標の設計と分析を行う。 私たちのデータセット、コード、モデルは、https://github.com/m3dv/ribsegでオープンリサーチを容易にするためにオンラインで利用可能です。

Automatic rib labeling and anatomical centerline extraction are common prerequisites for various clinical applications. Prior studies either use in-house datasets that are inaccessible to communities, or focus on rib segmentation that neglects the clinical significance of rib labeling. To address these issues, we extend our prior dataset (RibSeg) on the binary rib segmentation task to a comprehensive benchmark, named RibSeg v2, with 660 CT scans (15,466 individual ribs in total) and annotations manually inspected by experts for rib labeling and anatomical centerline extraction. Based on the RibSeg v2, we develop a pipeline including deep learning-based methods for rib labeling, and a skeletonization-based method for centerline extraction. To improve computational efficiency, we propose a sparse point cloud representation of CT scans and compare it with standard dense voxel grids. Moreover, we design and analyze evaluation metrics to address the key challenges of each task. Our dataset, code, and model are available online to facilitate open research at https://github.com/M3DV/RibSeg
翻訳日:2023-04-05 00:40:03 公開日:2023-03-31
# 生物学的制約による異方性:機能細胞型の理論

Disentanglement with Biological Constraints: A Theory of Functional Cell Types ( http://arxiv.org/abs/2210.01768v2 )

ライセンス: Link先を確認
James C.R. Whittington, Will Dorrell, Surya Ganguli, Timothy E.J. Behrens(参考訳) 脳内のニューロンは、特定のタスク変数に対して微調整されることが多い。 さらに、このような非絡み合った表現は、機械学習の後に強く求められている。 ここでは,ニューロンに対する単純な生物学的制約,すなわち,活動量と重みの両面での非負性性とエネルギー効率が,ニューロンを強制的に介在させ,タスク変動の単一要因に選択的に作用させることによって,絡み合った表現の追求を促進することを数学的に証明する。 これらの制約が、変分オートエンコーダを含む様々なタスクやアーキテクチャに絡み合うことを実証する。 また、この理論を用いて、なぜ脳がその細胞をグリッドやオブジェクトベクトル細胞のような異なる細胞タイプに分割するのかを説明し、また、脳が、絡み合ったタスクファクターに応答して表現を絡み合うのかを説明する。 全体として、この研究は、脳内の単一ニューロンが単一の人間の解釈可能な要素をしばしば表す理由を数学的に理解し、タスク構造を理解するためのステップが脳の表現の構造を形成する。

Neurons in the brain are often finely tuned for specific task variables. Moreover, such disentangled representations are highly sought after in machine learning. Here we mathematically prove that simple biological constraints on neurons, namely nonnegativity and energy efficiency in both activity and weights, promote such sought after disentangled representations by enforcing neurons to become selective for single factors of task variation. We demonstrate these constraints lead to disentanglement in a variety of tasks and architectures, including variational autoencoders. We also use this theory to explain why the brain partitions its cells into distinct cell types such as grid and object-vector cells, and also explain when the brain instead entangles representations in response to entangled task factors. Overall, this work provides a mathematical understanding of why single neurons in the brain often represent single human-interpretable factors, and steps towards an understanding task structure shapes the structure of brain representation.
翻訳日:2023-04-05 00:37:25 公開日:2023-03-31
# 単一電荷揺動器によるsiホール量子ビットのスピン非一貫性のモデル化

Modelling of spin decoherence in a Si hole qubit perturbed by a single charge fluctuator ( http://arxiv.org/abs/2210.10476v2 )

ライセンス: Link先を確認
Baker Shalak, Christophe Delerue, Yann-Michel Niquet(参考訳) 半導体量子ドットにおけるスピン量子ビットは、量子プロセッサを実現するためのデバイスの一つである。 したがって、そのような量子ビットのコヒーレンスに影響を与えるノイズ源についてより深い知識が重要である。 本研究では,単一電荷のゆらぎによる電信ノイズの影響について検討する。 シリコンナノワイヤチャネルに沿ったゲートの集合によって静電的に定義される量子ドット内のホールスピン量子ビットを可能な限り現実的にシミュレートする。 ポアソン方程式と時間依存シュリンガー方程式を組み合わせた計算は、古典的ランダムな電信信号の時間関数としてのホールスピンの緩和と減退をシミュレートすることができる。 遅延時間$t_2$ は、幅広い周波数の2レベルモデルによって与えられる。 驚くべきことに、低周波揺動器の最も現実的な構成では、揺動器の状態が変化した直後に位相コヒーレンスが失われる非ガウス的挙動を有する。 ガウス的記述は、2レベル系がゆらぎ状態の統計分布に反応するとき、閾値周波数$\omega_{th}$を超えてのみ有効となる。 この閾値周波数での劣化時間$T_{2}(\omega_{th})$は、「甘い」線に沿ってクビットを走らせることにより、磁場とゲート電位の向きで再生することにより著しく増大することができることを示す。 しかし、$t_{2}(\omega_{th})$ は確率摂動ハミルトニアンの非対角項によって引き起こされる強調のため、有界である。 シミュレーションの結果,スピン緩和は高エネルギーホールレベルへの結合がスピン脱コヒーレンスに強く影響するため,2レベルモデルではきれいに説明できないことがわかった。 この結果は、このタイプの量子ビットにおける緩和現象を記述するためには、フォノンとのカップリングを含むマルチレベルシミュレーションが必要であることを示唆する。

Spin qubits in semiconductor quantum dots are one of the promizing devices to realize a quantum processor. A better knowledge of the noise sources affecting the coherence of such a qubit is therefore of prime importance. In this work, we study the effect of telegraphic noise induced by the fluctuation of a single electric charge. We simulate as realistically as possible a hole spin qubit in a quantum dot defined electrostatically by a set of gates along a silicon nanowire channel. Calculations combining Poisson and time-dependent Schr\"odinger equations allow to simulate the relaxation and the dephasing of the hole spin as a function of time for a classical random telegraph signal. We show that dephasing time $T_2$ is well given by a two-level model in a wide range of frequency. Remarkably, in the most realistic configuration of a low frequency fluctuator, the system has a non-Gaussian behavior in which the phase coherence is lost as soon as the fluctuator has changed state. The Gaussian description becomes valid only beyond a threshold frequency $\omega_{th}$, when the two-level system reacts to the statistical distribution of the fluctuator states. We show that the dephasing time $T_{2}(\omega_{th})$ at this threshold frequency can be considerably increased by playing on the orientation of the magnetic field and the gate potentials, by running the qubit along "sweet" lines. However, $T_{2}(\omega_{th})$ remains bounded due to dephasing induced by the non-diagonal terms of the stochastic perturbation Hamiltonian. Our simulations reveal that the spin relaxation cannot be described cleanly in the two-level model because the coupling to higher energy hole levels impacts very strongly the spin decoherence. This result suggests that multi-level simulations including the coupling to phonons should be necessary to describe the relaxation phenomenon in this type of qubit.
翻訳日:2023-04-05 00:27:18 公開日:2023-03-31
# 物理を意識したCNNを用いた地下逆問題の解法

Using explainability to design physics-aware CNNs for solving subsurface inverse problems ( http://arxiv.org/abs/2211.08651v2 )

ライセンス: Link先を確認
Jodie Crocker (1), Krishna Kumar (1), Brady R. Cox (2) ((1) The University of Texas at Austin, (2) Utah State University)(参考訳) 物理認識型ニューラルネットワークの設計に説明可能性を用いた新しい手法を提案する。 我々は,浅層画像の逆問題を解決するために,畳み込みニューラルネットワーク(CNN)を開発した。 CNNは近年、多くの分野で人気を集めているが、CNNの開発は依然として芸術であり、最高のネットワークを生み出すハイパーパラメータの選択に関する明確なガイドラインはない。 最適化アルゴリズムはハイパーパラメータを自動的に選択するために用いられるが、これらの手法はモデル説明可能性(記述的精度)を無視しながら予測精度の高いネットワークの開発に重点を置いている。 しかし、説明可能な人工知能(XAI)の分野は、開発者がニューラルネットワークの内部ロジックを評価するツールを提供することで、モデル説明可能性の欠如に対処している。 本研究では,カーネルサイズやネットワーク深さなどのハイパーパラメータを選択するために,スコアカムとディープシェープを用いて,浅層イメージングのための物理認識型cnnを開発した。 入力として表面波分散画像を使用し,2次元せん断波速度を出力として生成する比較的深いエンコーダ・デコーダネットワークから始める。 モデル説明により、非定型カーネルサイズ3x1の2つの畳み込み層を用いた浅層cnnは、予測精度は同等であるが記述精度は向上することがわかった。 また,ネットワークの複雑さと意思決定を評価するために,説明可能性法が利用できることを示した。 この手法は,予測精度の高いニューラルネットワークの開発に有効であると同時に,本質的な説明性も提供できると考えている。

We present a novel method of using explainability techniques to design physics-aware neural networks. We demonstrate our approach by developing a convolutional neural network (CNN) for solving an inverse problem for shallow subsurface imaging. Although CNNs have gained popularity in recent years across many fields, the development of CNNs remains an art, as there are no clear guidelines regarding the selection of hyperparameters that will yield the best network. While optimization algorithms may be used to select hyperparameters automatically, these methods focus on developing networks with high predictive accuracy while disregarding model explainability (descriptive accuracy). However, the field of Explainable Artificial Intelligence (XAI) addresses the absence of model explainability by providing tools that allow developers to evaluate the internal logic of neural networks. In this study, we use the explainability methods Score-CAM and Deep SHAP to select hyperparameters, such as kernel sizes and network depth, to develop a physics-aware CNN for shallow subsurface imaging. We begin with a relatively deep Encoder-Decoder network, which uses surface wave dispersion images as inputs and generates 2D shear wave velocity subsurface images as outputs. Through model explanations, we ultimately find that a shallow CNN using two convolutional layers with an atypical kernel size of 3x1 yields comparable predictive accuracy but with increased descriptive accuracy. We also show that explainability methods can be used to evaluate the network's complexity and decision-making. We believe this method can be used to develop neural networks with high predictive accuracy while also providing inherent explainability.
翻訳日:2023-04-05 00:21:08 公開日:2023-03-31
# 連続ベクトル空間における数学的表現の意味表現

Semantic Representations of Mathematical Expressions in a Continuous Vector Space ( http://arxiv.org/abs/2211.08142v2 )

ライセンス: Link先を確認
Neeraj Gangwar, Nickvash Kani(参考訳) 数学的な表記法はSTEM文献の大部分を構成するが、公式の意味表現を見つけることは難しい問題である。 数学的表記は正確であり、その意味は小さな文字のシフトによって著しく変化するので、自然テキストを扱う方法は必ずしも数学的表現にうまく機能しない。 本研究では,連続ベクトル空間における数式表現のアプローチについて述べる。 視覚的に異なるが数学的に等価な表現を訓練したシーケンシャル・ツー・シーケンス・アーキテクチャのエンコーダを用いてベクトル表現(または埋め込み)を生成する。 このアプローチをオートエンコーダと比較し,前者が数学的意味論を捉えるのに優れていることを示す。 最後に, 今後の研究を進めるために, 等価な超越表現対と代数表現対のコーパスを出版する。

Mathematical notation makes up a large portion of STEM literature, yet, finding semantic representations for formulae remains a challenging problem. Because mathematical notation is precise, and its meaning changes significantly with small character shifts, the methods that work for natural text do not necessarily work well for mathematical expressions. In this work, we describe an approach for representing mathematical expressions in a continuous vector space. We use the encoder of a sequence-to-sequence architecture, trained on visually different but mathematically equivalent expressions, to generate vector representations (or embeddings). We compare this approach with an autoencoder and show that the former is better at capturing mathematical semantics. Finally, to expedite future research, we publish a corpus of equivalent transcendental and algebraic expression pairs.
翻訳日:2023-04-05 00:20:43 公開日:2023-03-31
# グラフニューラルネットワークと構造化状態空間モデルを用いた多変量生体信号のモデリング

Modeling Multivariate Biosignals With Graph Neural Networks and Structured State Space Models ( http://arxiv.org/abs/2211.11176v2 )

ライセンス: Link先を確認
Siyi Tang, Jared A. Dunnmon, Liangqiong Qu, Khaled K. Saab, Tina Baykaner, Christopher Lee-Messer, Daniel L. Rubin(参考訳) 多変量バイオシグナールは、脳波、ポリソムノグラフィ、心電図など多くの医療領域で広く使われている。 多変量生体信号の時空間依存性のモデル化は,(1)長距離時間依存性と(2)電極間の複雑な空間相関により困難である。 これらの課題に対処するために,多変量バイオシグナーを時間依存グラフとして表現し,バイオシグナーの時空間依存性をモデル化して生体シグナー分類タスクの性能を向上させる汎用グラフニューラルネットワーク(GNN)アーキテクチャであるGraphS4merを提案する。 具体的には,(1)生体信号の長期的時間依存性を捉えるために,最先端のディープシーケンスモデルである構造化状態空間アーキテクチャを利用し,(2)グラフ構造学習層をgraphs4merで提案し,データ内の動的に進化するグラフ構造を学習する。 We evaluate our proposed model on three distinct biosignal classification tasks and show that GraphS4mer consistently improves over existing models, including (1) seizure detection from electroencephalography signals, outperforming a previous GNN with self-supervised pre-training by 3.1 points in AUROC; (2) sleep staging from polysomnography signals, a 4.1 points improvement in macro-F1 score compared to existing sleep staging models; and (3) 12-lead electrocardiogram classification, outperforming previous state-of-the-art models by 2.7 points in macro-F1 score.

Multivariate biosignals are prevalent in many medical domains, such as electroencephalography, polysomnography, and electrocardiography. Modeling spatiotemporal dependencies in multivariate biosignals is challenging due to (1) long-range temporal dependencies and (2) complex spatial correlations between the electrodes. To address these challenges, we propose representing multivariate biosignals as time-dependent graphs and introduce GraphS4mer, a general graph neural network (GNN) architecture that improves performance on biosignal classification tasks by modeling spatiotemporal dependencies in biosignals. Specifically, (1) we leverage the Structured State Space architecture, a state-of-the-art deep sequence model, to capture long-range temporal dependencies in biosignals and (2) we propose a graph structure learning layer in GraphS4mer to learn dynamically evolving graph structures in the data. We evaluate our proposed model on three distinct biosignal classification tasks and show that GraphS4mer consistently improves over existing models, including (1) seizure detection from electroencephalography signals, outperforming a previous GNN with self-supervised pre-training by 3.1 points in AUROC; (2) sleep staging from polysomnography signals, a 4.1 points improvement in macro-F1 score compared to existing sleep staging models; and (3) 12-lead electrocardiogram classification, outperforming previous state-of-the-art models by 2.7 points in macro-F1 score.
翻訳日:2023-04-05 00:10:57 公開日:2023-03-31
# IC3D:形状生成のための画像合成3次元拡散

IC3D: Image-Conditioned 3D Diffusion for Shape Generation ( http://arxiv.org/abs/2211.10865v2 )

ライセンス: Link先を確認
Cristian Sbrolli, Paolo Cudrano, Matteo Frosi, Matteo Matteucci(参考訳) ここ数年、拡散確率モデル(DDPM)は、多くの生成タスクにおいて、GANやその他の生成モデルのクラスを上回る結果を得た。 特に、テキスト誘導画像合成などの条件付きタスクを含む様々な画像生成サブタスクにおいて、印象的な結果に達した。 2次元生成におけるDDPMの成功を考えると、より最近では3次元形状生成、従来の手法よりも優れ、最先端の結果に到達している。 しかし、これらの既存の3D DDPM作業は、主に無条件またはクラス条件のガイダンスをほとんど、あるいは全く利用しない。 本研究では,画像誘導により3次元形状を生成する3次元拡散モデルic3dを提案する。 CISP(Contrastive Image-Shape Pre-Training)は,テキストから画像へのDDPMに関する文献から着想を得た,コントラスト的な事前学習による画像と形状の埋め込みモデルである。 我々の生成拡散モデルは3次元生成品質と多様性の最先端性を上回る。 さらに,IC3D生成特性にも拘わらず,人間の評価により生成した形状が,クエリ画像の品質とコヒーレンスの観点から,SoTAの単一ビュー3D再構成モデルよりも好まれることを示す。 アブレーション研究は、構造的整合性を学ぶためにCISPが重要であることを示している。 このようなバイアスは正規な埋め込み空間をもたらし、分布外画像の補間と条件付けを可能にし、IC3Dは閉鎖されたビューのコヒーレントで多様な補完を発生させ、制御された現実のアプリケーションにその適用を可能にする。

In the last years, Denoising Diffusion Probabilistic Models (DDPMs) obtained state-of-the-art results in many generative tasks, outperforming GANs and other classes of generative models. In particular, they reached impressive results in various image generation sub-tasks, among which conditional generation tasks such as text-guided image synthesis. Given the success of DDPMs in 2D generation, they have more recently been applied to 3D shape generation, outperforming previous approaches and reaching state-of-the-art results. However, these existing 3D DDPM works make little or no use of guidance, mainly being unconditional or class-conditional. In this work, we present IC3D, an Image-Conditioned 3D Diffusion model that generates 3D shapes by image guidance. To guide our DDPM, we introduce CISP (Contrastive Image-Shape Pre-training), a model jointly embedding images and shapes by contrastive pre-training, inspired by the literature on text-to-image DDPMs. Our generative diffusion model outperforms the state-of-the-art in 3D generation quality and diversity. Furthermore, despite IC3D generative nature, we show that its generated shapes are preferred by human evaluators to a SoTA single-view 3D reconstruction model in terms of quality and coherence to the query image by running a side-by-side human evaluation. Ablation studies show the importance of CISP for learning structural integrity properties, crucial for realistic generation. Such biases yield a regular embedding space and allow for interpolation and conditioning on out-of-distribution images, while also making IC3D capable of generating coherent but diverse completions of occluded views and enabling its adoption in controlled real-life applications.
翻訳日:2023-04-05 00:10:02 公開日:2023-03-31
# ユーザレベルの差分プライバシーによる画像埋め込み生成の学習

Learning to Generate Image Embeddings with User-level Differential Privacy ( http://arxiv.org/abs/2211.10844v2 )

ライセンス: Link先を確認
Zheng Xu, Maxwell Collins, Yuxiao Wang, Liviu Panait, Sewoong Oh, Sean Augenstein, Ting Liu, Florian Schroff, H. Brendan McMahan(参考訳) デバイス上の小さなモデルは、ユーザレベルの差分プライバシ(DP)を用いて、次のワード予測と画像分類タスクを過去に成功させた。 しかし,既存の手法は,大規模なクラス空間を持つ教師付きトレーニングデータを用いて埋め込みモデルを直接適用した場合に失敗する可能性がある。 大規模画像埋め込み機能抽出装置のユーザレベルDPを実現するために,ユーザ毎の感度制御とノイズ付加機能を備えたフェデレート学習アルゴリズムの変種であるDP-FedEmbを提案し,データセンタに集中したユーザ分割データからトレーニングを行う。 dp-fedembは、仮想クライアント、部分集約、プライベートなローカル微調整、パブリック事前トレーニングを組み合わせて、強力なプライバシユーティリティトレードオフを実現する。 DP-FedEmbを顔、ランドマーク、自然種の画像埋め込みモデルのトレーニングに適用し、DigiFace、EMNIST、GLD、iNaturalistのベンチマークデータセット上で、同じプライバシー予算の下で優れた実用性を示す。 さらに,数百万のユーザがトレーニングに参加可能な場合に,ユーティリティのドロップを5%以内にコントロールしながら,$\epsilon<4$という強力なユーザレベルのDP保証を実現することが可能であることを述べる。

Small on-device models have been successfully trained with user-level differential privacy (DP) for next word prediction and image classification tasks in the past. However, existing methods can fail when directly applied to learn embedding models using supervised training data with a large class space. To achieve user-level DP for large image-to-embedding feature extractors, we propose DP-FedEmb, a variant of federated learning algorithms with per-user sensitivity control and noise addition, to train from user-partitioned data centralized in the datacenter. DP-FedEmb combines virtual clients, partial aggregation, private local fine-tuning, and public pretraining to achieve strong privacy utility trade-offs. We apply DP-FedEmb to train image embedding models for faces, landmarks and natural species, and demonstrate its superior utility under same privacy budget on benchmark datasets DigiFace, EMNIST, GLD and iNaturalist. We further illustrate it is possible to achieve strong user-level DP guarantees of $\epsilon<4$ while controlling the utility drop within 5%, when millions of users can participate in training.
翻訳日:2023-04-05 00:09:29 公開日:2023-03-31
# nqe:ハイパーリレーショナルナレッジグラフ上の複雑なクエリ応答のためのn-aryクエリ埋め込み

NQE: N-ary Query Embedding for Complex Query Answering over Hyper-Relational Knowledge Graphs ( http://arxiv.org/abs/2211.13469v3 )

ライセンス: Link先を確認
Haoran Luo, Haihong E, Yuhao Yang, Gengxian Zhou, Yikai Guo, Tianyu Yao, Zichen Tang, Xueyuan Lin, Kaiyang Wan(参考訳) 複雑な問合せ応答(CQA)は知識グラフ(KG)上のマルチホップおよび論理的推論に不可欠なタスクである。 現在、ほとんどのアプローチはバイナリリレーショナル事実間のクエリに限られており、2つ以上のエンティティを含むn-ary facts (n>=2)にはあまり注意を払わない。 さらに、従来のcqaメソッドは、いくつかの特定のタイプのクエリの予測しかできませんし、より複雑な論理クエリに柔軟に拡張できません。 これらの課題を克服するため,本研究では,大規模n-ary事実を含む超関係知識グラフ(hkgs)上のcqaのための新しいn-aryクエリ埋め込み(nqe)モデルを提案する。 NQEは二重異種トランスフォーマーエンコーダとファジィ論理理論を用いて、存在量化器、結合、解離、否定を含む全てのn-ary FOLクエリを満たす。 また、各問合せの種類に関わらず、任意のn-ary folクエリを単一のバッチでトレーニングまたは予測し、柔軟性と拡張性に優れた並列処理アルゴリズムを提案する。 さらに,新たなCQAデータセットWD50K-NFOLを生成し,WD50K上での多様なn-ary FOLクエリを含む。 WD50K-NFOLおよび他の標準CQAデータセットの実験結果から、NQEはHKG上の最先端CQA法であり、優れた一般化能力を有することが示されている。 コードとデータセットは公開されています。

Complex query answering (CQA) is an essential task for multi-hop and logical reasoning on knowledge graphs (KGs). Currently, most approaches are limited to queries among binary relational facts and pay less attention to n-ary facts (n>=2) containing more than two entities, which are more prevalent in the real world. Moreover, previous CQA methods can only make predictions for a few given types of queries and cannot be flexibly extended to more complex logical queries, which significantly limits their applications. To overcome these challenges, in this work, we propose a novel N-ary Query Embedding (NQE) model for CQA over hyper-relational knowledge graphs (HKGs), which include massive n-ary facts. The NQE utilizes a dual-heterogeneous Transformer encoder and fuzzy logic theory to satisfy all n-ary FOL queries, including existential quantifiers, conjunction, disjunction, and negation. We also propose a parallel processing algorithm that can train or predict arbitrary n-ary FOL queries in a single batch, regardless of the kind of each query, with good flexibility and extensibility. In addition, we generate a new CQA dataset WD50K-NFOL, including diverse n-ary FOL queries over WD50K. Experimental results on WD50K-NFOL and other standard CQA datasets show that NQE is the state-of-the-art CQA method over HKGs with good generalization capability. Our code and dataset are publicly available.
翻訳日:2023-04-05 00:00:41 公開日:2023-03-31
# アナログ量子シミュレーションにおける任意物性の測定

Measuring Arbitrary Physical Properties in Analog Quantum Simulation ( http://arxiv.org/abs/2212.02517v2 )

ライセンス: Link先を確認
Minh C. Tran, Daniel K. Mark, Wen Wei Ho, and Soonwon Choi(参考訳) アナログ量子シミュレーションにおける中心的な課題は、実験で生成された量子状態の望ましい物理的性質を特徴づけることである。 しかし、従来の手法では、任意の情報の抽出には、現在の量子デバイスが持たない高いレベルの制御を必要とする多くの異なるベースでの計測が必要である。 本稿では,汎用量子力学のエルゴード的性質を活かし,多くの物理特性の効率的な抽出を可能にするスケーラブルなプロトコルの提案と解析を行う。 このプロトコルは洗練された制御を必要とせず、今日ではアナログ量子シミュレーションプラットフォームに汎用的に実装することができる。 提案手法では, 一定条件下で一定の自由度を利子系に導入し, 特定の実験プラットフォームに固有なハミルトニアン・ダイナミクスの下でジョイント・システムをクエンチし, 単一の固定基底でグローバルに測定する。 これらの測定データには、元の量子状態の任意の情報が含まれており、古典的なデータ処理手順を用いて抽出可能であることを示す。 我々は, 光学格子上の中性原子配列, ボゾン粒子, フェルミオン粒子の系における絡み合いエントロピー, 多体チャーン数, および様々な超伝導秩序の測定など, 既存の技術能力を前提として, このアプローチを数値的に示す。 我々のプロトコルは、制限された制御性を克服し、短期量子技術の汎用性と実用性を高めることをエキサイティングに約束する。

A central challenge in analog quantum simulation is to characterize desirable physical properties of quantum states produced in experiments. However, in conventional approaches, the extraction of arbitrary information requires performing measurements in many different bases, which necessitates a high level of control that present-day quantum devices may not have. Here, we propose and analyze a scalable protocol that leverages the ergodic nature of generic quantum dynamics, enabling the efficient extraction of many physical properties. The protocol does not require sophisticated controls and can be generically implemented in analog quantum simulation platforms today. Our protocol involves introducing ancillary degrees of freedom in a predetermined state to a system of interest, quenching the joint system under Hamiltonian dynamics native to the particular experimental platform, and then measuring globally in a single, fixed basis. We show that arbitrary information of the original quantum state is contained within such measurement data, and can be extracted using a classical data-processing procedure. We numerically demonstrate our approach with a number of examples, including the measurements of entanglement entropy, many-body Chern number, and various superconducting orders in systems of neutral atom arrays, bosonic and fermionic particles on optical lattices, respectively, only assuming existing technological capabilities. Our protocol excitingly promises to overcome limited controllability and, thus, enhance the versatility and utility of near-term quantum technologies.
翻訳日:2023-04-04 23:52:21 公開日:2023-03-31
# 最適化問題の自動定式化のための入力中のハイライト名前付きエンティティ

Highlighting Named Entities in Input for Auto-Formulation of Optimization Problems ( http://arxiv.org/abs/2212.13201v2 )

ライセンス: Link先を確認
Neeraj Gangwar and Nickvash Kani(参考訳) 運用研究は、数学的最適化問題として現実世界の問題のモデリングと解決を扱っている。 数学のシステムを解くことは分析ソフトウェアによって行われるが、数学の操作の集合として問題を定式化するのはドメインの専門家が手作業で行うのが一般的である。 最近の機械学習手法は、テキスト上の問題記述を対応する数学的定式化に変換することを約束している。 本稿では,線形計画語問題を数学的定式化する手法を提案する。 入力中の名前付きエンティティを活用し、これらのエンティティを強調するために入力を強化します。 提案手法は,NL4Optコンペティションへの応募者の中で最も精度が高く,第1位を確保している。

Operations research deals with modeling and solving real-world problems as mathematical optimization problems. While solving mathematical systems is accomplished by analytical software, formulating a problem as a set of mathematical operations has been typically done manually by domain experts. Recent machine learning methods have shown promise in converting textual problem descriptions to corresponding mathematical formulations. This paper presents an approach that converts linear programming word problems into mathematical formulations. We leverage the named entities in the input and augment the input to highlight these entities. Our approach achieves the highest accuracy among all submissions to the NL4Opt Competition, securing first place in the generation track.
翻訳日:2023-04-04 23:32:28 公開日:2023-03-31
# 量子ハクセリティ

Quantum Haecceity ( http://arxiv.org/abs/2301.00502v4 )

ライセンス: Link先を確認
Ruth E. Kastner(参考訳) 量子システムにおけるアイデンティティ、個性、識別性の相互関連問題に関する広範な哲学的文献がある。 重要な考慮事項は、量子系が「ハクセリティ(haecceity)」と呼ばれる強い個性を持つかどうかである(ラテン語の「 this-ness」から)。 私は、伝統的で強いヘクシー性は量子レベルでは適用されないが、量子系における対称性の必要性を適切に考慮するためには、より弱いヘクシー性が必要であり、「量子ヘクシー性(quantum haecceity)」と呼ぶ。 この過程では、同値量子に対する状態の対称性が仮定され、置換不変性を反映しなければならないという考え方など、現在の議論の一般的な信条についても疑問視する。 代わりに、交換効果には摂動ハミルトニアンが必要であることに注意し、対称性の必要性は特定の物理的条件から生じることを示唆する。

There is an extensive philosophical literature on the interrelated issues of identity, individuality, and distinguishability in quantum systems. A key consideration is whether quantum systems are subject to a strong form of individuality termed "haecceity" (from the Latin for "this-ness"). I argue that the traditional, strong form of haecceity does not apply at the quantum level, but that in order to properly account for the need for symmetrization in quantum systems, a weaker kind of haecceity must be involved, which I call "quantum haecceity." In the process, I also question some generally accepted tenets of the current debate, such as the idea that symmetrization of states for identical quanta must be postulated and reflects permutation invariance. Instead, I note that a perturbative Hamiltonian is required for exchange effects, which suggests that the need for symmetrization arises from specific physical conditions.
翻訳日:2023-04-04 23:22:04 公開日:2023-03-31
# Truveta Mapper: ゼロショットオントロジーアライメントフレームワーク

Truveta Mapper: A Zero-shot Ontology Alignment Framework ( http://arxiv.org/abs/2301.09767v2 )

ライセンス: Link先を確認
Mariyam Amir, Murchana Baruah, Mahsa Eslamialishah, Sina Ehsani, Alireza Bahramali, Sadra Naddaf-Sh, Saman Zarandioon(参考訳) 本稿では,教師なしオントロジーマッチング(OM)やオントロジーアライメント(OA)を翻訳タスクとして扱うことにより,新たな視点を提案する。 オントロジーはグラフとして表現され、ソースオントロジーグラフのノードからターゲットオントロジーグラフのパスへの変換が行われる。 提案手法であるtruveta mapper (tm) はマルチタスクシーケンスからシーケンスへのトランスフォーマーモデルを利用して,ゼロショット,統一,エンドツーエンドの方法で複数のオントロジー間のアライメントを行う。 マルチタスクにより、手動で明示的な相互オントロジーデータを必要とすることなく、トランスファーラーニングを通じて異なるオントロジー間の関係を暗黙的に学習することができる。 これにより、フォーム化されたフレームワークが、ランタイムレイテンシとアライメント品質の両方において、既存のソリューションを上回ることができる。 モデルは事前トレーニングされ、公開されているテキストコーパスと内部オントロジーデータのみに微調整される。 提案されたソリューションは、最先端のアプローチ、Edit-Similarity、LogMap、AML、BERTMap、および最近発表されたオントロジーアライメント評価イニシアチブ(OAEI22)における新しいOMフレームワークよりも優れており、既存のエンドツーエンドメソッドの2次処理とは対照的に、ログ線形の複雑さを提供する。

In this paper, a new perspective is suggested for unsupervised Ontology Matching (OM) or Ontology Alignment (OA) by treating it as a translation task. Ontologies are represented as graphs, and the translation is performed from a node in the source ontology graph to a path in the target ontology graph. The proposed framework, Truveta Mapper (TM), leverages a multi-task sequence-to-sequence transformer model to perform alignment across multiple ontologies in a zero-shot, unified and end-to-end manner. Multi-tasking enables the model to implicitly learn the relationship between different ontologies via transfer-learning without requiring any explicit cross-ontology manually labeled data. This also enables the formulated framework to outperform existing solutions for both runtime latency and alignment quality. The model is pre-trained and fine-tuned only on publicly available text corpus and inner-ontologies data. The proposed solution outperforms state-of-the-art approaches, Edit-Similarity, LogMap, AML, BERTMap, and the recently presented new OM frameworks in Ontology Alignment Evaluation Initiative (OAEI22), offers log-linear complexity in contrast to quadratic in the existing end-to-end methods, and overall makes the OM task efficient and more straightforward without much post-processing involving mapping extension or mapping repair.
翻訳日:2023-04-04 21:39:08 公開日:2023-03-31
# 量子ゼノダイナミクスの半古典的極限

The semiclassical limit of a quantum Zeno dynamics ( http://arxiv.org/abs/2302.02673v2 )

ライセンス: Link先を確認
Fabio Deelan Cunden, Paolo Facchi, Marilena Ligab\`o(参考訳) 空洞量子電磁力学の設定における量子ゼノダイナミクスに動機づけられ、減少するプランク定数 $\hbar\to0$ と大きな量子数 $n\to\infty$ の半古典的極限において、切断モーメント作用素に対応する記号の族を漸近的に研究する。 適切なトポロジーにおいて、極限は不連続な記号 $p\chi_d(x,p)$ であり、ここで$\chi_d$ は位相空間における古典的に許容される領域 $d$ の特性関数である。 洗練された解析により、記号は関数 $p\chi_D^{(N)}(x,p)$ に漸近的に近づき、$\chi_D^{(N)}$ は統合されたAiry関数に関連する $\chi_D$ の滑らかなバージョンである。 また, 動的観点からの限界についても考察する。

Motivated by a quantum Zeno dynamics in a cavity quantum electrodynamics setting, we study the asymptotics of a family of symbols corresponding to a truncated momentum operator, in the semiclassical limit of vanishing Planck constant $\hbar\to0$ and large quantum number $N\to\infty$, with $\hbar N$ kept fixed. In a suitable topology, the limit is the discontinuous symbol $p\chi_D(x,p)$ where $\chi_D$ is the characteristic function of the classically permitted region $D$ in phase space. A refined analysis shows that the symbol is asymptotically close to the function $p\chi_D^{(N)}(x,p)$, where $\chi_D^{(N)}$ is a smooth version of $\chi_D$ related to the integrated Airy function. We also discuss the limit from a dynamical point of view.
翻訳日:2023-04-04 21:29:20 公開日:2023-03-31
# エピタキシャルal-inas平面ジョセフソン接合の準粒子ダイナミクス

Quasiparticle dynamics in epitaxial Al-InAs planar Josephson junctions ( http://arxiv.org/abs/2303.04784v2 )

ライセンス: Link先を確認
Bassel Heiba Elfeky, William M. Strickland, Jaewoo Lee, James T. Farmer, Sadman Shanto, Azarin Zarassi, Dylan Langone, Maxim G. Vavilov, Eli M. Levenson-Falk, Javad Shabani(参考訳) 準粒子効果(QP)は超伝導量子回路のコヒーレンスと忠実性において重要な役割を果たす。 高透明性ジョセフソン接合のアンドレフ境界状態はQPの低エネルギートラップとして作用し、QPと接合の両方の力学と性質を研究するメカニズムを提供する。 超伝導量子干渉装置(SQUID)に組み込まれたエピタキシャルAl-InAsジョセフソン接合のAndreev境界状態からのQPの捕捉と除去について,超伝導共振器を地上にガルバニカルに短縮する。 隣り合う電圧バイアスのジョセフソン接合を用いてQPを回路に注入する。 QPを注入すると、SQUIDがフラックスバイアスを受けたときにQPをトラップし、クリアできることを示す。 共振器におけるバルクQP輸送に伴うマイクロ波損失,ジャンクションにおけるQP関連消散,QP中毒について検討した。 時間内にQPトラップとクリアをモニタリングすることにより、これらのプロセスのダイナミクスを調べ、システム内の電子-フォノン緩和と相関する数マイクロ秒の時間スケールと、QPトラップとクリア機構の相関を見出す。 本研究は,al-inasヘテロ構造に基づく高透明性ジョセフソン接合におけるqpトラップとクリアリングのダイナミクスと関連する時間スケールに注目した。

Quasiparticle (QP) effects play a significant role in the coherence and fidelity of superconducting quantum circuits. The Andreev bound states of high transparency Josephson junctions can act as low-energy traps for QPs, providing a mechanism for studying the dynamics and properties of both the QPs and the junction. We study the trapping and clearing of QPs from the Andreev bound states of epitaxial Al-InAs Josephson junctions incorporated in a superconducting quantum interference device (SQUID) galvanically shorting a superconducting resonator to ground. We use a neighboring voltage-biased Josephson junction to inject QPs into the circuit. Upon the injection of QPs, we show that we can trap and clear QPs when the SQUID is flux-biased. We examine effects of the microwave loss associated with bulk QP transport in the resonator, QP-related dissipation in the junction, and QP poisoning events. By monitoring the QP trapping and clearing in time, we study the dynamics of these processes and find a time-scale of few microseconds that is consistent with electron-phonon relaxation in our system and correlated QP trapping and clearing mechanisms. Our results highlight the QP trapping and clearing dynamics as well as the associated time-scales in high transparency Josephson junctions based fabricated on Al-InAs heterostructures.
翻訳日:2023-04-04 21:13:26 公開日:2023-03-31
# 機械学習によるハンケル動的モード分解

Machine Learning Enhanced Hankel Dynamic-Mode Decomposition ( http://arxiv.org/abs/2303.06289v2 )

ライセンス: Link先を確認
Christopher W. Curtis, D. Jay Alford-Lago, Erik Bollt, Andrew Tuma(参考訳) 時系列の取得はより簡単になったが、時系列からの動的モデルの開発は依然として困難な問題領域であり、進化している。 ここ数年、この問題に対処するために、動的モード分解(DMD)と呼ばれる機械学習ツールが統合されてきた。 この一般的なアプローチは、正確なモデル開発にとって特に有望な方法であることが示されている。 この先行研究に基づいて,Takens' Embedding Theoremの基本的な洞察を生かした深層学習MDDベースの手法を開発し,高次元およびカオス力学をよりよく近似した適応学習スキームを構築する。 我々はこの手法をDeep Learning Hankel DMD (DLHDMD)と呼ぶ。 同様に、我々の手法は、トレーニングが成功した後、ダイナミックスにおける次元間の相互情報を著しく変化させる傾向にあるマッピングをどのように学習するかを考察する。 これはdmd全体を拡張するための重要な機能であり、時系列分析とモデル生成のための他のディープラーニング手法の開発に、さらなる洞察を提供するのに役立つだろう。

While the acquisition of time series has become more straightforward, developing dynamical models from time series is still a challenging and evolving problem domain. Within the last several years, to address this problem, there has been a merging of machine learning tools with what is called the dynamic mode decomposition (DMD). This general approach has been shown to be an especially promising avenue for accurate model development. Building on this prior body of work, we develop a deep learning DMD based method which makes use of the fundamental insight of Takens' Embedding Theorem to build an adaptive learning scheme that better approximates higher dimensional and chaotic dynamics. We call this method the Deep Learning Hankel DMD (DLHDMD). We likewise explore how our method learns mappings which tend, after successful training, to significantly change the mutual information between dimensions in the dynamics. This appears to be a key feature in enhancing the DMD overall, and it should help provide further insight for developing other deep learning methods for time series analysis and model generation.
翻訳日:2023-04-04 21:01:52 公開日:2023-03-31
# 滑らか・強凸集合上のゲージと加速最適化

Gauges and Accelerated Optimization over Smooth and/or Strongly Convex Sets ( http://arxiv.org/abs/2303.05037v2 )

ライセンス: Link先を確認
Ning Liu, Benjamin Grimmer(参考訳) 滑らかかつ強凸集合上で定義される実現可能性と制約付き最適化問題を考える。 これらの概念は一般的な関数を反映しているが、一階最適化の文献では明らかに研究されていない。 これらの設定において,新しい拡張性,プロジェクションフリー,アクセラレーションファーストオーダー手法を提案する。 提案手法は,安価な一次元線形探索と通常のベクトル計算のみを用いて,線形最適化や射影オラクルを回避する。 それにもかかわらず、強凸問題に対しては$o(1/t)$、滑らかな問題では$o(1/t^2)$という最適加速収束保証が導かれる。 我々のアルゴリズムと解析は、滑らかかつ強い凸集合のミンコフスキーゲージの新たな特徴付けに基づいているが、これは独立興味を持つかもしれない: ゲージは滑らかでも強凸でもないが、ゲージの平方形がその集合に存在する任意の構造を継承していることを示す。

We consider feasibility and constrained optimization problems defined over smooth and/or strongly convex sets. These notions mirror their popular function counterparts but are much less explored in the first-order optimization literature. We propose new scalable, projection-free, accelerated first-order methods in these settings. Our methods avoid linear optimization or projection oracles, only using cheap one-dimensional linesearches and normal vector computations. Despite this, we derive optimal accelerated convergence guarantees of $O(1/T)$ for strongly convex problems, $O(1/T^2)$ for smooth problems, and accelerated linear convergence given both. Our algorithms and analysis are based on novel characterizations of the Minkowski gauge of smooth and/or strongly convex sets, which may be of independent interest: although the gauge is neither smooth nor strongly convex, we show the gauge squared inherits any structure present in the set.
翻訳日:2023-04-04 21:00:46 公開日:2023-03-31
# 昆虫にインスパイアされたスパースニューラルネットワークによる視覚経路の追従

Vision-based route following by an embodied insect-inspired sparse neural network ( http://arxiv.org/abs/2303.08109v2 )

ライセンス: Link先を確認
Lu Yihe, Rana Alkhoury Maroun, Barbara Webb(参考訳) 昆虫に触発されたスパースニューラルネットワーク(dasgupta et al., 2017)であるflyhashモデルの効率を,具体化されたナビゲーションタスクにおいて類似しているが非スパースモデルと比較した。 これには、現在の視覚入力とトレーニングルートに格納されたメモリを比較することによって、ステアリングを制御するモデルが必要である。 FlyHashモデルは、特にデータエンコーディングの点で、他のモデルよりも効率的である、と結論付けました。

We compared the efficiency of the FlyHash model, an insect-inspired sparse neural network (Dasgupta et al., 2017), to similar but non-sparse models in an embodied navigation task. This requires a model to control steering by comparing current visual inputs to memories stored along a training route. We concluded the FlyHash model is more efficient than others, especially in terms of data encoding.
翻訳日:2023-04-04 20:52:22 公開日:2023-03-31
# 無限時間ホリゾン上の部分観測を用いた最悪ケース制御と学習

Worst-Case Control and Learning Using Partial Observations Over an Infinite Time-Horizon ( http://arxiv.org/abs/2303.16321v2 )

ライセンス: Link先を確認
Aditya Dave, Ioannis Faros, Nishanth Venkatesh, and Andreas A. Malikopoulos(参考訳) 安全クリティカルなサイバー物理システムは、敵の妨害や不確実性のモデリングに対して最悪のパフォーマンスが堅牢な制御戦略を必要とする。 本稿では,有限時間地平線上での最悪の割引コストを最小限に抑えるために,部分観測システムにおける近似制御と学習の枠組みを提案する。 確率分布が未知な有限値不確実変数として系に障害をモデル化する。 既知のシステムダイナミクスの問題に対して,最適制御戦略を計算するために動的プログラミング(dp)分解を構築する。 最初のコントリビューションは、最適性を失うことなくDPの計算的トラクタビリティを向上させる情報状態を定義することです。 次に、各インスタンスで発生したコストが観測可能な問題のクラスに対する単純化について述べる。 第2の貢献は,可観測コストの問題に対して,観測データから直接構築あるいは学習可能な近似情報状態を定義することです。 我々は,結果の近似制御戦略の性能損失の限界を導出し,数値例を用いて部分的観察した意思決定問題において,提案手法の有効性を示す。

Safety-critical cyber-physical systems require control strategies whose worst-case performance is robust against adversarial disturbances and modeling uncertainties. In this paper, we present a framework for approximate control and learning in partially observed systems to minimize the worst-case discounted cost over an infinite time horizon. We model disturbances to the system as finite-valued uncertain variables with unknown probability distributions. For problems with known system dynamics, we construct a dynamic programming (DP) decomposition to compute the optimal control strategy. Our first contribution is to define information states that improve the computational tractability of this DP without loss of optimality. Then, we describe a simplification for a class of problems where the incurred cost is observable at each time instance. Our second contribution is defining an approximate information state that can be constructed or learned directly from observed data for problems with observable costs. We derive bounds on the performance loss of the resulting approximate control strategy and illustrate the effectiveness of our approach in partially observed decision-making problems with a numerical example.
翻訳日:2023-04-04 20:26:58 公開日:2023-03-31
# オフライン事前学習による探索と表現学習の促進

Accelerating exploration and representation learning with offline pre-training ( http://arxiv.org/abs/2304.00046v1 )

ライセンス: Link先を確認
Bogdan Mazoure, Jake Bruce, Doina Precup, Rob Fergus, Ankit Anand(参考訳) シーケンシャルな意思決定エージェントは、複数ステップの推論を必要とするため、ロングホライズンタスクに苦しむ。 ほとんどの強化学習(RL)アルゴリズムは、クレジット割り当てを改善し、メモリ能力を導入し、エージェントの本質的なモチベーション(探索)や世界観(知識表現)を変化させることで、この問題に対処する。 これらのコンポーネントの多くは、オフラインデータから学べる。 本研究では,オフラインデータセットから2つの異なるモデルを分離して学習することにより,探索と表現学習が改善されるという仮説に従う。 ノイズコントラスト推定と補助報酬のモデルを用いた状態表現の学習は,ヒトのデモンストレーションから分離して行うと,nethackベンチマークのサンプル効率が著しく向上することを示す。 また、実験的な設定の様々なコンポーネントを吸収し、重要な洞察を強調します。

Sequential decision-making agents struggle with long horizon tasks, since solving them requires multi-step reasoning. Most reinforcement learning (RL) algorithms address this challenge by improved credit assignment, introducing memory capability, altering the agent's intrinsic motivation (i.e. exploration) or its worldview (i.e. knowledge representation). Many of these components could be learned from offline data. In this work, we follow the hypothesis that exploration and representation learning can be improved by separately learning two different models from a single offline dataset. We show that learning a state representation using noise-contrastive estimation and a model of auxiliary reward separately from a single collection of human demonstrations can significantly improve the sample efficiency on the challenging NetHack benchmark. We also ablate various components of our experimental setting and highlight crucial insights.
翻訳日:2023-04-04 20:08:29 公開日:2023-03-31
# PyQBench: ゲートベースの量子コンピュータをベンチマークするためのPythonライブラリ

PyQBench: a Python library for benchmarking gate-based quantum computers ( http://arxiv.org/abs/2304.00045v1 )

ライセンス: Link先を確認
Konrad Ja{\l}owiecki, Paulina Lewandowska, {\L}ukasz Pawela(参考訳) 我々はゲートベースの量子コンピュータをベンチマークする革新的なオープンソースフレームワークであるPyQBenchを紹介する。 PyQBenchは、2つのフォン・ノイマン測度を識別する能力を検証することで、NISQデバイスをベンチマークすることができる。 PyQBenchは、予め定義されたパラメタライズされたFourierファミリを使用してベンチマークを実行するための、シンプルで使いやすいコマンドラインインターフェース(CLI)を提供する。 より高度なシナリオでは、PyQBenchは、事前に定義されたものではなく、ユーザ定義の測定を使用する方法を提供する。

We introduce PyQBench, an innovative open-source framework for benchmarking gate-based quantum computers. PyQBench can benchmark NISQ devices by verifying their capability of discriminating between two von Neumann measurements. PyQBench offers a simplified, ready-to-use, command line interface (CLI) for running benchmarks using a predefined parametrized Fourier family of measurements. For more advanced scenarios, PyQBench offers a way of employing user-defined measurements instead of predefined ones.
翻訳日:2023-04-04 20:08:14 公開日:2023-03-31
# 欠落データを考慮したSHMの堅牢な深層学習に基づく損傷識別手法

A robust deep learning-based damage identification approach for SHM considering missing data ( http://arxiv.org/abs/2304.00040v1 )

ライセンス: Link先を確認
Fan Deng, Xiaoming Tao, Pengxiang Wei, Shiyin Wei(参考訳) データ駆動型構造ヘルスモニタリング(shm, data-driven method for structural health monitoring)は、監視された時系列データ間の相関から、隠れた構造的パフォーマンスをマイニングする。 しかし、データの欠如は、この方法の伝導に大きな影響を与える。 ミスデータはSHMや他の実世界の多くのアプリケーションで時系列データで頻繁に発生する問題であり、標準化されたデータマイニングや条件アセスメントなどの下流タスクに害を与える。 モニタリングデータ間の時空間関係に基づく計算手法を開発し,この問題に対処するが,計算中に追加情報を追加することはない。 そこで本研究では,長期記憶(LSTM)モデルと自動エンコーダ(AE)フレームワークにおけるドロップアウト機構に基づいて,欠落したデータイベントを考慮した損傷識別手法を開発した。 入力チャネルをランダムにドロップして、失われたデータをシミュレートし、復元エラーを損失関数と損傷インジケータとして使用する。 1st IPC-SHMで解放されたケーブルステイドブリッジの準静電応答(ケーブル張力)を用いて本手法の有効性を確認し, 欠落データ計算と損傷同定を統一的に行うことができることを示す。

Data-driven method for Structural Health Monitoring (SHM), that mine the hidden structural performance from the correlations among monitored time series data, has received widely concerns recently. However, missing data significantly impacts the conduction of this method. Missing data is a frequently encountered issue in time series data in SHM and many other real-world applications, that harms to the standardized data mining and downstream tasks, such as condition assessment. Imputation approaches based on spatiotemporal relations among monitoring data are developed to handle this issue, however, no additional information is added during imputation. This paper thus develops a robust method for damage identification that considers the missing data occasions, based on long-short term memory (LSTM) model and dropout mechanism in the autoencoder (AE) framework. Inputs channels are randomly dropped to simulate the missing data in training, and reconstruction errors are used as the loss function and the damage indicator. Quasi-static response (cable tension) of a cable-stayed bridge released in 1st IPC-SHM is employed to verify this proposed method, and results show that the missing data imputation and damage identification can be implemented together in a unified way.
翻訳日:2023-04-04 20:08:06 公開日:2023-03-31
# フラクトン自己統計

Fracton Self-Statistics ( http://arxiv.org/abs/2304.00028v1 )

ライセンス: Link先を確認
Hao Song, Nathanan Tantivasadakarn, Wilbur Shirley, Michael Hermele(参考訳) フラクトン秩序(英: fracton order)は、運動性が制限された準粒子をホストする物質の新しい量子位相を記述するため、既存のトポロジカル秩序のパラダイムを超えて存在する。 特に、他の励起を起こさずに動くことができない励起はフラクトンと呼ばれる。 自己交換統計(self-exchange statistics)の概念は、分離された励起として完全な不動性を考えると、フラクトンに対して自然に定義されるか? 驚くべきことに、フラクトンがどのように交換できるかを実証し、それらの自己統計がフラクトン順序の特徴付けの重要な部分であることを示す。 大規模なアーベルフラクトン順序のクラスにおいてフラクトン自己統計学によって満たされる一般的な制約を導出する。 最後に、チェッカーボードモデルとハアの符号のねじれた変種に非自明なフラクトン自己統計が存在することを示し、これらのモデルが従兄弟と比べて異なる量子相にあることを証明した。

Fracton order describes novel quantum phases of matter that host quasiparticles with restricted mobility, and thus lie beyond the existing paradigm of topological order. In particular, excitations that cannot move without creating other excitations are called fractons. Here we address a fundamental open question -- can the notion of self-exchange statistics be naturally defined for fractons, given their complete immobility as isolated excitations? Surprisingly, we demonstrate how fractons can be exchanged, and show their self-statistics is a key part of the characterization of fracton orders. We derive general constraints satisfied by the fracton self-statistics in a large class of abelian fracton orders. Finally, we show the existence of nontrivial fracton self-statistics in some twisted variants of the checkerboard model and Haah's code, establishing that these models are in distinct quantum phases as compared to their untwisted cousins.
翻訳日:2023-04-04 20:07:43 公開日:2023-03-31
# 強化学習アルゴリズムの理解:基本Qラーニングから政策最適化への進歩

Understanding Reinforcement Learning Algorithms: The Progress from Basic Q-learning to Proximal Policy Optimization ( http://arxiv.org/abs/2304.00026v1 )

ライセンス: Link先を確認
Mohamed-Amine Chadi and Hajar Mousannif(参考訳) 本稿では、初心者のための重要な概念、技法、アルゴリズムの包括的概要を提供することに焦点を当て、強化学習(RL)の分野を概観する。 rlにはユニークな設定、ジャーゴン、そして数学があり、この分野や人工知能に新しく慣れた人たちをより広く脅かすことができる。 多くの論文は、ゲーム、ヘルスケア、ファイナンス、ロボティクスといった特定のアプリケーションの文脈でrlをレビューしているが、これらの論文は、非rl関連の作業とそれらの特定のアプリケーションにカスタマイズされたアルゴリズムの使用のため、初心者が従うのが困難である。 これらの課題に対処するため、本論文はRLの基本原理を明確かつ簡潔に概説し、RLアルゴリズムの様々なタイプをカバーする。 各アルゴリズム/手法について,その開発の背景にある主な動機,内部動作,限界について概説する。 論文の提示は、1980年代初頭のQ-ラーニングアルゴリズムから、TD3、PPO、オフラインRLといった最先端のアルゴリズムまで、この分野の歴史的進歩と一致している。 本稿は,RLの基礎をしっかり理解し,その分野の歴史的進歩を把握すべく,初心者にとって貴重な資料となることを目的としている。 特定のアプリケーションの詳細に気を散らすことなく、RLについて学ぶことに興味のある人にとっては、これは参考になる。

This paper presents a review of the field of reinforcement learning (RL), with a focus on providing a comprehensive overview of the key concepts, techniques, and algorithms for beginners. RL has a unique setting, jargon, and mathematics that can be intimidating for those new to the field or artificial intelligence more broadly. While many papers review RL in the context of specific applications, such as games, healthcare, finance, or robotics, these papers can be difficult for beginners to follow due to the inclusion of non-RL-related work and the use of algorithms customized to those specific applications. To address these challenges, this paper provides a clear and concise overview of the fundamental principles of RL and covers the different types of RL algorithms. For each algorithm/method, we outline the main motivation behind its development, its inner workings, and its limitations. The presentation of the paper is aligned with the historical progress of the field, from the early 1980s Q-learning algorithm to the current state-of-the-art algorithms such as TD3, PPO, and offline RL. Overall, this paper aims to serve as a valuable resource for beginners looking to construct a solid understanding of the fundamentals of RL and be aware of the historical progress of the field. It is intended to be a go-to reference for those interested in learning about RL without being distracted by the details of specific applications.
翻訳日:2023-04-04 20:07:26 公開日:2023-03-31
# demo alleviate: 人工知能による遠隔医療の仮想支援のデモ: the mental health case

Demo Alleviate: Demonstrating Artificial Intelligence Enabled Virtual Assistance for Telehealth: The Mental Health Case ( http://arxiv.org/abs/2304.00025v1 )

ライセンス: Link先を確認
Kaushik Roy, Vedant Khandelwal, Raxit Goswami, Nathan Dolbir, Jinendra Malekar, Amit Sheth(参考訳) パンデミック後、人工知能(AI)によるメンタルヘルス支援がますます重要になっている。 適切なケアを提供するために必要な重要な課題の幅と複雑さ。 (a)パーソナライズされた患者理解 ロ チャットボット患者との相互作用の安全性の制限及び医学的検証 (c)チャットボットと患者とのインタラクションを用いた設計における継続的なフィードバックに基づく改善支援。 そこで本研究では,精神疾患に苦しむ患者をパーソナライズケアで支援し,臨床医が患者の理解を深めるためのチャットボットであるalleviateを提案する。 Alleviateは、臨床で有効なメンタルヘルスのテキストとデータベースを公開して、医療的に健全で情報的な意思決定を可能にする。 さらに、alleviateのモジュラーデザインと説明可能な意思決定は、その設計に堅牢で継続的なフィードバックベースの改良をもたらす。 本稿では, Alleviate の異なるモジュールについて解説し, 患者と臨床医がお互いをよりよく理解し, 最適なケア戦略を促進する上での Alleviate の機能を示す短いビデオを提出する。

After the pandemic, artificial intelligence (AI) powered support for mental health care has become increasingly important. The breadth and complexity of significant challenges required to provide adequate care involve: (a) Personalized patient understanding, (b) Safety-constrained and medically validated chatbot patient interactions, and (c) Support for continued feedback-based refinements in design using chatbot-patient interactions. We propose Alleviate, a chatbot designed to assist patients suffering from mental health challenges with personalized care and assist clinicians with understanding their patients better. Alleviate draws from an array of publicly available clinically valid mental-health texts and databases, allowing Alleviate to make medically sound and informed decisions. In addition, Alleviate's modular design and explainable decision-making lends itself to robust and continued feedback-based refinements to its design. In this paper, we explain the different modules of Alleviate and submit a short video demonstrating Alleviate's capabilities to help patients and clinicians understand each other better to facilitate optimal care strategies.
翻訳日:2023-04-04 20:06:58 公開日:2023-03-31
# ショットポイントクラウドの効果的な分類には何が必要か?

What Makes for Effective Few-shot Point Cloud Classification? ( http://arxiv.org/abs/2304.00022v1 )

ライセンス: Link先を確認
Chuangguan Ye, Hongyuan Zhu, Yongbin Liao, Yanggang Zhang, Tao Chen, Jiayuan Fan(参考訳) 強力なコンピューティングリソースと大規模アノテートデータセットの出現により、ディープラーニングは私たちの日常生活に広く応用されている。 しかし、現在のほとんどのメソッドは、これまで見たことのない新しいクラスを扱う場合、広範なデータ収集と再トレーニングを必要とする。 一方、人間はいくつかのサンプルを見てすぐに新しいクラスを認識できるため、機械学習コミュニティで最近FSLが人気になっている。 しかし、現在のFSLのアプローチのほとんどは2次元画像領域で動作するが、3次元知覚におけるその意味は比較的未解明である。 未知の例を2Dドメインのように認識するだけでなく、非順序構造、高いクラス内分散、微妙なクラス間差において、3Dの少数ショット学習はより困難である。 さらに、異なるアーキテクチャと学習アルゴリズムは、3Dドメインに移行する際に既存の2Dメソッドの有効性を研究するのを難しくする。 本研究では,最近の2次元fslおよび3次元バックボーンネットワークを体系的かつ広範囲に研究し,数点のクラウド分類をベンチマークし,3次元fslの強力なベースラインおよび学習アーキテクチャを提案する。 そこで我々は,Cross-Instance Adaptation (CIA) モジュールと呼ばれる新しいプラグイン・アンド・プレイコンポーネントを提案し,高いクラス内差と微妙なクラス間差の問題に対処する。 新たに導入された2つのベンチマークデータセットであるModelNet40-FSとShapeNet70-FSの大規模な実験は、提案した3次元FSLのネットワークの優位性を実証している。

Due to the emergence of powerful computing resources and large-scale annotated datasets, deep learning has seen wide applications in our daily life. However, most current methods require extensive data collection and retraining when dealing with novel classes never seen before. On the other hand, we humans can quickly recognize new classes by looking at a few samples, which motivates the recent popularity of few-shot learning (FSL) in machine learning communities. Most current FSL approaches work on 2D image domain, however, its implication in 3D perception is relatively under-explored. Not only needs to recognize the unseen examples as in 2D domain, 3D few-shot learning is more challenging with unordered structures, high intra-class variances, and subtle inter-class differences. Moreover, different architectures and learning algorithms make it difficult to study the effectiveness of existing 2D methods when migrating to the 3D domain. In this work, for the first time, we perform systematic and extensive studies of recent 2D FSL and 3D backbone networks for benchmarking few-shot point cloud classification, and we suggest a strong baseline and learning architectures for 3D FSL. Then, we propose a novel plug-and-play component called Cross-Instance Adaptation (CIA) module, to address the high intra-class variances and subtle inter-class differences issues, which can be easily inserted into current baselines with significant performance improvement. Extensive experiments on two newly introduced benchmark datasets, ModelNet40-FS and ShapeNet70-FS, demonstrate the superiority of our proposed network for 3D FSL.
翻訳日:2023-04-04 20:06:39 公開日:2023-03-31
# Semimemes:マルチモーダルミーム分析のための半教師付き学習手法

SemiMemes: A Semi-supervised Learning Approach for Multimodal Memes Analysis ( http://arxiv.org/abs/2304.00020v1 )

ライセンス: Link先を確認
Pham Thai Hoang Tung, Nguyen Tan Viet, Ngo Tien Anh, Phan Duy Hung(参考訳) ソーシャルメディア上でのミームの流行は、有害コンテンツを検閲する彼らの根底にある意味を分析する必要性を生み出している。 機械学習によるミーム検閲システムは、インターネット上で利用可能な多数のラベルのないミームを活用するための、半教師付き学習ソリューションの必要性を高め、アノテーション処理を難しくする。 さらに、このアプローチは、通常、画像とテキストの両方から得られるミームの意味として、マルチモーダルデータを利用する必要がある。 本研究は,マルチメディア自動マイソジニー識別とHateful Memesデータセットの2つのデータセット上で,他のマルチモーダル半教師付き学習と教師付き学習モデルを上回る,マルチモーダル半教師付き学習手法を提案する。 効果的なマルチモーダル学習手法であるContrastive Language-Image Pre-Trainingから得られた知見に基づいて,自動エンコーダと分類タスクを組み合わせた,資源に恵まれないデータを活用する新たなトレーニング手法であるSemiMemesを紹介する。

The prevalence of memes on social media has created the need to sentiment analyze their underlying meanings for censoring harmful content. Meme censoring systems by machine learning raise the need for a semi-supervised learning solution to take advantage of the large number of unlabeled memes available on the internet and make the annotation process less challenging. Moreover, the approach needs to utilize multimodal data as memes' meanings usually come from both images and texts. This research proposes a multimodal semi-supervised learning approach that outperforms other multimodal semi-supervised learning and supervised learning state-of-the-art models on two datasets, the Multimedia Automatic Misogyny Identification and Hateful Memes dataset. Building on the insights gained from Contrastive Language-Image Pre-training, which is an effective multimodal learning technique, this research introduces SemiMemes, a novel training method that combines auto-encoder and classification task to make use of the resourceful unlabeled data.
翻訳日:2023-04-04 20:06:14 公開日:2023-03-31
# pp-yoloe-rとソートアルゴリズムに基づく高密度・小型テキストの動画テキスト追跡

Video text tracking for dense and small text based on pp-yoloe-r and sort algorithm ( http://arxiv.org/abs/2304.00018v1 )

ライセンス: Link先を確認
Hongen Liu(参考訳) Transformerに基づくエンドツーエンドのビデオテキストスポッティング手法は、長距離依存をモデル化し、列車の処理を簡素化するが、入力ビデオのフレームサイズが大きくなると計算コストが大きくなる。 したがって、ICDAR 2023 DSTextの解像度が1080 * 1920であり、ビデオフレームを複数の領域にスライスすることでテキストの空間的相関が破壊されるため、テキスト検出と追跡という2つのタスクに分割した。 テキスト検出には,小物体検出に有効なpp-yoloe-rを検出モデルとして採用する。 テキスト検出には,高い推論速度のためにソートアルゴリズムを用いる。 DSTextデータセットを用いた実験により,本手法はテキストスポッティングと競合することを示した。

Although end-to-end video text spotting methods based on Transformer can model long-range dependencies and simplify the train process, it will lead to large computation cost with the increase of the frame size in the input video. Therefore, considering the resolution of ICDAR 2023 DSText is 1080 * 1920 and slicing the video frame into several areas will destroy the spatial correlation of text, we divided the small and dense text spotting into two tasks, text detection and tracking. For text detection, we adopt the PP-YOLOE-R which is proven effective in small object detection as our detection model. For text detection, we use the sort algorithm for high inference speed. Experiments on DSText dataset demonstrate that our method is competitive on small and dense text spotting.
翻訳日:2023-04-04 20:05:54 公開日:2023-03-31
# MLコンポーネントを用いた製品開発における課題のメタ要約 -4758以上の実践者からの経験-

A Meta-Summary of Challenges in Building Products with ML Components -- Collecting Experiences from 4758+ Practitioners ( http://arxiv.org/abs/2304.00078v1 )

ライセンス: Link先を確認
Nadia Nahar, Haoran Zhang, Grace Lewis, Shurui Zhou, Christian K\"astner(参考訳) 機械学習(ML)コンポーネントをソフトウェア製品に組み込むことで、ソフトウェアエンジニアリングの新たな課題が生まれ、既存の課題がさらに悪化する。 多くの研究者は、MLコンポーネントを使った製品開発に取り組む業界実践者の課題を理解するために、実践者とのインタビューや調査を通じて、多大な努力を払ってきた。 我々は, 4758名以上の実践者と共同で, 体系的な文献レビューのガイドラインを用いて対話する50件の関連論文を収集した。 その後、500以上の論文の課題に関する言及を収集し、グループ化し、整理しました。 我々は、最も一般的に報告されている課題を強調し、このメタサマリーがこの分野で研究と教育を優先する研究コミュニティにとって有用なリソースになることを望んでいる。

Incorporating machine learning (ML) components into software products raises new software-engineering challenges and exacerbates existing challenges. Many researchers have invested significant effort in understanding the challenges of industry practitioners working on building products with ML components, through interviews and surveys with practitioners. With the intention to aggregate and present their collective findings, we conduct a meta-summary study: We collect 50 relevant papers that together interacted with over 4758 practitioners using guidelines for systematic literature reviews. We then collected, grouped, and organized the over 500 mentions of challenges within those papers. We highlight the most commonly reported challenges and hope this meta-summary will be a useful resource for the research community to prioritize research and education in this field.
翻訳日:2023-04-04 20:00:31 公開日:2023-03-31
# 準局所代数のDHR双加群と対称量子セルオートマトン

DHR bimodules of quasi-local algebras and symmetric quantum cellular automata ( http://arxiv.org/abs/2304.00068v1 )

ライセンス: Link先を確認
Corey Jones(参考訳) 離散距離空間上の c*-代数のネットに対して、dhr テンソル圏の双加群バージョンを導入し、有界なスプレッドを持つ同型の下での準局所代数の不変性を示す。 格子 $L\subseteq \mathbb{R}^{n}$ 上の抽象スピン系は、ハーグ双対性の弱いバージョンを満たすため、これらの圏のブレイディングを構成する。 一般理論を(圏)対称性の下での格子不変量上の作用素の$A$に応用すると、対称量子セルオートマトン(QCA)の群から、カーネル内の対称有限深さ回路を含む$\textbf{Aut}_{br}(\textbf{DHR}(A))$への準同型が得られる。 融合圏対称性 $\mathcal{D}$ を持つスピン鎖に対して、対称作用素の準局所代数の DHR 圏はドリンフェルト中心 $\mathcal{Z}(\mathcal{D})$ と同値であることを示す。 これは、二重スピンフリップ作用 $\mathbb{Z}/2\mathbb{Z}\times \mathbb{Z}/2\mathbb{Z}\curvearrowright \mathbb{C}^{2}\otimes \mathbb{C}^{2}$ に対して、1D における対称 QCA 変調対称有限深さ回路の群が$S_{3}$ のコピーを含んでいることを示し、したがって対称性のない場合とは対照的に非アーベルである。

For a net of C*-algebras on a discrete metric space, we introduce a bimodule version of the DHR tensor category, and show it is an invariant of quasi-local algebras under isomorphisms with bounded spread. For abstract spin systems on a lattice $L\subseteq \mathbb{R}^{n}$ satisfying a weak version of Haag duality, we construct a braiding on these categories. Applying the general theory to quasi-local algebras $A$ of operators on a lattice invariant under a (categorical) symmetry, we obtain a homomorphism from the group of symmetric quantum cellular automata (QCA) to $\textbf{Aut}_{br}(\textbf{DHR}(A))$, containing symmetric finite depth circuits in the kernel. For a spin chain with fusion categorical symmetry $\mathcal{D}$, we show the DHR category of the quasi-local algebra of symmetric operators is equivalent to the Drinfeld center $\mathcal{Z}(\mathcal{D})$ . We use this to show that for the double spin flip action $\mathbb{Z}/2\mathbb{Z}\times \mathbb{Z}/2\mathbb{Z}\curvearrowright \mathbb{C}^{2}\otimes \mathbb{C}^{2}$, the group of symmetric QCA modulo symmetric finite depth circuits in 1D contains a copy of $S_{3}$, hence is non-abelian, in contrast to the case with no symmetry.
翻訳日:2023-04-04 20:00:17 公開日:2023-03-31
# 電気市場のための物理インフォームド機械学習:NYISOケーススタディ

A Physics-Informed Machine Learning for Electricity Markets: A NYISO Case Study ( http://arxiv.org/abs/2304.00062v1 )

ライセンス: Link先を確認
Robert Ferrando, Laurent Pagnier, Robert Mieth, Zhirui Liang, Yury Dvorkin, Daniel Bienstock, Michael Chertkov(参考訳) 本稿では,リアルタイム電力市場における最適電力フロー問題の解法について述べる。 提案手法はPMA-AS-OPF (Physics-Informed Market-Aware Active Set Learning OPF) と名付けられ, 物理的制約と市場特性を活用し, 市場浄化結果の物理的および経済的実現性を確保する。 具体的には、PIMA-AS-OPFはアクティブな集合学習技術を採用し、実世界の電力システムではよくある課題である負荷や再生可能発電の削減を考慮した能力を拡張する。 PIMA-AS-OPFのコアは、ネット負荷とシステムトポロジを入力として取り込む、完全に接続されたニューラルネットワークである。 このニューラルネットワークの出力には、飽和発電機や送電線などのアクティブな制約、非ゼロ負荷層や風量制限が含まれる。 これらの出力は、元の市場浄化最適化を線形方程式のシステムに還元し、効率よく解き、ディスパッチ決定と位置限界価格(LMP)の両方を得ることができる。 ディスパッチ決定とLMPは、効率的な市場浄化結果の要件に関して、その実現可能性のためにテストされる。 提案手法の精度とスケーラビリティは,現在および将来の再生可能エネルギー浸透レベルを持つ1814バスnyisoシステムを用いて検証した。

This paper addresses the challenge of efficiently solving the optimal power flow problem in real-time electricity markets. The proposed solution, named Physics-Informed Market-Aware Active Set learning OPF (PIMA-AS-OPF), leverages physical constraints and market properties to ensure physical and economic feasibility of market-clearing outcomes. Specifically, PIMA-AS-OPF employs the active set learning technique and expands its capabilities to account for curtailment in load or renewable power generation, which is a common challenge in real-world power systems. The core of PIMA-AS-OPF is a fully-connected neural network that takes the net load and the system topology as input. The outputs of this neural network include active constraints such as saturated generators and transmission lines, as well as non-zero load shedding and wind curtailments. These outputs allow for reducing the original market-clearing optimization to a system of linear equations, which can be solved efficiently and yield both the dispatch decisions and the locational marginal prices (LMPs). The dispatch decisions and LMPs are then tested for their feasibility with respect to the requirements for efficient market-clearing results. The accuracy and scalability of the proposed method is tested on a realistic 1814-bus NYISO system with current and future renewable energy penetration levels.
翻訳日:2023-04-04 19:59:41 公開日:2023-03-31
# 公平で公平である:公平さと堅牢さを合わせること

To be Robust and to be Fair: Aligning Fairness with Robustness ( http://arxiv.org/abs/2304.00061v1 )

ライセンス: Link先を確認
Junyi Chai, Xiaoqian Wang(参考訳) 敵の訓練は、敵のサンプルに対する堅牢性を改善する上で信頼性が高いことが示されている。 しかし、フェアネスの観点からの対人訓練の問題は未だ十分に研究されておらず、フェアネスと精度攻撃の関係はいまだ不明である。 公平性と正確性の両方を同時に改善できるか? この問題に対処するために,本稿では,両指標の対人訓練と対人攻撃の問題について検討する。 我々は,集団フェアネスの共通概念を結合するフェアネス攻撃の統一構造を提案し,理論上,異なる概念に対するフェアネス攻撃の等価性を証明する。 さらに,公平性と正確性が一致していることを示し,理論上は,強靭性 w.r.t. は強靭性 w.r.t. のもう1つの指標から得られることを実証する。 本研究は, 対人訓練と攻撃の公正度と精度を統一する新たな手法を提案するとともに, 実験結果から, 両指標の堅牢性の観点から, 提案手法がより良い性能を達成することを示す。

Adversarial training has been shown to be reliable in improving robustness against adversarial samples. However, the problem of adversarial training in terms of fairness has not yet been properly studied, and the relationship between fairness and accuracy attack still remains unclear. Can we simultaneously improve robustness w.r.t. both fairness and accuracy? To tackle this topic, in this paper, we study the problem of adversarial training and adversarial attack w.r.t. both metrics. We propose a unified structure for fairness attack which brings together common notions in group fairness, and we theoretically prove the equivalence of fairness attack against different notions. Moreover, we show the alignment of fairness and accuracy attack, and theoretically demonstrate that robustness w.r.t. one metric benefits from robustness w.r.t. the other metric. Our study suggests a novel way to unify adversarial training and attack w.r.t. fairness and accuracy, and experimental results show that our proposed method achieves better performance in terms of robustness w.r.t. both metrics.
翻訳日:2023-04-04 19:59:17 公開日:2023-03-31
# 顔行動理解のための弱教師付きテキスト駆動コントラスト学習

Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior Understanding ( http://arxiv.org/abs/2304.00058v1 )

ライセンス: Link先を確認
Xiang Zhang, Taoyue Wang, Xiaotian Li, Huiyuan Yang and Lijun Yin(参考訳) 対照的な学習は、ラベルのないデータを利用してロバスト表現を学習する有望な可能性を示している。 しかし, 顔行動データセットにおける比較学習のための効果的な正負対の構築は依然として困難である。 これは、このようなペアが必然的に被写体ID情報をエンコードするためであり、ランダムに構築されたペアは、顔行動データセットの被写体数が限られているため、類似した顔画像を押し出すことができる。 この問題に対処するために,いくつかのデータセットで提供される活動記述,粗粒度情報を利用して,画像シーケンスに関する高レベルな意味情報を提供するが,先行研究では無視されることが多い。 具体的には,顔行動理解のための2段階のContrastive Learning with Text-Embeded frameworkを提案する。 第1段階は、粗い活動情報を用いて構築された正負対から表現を学習する弱教師付きコントラスト学習法である。 第2段階は、画像と対応するテキストラベル名との類似性を最大化することにより、表情や顔動作単位の認識を訓練することを目的とする。 提案したCLEFは、AU認識のための3つの組込みデータセットと、顔認識のための3つの組込みデータセットに対して、最先端のパフォーマンスを達成する。

Contrastive learning has shown promising potential for learning robust representations by utilizing unlabeled data. However, constructing effective positive-negative pairs for contrastive learning on facial behavior datasets remains challenging. This is because such pairs inevitably encode the subject-ID information, and the randomly constructed pairs may push similar facial images away due to the limited number of subjects in facial behavior datasets. To address this issue, we propose to utilize activity descriptions, coarse-grained information provided in some datasets, which can provide high-level semantic information about the image sequences but is often neglected in previous studies. More specifically, we introduce a two-stage Contrastive Learning with Text-Embeded framework for Facial behavior understanding (CLEF). The first stage is a weakly-supervised contrastive learning method that learns representations from positive-negative pairs constructed using coarse-grained activity information. The second stage aims to train the recognition of facial expressions or facial action units by maximizing the similarity between image and the corresponding text label names. The proposed CLEF achieves state-of-the-art performance on three in-the-lab datasets for AU recognition and three in-the-wild datasets for facial expression recognition.
翻訳日:2023-04-04 19:58:56 公開日:2023-03-31
# LivePose:ダイナミックカメラでモノクロ映像からオンライン3Dレコンストラクション

LivePose: Online 3D Reconstruction from Monocular Video with Dynamic Camera Poses ( http://arxiv.org/abs/2304.00054v1 )

ライセンス: Link先を確認
Noah Stier, Baptiste Angles, Liang Yang, Yajie Yan, Alex Colburn, Ming Chuang(参考訳) RGB画像からのDense 3D再構成は、伝統的に静的カメラのポーズ推定を前提としている。 この仮定は、最近の研究がモバイルデバイスのリアルタイム手法にますます注力しているにもかかわらず、存続している。 リアルタイムSLAMからのポーズは動的であり、バンドル調整やループ閉鎖といったイベントに続いて更新される可能性がある。 これは、過去のビューを非統合し、更新されたポーズと再統合することで、RGB-D設定で対処されてきたが、RGBのみの設定では、ほとんど未処理のままである。 我々はこの問題を形式化し、動的に配置された画像からオンライン再構成を行う新しいタスクを定義する。 さらなる研究を支援するために,ScanNet上で動作するSLAMシステムからの動的ポーズを含むLivePoseというデータセットを紹介した。 我々は,最近の3つの再構成システムを選択し,動的配置に適合させるために,分解に基づくフレームワークを適用した。 さらに,古いシーンのコンテンツを削除することを学ぶ,新しい非線形デインテグレーションモジュールを提案する。 ポーズ更新に対する応答は高品質な再構築に不可欠であり、分解フレームワークは効果的なソリューションであることを示す。

Dense 3D reconstruction from RGB images traditionally assumes static camera pose estimates. This assumption has endured, even as recent works have increasingly focused on real-time methods for mobile devices. However, the assumption of one pose per image does not hold for online execution: poses from real-time SLAM are dynamic and may be updated following events such as bundle adjustment and loop closure. This has been addressed in the RGB-D setting, by de-integrating past views and re-integrating them with updated poses, but it remains largely untreated in the RGB-only setting. We formalize this problem to define the new task of online reconstruction from dynamically-posed images. To support further research, we introduce a dataset called LivePose containing the dynamic poses from a SLAM system running on ScanNet. We select three recent reconstruction systems and apply a framework based on de-integration to adapt each one to the dynamic-pose setting. In addition, we propose a novel, non-linear de-integration module that learns to remove stale scene content. We show that responding to pose updates is critical for high-quality reconstruction, and that our de-integration framework is an effective solution.
翻訳日:2023-04-04 19:58:35 公開日:2023-03-31
# $\ell_1$ とロジスティック回帰に対する近似定数因子スケッチ

Almost Linear Constant-Factor Sketching for $\ell_1$ and Logistic Regression ( http://arxiv.org/abs/2304.00051v1 )

ライセンス: Link先を確認
Alexander Munteanu, Simon Omlor, David Woodruff(参考訳) 我々は,従来の難解なスケッチとターンタイルストリーミングの結果を$\ell_1$とロジスティック回帰で改善し,より小さなスケッチ次元で$O(1)$-approximationを実現し,スケッチ空間における効率的な最適化問題をもたらす。 すなわち、任意の定数$c>0$に対して$\tilde{O}(d^{1+c})$ for $\ell_1$ regression と $\tilde{O}(\mu d^{1+c})$ for logistic regression を達成します。 例えば、$\ell_1$-regression のスケッチ次元はニアリニアであり、このスケッチ次元で$\omega(\log d)$近似を必要とするか、より大きい$\operatorname{poly}(d)$ 行数を必要とする以前の作業を改善する。 同様に、ロジスティック回帰では、以前の仕事はスケッチ次元においてより悪い$\operatorname{poly}(\mu d)$ factorsであった。 また、合計サイズを$(d\log(n)/\varepsilon)^{O(1/\varepsilon)}$ for $\ell_1$ and $(\mu d\log(n)/\varepsilon)^{O(1/\varepsilon)}$ for logistic regression に拡大することで、入力空間の間隔で1+\varepsilon$を近似するトレードオフを与える。 最後に,データ依存正規化器が個々のロジスティック損失の分散に対応するロジスティック回帰の正規化バージョンを近似するために,スケッチを拡張可能であることを示す。

We improve upon previous oblivious sketching and turnstile streaming results for $\ell_1$ and logistic regression, giving a much smaller sketching dimension achieving $O(1)$-approximation and yielding an efficient optimization problem in the sketch space. Namely, we achieve for any constant $c>0$ a sketching dimension of $\tilde{O}(d^{1+c})$ for $\ell_1$ regression and $\tilde{O}(\mu d^{1+c})$ for logistic regression, where $\mu$ is a standard measure that captures the complexity of compressing the data. For $\ell_1$-regression our sketching dimension is near-linear and improves previous work which either required $\Omega(\log d)$-approximation with this sketching dimension, or required a larger $\operatorname{poly}(d)$ number of rows. Similarly, for logistic regression previous work had worse $\operatorname{poly}(\mu d)$ factors in its sketching dimension. We also give a tradeoff that yields a $1+\varepsilon$ approximation in input sparsity time by increasing the total size to $(d\log(n)/\varepsilon)^{O(1/\varepsilon)}$ for $\ell_1$ and to $(\mu d\log(n)/\varepsilon)^{O(1/\varepsilon)}$ for logistic regression. Finally, we show that our sketch can be extended to approximate a regularized version of logistic regression where the data-dependent regularizer corresponds to the variance of the individual logistic losses.
翻訳日:2023-04-04 19:58:16 公開日:2023-03-31
# kNN-Res: ポイントクラウド登録のためのkNN-Graphコヒーレンスを用いた残留ニューラルネットワーク

kNN-Res: Residual Neural Network with kNN-Graph coherence for point cloud registration ( http://arxiv.org/abs/2304.00050v1 )

ライセンス: Link先を確認
Muhammad S. Battikh, Dillon Hammill, Matthew Cook, Artem Lensky(参考訳) 本稿では,残差ニューラルネットワークを用いた点集合登録手法を提案する。 対象と参照点クラウドが与えられたとき、目標は対象点クラウドの位相構造が保存されるという制約の下で、対象を参照に合わせる最小限の変換を学ぶことである。 コヒーレント点ドリフト(cpd)と同様に、登録(調整)問題は、正規化された変位ベクトル場に沿ってターゲット分布からサンプリングされたデータ点の移動と見なされる。 cpdのコヒーレンス制約は局所運動コヒーレンスの観点から述べられているが、提案された正規化項は局所位相を保存するためのプロキシとしてグローバルスムースネス制約に依存する。 これにより、CPDは、変形が局所的に剛性であるが、複数のオブジェクトの場合のようにグローバルに非剛性であるときに柔軟性が低下し、ポーズ登録を行う。 これらの問題を緩和するために,ヤコビアンに基づくコスト関数と幾何認識統計距離を提案する。 後者は、ターゲットと参照の間の不一致を測定することができる。 また、ジャコビアンコストを使用する場合の目標データのkNNグラフ保存の正当性も提供する。 さらに、高次元登録のための確率近似を導入し、高次元アライメントを実現する。 提案手法は高次元フローサイトメトリーを用いて,データのkNNグラフを保存しながら2つのデータ分布を整列させる。 提案されたアプローチの実装は、MITライセンス下でhttps://github.com/MuhammadSaeedBatikh/kNN-Res_Demo/で利用可能である。

In this paper, we present a residual neural network-based method for point set registration. Given a target and a reference point cloud, the goal is to learn a minimal transformation that aligns the target to the reference under the constraint that the topological structure of the target point cloud is preserved. Similar to coherent point drift (CPD), the registration (alignment) problem is viewed as the movement of data points sampled from a target distribution along a regularized displacement vector field. While the coherence constraint in CPD is stated in terms of local motion coherence, the proposed regularization term relies on a global smoothness constraint as a proxy for preserving local topology. This makes CPD less flexible when the deformation is locally rigid but globally non-rigid as in the case of multiple objects and articulate pose registration. To mitigate these issues, a Jacobian-based cost function along with geometric-aware statistical distances is proposed. The latter allows for measuring misalignment between the target and the reference. The justification for the kNN-graph preservation of target data, when the Jacobian cost is used, is also provided. Further, a stochastic approximation for high dimensional registration is introduced to make a high-dimensional alignment feasible. The proposed method is tested on high-dimensional Flow Cytometry to align two data distributions whilst preserving the kNN-graph of the data. The implementation of the proposed approach is available at https://github.com/MuhammadSaeedBatikh/kNN-Res_Demo/ under the MIT license.
翻訳日:2023-04-04 19:57:37 公開日:2023-03-31
# 臨界レアクラスのランキング定式化:高い真正率での偽陽性の最小化

Ranking Regularization for Critical Rare Classes: Minimizing False Positives at a High True Positive Rate ( http://arxiv.org/abs/2304.00049v1 )

ライセンス: Link先を確認
Mohammadi Kiarash and Zhao He and Mengyao Zhai and Frederick Tung(参考訳) 多くの現実の環境では、クリティカルクラスはまれであり、検出を逃すと不釣り合いに高いコストがかかる。 例えば、腫瘍は稀であり、偽陰性診断は治療結果に重大な影響を及ぼす可能性があり、不正な銀行取引はまれであり、発見されていない出来事は重大な損失や法的罰則をもたらす可能性がある。 このような文脈では、システムはしばしば高い真の正の速度で操作され、高い偽陽性を許容する必要がある。 本稿では,高い実効率で運用する必要があるシステムに対して,偽陽性を最小化するという課題に対処する新しいアプローチを提案する。 実装が容易なランキングベース正規化(RankReg)アプローチを提案し、偽陽性を効果的に低減するだけでなく、従来の不均衡学習損失を補うことを実証的に示す。 本手法を応用して,広範に探索された3つのデータセット(CIFAR-10&100とメラノーマ)の一連の実験を行い,本手法が従来の最先端性能を顕著に向上させることを示す。

In many real-world settings, the critical class is rare and a missed detection carries a disproportionately high cost. For example, tumors are rare and a false negative diagnosis could have severe consequences on treatment outcomes; fraudulent banking transactions are rare and an undetected occurrence could result in significant losses or legal penalties. In such contexts, systems are often operated at a high true positive rate, which may require tolerating high false positives. In this paper, we present a novel approach to address the challenge of minimizing false positives for systems that need to operate at a high true positive rate. We propose a ranking-based regularization (RankReg) approach that is easy to implement, and show empirically that it not only effectively reduces false positives, but also complements conventional imbalanced learning losses. With this novel technique in hand, we conduct a series of experiments on three broadly explored datasets (CIFAR-10&100 and Melanoma) and show that our approach lifts the previous state-of-the-art performance by notable margins.
翻訳日:2023-04-04 19:57:13 公開日:2023-03-31
# PEOPL:公開ラベルでプライベートエンコードされたオープンデータセットを特徴付ける

PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels ( http://arxiv.org/abs/2304.00047v1 )

ライセンス: Link先を確認
Homa Esfahanizadeh, Adam Yala, Rafael G. L. D'Oliveira, Andrea J. D. Jaba, Victor Quach, Ken R. Duffy, Tommi S. Jaakkola, Vinod Vaikuntanathan, Manya Ghobadi, Regina Barzilay, Muriel M\'edard(参考訳) 意図しない情報漏洩なしに機械学習(ML)モデルのトレーニングのためにデータを共有できるようにすることは、実際にはオープンな問題である。 このまだ開いている問題の有望なテクニックは、エンコードされたデータでモデルをトレーニングすることだ。 我々のアプローチはPEOPL(Privately Encoded Open Datasets with Public Labels)と呼ばれ、ある種類のランダムに構築された変換を用いて機密データを符号化する。 組織は、ランダムにエンコードされたデータと関連する生ラベルをMLトレーニング用に公開し、そこでは、エンコーディングの実現に関する知識なしにトレーニングが行われる。 そこで本研究では,プライバシとユーティリティに関する情報理論的なスコアを導入し,公開された符号化データにアクセス可能な不適切なユーザ(例えば,敵意)と忠実なユーザ(例えばモデル開発者)の平均パフォーマンスを定量化する。 次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。 実験では,ランダム化符号化方式と線形スキームの性能を一連の計算攻撃と比較し,本手法が生のサンプルベースラインと競合する予測精度を達成することを示す。 さらに、独立ランダムエンコーダを用いた複数の機関が協調して改善されたMLモデルを訓練できることを実証した。

Allowing organizations to share their data for training of machine learning (ML) models without unintended information leakage is an open problem in practice. A promising technique for this still-open problem is to train models on the encoded data. Our approach, called Privately Encoded Open Datasets with Public Labels (PEOPL), uses a certain class of randomly constructed transforms to encode sensitive data. Organizations publish their randomly encoded data and associated raw labels for ML training, where training is done without knowledge of the encoding realization. We investigate several important aspects of this problem: We introduce information-theoretic scores for privacy and utility, which quantify the average performance of an unfaithful user (e.g., adversary) and a faithful user (e.g., model developer) that have access to the published encoded data. We then theoretically characterize primitives in building families of encoding schemes that motivate the use of random deep neural networks. Empirically, we compare the performance of our randomized encoding scheme and a linear scheme to a suite of computational attacks, and we also show that our scheme achieves competitive prediction accuracy to raw-sample baselines. Moreover, we demonstrate that multiple institutions, using independent random encoders, can collaborate to train improved ML models.
翻訳日:2023-04-04 19:56:53 公開日:2023-03-31
# Dense Sparse Retrieval: 推論効率の良いDense Retrievalにおけるスパース言語モデルの利用

Dense Sparse Retrieval: Using Sparse Language Models for Inference Efficient Dense Retrieval ( http://arxiv.org/abs/2304.00114v1 )

ライセンス: Link先を確認
Daniel Campos, ChengXiang Zhai(参考訳) ベクターベースの検索システムは、文書やクエリの文脈表現を活用できるように検索を拡張するためのシンプルでスケーラブルな方法を提供するため、学術的および産業的な検索アプリケーションでは一般的なものとなっている。 これらのベクトルベースのシステムは文脈言語モデルに依存しているため、一般的にはGPUを必要とする。 推論効率を向上させるために言語モデルにスパーシティを導入する最近の進歩を踏まえ,本論文では,密集した検索にスパース言語モデルを用いて推論効率を向上させる方法について検討する。 一般的な検索ライブラリであるTevatronとMSMARCO、NQ、TriviaQAのデータセットを用いて、スパース言語モデルが直接置換として使用でき、精度は低下せず、推論速度は最大4.3倍向上した。

Vector-based retrieval systems have become a common staple for academic and industrial search applications because they provide a simple and scalable way of extending the search to leverage contextual representations for documents and queries. As these vector-based systems rely on contextual language models, their usage commonly requires GPUs, which can be expensive and difficult to manage. Given recent advances in introducing sparsity into language models for improved inference efficiency, in this paper, we study how sparse language models can be used for dense retrieval to improve inference efficiency. Using the popular retrieval library Tevatron and the MSMARCO, NQ, and TriviaQA datasets, we find that sparse language models can be used as direct replacements with little to no drop in accuracy and up to 4.3x improved inference speeds
翻訳日:2023-04-04 19:50:15 公開日:2023-03-31
# スパイクニューラルネットワークにおける加算結合と乗算結合の等価性

Equivalence of Additive and Multiplicative Coupling in Spiking Neural Networks ( http://arxiv.org/abs/2304.00112v1 )

ライセンス: Link先を確認
Georg B\"orner, Fabio Schnittler Neves, Marc Timme(参考訳) スパイキングニューラルネットワークモデルは、生体ニューロンの回路の創発的な集団ダイナミクスを特徴付け、分野をまたがって神経にインスパイアされたソリューションを構築するのに役立つ。 スパイクニューラルネットワークのほとんどの力学系のモデルでは、2つの主要な相互作用の1つが示される: まず、入力パルス信号(スパイクス)に対するニューロンの状態変数の応答は、現在の状態から独立している可能性がある。 第2に、応答は現在のニューロンの状態に依存し、状態変数の関数を乗算することができる。 ここでは,加法的結合を伴うスパイクニューラルネットワークモデルと乗法結合を持つモデルが等価であることを明らかにする。 その結果、同じ集団力学は状態依存の乗法と定数(状態非依存)加法的結合によって達成できる。 このようなマッピングは、異なるタイプの相互作用機構を持つスパイキングニューラルネットワークモデル間の理論的洞察の伝達を可能にすると同時に、よりシンプルで効率的なエンジニアリング応用を可能にする。

Spiking neural network models characterize the emergent collective dynamics of circuits of biological neurons and help engineer neuro-inspired solutions across fields. Most dynamical systems' models of spiking neural networks typically exhibit one of two major types of interactions: First, the response of a neuron's state variable to incoming pulse signals (spikes) may be additive and independent of its current state. Second, the response may depend on the current neuron's state and multiply a function of the state variable. Here we reveal that spiking neural network models with additive coupling are equivalent to models with multiplicative coupling for simultaneously modified intrinsic neuron time evolution. As a consequence, the same collective dynamics can be attained by state-dependent multiplicative and constant (state-independent) additive coupling. Such a mapping enables the transfer of theoretical insights between spiking neural network models with different types of interaction mechanisms as well as simpler and more effective engineering applications.
翻訳日:2023-04-04 19:49:59 公開日:2023-03-31
# 自然言語処理による臨床物語からのデリリウムの症状の同定

Identifying Symptoms of Delirium from Clinical Narratives Using Natural Language Processing ( http://arxiv.org/abs/2304.00111v1 )

ライセンス: Link先を確認
Aokun Chen, Daniel Paredes, Zehao Yu, Xiwei Lou, Roberta Brunson, Jamie N. Thomas, Kimberly A. Martinez, Robert J. Lucero, Tanja Magoc, Laurence M. Solberg, Urszula A. Snigurska, Sarah E. Ser, Mattia Prosperi, Jiang Bian, Ragnhildur I. Bjarnadottir, Yonghui Wu(参考訳) デリリウムは注意、意識、その他の認知機能の急激な低下または変動であり、深刻な有害な結果をもたらす可能性がある。 重篤な結果にもかかわらず、デリリウムは過渡的で多様な性質のため、患者の電子健康記録(EHR)に認識されず、コード化されていないことが多い。 臨床物語から医療概念を抽出する重要な技術である自然言語処理(NLP)は、デリリウムの結果や症状の研究において大きな可能性を示している。 デリリウムの診断・表現の補助として,各種のデリリウム症状の分類,ガイドラインの作成,多彩なデリリウム症状を呈するデリリウムコーパスの作成,臨床ノートからデリリウム症状を抽出するためのNLP法の開発などを行った。 一般領域の2モデル(BERT,RoBERTa)と臨床領域の3モデル(BERT_MIMIC,RoBERTa_MIMIC,GatorTron)を含む5種類の最先端トランスモデルを比較検討した。 GatorTronは、それぞれ0.8055と0.8759の厳格かつ寛大なF1スコアを達成した。 虫垂症状を指摘しnlpシステムを開発する際の課題を特定するために,エラー分析を行った。 我々の知る限りでは、これは最初の大規模言語モデルに基づくデリリウム症状抽出システムである。 本研究は,デリリウムの計算可能な表現型および診断法の開発に向けた基礎となるものである。

Delirium is an acute decline or fluctuation in attention, awareness, or other cognitive function that can lead to serious adverse outcomes. Despite the severe outcomes, delirium is frequently unrecognized and uncoded in patients' electronic health records (EHRs) due to its transient and diverse nature. Natural language processing (NLP), a key technology that extracts medical concepts from clinical narratives, has shown great potential in studies of delirium outcomes and symptoms. To assist in the diagnosis and phenotyping of delirium, we formed an expert panel to categorize diverse delirium symptoms, composed annotation guidelines, created a delirium corpus with diverse delirium symptoms, and developed NLP methods to extract delirium symptoms from clinical notes. We compared 5 state-of-the-art transformer models including 2 models (BERT and RoBERTa) from the general domain and 3 models (BERT_MIMIC, RoBERTa_MIMIC, and GatorTron) from the clinical domain. GatorTron achieved the best strict and lenient F1 scores of 0.8055 and 0.8759, respectively. We conducted an error analysis to identify challenges in annotating delirium symptoms and developing NLP systems. To the best of our knowledge, this is the first large language model-based delirium symptom extraction system. Our study lays the foundation for the future development of computable phenotypes and diagnosis methods for delirium.
翻訳日:2023-04-04 19:49:43 公開日:2023-03-31
# コヒーレント状態を持つ線形光回路の学習

Learning linear optical circuits with coherent states ( http://arxiv.org/abs/2304.00107v1 )

ライセンス: Link先を確認
T. J. Volkoff and Andrew T. Sornborger(参考訳) 本研究では,コヒーレント状態に対する回路の動作のみから定義される経験的リスクを最小化することにより,m$-modeリニア光回路の教師付き学習のためのエネルギーおよびトレーニングデータ要件を分析する。 線形光回路が未知モードの$k<M$のみに非自明に作用する場合(すなわち、線形光回路の$k$-junta)、エネルギー効率が高く適応的なアルゴリズムでジャンタ集合を識別し回路を学習する。 総エネルギーを学習アルゴリズムに割り当てるための2つのスキーム($e$)を比較した。 最初のスキームでは、ランダムなトレーニングコヒーレントな状態のそれぞれがエネルギー$E/T$を持つ。 第二のスキームでは、1つのランダムな$MT$-modeコヒーレント状態とエネルギー$E$は、トレーニングコヒーレント状態に分割される。 後者のスキームは、$(2mt-1)$-球面上の測度の集中により、経験的リスクを全リスクに収束させるのに十分なトレーニングデータサイズにおける多項式優位を示す。 具体的には、両方のスキームの一般化境界が証明され、第一(第二)スキームにおける$o(e^{1/2}m)$訓練状態(o(e^{1/3}m^{1/3})の十分性を示す。

We analyze the energy and training data requirements for supervised learning of an $M$-mode linear optical circuit by minimizing an empirical risk defined solely from the action of the circuit on coherent states. When the linear optical circuit acts non-trivially only on $k<M$ unknown modes (i.e., a linear optical $k$-junta), we provide an energy-efficient, adaptive algorithm that identifies the junta set and learns the circuit. We compare two schemes for allocating a total energy, $E$, to the learning algorithm. In the first scheme, each of the $T$ random training coherent states has energy $E/T$. In the second scheme, a single random $MT$-mode coherent state with energy $E$ is partitioned into $T$ training coherent states. The latter scheme exhibits a polynomial advantage in training data size sufficient for convergence of the empirical risk to the full risk due to concentration of measure on the $(2MT-1)$-sphere. Specifically, generalization bounds for both schemes are proven, which indicate the sufficiency of $O(E^{1/2}M)$ training states ($O(E^{1/3}M^{1/3})$ training states) in the first (second) scheme.
翻訳日:2023-04-04 19:49:21 公開日:2023-03-31
# Deep Factor Model:運動補償多次元MRIの新しいアプローチ

Deep Factor Model: A Novel Approach for Motion Compensated Multi-Dimensional MRI ( http://arxiv.org/abs/2304.00102v1 )

ライセンス: Link先を確認
Yan Chen, James H. Holmes, Curtis Corum, Vincent Magnotta, Mathews Jacob(参考訳) MRフィンガープリント(MRF)を含む最近の定量的パラメータマッピング手法は、磁化の進化を捉えた時系列画像を収集している。 この研究の焦点は、マルチコントラスト画像時系列の効率的な表現を提供するDeep Factor Model(DFM)と呼ばれる新しいアプローチを導入することである。 この表現の効率が高ければ、高度にアンサンプリングされた方法で画像を取得することが可能となり、3次元高分解能マルチコントラストアプリケーションではスキャン時間を短縮できる。 このアプローチは、動作推定と補償を統合し、スキャン中の対象の動きに対して堅牢なアプローチとなる。

Recent quantitative parameter mapping methods including MR fingerprinting (MRF) collect a time series of images that capture the evolution of magnetization. The focus of this work is to introduce a novel approach termed as Deep Factor Model(DFM), which offers an efficient representation of the multi-contrast image time series. The higher efficiency of the representation enables the acquisition of the images in a highly undersampled fashion, which translates to reduced scan time in 3D high-resolution multi-contrast applications. The approach integrates motion estimation and compensation, making the approach robust to subject motion during the scan.
翻訳日:2023-04-04 19:49:01 公開日:2023-03-31
# SuperDisco: ロングテールの視覚認識を改善するスーパークラスディスカバリ

SuperDisco: Super-Class Discovery Improves Visual Recognition for the Long-Tail ( http://arxiv.org/abs/2304.00101v1 )

ライセンス: Link先を確認
Yingjun Du, Jiayi Shen, Xiantong Zhen, Cees G. M. Snoek(参考訳) 現代の画像分類器は人口密度の高いクラスではよく機能するが、テールクラスでは少数のインスタンスで大幅に劣化する。 対照的に人間は、異なる意味的抽象化のレベルに基づいてテール表現を学習できるため、ロングテールの認識課題を無力に処理し、学習されたテールはより識別的になる。 この現象は,グラフモデルを用いて長期認識のための超クラス表現を発見するアルゴリズムであるSuperDiscoを提案する動機となった。 我々は,長期分布を扱うための表現学習を指導するために,超クラスグラフを構築することを学ぶ。 スーパークラスグラフ上のメッセージパッシングを通じて、イメージ表現は、スーパークラス間の意味的類似性に基づいて、最も関連するエンティティに出席することによって、修正され、洗練される。 さらに,少数の不均衡データから構築したプロトタイプグラフの監督下で,スーパークラスグラフをメタ学習する手法を提案する。 これにより、より堅牢な超クラスグラフが得られ、長鎖認識性能がさらに向上する。 CIFAR-100、ImageNet、Places、iNaturalistの長い尾の分布を扱うための超クラスグラフの利点を実証する。

Modern image classifiers perform well on populated classes, while degrading considerably on tail classes with only a few instances. Humans, by contrast, effortlessly handle the long-tailed recognition challenge, since they can learn the tail representation based on different levels of semantic abstraction, making the learned tail features more discriminative. This phenomenon motivated us to propose SuperDisco, an algorithm that discovers super-class representations for long-tailed recognition using a graph model. We learn to construct the super-class graph to guide the representation learning to deal with long-tailed distributions. Through message passing on the super-class graph, image representations are rectified and refined by attending to the most relevant entities based on the semantic similarity among their super-classes. Moreover, we propose to meta-learn the super-class graph under the supervision of a prototype graph constructed from a small amount of imbalanced data. By doing so, we obtain a more robust super-class graph that further improves the long-tailed recognition performance. The consistent state-of-the-art experiments on the long-tailed CIFAR-100, ImageNet, Places and iNaturalist demonstrate the benefit of the discovered super-class graph for dealing with long-tailed distributions.
翻訳日:2023-04-04 19:48:51 公開日:2023-03-31
# 多位原子配列におけるディッケ超放射能

Dicke superradiance in ordered arrays of multilevel atoms ( http://arxiv.org/abs/2304.00093v1 )

ライセンス: Link先を確認
Stuart J. Masson, Jacob P. Covey, Sebastian Will, Ana Asenjo-Garcia(参考訳) 完全に反転した原子アンサンブルでは、光子を介する相互作用は多体崩壊の形で、光子バーストとしてエネルギーが急速に放出される。 元々は点のようなアンサンブルで研究されていたが、粒子間距離が一定の境界以下であれば、この現象は拡張順序系で継続する。 本研究では,ストロンチウムやイッテルビウムなどのアルカリ土類(類似)原子の規則配列を用いて,現実的な実験環境でのディッケ超放射能を調べる。 このような原子は、内部構造が強い長波長遷移に比べて短い原子間距離でトラッピングする可能性があり、強い集団的相互作用の可能性をもたらすため、光間相互作用のエキサイティングな新しい機会を提供する。 その複雑な電子構造にもかかわらず、これらの原子種の2次元配列は、達成可能な格子定数の多体超放射を示すべきである。 さらに、マルチレベル原子がより2レベルになるような「クローズ」遷移を効果的に行う。 これは、雪崩のような崩壊がほとんどの光子の放出を支配的な遷移へと漏らし、その微細構造とゼーマン分岐によって引き起こされる単原子崩壊比を克服するためである。 我々の研究はアルカリ-希土類原子を量子光学源として利用し、核分裂生成物として利用するための重要なステップである。

In fully-inverted atomic ensembles, photon-mediated interactions give rise to Dicke superradiance, a form of many-body decay that results in a rapid release of energy as a photon burst. While originally studied in point-like ensembles, this phenomenon persists in extended ordered systems if the inter-particle distance is below a certain bound. Here, we investigate Dicke superradiance in a realistic experimental setting using ordered arrays of alkaline earth(-like) atoms, such as strontium and ytterbium. Such atoms offer exciting new opportunities for light-matter interaction as their internal structure offers the possibility of trapping at short interatomic distances compared to their strong long-wavelength transitions, providing the potential for strong collectively modified interactions. Despite their intricate electronic structure, we show that two-dimensional arrays of these atomic species should exhibit many-body superradiance for achievable lattice constants. Moreover, superradiance effectively ''closes'' transitions, such that multilevel atoms become more two-level like. This occurs because the avalanche-like decay funnels the emission of most photons into the dominant transition, overcoming the single-atom decay ratios dictated by their fine structure and Zeeman branching. Our work represents an important step in harnessing alkaline-earth atoms as quantum optical sources and as dissipative generators of entanglement.
翻訳日:2023-04-04 19:48:29 公開日:2023-03-31
# dynamopmu:$\mu$pmu測定データからの非線形ダイナミクスを用いた物理情報に基づく異常検出と予測手法

DynamoPMU: A Physics Informed Anomaly Detection and Prediction Methodology using non-linear dynamics from $\mu$PMU Measurement Data ( http://arxiv.org/abs/2304.00092v1 )

ライセンス: Link先を確認
Divyanshi Dwivedi, Pradeep Kumar Yemula, Mayukha Pal(参考訳) テクノロジーの拡大と多数のセンサーの到達性は、大量のリアルタイムストリーミングデータをもたらした。 配電系統におけるリアルタイムデータは、状況認識を提供する各種イベントシグネチャからなる高分解能ファサー計測を報告し、配電系統の視認性を高めるために、$\mu$PMUと呼ばれる分布レベルのファザー測定ユニットを介して収集される。 これらの事象はまれであり、未スケジュールであり、不確実であり、そのような事象の発生を精査し、検出し、予測することは困難である。 電気流通システムでは、イベントの複素、非線形、および非定常なシグネチャパターンを記述する進化関数を明示的に識別することが困難である。 本稿では, 物理力学に基づく解析手法を考案し, ストリームデータである\mu$pmuの異常を検知し, 制御方程式を用いて事象を同時予測する手法を提案する。 dynamopmu と呼ばれる koopman (havok) 演算子のハンケルの代替的視点に基づくデータ駆動アプローチを提案し,線形固有空間で表現することで,分散システムの基盤となるダイナミクスを分析する。 提案手法は,線形動的動作パターンと間欠的強制(異常事象)を逐次データに分離し,異常検出と同時データ予測に非常に有用であることが判明した。 提案手法の有効性をLBNL分散グリッドから取得した実$\mu$PMUデータの解析により実証する。 DynamoPMUは、リアルタイムイベント検出や教師なしの予測に適しており、様々な統計に適応する。

The expansion in technology and attainability of a large number of sensors has led to a huge amount of real-time streaming data. The real-time data in the electrical distribution system is collected through distribution-level phasor measurement units referred to as $\mu$PMU which report high-resolution phasor measurements comprising various event signatures which provide situational awareness and enable a level of visibility into the distribution system. These events are infrequent, unschedule, and uncertain; it is a challenge to scrutinize, detect and predict the occurrence of such events. For electrical distribution systems, it is challenging to explicitly identify evolution functions that describe the complex, non-linear, and non-stationary signature patterns of events. In this paper, we seek to address this problem by developing a physics dynamics-based approach to detect anomalies in the $\mu$PMU streaming data and simultaneously predict the events using governing equations. We propose a data-driven approach based on the Hankel alternative view of the Koopman (HAVOK) operator, called DynamoPMU, to analyze the underlying dynamics of the distribution system by representing them in a linear intrinsic space. The key technical idea is that the proposed method separates out the linear dynamical behaviour pattern and intermittent forcing (anomalous events) in sequential data which turns out to be very useful for anomaly detection and simultaneous data prediction. We demonstrate the efficacy of our proposed framework through analysis of real $\mu$PMU data taken from the LBNL distribution grid. DynamoPMU is suitable for real-time event detection as well as prediction in an unsupervised way and adapts to varying statistics.
翻訳日:2023-04-04 19:48:03 公開日:2023-03-31
# 経済学研究のための機械学習: いつどのように?

Machine Learning for Economics Research: When What and How? ( http://arxiv.org/abs/2304.00086v1 )

ライセンス: Link先を確認
Ajit Desai(参考訳) 本稿では、機械学習(ML)ツールを研究・政策分析に用いた、著名な経済誌に掲載された論文のキュレートされたレビューを提供する。 本レビューでは,1)MLが経済学で使用される場合,(2)MLモデルが一般的に好まれるか,(3)経済的応用にどのように使用されるか,という3つの重要な疑問に焦点をあてる。 レビューでは、mlが特に非伝統的で非構造化データの処理、強い非線形性のキャプチャ、予測精度の向上に使われていることを強調する。 ディープラーニングモデルは非伝統的なデータに適しているが、アンサンブル学習モデルは伝統的なデータセットに好まれる。 従来のエコノメトリモデルは、低複雑さのデータを分析するのに十分であるが、急速なデジタル化と増大する文献により、経済データの複雑さが増し、MLがエコノメトリアンのツールボックスに必須の付加物になりつつあることが示唆されている。

This article provides a curated review of selected papers published in prominent economics journals that use machine learning (ML) tools for research and policy analysis. The review focuses on three key questions: (1) when ML is used in economics, (2) what ML models are commonly preferred, and (3) how they are used for economic applications. The review highlights that ML is particularly used in processing nontraditional and unstructured data, capturing strong nonlinearity, and improving prediction accuracy. Deep learning models are suitable for nontraditional data, whereas ensemble learning models are preferred for traditional datasets. While traditional econometric models may suffice for analyzing low-complexity data, the increasing complexity of economic data due to rapid digitalization and the growing literature suggest that ML is becoming an essential addition to the econometrician's toolbox.
翻訳日:2023-04-04 19:47:33 公開日:2023-03-31
# Fides: TEEによるアウトソース機械学習ワークロードの結果検証のための生成フレームワーク

Fides: A Generative Framework for Result Validation of Outsourced Machine Learning Workloads via TEE ( http://arxiv.org/abs/2304.00083v1 )

ライセンス: Link先を確認
Abhinav Kumar, Miguel A. Guirao Aguilera, Reza Tourani, Satyajayant Misra(参考訳) 機械学習(ML)の人気が高まり、さまざまなセンシティブなドメインにデプロイされるようになり、MLのセキュリティとプライバシを重視した大きな研究がもたらされた。 しかし、自動運転など一部のアプリケーションでは、アウトソースされたMLワークロードの整合性検証はより重要であり、あまり注目を集めていない。 マルチパーティ計算や証明ベースシステムといった既存のソリューションは、計算オーバーヘッドがかなり大きいため、リアルタイムアプリケーションには適さない。 我々は、アウトソースされたMLワークロードのリアルタイム検証のための新しいフレームワークであるFidesを提案する。 信頼された実行環境内で実行しながら、対応するサービスモデルを検証するための空間と計算効率の検証モデルを動的に蒸留し、微調整する。 fideは、統計分析と分岐測定を使用して、サービスモデルが攻撃されている場合に高い確率で識別するクライアント側の攻撃検出モデルを備えている。 Fidesはまた、攻撃が特定されるたびに元のクラスを予測する再分類機能を提供する。 攻撃検出と再分類モデルの訓練のための生成的逆ネットワークフレームワークを考案した。 広範な評価の結果,fideは攻撃検出で最大98%,再分類で94%の精度を達成した。

The growing popularity of Machine Learning (ML) has led to its deployment in various sensitive domains, which has resulted in significant research focused on ML security and privacy. However, in some applications, such as autonomous driving, integrity verification of the outsourced ML workload is more critical-a facet that has not received much attention. Existing solutions, such as multi-party computation and proof-based systems, impose significant computation overhead, which makes them unfit for real-time applications. We propose Fides, a novel framework for real-time validation of outsourced ML workloads. Fides features a novel and efficient distillation technique-Greedy Distillation Transfer Learning-that dynamically distills and fine-tunes a space and compute-efficient verification model for verifying the corresponding service model while running inside a trusted execution environment. Fides features a client-side attack detection model that uses statistical analysis and divergence measurements to identify, with a high likelihood, if the service model is under attack. Fides also offers a re-classification functionality that predicts the original class whenever an attack is identified. We devised a generative adversarial network framework for training the attack detection and re-classification models. The extensive evaluation shows that Fides achieves an accuracy of up to 98% for attack detection and 94% for re-classification.
翻訳日:2023-04-04 19:47:16 公開日:2023-03-31
# 粒子系流体力学のためのE($3$)同変グラフニューラルネットワーク

E($3$) Equivariant Graph Neural Networks for Particle-Based Fluid Mechanics ( http://arxiv.org/abs/2304.00150v1 )

ライセンス: Link先を確認
Artur P. Toshev, Gianluca Galletti, Johannes Brandstetter, Stefan Adami and Nikolaus A. Adams(参考訳) 我々は、同変グラフニューラルネットワークが、非同変グラフよりも正確な動的相互作用モデルを学習できる可能性を実証することで、エンジニアリングシステムにおける機械学習の領域を大いに発展させています。 我々は、テイラー・グリーン渦と3次元逆ポアゼイユ流の2つのよく研究された流体流れ系をベンチマークし、運動エネルギーやシンクホーン距離などの異なる性能尺度で等変グラフニューラルネットワークと比較した。 このような測度は、典型的には数値解法を検証するために工学で用いられる。 主な発見は、トレーニングや評価がかなり遅いが、同変モデルがより物理的に正確な相互作用を学ぶことだ。 これは、乱流の粗粒モデルへの将来の作業の機会を示し、システムのダイナミクスとパラメータをまたいだ一般化を示す。

We contribute to the vastly growing field of machine learning for engineering systems by demonstrating that equivariant graph neural networks have the potential to learn more accurate dynamic-interaction models than their non-equivariant counterparts. We benchmark two well-studied fluid flow systems, namely the 3D decaying Taylor-Green vortex and the 3D reverse Poiseuille flow, and compare equivariant graph neural networks to their non-equivariant counterparts on different performance measures, such as kinetic energy or Sinkhorn distance. Such measures are typically used in engineering to validate numerical solvers. Our main findings are that while being rather slow to train and evaluate, equivariant models learn more physically accurate interactions. This indicates opportunities for future work towards coarse-grained models for turbulent flows, and generalization across system dynamics and parameters.
翻訳日:2023-04-04 19:41:50 公開日:2023-03-31
# 物理系のシミュレーションにおけるグラフニューラルネットワークと古典的数値法の関係について

On the Relationships between Graph Neural Networks for the Simulation of Physical Systems and Classical Numerical Methods ( http://arxiv.org/abs/2304.00146v1 )

ライセンス: Link先を確認
Artur P. Toshev, Ludger Paehler, Andrea Panizza and Nikolaus A. Adams(参考訳) 物理システムのモデリングにおける機械学習手法の最近の発展は、計算科学における数値的手法の過去の発展を反映し始めている。 本稿では,物理シミュレーションのためのグラフニューラルネットワーク・アクセラレーションの開発トラジェクタと粒子ベースアプローチとの並列性を用いて,その例を示す。 そして、現在最先端の機械学習手法への道がまだ見つかっていないシミュレーションアプローチの概要を説明し、機械学習アプローチをより正確かつ効率的にする可能性を秘めている。 結論として,これらのアプローチが理科の機械学習モデルをより効率的にするための可能性について概観する。

Recent developments in Machine Learning approaches for modelling physical systems have begun to mirror the past development of numerical methods in the computational sciences. In this survey, we begin by providing an example of this with the parallels between the development trajectories of graph neural network acceleration for physical simulations and particle-based approaches. We then give an overview of simulation approaches, which have not yet found their way into state-of-the-art Machine Learning methods and hold the potential to make Machine Learning approaches more accurate and more efficient. We conclude by presenting an outlook on the potential of these approaches for making Machine Learning models for science more efficient.
翻訳日:2023-04-04 19:41:34 公開日:2023-03-31
# 方向接続に基づく医用画像のセグメンテーション

Directional Connectivity-based Segmentation of Medical Images ( http://arxiv.org/abs/2304.00145v1 )

ライセンス: Link先を確認
Ziyun Yang and Sina Farsiu(参考訳) バイオマーカーセグメンテーションにおける解剖学的整合性は多くの医療画像解析タスクにおいて重要である。 深層ネットワークによる解剖学的一貫したセグメンテーションを実現するための有望なパラダイムは、ピクセル間の関係をモデル化するために、デジタルトポロジの基本概念であるピクセル接続を取り入れることである。 しかし、接続性モデリングに関するこれまでの研究は、潜伏空間におけるチャネル指向の豊富な情報を無視してきた。 本研究では,共有潜在空間からの指向性部分空間の効果的な分離が,接続性に基づくネットワークにおける特徴表現を著しく向上できることを実証する。 そこで本研究では,ネットワーク上の方向情報を分離し,追跡し,活用するセグメント化のための方向接続モデリング手法を提案する。 各種医用画像セグメンテーションのベンチマーク実験により, 現状の手法と比較して, モデルの有効性が示された。 コードはhttps://github.com/Zyun-Y/DconnNetで入手できる。

Anatomical consistency in biomarker segmentation is crucial for many medical image analysis tasks. A promising paradigm for achieving anatomically consistent segmentation via deep networks is incorporating pixel connectivity, a basic concept in digital topology, to model inter-pixel relationships. However, previous works on connectivity modeling have ignored the rich channel-wise directional information in the latent space. In this work, we demonstrate that effective disentanglement of directional sub-space from the shared latent space can significantly enhance the feature representation in the connectivity-based network. To this end, we propose a directional connectivity modeling scheme for segmentation that decouples, tracks, and utilizes the directional information across the network. Experiments on various public medical image segmentation benchmarks show the effectiveness of our model as compared to the state-of-the-art methods. Code is available at https://github.com/Zyun-Y/DconnNet.
翻訳日:2023-04-04 19:41:26 公開日:2023-03-31
# 量子ドットマイクロピラー単一光子源の直接書き込み投影リソグラフィー

Direct-write projection lithography of quantum dot micropillar single photon sources ( http://arxiv.org/abs/2304.00141v1 )

ライセンス: Link先を確認
Petros Androvitsaneas, Rachel N. Clark, Matthew Jordan, Tomas Peach, Stuart Thomas, Saleem Shabbir, Angela D. Sobiesierski, Aristotelis Trapalis, Ian A. Farrer, Wolfgang W. Langbein, Anthony J. Bennett(参考訳) 我々は直接書き込みリソグラフィを用いた量子ドットマイクロピラーキャビティの量産法を開発した。 この技術により, 縦横壁を有する高アスペクト比柱の高容積パターン化が可能となり, 直径2.0$\mu$m未満の高品質係数を維持できる。 酸化物の薄い層(Ta$_2$O$_5$)にキャビティをカプセル化すると、大気中の酸化が防止され、環境暴露から数ヶ月にわたってキャビティの光学的特性が保たれる。 キャビティ内の1つのドットは決定論的に励起され、干渉視認性が(96.2\pm0.7)\%$の高純度単光子を生成する。

We have developed a process to mass-produce quantum dot micropillar cavities using direct-write lithography. This technique allows us to achieve high volume patterning of high aspect ratio pillars with vertical, smooth sidewalls maintaining a high quality factor for diameters below 2.0 $\mu$m. Encapsulating the cavities in a thin layer of oxide (Ta$_2$O$_5$) prevents oxidation in the atmosphere, preserving the optical properties of the cavity over months of ambient exposure. We confirm that single dots in the cavities can be deterministically excited to create high purity indistinguishable single photons with interference visibility $(96.2\pm0.7)\%$.
翻訳日:2023-04-04 19:41:13 公開日:2023-03-31
# apoe状態, tau沈着量, 海馬表面形態計測を統合した表面型フェデレートチョウ試験モデル

A Surface-Based Federated Chow Test Model for Integrating APOE Status, Tau Deposition Measure, and Hippocampal Surface Morphometry ( http://arxiv.org/abs/2304.00134v1 )

ライセンス: Link先を確認
Jianfeng Wu, Yi Su, Yanxi Chen, Wenhui Zhu, Eric M. Reiman, Richard J. Caselli, Kewei Chen, Paul M. Thompson, Junwen Wang, Yalin Wang (for the Alzheimer's Disease Neuroimaging Initiative)(参考訳) 背景:アルツハイマー病(AD)が最も一般的な年齢関連認知症であり、CDCのデータによると65歳以上の6200万人に影響を及ぼす。 有効なAD診断バイオマーカーの発見は公衆衛生上の大きな利益をもたらす可能性があり、認知症患者の最大40%を予防または遅延させることが一般的である。 Tau neurofibrillary tanglesは、ADの下流神経変性とその後の認知障害の主要な要因であり、MRIスキャンで観察できる海馬萎縮などの構造的変形をもたらす。 目的:表面モデルを構築する 1)タウ沈着パターンと海馬萎縮パターンにおけるAPOEサブグループの違いを検出し, 2) 表面的特徴を抽出し, 認知低下を予測する。 方法: 異なる施設から得られたデータを用いて, 海馬表面形態計測におけるadおよびtauの有意な危険因子であるapoeの相乗効果を研究するために, 表面ベースフェデレートチョウテストモデルを開発した。 結果: APOE に特異的な形態計測は AD の進行と相関し,他のMRI バイオマーカーよりも将来の AD 変換を予測できることが示唆された。 例えば、海馬の亜地域であるcornu ammonis 1 (CA1 subfield) と e4 homozygote cohort (e4 homozygote cohort) において、萎縮と異常タウの強い関連が同定された。 結論:本モデルでは,ADおよび認知低下予測のためのMRIバイオマーカーの同定が可能であり,APOEおよびタウ沈着が海馬形態に及ぼす影響の神経機構のコーナーを明らかにすることができる。

Background: Alzheimer's Disease (AD) is the most common type of age-related dementia, affecting 6.2 million people aged 65 or older according to CDC data. It is commonly agreed that discovering an effective AD diagnosis biomarker could have enormous public health benefits, potentially preventing or delaying up to 40% of dementia cases. Tau neurofibrillary tangles are the primary driver of downstream neurodegeneration and subsequent cognitive impairment in AD, resulting in structural deformations such as hippocampal atrophy that can be observed in magnetic resonance imaging (MRI) scans. Objective: To build a surface-based model to 1) detect differences between APOE subgroups in patterns of tau deposition and hippocampal atrophy, and 2) use the extracted surface-based features to predict cognitive decline. Methods: Using data obtained from different institutions, we develop a surface-based federated Chow test model to study the synergistic effects of APOE, a previously reported significant risk factor of AD, and tau on hippocampal surface morphometry. Results: We illustrate that the APOE-specific morphometry features correlate with AD progression and better predict future AD conversion than other MRI biomarkers. For example, a strong association between atrophy and abnormal tau was identified in hippocampal subregion cornu ammonis 1 (CA1 subfield) and subiculum in e4 homozygote cohort. Conclusion: Our model allows for identifying MRI biomarkers for AD and cognitive decline prediction and may uncover a corner of the neural mechanism of the influence of APOE and tau deposition on hippocampal morphology.
翻訳日:2023-04-04 19:41:01 公開日:2023-03-31
# deforestvis:surrogate decision stumpsを用いた機械学習モデルの行動分析

DeforestVis: Behavior Analysis of Machine Learning Models with Surrogate Decision Stumps ( http://arxiv.org/abs/2304.00133v1 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Rafael M. Martins, Alexandru C. Telea, Andreas Kerren(参考訳) 機械学習(ML)モデルの複雑さが増し、異なる(そして重要な)ドメインのアプリケーションが増加するにつれて、より解釈可能で信頼性の高いMLが強く求められている。 複雑なmlモデルを理解するための単純でモデルに依存しない方法の1つは、ルールセットや決定木といった、よりシンプルで説明しやすく、元のモデルに十分近似するサーロゲートモデルを訓練することである。 しかし、ルールセットは非常に長くなり、多くのif-else文があり、複雑なMLモデルを正確にエミュレートすると決定木深さが急速に増加する。 そのような場合、両方のアプローチはコア目標を達成できず、ユーザーにモデル解釈性を提供する。 我々は,adaptive boosting (adaboost) 技術を用いて生成されたサーロゲート決定スランプ (one-level decision tree) を提供することにより,複雑なmlモデルの振る舞いをユーザフレンドリに要約するビジュアル分析ツールであるdeforestvisを提案する。 私たちのソリューションは、より多くの切り株をインクリメンタルに生成し、決定を正当化するための重み付き切り株による属性ベースの説明を作成し、ルールオーバーライドが1つ以上の切り株間のトレーニングインスタンス割り当てに与える影響を分析することで、複雑さと忠実さのトレードオフを探索するのに役立つ。 独立したテストセットによって、ユーザは手動のルール変更の有効性を監視し、ケースバイケースの調査に基づいて仮説を形成することができる。 2つのユースケースでdeforestvisの適用可能性と有用性を示し,データアナリストとモデル開発者とのエキスパートインタビューを行った。

As the complexity of machine learning (ML) models increases and the applications in different (and critical) domains grow, there is a strong demand for more interpretable and trustworthy ML. One straightforward and model-agnostic way to interpret complex ML models is to train surrogate models, such as rule sets and decision trees, that sufficiently approximate the original ones while being simpler and easier-to-explain. Yet, rule sets can become very lengthy, with many if-else statements, and decision tree depth grows rapidly when accurately emulating complex ML models. In such cases, both approaches can fail to meet their core goal, providing users with model interpretability. We tackle this by proposing DeforestVis, a visual analytics tool that offers user-friendly summarization of the behavior of complex ML models by providing surrogate decision stumps (one-level decision trees) generated with the adaptive boosting (AdaBoost) technique. Our solution helps users to explore the complexity vs fidelity trade-off by incrementally generating more stumps, creating attribute-based explanations with weighted stumps to justify decision making, and analyzing the impact of rule overriding on training instance allocation between one or more stumps. An independent test set allows users to monitor the effectiveness of manual rule changes and form hypotheses based on case-by-case investigations. We show the applicability and usefulness of DeforestVis with two use cases and expert interviews with data analysts and model developers.
翻訳日:2023-04-04 19:40:09 公開日:2023-03-31
# ニュースキュレーションにおけるジャーナリストのワークフロー理解

Understanding Journalists' Workflows in News Curation ( http://arxiv.org/abs/2304.00132v1 )

ライセンス: Link先を確認
Shubham Atreja, Shruthi Srinath, Mohit Jain, Joyojeet Pal(参考訳) ニュース消費の源としてインターネットが支配的になるにつれて、個々のジャーナリストが編集したeメールニュースレターの生産と人気が高まっている。 しかし、集積の過程や、専門家のジャーナリストと訓練された機械の違いについての研究はほとんどない。 本稿では,世界中のニュースレターをキュレートするジャーナリストにインタビューを行った。 ジャーナリストのワークフローを深く理解することで、キュレーションプロセスに彼らがもたらした価値、ニュースレターのストーリーを見つけるためのアルゴリズムの使用、読者の興味とキュレーションのコンテキストの内部化において、彼らの以前の経験が果たす役割を明らかにした。 人間の専門知識の役割を特定する一方で、ハイブリッドキュレーションの重要性を強調し、テクノロジーがこれらの専門家の仕事をどのように支援できるかに関する設計洞察を提供する。

With the increasing dominance of the internet as a source of news consumption, there has been a rise in the production and popularity of email newsletters compiled by individual journalists. However, there is little research on the processes of aggregation, and how these differ between expert journalists and trained machines. In this paper, we interviewed journalists who curate newsletters from around the world. Through an in-depth understanding of journalists' workflows, our findings lay out the role of their prior experience in the value they bring into the curation process, their use of algorithms in finding stories for their newsletter, and their internalization of their readers' interests and the context they are curating for. While identifying the role of human expertise, we highlight the importance of hybrid curation and provide design insights on how technology can support the work of these experts.
翻訳日:2023-04-04 19:39:31 公開日:2023-03-31
# 書字における終末記述軌跡の復号化

Decoding the End-to-end Writing Trajectory in Scholarly Manuscripts ( http://arxiv.org/abs/2304.00121v1 )

ライセンス: Link先を確認
Ryan Koo, Anna Martin, Linghe Wang, Dongyeop Kang(参考訳) 学術的な執筆は、合理的に健全な構成と創造的な構成の両方を計画し生産するための方法論的な手順に従う複雑な空間を提示する。 大規模言語モデル(LLM)を含む最近の研究は、テキスト生成と修正作業でかなりの成功を収めているが、LLMは学術的な執筆に不可欠な文書レベルで構造的かつ創造的なフィードバックを提供することに苦慮している。 本稿では,意図,著作者行動,および記述データの情報タイプに応じて,学術的な記述行動の分類を行う新しい分類法を提案する。 ManuScriptも提供しています。これは、私たちの分類の単純化されたバージョンで注釈付けされたオリジナルのデータセットで、ライターのアクションとそれらの背後にある意図を示しています。 認知的ライティング理論に動機づけられ、科学論文の分類学は、一般的なライティングフローを追跡し、それぞれの高レベルなプロセスに埋め込まれた異なるライティングアクティビティを識別するために、3段階の分類を含む。 ManuScriptは、文章の行程の線形性と非線形性を捉えることによって、学術的な記述過程の完全な図面を提供しようとしている。 収集された書き込み軌跡はhttps://minnesotanlp.github.io/REWARD_demo/で見ることができる。

Scholarly writing presents a complex space that generally follows a methodical procedure to plan and produce both rationally sound and creative compositions. Recent works involving large language models (LLM) demonstrate considerable success in text generation and revision tasks; however, LLMs still struggle to provide structural and creative feedback on the document level that is crucial to academic writing. In this paper, we introduce a novel taxonomy that categorizes scholarly writing behaviors according to intention, writer actions, and the information types of the written data. We also provide ManuScript, an original dataset annotated with a simplified version of our taxonomy to show writer actions and the intentions behind them. Motivated by cognitive writing theory, our taxonomy for scientific papers includes three levels of categorization in order to trace the general writing flow and identify the distinct writer activities embedded within each higher-level process. ManuScript intends to provide a complete picture of the scholarly writing process by capturing the linearity and non-linearity of writing trajectory, such that writing assistants can provide stronger feedback and suggestions on an end-to-end level. The collected writing trajectories are viewed at https://minnesotanlp.github.io/REWARD_demo/
翻訳日:2023-04-04 19:39:17 公開日:2023-03-31
# 気候資源による大規模言語モデルの強化

Enhancing Large Language Models with Climate Resources ( http://arxiv.org/abs/2304.00116v1 )

ライセンス: Link先を確認
Mathias Kraus, Julia Anna Bingler, Markus Leippold, Tobias Schimanski, Chiara Colesanti Senni, Dominik Stammbach, Saeid Ashraf Vaghefi, Nicolas Webersinke(参考訳) 大規模言語モデル(LLM)は、さまざまなトピックにまたがる人間のようなテキストを生成する能力を示すことによって、人工知能の景観を大きく変えた。 しかし、その優れた能力にもかかわらず、llmは最近の情報に欠けており、気候変動のような正確さが重要である領域では有害な言語をしばしば採用している。 本研究では, 組織, 機関, 企業に関する最新の正確な情報を含むデータベースを含む複数のソースにアクセスするエージェントとして, LLMの潜在能力を活用すべく, 近年のアイデアを活用している。 本研究では,climatewatch (https://www.climatewatchdata.org/) から排出データを取得するプロトタイプエージェントを用いて,この手法の有効性を示す。 これらの資源をLCMと統合することにより、不正確な言語に関連する制約を克服し、気候変動の重要領域においてより信頼性と正確な情報を提供する。 この研究は、LLMの今後の進歩と、精度が最重要となる領域におけるそれらの応用の道を開くものである。

Large language models (LLMs) have significantly transformed the landscape of artificial intelligence by demonstrating their ability in generating human-like text across diverse topics. However, despite their impressive capabilities, LLMs lack recent information and often employ imprecise language, which can be detrimental in domains where accuracy is crucial, such as climate change. In this study, we make use of recent ideas to harness the potential of LLMs by viewing them as agents that access multiple sources, including databases containing recent and precise information about organizations, institutions, and companies. We demonstrate the effectiveness of our method through a prototype agent that retrieves emission data from ClimateWatch (https://www.climatewatchdata.org/) and leverages general Google search. By integrating these resources with LLMs, our approach overcomes the limitations associated with imprecise language and delivers more reliable and accurate information in the critical domain of climate change. This work paves the way for future advancements in LLMs and their application in domains where precision is of paramount importance.
翻訳日:2023-04-04 19:38:54 公開日:2023-03-31
# 変圧器を用いた自然言語処理法による超音波による甲状腺結節の抽出

Extracting Thyroid Nodules Characteristics from Ultrasound Reports Using Transformer-based Natural Language Processing Methods ( http://arxiv.org/abs/2304.00115v1 )

ライセンス: Link先を確認
Aman Pathak, Zehao Yu, Daniel Paredes, Elio Paul Monsour, Andrea Ortiz Rocha, Juan P. Brito, Naykky Singh Ospina, Yonghui Wu(参考訳) 甲状腺結節の超音波学的特徴は甲状腺結節患者の甲状腺癌の評価を導く。 しかし, 甲状腺結節の特徴は, 超音波検査などの臨床報告にしばしば記録されている。 これまで,ルールベースNLPシステムを用いて,限られた特徴(9)を抽出する自然言語処理(NLP)手法について検討してきた。 本研究では,NLPの専門家と甲状腺専門医の多部門チームが臨床治療に重要な甲状腺結節の特徴を同定し,ガイドラインを作成し,コーパスを開発し,超音波検査から甲状腺結節の特徴を抽出するために,BERT,RoBERTa,LongFormer,DeBERTa,GatorTronを含む5つの最先端トランスフォーマーベースのNLP法を比較した。 我々のGatorTronモデルは、90億語以上のテキストを用いて訓練されたトランスフォーマーベース大言語モデルで、16個の甲状腺結節の特徴を抽出するための厳密かつ寛大なF1スコア0.8851と0.9495と、他の臨床トランスフォーマーモデルよりも優れた0.9321を実現した。 本研究は, 超音波検査から甲状腺結節の特徴を抽出するために, トランスフォーマーを用いたNLPモデルを系統的に分類し, 適用した最初の研究である。 本研究は, 甲状腺超音波検査の文書品質評価と, 電子健康記録を用いた甲状腺結節症例の予後調査の基礎となる。

The ultrasound characteristics of thyroid nodules guide the evaluation of thyroid cancer in patients with thyroid nodules. However, the characteristics of thyroid nodules are often documented in clinical narratives such as ultrasound reports. Previous studies have examined natural language processing (NLP) methods in extracting a limited number of characteristics (<9) using rule-based NLP systems. In this study, a multidisciplinary team of NLP experts and thyroid specialists, identified thyroid nodule characteristics that are important for clinical care, composed annotation guidelines, developed a corpus, and compared 5 state-of-the-art transformer-based NLP methods, including BERT, RoBERTa, LongFormer, DeBERTa, and GatorTron, for extraction of thyroid nodule characteristics from ultrasound reports. Our GatorTron model, a transformer-based large language model trained using over 90 billion words of text, achieved the best strict and lenient F1-score of 0.8851 and 0.9495 for the extraction of a total number of 16 thyroid nodule characteristics, and 0.9321 for linking characteristics to nodules, outperforming other clinical transformer models. To the best of our knowledge, this is the first study to systematically categorize and apply transformer-based NLP models to extract a large number of clinical relevant thyroid nodule characteristics from ultrasound reports. This study lays ground for assessing the documentation quality of thyroid ultrasound reports and examining outcomes of patients with thyroid nodules using electronic health records.
翻訳日:2023-04-04 19:38:36 公開日:2023-03-31
# FCC:対話システムにおける会話履歴と文脈応答ランキングの候補

FCC: Fusing Conversation History and Candidate Provenance for Contextual Response Ranking in Dialogue Systems ( http://arxiv.org/abs/2304.00180v1 )

ライセンス: Link先を確認
Zihao Wang, Eugene Agichtein and Jinho Choi(参考訳) 対話における応答ランキングは,検索に基づく会話システムにおいて重要な役割を果たす。 会話の要点を捉えるマルチターン対話において、文脈情報は、この目標を達成する上で不可欠な知識となる。 本稿では,複数のチャネルからの文脈情報を統合可能なフレキシブルニューラルネットワークを提案する。 具体的には,提案手法は,候補回答のキュレーションを行うCandidate provenance (FCC) から抽出した,会話履歴とドメイン知識の2つの情報チャネルを,コンテキスト情報として並列に提供し,マルチターン対話応答ランキングの性能を向上させる。 提案されたアプローチは、他のコンテキスト指向タスクに雑多なコンテキスト機能を組み込むモジュールとして一般化することができる。 会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルを評価する。 実験の結果,我々のフレームワークは従来の最先端モデルを大きく上回り,recall@1を7%,mapを4%改善した。 さらに,各情報チャネル,およびフレームワークコンポーネントの全体的なランキング性能に対する貢献度を評価するため,アブレーション研究を行い,さらなる改善のための洞察と指示を提供する。

Response ranking in dialogues plays a crucial role in retrieval-based conversational systems. In a multi-turn dialogue, to capture the gist of a conversation, contextual information serves as essential knowledge to achieve this goal. In this paper, we present a flexible neural framework that can integrate contextual information from multiple channels. Specifically for the current task, our approach is to provide two information channels in parallel, Fusing Conversation history and domain knowledge extracted from Candidate provenance (FCC), where candidate responses are curated, as contextual information to improve the performance of multi-turn dialogue response ranking. The proposed approach can be generalized as a module to incorporate miscellaneous contextual features for other context-oriented tasks. We evaluate our model on the MSDialog dataset widely used for evaluating conversational response ranking tasks. Our experimental results show that our framework significantly outperforms the previous state-of-the-art models, improving Recall@1 by 7% and MAP by 4%. Furthermore, we conduct ablation studies to evaluate the contributions of each information channel, and of the framework components, to the overall ranking performance, providing additional insights and directions for further improvements.
翻訳日:2023-04-04 19:31:49 公開日:2023-03-31
# 心臓射出分画推定のための階層的視覚変換器

Hierarchical Vision Transformers for Cardiac Ejection Fraction Estimation ( http://arxiv.org/abs/2304.00177v1 )

ライセンス: Link先を確認
Lhuqita Fazry, Asep Haryono, Nuzulul Khairu Nissa, Sunarno, Naufal Muhammad Hirzi, Muhammad Febrian Rachmadi, Wisnu Jatmiko(参考訳) 左心室流出分画は心機能の最も重要な指標の1つである。 心臓科医が生命維持療法を受ける患者を特定するために用いられる。 しかし、射出率の評価はオブザーバ間の変動に苦しむ。 この課題を克服するために,階層型視覚変換器に基づく深層学習手法を提案し,心エコービデオから吐出率を推定する。 提案手法は左室分画をまず必要とせずに射出率を推定でき,他の方法よりも効率的である。 提案手法は,MAE,RMSE,R2に対してそれぞれ5.59,7.59,0.59となる。 この結果は、最先端のUVT(Ultrasound Video Transformer)よりも優れている。 ソースコードはhttps://github.com/lhfazry/ultraswin。

The left ventricular of ejection fraction is one of the most important metric of cardiac function. It is used by cardiologist to identify patients who are eligible for lifeprolonging therapies. However, the assessment of ejection fraction suffers from inter-observer variability. To overcome this challenge, we propose a deep learning approach, based on hierarchical vision Transformers, to estimate the ejection fraction from echocardiogram videos. The proposed method can estimate ejection fraction without the need for left ventrice segmentation first, make it more efficient than other methods. We evaluated our method on EchoNet-Dynamic dataset resulting 5.59, 7.59 and 0.59 for MAE, RMSE and R2 respectivelly. This results are better compared to the state-of-the-art method, Ultrasound Video Transformer (UVT). The source code is available on https://github.com/lhfazry/UltraSwin.
翻訳日:2023-04-04 19:31:29 公開日:2023-03-31
# 軽量ニューラルネットワークによる極端気象事象検出の改善

Improving extreme weather events detection with light-weight neural networks ( http://arxiv.org/abs/2304.00176v1 )

ライセンス: Link先を確認
Romain Lacombe (1,2), Hannah Grossman (1), Lucas Hendren (1), David L\"udeke (1) ((1) Stanford University, (2) Plume Labs)(参考訳) 気候変動に伴う頻度・強度の増大する極端気象事象の自動検出を推し進めるため,気候データにおける熱帯サイクロンと大気河川のセマンティックセグメンテーションのために訓練された,新しい軽量コンテキスト誘導畳み込みニューラルネットワークアーキテクチャを探索した。 私たちの主な焦点は熱帯性サイクロンであり、現在のモデルでは性能が制限されている最も破壊的な気象現象です。 本研究では,特徴工学,データ拡張,学習率修正,代替損失関数,アーキテクチャ変更について検討する。 合併を最適化する以前のアプローチとは対照的に,我々は特に,アンダーカウンティングを罰し,トロピカルサイクロンの識別を優先するためにリコールを改善することを目指している。 これらの稀な事象に対するクラス不均衡対策として,重み付き損失関数を用いた成功例を報告する。 我々は、気候変動の影響に対する予測、緩和、公平適応のための重要なタスクである、極端な気象事象の検出に関する今後の研究の方向性をまとめる。

To advance automated detection of extreme weather events, which are increasing in frequency and intensity with climate change, we explore modifications to a novel light-weight Context Guided convolutional neural network architecture trained for semantic segmentation of tropical cyclones and atmospheric rivers in climate data. Our primary focus is on tropical cyclones, the most destructive weather events, for which current models show limited performance. We investigate feature engineering, data augmentation, learning rate modifications, alternative loss functions, and architectural changes. In contrast to previous approaches optimizing for intersection over union, we specifically seek to improve recall to penalize under-counting and prioritize identification of tropical cyclones. We report success through the use of weighted loss functions to counter class imbalance for these rare events. We conclude with directions for future research on extreme weather events detection, a crucial task for prediction, mitigation, and equitable adaptation to the impacts of climate change.
翻訳日:2023-04-04 19:31:16 公開日:2023-03-31
# マルチranvier-node axonal myelin-sheath導波路における光偏光進化と伝送

Optical polarization evolution and transmission in multi-Ranvier-node axonal myelin-sheath waveguides ( http://arxiv.org/abs/2304.00174v1 )

ライセンス: Link先を確認
Emily Frede, Hadi Zadeh-Haghighi, and Christoph Simon(参考訳) 神経科学では、脳の処理を完全に理解するために、ニューロン間の情報伝達の可能な全てのモードを検討することが興味深い。 高屈折率のため、特にミエリンシースを導波路として軸索接続に沿ってフォトニック通信が可能である可能性が示唆されている。 ミエリンのシースには、既に多くの理論的および実験的証拠があるが、どのように光の偏光が伝達されるかという問題は未解明のままである。 現在,ミエリンシース内に偏光符号化情報を保持することができるかどうかは不明である。 複数のranvierノードを有するミエリン化軸索構造による誘導モード伝播をシミュレートした。 これにより、偏光変化を観測し、ミエリンシース導波路における誘導光に対する複数のランビエノードによる指数伝達損失の仮定をテストすることができる。 偏光は複数のノードを通してよく保存でき、複数のノードを通しての伝送損失はほぼ乗算可能である。 これらの結果は、生体光子によって促進される神経情報伝達の仮説に重要な文脈を与え、脳内の古典的および量子フォトニック通信の可能性を強化する。

In neuroscience, it is of interest to consider all possible modes of information transfer between neurons in order to fully understand processing in the brain. It has been suggested that photonic communication may be possible along axonal connections, especially through the myelin sheath as a waveguide, due to its high refractive index. There is already a good deal of theoretical and experimental evidence for light guidance in the myelin sheath; however, the question of how the polarization of light is transmitted remains largely unexplored. It is presently unclear whether polarization-encoded information could be preserved within the myelin sheath. We simulate guided mode propagation through a myelinated axon structure with multiple Ranvier nodes. This allows both to observe polarization change and to test the assumption of exponentiated transmission loss through multiple Ranvier nodes for guided light in myelin sheath waveguides. We find that the polarization can be well preserved through multiple nodes and that transmission losses through multiple nodes are approximately multiplicative. These results provide an important context for the hypothesis of neural information transmission facilitated by biophotons, strengthening the possibility of both classical and quantum photonic communication within the brain.
翻訳日:2023-04-04 19:30:57 公開日:2023-03-31
# Lego-Features:ストリーミングと検討のためのモジュールエンコーダ機能をエクスポート

Lego-Features: Exporting modular encoder features for streaming and deliberation ASR ( http://arxiv.org/abs/2304.00173v1 )

ライセンス: Link先を確認
Rami Botros, Rohit Prabhavalkar, Johan Schalkwyk, Ciprian Chelba, Tara N. Sainath, Fran\c{c}oise Beaufays(参考訳) エンドツーエンド(e2e)音声認識モデルでは、エンコーダとデコーダの間に必然的に表現的密結合が発生する。 我々は,モジュール型エンコーダを用いたエンコーダの構築と,異なるモデルからのエンコーダとデコーダを,それ以上の微調整を行なわずにゼロショットで縫合できるような,最近の研究を基盤としている。 これまでの研究では、フルコンテキストの音声モデルにのみ対応していたが、ストリーミング環境でも同様の問題を探る。 私たちのフレームワークは、既存のエンコードされた表現の上に構築され、事前トレーニングされたモデルを変更することなく、lego-featuresと呼ばれるモジュール機能に変換します。 モデルが異なる初期化で再トレーニングされたとき、これらの機能は交換可能である。 RNN-TやLASデコーダでテストすると,Lego-Featuresは強力であり,高品質なダウンストリーム性能を維持している。 また、2パスの審議中に1パスの予測を表現できるほど豊かである。 このシナリオでは、最高の結果を得るために音響的特徴を補う必要がないため、N-best仮説よりも優れている。 さらに、lego機能の生成にはビーム探索や自動回帰計算は必要ない。 全体としては、標準エンコーダ出力とN-best仮説の代替として、モジュラーで強力で安価である。

In end-to-end (E2E) speech recognition models, a representational tight-coupling inevitably emerges between the encoder and the decoder. We build upon recent work that has begun to explore building encoders with modular encoded representations, such that encoders and decoders from different models can be stitched together in a zero-shot manner without further fine-tuning. While previous research only addresses full-context speech models, we explore the problem in a streaming setting as well. Our framework builds on top of existing encoded representations, converting them to modular features, dubbed as Lego-Features, without modifying the pre-trained model. The features remain interchangeable when the model is retrained with distinct initializations. Though sparse, we show that the Lego-Features are powerful when tested with RNN-T or LAS decoders, maintaining high-quality downstream performance. They are also rich enough to represent the first-pass prediction during two-pass deliberation. In this scenario, they outperform the N-best hypotheses, since they do not need to be supplemented with acoustic features to deliver the best results. Moreover, generating the Lego-Features does not require beam search or auto-regressive computation. Overall, they present a modular, powerful and cheap alternative to the standard encoder output, as well as the N-best hypotheses.
翻訳日:2023-04-04 19:30:36 公開日:2023-03-31
# Practical Conformer: オンデバイスおよびクラウド ASR 用 Conformer のサイズ,速度,フロップの最適化

Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR ( http://arxiv.org/abs/2304.00171v1 )

ライセンス: Link先を確認
Rami Botros, Anmol Gulati, Tara N. Sainath, Krzysztof Choromanski, Ruoming Pang, Trevor Strohman, Weiran Wang, Jiahui Yu(参考訳) コンフォーメータモデルは多数の内部状態を保持しており、その大半は自己着脱層と関連している。 メモリ帯域幅が限られているため、各推論ステップでのメモリからの読み出しは推論を遅くすることができる。 本稿では、デバイス上での制約を満たすのに十分な小型で、TPUを高速に推論できる最適化コンバータを設計する。 本稿では,下位コンバータブロックを畳み込みのみのブロックに置き換え,アーキテクチャの戦略的縮小,RNNAttention-Performerの利用など,実行速度を改善するためのさまざまなアイデアを検討する。 最適化されたコンフォーメータはカスケードエンコーダ設定に容易に組み込むことができ、第2パスデコーダがその出力で動作でき、より多くのリソースが利用できる場合の精度が向上します。 いずれにせよ、これらの最適化はレイテンシを6.8倍削減し、品質の適切なトレードオフをもたらす可能性がある。 カスケードされた第2パスを用いて,認識精度が完全に回復可能であることを示す。 したがって,提案するエンコーダは,デバイス上で強力なスタンドアロンエンコーダとして,高性能asrパイプラインの第1部として2倍にすることができる。

Conformer models maintain a large number of internal states, the vast majority of which are associated with self-attention layers. With limited memory bandwidth, reading these from memory at each inference step can slow down inference. In this paper, we design an optimized conformer that is small enough to meet on-device restrictions and has fast inference on TPUs. We explore various ideas to improve the execution speed, including replacing lower conformer blocks with convolution-only blocks, strategically downsizing the architecture, and utilizing an RNNAttention-Performer. Our optimized conformer can be readily incorporated into a cascaded-encoder setting, allowing a second-pass decoder to operate on its output and improve the accuracy whenever more resources are available. Altogether, we find that these optimizations can reduce latency by a factor of 6.8x, and come at a reasonable trade-off in quality. With the cascaded second-pass, we show that the recognition accuracy is completely recoverable. Thus, our proposed encoder can double as a strong standalone encoder in on device, and as the first part of a high-performance ASR pipeline.
翻訳日:2023-04-04 19:30:12 公開日:2023-03-31
# アフィンマルコフゲームにおけるソフトベルマン平衡--前方解と逆学習

Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and Inverse Learning ( http://arxiv.org/abs/2304.00163v1 )

ライセンス: Link先を確認
Shenghui Chen, Yue Yu, David Fridovich-Keil, Ufuk Topcu(参考訳) マルコフゲームは確率的、動的環境における複数のプレイヤー間の相互作用をモデル化する。 マルコフゲームの各プレイヤーは、他のプレイヤーの方針に依存する、予想される総割引報酬を最大化する。 アフィン・マルコフゲーム(英: affine markov games)とは、アフィンの報酬関数がプレイヤーのアクションと結合するゲームである。 我々は,各プレイヤーが有界的に有理であり,ナッシュ均衡の概念と同様に純粋有理政策ではなくソフト・ベルマン政策を選択する,新しい解法であるソフト・ベルマン均衡を導入する。 ソフト・ベルマン平衡の存在と特異性に関する条件を提供し、前方問題におけるそのような平衡を計算する非線形最小二乗アルゴリズムを提案する。 次に,観測された状態-行動軌跡からプレイヤーの報酬パラメータを投影勾配アルゴリズムにより推定する逆ゲーム問題を解く。 捕食者によるOpenAI Gym環境における実験では,提案アルゴリズムが推定した報酬パラメータがベースラインアルゴリズムより優れており,平衡ポリシと観測ポリシとのKullback-Leiblerのばらつきを少なくとも2桁程度低減している。

Markov games model interactions among multiple players in a stochastic, dynamic environment. Each player in a Markov game maximizes its expected total discounted reward, which depends upon the policies of the other players. We formulate a class of Markov games, termed affine Markov games, where an affine reward function couples the players' actions. We introduce a novel solution concept, the soft-Bellman equilibrium, where each player is boundedly rational and chooses a soft-Bellman policy rather than a purely rational policy as in the well-known Nash equilibrium concept. We provide conditions for the existence and uniqueness of the soft-Bellman equilibrium and propose a nonlinear least squares algorithm to compute such an equilibrium in the forward problem. We then solve the inverse game problem of inferring the players' reward parameters from observed state-action trajectories via a projected gradient algorithm. Experiments in a predator-prey OpenAI Gym environment show that the reward parameters inferred by the proposed algorithm outperform those inferred by a baseline algorithm: they reduce the Kullback-Leibler divergence between the equilibrium policies and observed policies by at least two orders of magnitude.
翻訳日:2023-04-04 19:29:50 公開日:2023-03-31
# 等尺テンソルネットワーク状態のエネルギー最適化におけるバレンプレートの存在と勾配のスケーリング

Absence of barren plateaus and scaling of gradients in the energy optimization of isometric tensor network states ( http://arxiv.org/abs/2304.00161v1 )

ライセンス: Link先を確認
Thomas Barthel, Qiang Miao(参考訳) 減衰勾配は高次元最適化問題にかなりの障害を与える。 ここでは、古典的コンピュータや量子コンピュータ上の変分量子固有解器の形で研究できる、広いハミルトニアンを持つ量子多体系のエネルギー最小化問題を考察する。 バレン高原は、エネルギー勾配の平均振幅がシステムサイズの増加とともに指数関数的に減少するシナリオに対応する。 これは例えば、量子ニューラルネットワークやブロックウォール量子回路において、深さがシステムサイズで多項式的に増加するときに発生する。 ここでは, 行列積状態, ツリーテンソルネットワーク, マルチスケールエンタングル化再正規化アンサッツに対する変分最適化の問題は, バレン台無しであることを示す。 勾配分散の派生スケーリング特性は、ランダム初期化テンソルネットワーク状態(tns)のトレーサビリティを解析的に保証し、特定の初期化スキームを動機付ける。 適切な表現では、TNSをパラメトリケートするユニタリテンソルは、均一なハール測度に従ってサンプリングされる。 解析的評価を単純化する勾配に基づく最適化のリーマン的定式化を用いる。

Vanishing gradients can pose substantial obstacles for high-dimensional optimization problems. Here we consider energy minimization problems for quantum many-body systems with extensive Hamiltonians, which can be studied on classical computers or in the form of variational quantum eigensolvers on quantum computers. Barren plateaus correspond to scenarios where the average amplitude of the energy gradient decreases exponentially with increasing system size. This occurs, for example, for quantum neural networks and for brickwall quantum circuits when the depth increases polynomially in the system size. Here we show that the variational optimization problems for matrix product states, tree tensor networks, and the multiscale entanglement renormalization ansatz are free of barren plateaus. The derived scaling properties for the gradient variance provide an analytical guarantee for the trainability of randomly initialized tensor network states (TNS) and motivate certain initialization schemes. In a suitable representation, unitary tensors that parametrize the TNS are sampled according to the uniform Haar measure. We employ a Riemannian formulation of the gradient based optimizations which simplifies the analytical evaluation.
翻訳日:2023-04-04 19:29:26 公開日:2023-03-31
# 線形プログラミングを用いたマルコフ決定過程におけるオンライン強化学習

Online Reinforcement Learning in Markov Decision Process Using Linear Programming ( http://arxiv.org/abs/2304.00155v1 )

ライセンス: Link先を確認
Vincent Leon, S. Rasoul Etesami(参考訳) 我々は,未知の遷移行列と確率的報酬が固定的だが未知の分布から引き出されるエピソディックマルコフ決定過程(mdp)におけるオンライン強化学習を考える。 学習者は,環境との相互作用を通じて,最適方針を学習し,その後悔を最小限に抑えることを目的としている。 我々は、l$がエピソード長、$t$がエピソード数、$x$と$a$がそれぞれ状態空間とアクション空間の基数である高確率で$\tilde{o}(lx\sqrt{ta})$ regretを達成する、単純で効率的なモデルベースのアルゴリズムを考案する。 提案手法は「不確実性に直面した最適化」の概念に基づいており、遷移関数と報酬関数の信頼セットを維持し、オンラインmdpと線形プログラミングをつなぐために占有測度を用いる。 これは、同様の信頼セットフレームワークを使用している既存の作品と比較して、より厳しい後悔の束縛を達成し、異なるフレームワークを使用しているが、少し厳しい後悔の束縛を持つものよりも計算の労力を改善する。

We consider online reinforcement learning in episodic Markov decision process (MDP) with an unknown transition matrix and stochastic rewards drawn from a fixed but unknown distribution. The learner aims to learn the optimal policy and minimize their regret over a finite time horizon through interacting with the environment. We devise a simple and efficient model-based algorithm that achieves $\tilde{O}(LX\sqrt{TA})$ regret with high probability, where $L$ is the episode length, $T$ is the number of episodes, and $X$ and $A$ are the cardinalities of the state space and the action space, respectively. The proposed algorithm, which is based on the concept of "optimism in the face of uncertainty", maintains confidence sets of transition and reward functions and uses occupancy measures to connect the online MDP with linear programming. It achieves a tighter regret bound compared to the existing works that use a similar confidence sets framework and improves the computational effort compared to those that use a different framework but with a slightly tighter regret bound.
翻訳日:2023-04-04 19:29:07 公開日:2023-03-31
# 不確かさ推定のためのステレオマッチングにおける誤差分布の学習

Learning the Distribution of Errors in Stereo Matching for Joint Disparity and Uncertainty Estimation ( http://arxiv.org/abs/2304.00152v1 )

ライセンス: Link先を確認
Liyan Chen, Weihan Wang, Philippos Mordohai(参考訳) 深部ステレオマッチングにおける関節不均一性と不確実性評価のための新しい損失関数を提案する。 我々の研究は、正確な不確実性推定の必要性と、マルチタスク学習が全てのタスクのパフォーマンス改善につながることの観察によって動機付けられている。 ネットワークの損失関数におけるKL発散項を介して不確かさの分布を一致させることにより、これを実現できることを示す。 微分可能なソフトヒストグラムの手法は、損失に使用できるように分布を近似するために用いられる。 提案手法の有効性を実験的に評価し,大規模データセット上での差分予測と不確実性予測の両面で有意な改善を観察した。

We present a new loss function for joint disparity and uncertainty estimation in deep stereo matching. Our work is motivated by the need for precise uncertainty estimates and the observation that multi-task learning often leads to improved performance in all tasks. We show that this can be achieved by requiring the distribution of uncertainty to match the distribution of disparity errors via a KL divergence term in the network's loss function. A differentiable soft-histogramming technique is used to approximate the distributions so that they can be used in the loss. We experimentally assess the effectiveness of our approach and observe significant improvements in both disparity and uncertainty prediction on large datasets.
翻訳日:2023-04-04 19:28:46 公開日:2023-03-31
# 減量・再利用・リサイクル:マルチエージェント強化学習における選択的再実現

Reduce, Reuse, Recycle: Selective Reincarnation in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2304.00977v1 )

ライセンス: Link先を確認
Claude Formanek, Callum Rhys Tilbury, Jonathan Shock, Kale-ab Tessera, Arnu Pretorius(参考訳) 強化学習における「リカーネーション」は, エージェントの環境訓練における過去の実験からの事前計算の再利用の形式化として提案されている。 本稿では,マルチエージェント(ma)コンテキストにおける再編成のパラダイムについて概説する。 我々は、一部のエージェントのみがリカーネーションされる場合と、他のエージェントがスクラッチからトレーニングされる場合、選択的なリカーネーションを考える。 完全協力型ma設定では,選択的な再編成はスクラッチから完全にトレーニングするよりもリターンが高く,完全再編成でのトレーニングよりもコンバージェンスが速いことを実証した。 しかし、不均一なシステムで再生するエージェントの選択は、トレーニングの結果にとって極めて重要である。 我々は、豊かな研究分野がここに存在し、我々の努力が、マルチエージェントの領域に再編成の話題をもたらす上で、さらなるエネルギーを触媒することを期待している。

'Reincarnation' in reinforcement learning has been proposed as a formalisation of reusing prior computation from past experiments when training an agent in an environment. In this paper, we present a brief foray into the paradigm of reincarnation in the multi-agent (MA) context. We consider the case where only some agents are reincarnated, whereas the others are trained from scratch -- selective reincarnation. In the fully-cooperative MA setting with heterogeneous agents, we demonstrate that selective reincarnation can lead to higher returns than training fully from scratch, and faster convergence than training with full reincarnation. However, the choice of which agents to reincarnate in a heterogeneous system is vitally important to the outcome of the training -- in fact, a poor choice can lead to considerably worse results than the alternatives. We argue that a rich field of work exists here, and we hope that our effort catalyses further energy in bringing the topic of reincarnation to the multi-agent realm.
翻訳日:2023-04-04 15:23:27 公開日:2023-03-31
# 深層学習による拡散テンソル心筋磁気共鳴再構成 : 比較研究

Deep Learning-based Diffusion Tensor Cardiac Magnetic Resonance Reconstruction: A Comparison Studies ( http://arxiv.org/abs/2304.00996v1 )

ライセンス: Link先を確認
Jiahao Huang, Pedro F. Ferreira, Lichao Wang, Yinzhe Wu, Angelica I. Aviles-Rivero, Carola-Bibiane Schonlieb, Andrew D. Scott, Zohya Khalique, Maria Dwornik, Ramyah Rajakulasingam, Ranil De Silva, Dudley J. Pennell, Sonia Nielles-Vallespin, Guang Yang(参考訳) in vivo 心拡散テンソルイメージング(in vivo 心拡散テンソルイメージング、cDTI)は、生体内の心筋組織の微細構造を評価し、心機能に関する洞察を与え、革新的な治療戦略の開発を可能にする、有望な磁気共鳴イメージング(MRI)技術である。 しかし,CDTIの日常的な臨床実践への統合は,低信号対雑音比や長期走査時間といった,買収に関わる技術的障害のために困難である。 本稿では,cDTI再構成のための3種類のディープラーニングベースMRI再構成モデルについて検討・実装する。 これらのモデルの性能を再構成品質評価と拡散テンソルパラメータ評価に基づいて評価する。 以上の結果から, 本研究で検討したモデルは, 2$ および 4$ の加速度因子 (af) で臨床応用が可能であり, d5c5 モデルは再構成に優れた忠実性を示し, swinmr モデルはより高い知覚スコアを与えることが示唆された。 AF $\times 2$またはほとんどのDTパラメータはAF $\times 4$であり、ほとんどの拡散テンソルパラメータマップの品質は視覚的に許容される。 SwinMR は AF $\times 2$ と AF $\times 4$ で再構築するための最適なアプローチとして推奨されている。 しかし,本研究で論じるモデルは,高次AFにおける臨床応用には適していないと考えられた。 AF $\times 8$では、議論された全てのモデルのパフォーマンスが制限されており、拡散テンソルパラメータの半分しか参照と統計的に異なるレベルに復元されない。 拡散テンソルパラメータマップの中には間違った情報や誤解を招くものさえある。

In vivo cardiac diffusion tensor imaging (cDTI) is a promising Magnetic Resonance Imaging (MRI) technique for evaluating the micro-structure of myocardial tissue in the living heart, providing insights into cardiac function and enabling the development of innovative therapeutic strategies. However, the integration of cDTI into routine clinical practice is challenging due to the technical obstacles involved in the acquisition, such as low signal-to-noise ratio and long scanning times. In this paper, we investigate and implement three different types of deep learning-based MRI reconstruction models for cDTI reconstruction. We evaluate the performance of these models based on reconstruction quality assessment and diffusion tensor parameter assessment. Our results indicate that the models we discussed in this study can be applied for clinical use at an acceleration factor (AF) of $\times 2$ and $\times 4$, with the D5C5 model showing superior fidelity for reconstruction and the SwinMR model providing higher perceptual scores. There is no statistical difference with the reference for all diffusion tensor parameters at AF $\times 2$ or most DT parameters at AF $\times 4$, and the quality of most diffusion tensor parameter maps are visually acceptable. SwinMR is recommended as the optimal approach for reconstruction at AF $\times 2$ and AF $\times 4$. However, we believed the models discussed in this studies are not prepared for clinical use at a higher AF. At AF $\times 8$, the performance of all models discussed remains limited, with only half of the diffusion tensor parameters being recovered to a level with no statistical difference from the reference. Some diffusion tensor parameter maps even provide wrong and misleading information.
翻訳日:2023-04-04 15:13:39 公開日:2023-03-31
# クイック・デンス・リトリーバーとKALE:非対称二重エンコーダ用エンベディングのトレーニング・コールバック・リブラーアライメント

Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler Alignment of Embeddings for Asymmetrical dual encoders ( http://arxiv.org/abs/2304.01016v1 )

ライセンス: Link先を確認
Daniel Campos, Alessandro Magnani, and ChengXiang Zhai(参考訳) 本稿では,コンテクストとクエリエンコーダ間の構造的圧縮とモデルサイズ非対称性を導入することで,言語モデルに基づく高密度検索システムの推論遅延を改善する問題を考える。 まず,MSMARCO,Natural Questions,TriviaQA,SQUAD,SCIFACTに対する事前および後圧縮の影響について検討し,高密度検索における二重エンコーダの非対称性が推論効率の向上につながることを示した。 そこで我々はKulback Leibler Alignment of Embeddings (KALE)を紹介した。これは学習後にクエリエンコーダをプルーニング・アライメントすることで、高密度検索手法の推論効率を高めるための効率的かつ正確な方法である。 具体的には、双方向エンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。 KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。

In this paper, we consider the problem of improving the inference latency of language model-based dense retrieval systems by introducing structural compression and model size asymmetry between the context and query encoders. First, we investigate the impact of pre and post-training compression on the MSMARCO, Natural Questions, TriviaQA, SQUAD, and SCIFACT, finding that asymmetry in the dual encoders in dense retrieval can lead to improved inference efficiency. Knowing this, we introduce Kullback Leibler Alignment of Embeddings (KALE), an efficient and accurate method for increasing the inference efficiency of dense retrieval methods by pruning and aligning the query encoder after training. Specifically, KALE extends traditional Knowledge Distillation after bi-encoder training, allowing for effective query encoder compression without full retraining or index generation. Using KALE and asymmetric training, we can generate models which exceed the performance of DistilBERT despite having 3x faster inference.
翻訳日:2023-04-04 15:03:42 公開日:2023-03-31
# リカレントスパイキングニューラルネットワークにおける適応的構造進化と生物学的に妥当なシナプス可塑性

Adaptive structure evolution and biologically plausible synaptic plasticity for recurrent spiking neural networks ( http://arxiv.org/abs/2304.01015v1 )

ライセンス: Link先を確認
Wenxuan Pan, Feifei Zhao, Yi Zeng, Bing Han(参考訳) 数億年にわたって進化した人間の脳のアーキテクチャ設計とマルチスケール学習の原則は、人間のような知性を実現する上で不可欠である。 スパイキングニューラルネットワーク(snn)ベースの液体状態機械(lsm)は、脳にインスパイアされた構造と複数の生物学的原理を統合する可能性から、脳にインスパイアされた知性を研究するのに最適なアーキテクチャである。 LSMに関する既存の研究は、液体層の高次元エンコーディングや最適化、ネットワークアーキテクチャ探索、ハードウェアデバイスへの応用など、様々な視点に焦点を当てている。 脳の学習と構造進化のメカニズムには、まだ深いインスピレーションが欠けている。 本稿では,適応的構造進化と多次元生物学習ルールを融合した新しいlsm学習モデルを提案する。 構造進化のための適応進化可能なlsmモデルを開発し,分離特性を有する液状層のニューラルネットワーク設計を最適化した。 脳に触発されたLSMの学習のために,グローバルな長期ドパミン調節と局所トレースベースBCMシナプス可塑性を組み込んだドーパミン修飾ビエネンストック・クーパー・マンロス法(DA-BCM)を提案する。 異なる意思決定タスクにおける比較実験の結果, 液層の構造変化と液層と読み出し層のda-bcm制御によりlsmの意思決定能力が向上し, ルール反転に柔軟に対応できることがわかった。 この研究は、進化がより適切なネットワークアーキテクチャを設計するのにどのように役立つか、そして比較的複雑な意思決定タスクのためのLSMの最適化と学習を可能にするために、マルチスケールの神経可塑性原理をどのように調整したかを探求することを目的としている。

The architecture design and multi-scale learning principles of the human brain that evolved over hundreds of millions of years are crucial to realizing human-like intelligence. Spiking Neural Network (SNN) based Liquid State Machine (LSM) serves as a suitable architecture to study brain-inspired intelligence because of its brain-inspired structure and the potential for integrating multiple biological principles. Existing researches on LSM focus on different certain perspectives, including high-dimensional encoding or optimization of the liquid layer, network architecture search, and application to hardware devices. There is still a lack of in-depth inspiration from the learning and structural evolution mechanism of the brain. Considering these limitations, this paper presents a novel LSM learning model that integrates adaptive structural evolution and multi-scale biological learning rules. For structural evolution, an adaptive evolvable LSM model is developed to optimize the neural architecture design of liquid layer with separation property. For brain-inspired learning of LSM, we propose a dopamine-modulated Bienenstock-Cooper-Munros (DA-BCM) method that incorporates global long-term dopamine regulation and local trace-based BCM synaptic plasticity. Comparative experimental results on different decision-making tasks show that introducing structural evolution of the liquid layer, and the DA-BCM regulation of the liquid layer and the readout layer could improve the decision-making ability of LSM and flexibly adapt to rule reversal. This work is committed to exploring how evolution can help to design more appropriate network architectures and how multi-scale neuroplasticity principles coordinated to enable the optimization and learning of LSMs for relatively complex decision-making tasks.
翻訳日:2023-04-04 15:03:21 公開日:2023-03-31
# 自己教師付きマルチモーダル学習:調査

Self-Supervised Multimodal Learning: A Survey ( http://arxiv.org/abs/2304.01008v1 )

ライセンス: Link先を確認
Yongshuo Zong, Oisin Mac Aodha, Timothy Hospedales(参考訳) マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としており、近年、監督体制において大きな進歩を遂げている。 しかし、高価な人間のアノテーションと組み合わせたデータへの強い依存は、モデルのスケールアップを妨げる。 一方,大規模無記名データの利用状況を考えると,自己教師あり学習は,アノテーションのボトルネックを緩和するための魅力的な戦略となっている。 これら2つの方向に基づいて、自己教師付きマルチモーダル学習(SSML)は、生のマルチモーダルデータから管理を活用する方法を提供する。 本稿では,目的関数,データアライメント,モデルアーキテクチャという3つの直交軸に沿って分類した,ssmlの最先端技術に関する総合的なレビューを行う。 これらの軸は、自己教師付き学習法とマルチモーダルデータの性質に対応する。 具体的には、トレーニング対象をインスタンス識別、クラスタリング、マスク付き予測カテゴリに分類する。 また、トレーニング中のマルチモーダル入力データペアリングとアライメント戦略についても論じる。 最後に,SSML法の基本コンポーネントであるエンコーダ,融合モジュール,デコーダの設計を含むモデルアーキテクチャについて検討する。 我々は、下流のマルチモーダルアプリケーションタスクをレビューし、最先端の画像テキストモデルとマルチモーダルビデオモデルの具体的な性能を報告し、医療、リモートセンシング、機械翻訳などの様々な分野におけるSSMLアルゴリズムの実際の応用をレビューする。 最後に,SSMLの課題と今後の方向性について論じる。 関連リソースのコレクションは、https://github.com/ys-zong/awesome-self-supervised-multimodal-learningにある。

Multimodal learning, which aims to understand and analyze information from multiple modalities, has achieved substantial progress in the supervised regime in recent years. However, the heavy dependence on data paired with expensive human annotations impedes scaling up models. Meanwhile, given the availability of large-scale unannotated data in the wild, self-supervised learning has become an attractive strategy to alleviate the annotation bottleneck. Building on these two directions, self-supervised multimodal learning (SSML) provides ways to leverage supervision from raw multimodal data. In this survey, we provide a comprehensive review of the state-of-the-art in SSML, which we categorize along three orthogonal axes: objective functions, data alignment, and model architectures. These axes correspond to the inherent characteristics of self-supervised learning methods and multimodal data. Specifically, we classify training objectives into instance discrimination, clustering, and masked prediction categories. We also discuss multimodal input data pairing and alignment strategies during training. Finally, we review model architectures including the design of encoders, fusion modules, and decoders, which are essential components of SSML methods. We review downstream multimodal application tasks, reporting the concrete performance of the state-of-the-art image-text models and multimodal video models, and also review real-world applications of SSML algorithms in diverse fields such as healthcare, remote sensing, and machine translation. Finally, we discuss challenges and future directions for SSML. A collection of related resources can be found at: https://github.com/ys-zong/awesome-self-supervised-multimodal-learning.
翻訳日:2023-04-04 15:02:49 公開日:2023-03-31
# 最適入札戦略の学習:eコマース広告における事例研究

Learning Optimal Bidding Strategy: Case Study in E-Commerce Advertising ( http://arxiv.org/abs/2304.00999v1 )

ライセンス: Link先を確認
Danil Provodin and J\'er\'emie Joudioux and Eduard Duryev(参考訳) ランディッツフレームワークは、スポンサー付き検索オークションにおける最適な入札戦略のための古典的で適したアプローチであるが、工業的試みはほとんど文書化されていない。 本稿では,大手ファッションeコマース企業であるzalandoの開発過程を概説し,スポンサー付き検索オークションにおける収益性を高めるためのバンディットベースのアプローチの有望な成果について述べる。 我々は、実装中に克服された技術的および理論的課題と、収益性の向上に繋がるメカニズムを詳細に論じる。

Although the bandits framework is a classical and well-suited approach for optimal bidding strategies in sponsored search auctions, industrial attempts are rarely documented. This paper outlines the development process at Zalando, a leading fashion e-commerce company, and describes the promising outcomes of a bandits-based approach to increase profitability in sponsored search auctions. We discuss in detail the technical and theoretical challenges that were overcome during the implementation, as well as the mechanisms that led to increased profitability.
翻訳日:2023-04-04 15:01:18 公開日:2023-03-31
# 時間一様中心極限理論と漸近的信頼系列

Time-uniform central limit theory and asymptotic confidence sequences ( http://arxiv.org/abs/2103.06476v7 )

ライセンス: Link先を確認
Ian Waudby-Smith, David Arbour, Ritwik Sinha, Edward H. Kennedy, and Aaditya Ramdas(参考訳) 中央極限定理(CLT)に基づく信頼区間は古典統計学の基盤となっている。 漸近的にのみ有効であるにもかかわらず、非常に弱い仮定の下で統計的推論を許すためユビキタスであり、漸近的推論が不可能である場合でもしばしば問題に適用できる。 本稿では、このような漸近的信頼区間の時間一様アナログを紹介する。 そこで本手法は,時間とともに一様に有効となる信頼区間のシーケンスを,信頼シーケンス(CS)の形式で記述する。 CSは任意の停止時間に有効な推論を提供し、サンプルサイズを事前に固定する必要のある古典的な信頼区間とは異なり、データに対する「覗き見」の罰則を課さない。 文献中の既存のCSは漸近的ではないため、前述の漸近的信頼区間の広範な適用性は享受できない。 我々の研究は「漸近的なCS」の定義を与え、弱いCLTのような仮定のみを必要とする普遍的な漸近的なCSを導出することでギャップを埋める。 cltは、固定されたサンプルサイズにおけるガウス平均の分布に近似するが、強い不変原理(1960年代のストラッセンの仕事とkoml\'os, major, tusn\'adyによる改善)を用いて、暗黙のガウス過程によってサンプル平均過程全体を一様に近似する。 本研究は,非パラメトリック無症候性CSを2倍頑健な推定値に基づく平均治療効果として導出し,その有用性を実証するものである。 これにより、継続的に監視され、適応的に停止できる因果推論が可能になる。

Confidence intervals based on the central limit theorem (CLT) are a cornerstone of classical statistics. Despite being only asymptotically valid, they are ubiquitous because they permit statistical inference under very weak assumptions, and can often be applied to problems even when nonasymptotic inference is impossible. This paper introduces time-uniform analogues of such asymptotic confidence intervals. To elaborate, our methods take the form of confidence sequences (CS) -- sequences of confidence intervals that are uniformly valid over time. CSs provide valid inference at arbitrary stopping times, incurring no penalties for "peeking" at the data, unlike classical confidence intervals which require the sample size to be fixed in advance. Existing CSs in the literature are nonasymptotic, and hence do not enjoy the aforementioned broad applicability of asymptotic confidence intervals. Our work bridges the gap by giving a definition for "asymptotic CSs", and deriving a universal asymptotic CS that requires only weak CLT-like assumptions. While the CLT approximates the distribution of a sample average by that of a Gaussian at a fixed sample size, we use strong invariance principles (stemming from the seminal 1960s work of Strassen and improvements by Koml\'os, Major, and Tusn\'ady) to uniformly approximate the entire sample average process by an implicit Gaussian process. We demonstrate their utility by deriving nonparametric asymptotic CSs for the average treatment effect based on doubly robust estimators in observational studies, for which no nonasymptotic methods can exist even in the fixed-time regime. This enables causal inference that can be continuously monitored and adaptively stopped.
翻訳日:2023-04-03 21:26:10 公開日:2023-03-31
# RSSIとクラウドセンシングに基づくドメイン逆グラフ畳み込みネットワークによる屋内ローカライゼーション

Domain Adversarial Graph Convolutional Network Based on RSSI and Crowdsensing for Indoor Localization ( http://arxiv.org/abs/2204.05184v3 )

ライセンス: Link先を確認
Mingxin Zhang, Zipei Fan, Ryosuke Shibasaki and Xuan Song(参考訳) 近年,WiFiの普及とモバイル通信機器の普及により,屋内位置決めにおけるWiFi指紋の利用が盛んに行われている。 しかし、指紋データセットを構築するための既存の方法の多くは、大量のデータを収集する労働集約的かつ時間のかかるプロセスに依存している。 さらに、これらの手法は、大規模な多床建物の実用的課題を考慮せず、理想的な実験室環境にしばしば焦点をあてる。 これらの問題に対処するために、少数のラベル付きサイトサーベイデータと大量のラベル付きクラウドセンシングWiFi指紋を用いてトレーニングできる新しいWiDAGCNモデルを提案する。 受信信号強度指標(rssis)とwi-fiアクセスポイント(aps)との間の不均質グラフを構築することにより,データのトポロジー構造を効果的に捉えることができる。 また、従来のWiFi屋内ローカライゼーション研究でほとんど見落とされたグラフレベルの埋め込みを抽出するために、グラフ畳み込みネットワーク(GCN)も組み込んだ。 大量のラベルなしデータと複数のデータドメインの課題に対処するため、ラベルなしデータを有効に活用し、ドメイン間のデータ分布を調整するために、半教師付きドメイン敵訓練方式を採用している。 本研究では,複数の建物を含む公共屋内ローカライズデータセットを用いて評価を行い,大規模建物におけるローカライズ精度の面での競合性を示す。

In recent years, the use of WiFi fingerprints for indoor positioning has grown in popularity, largely due to the widespread availability of WiFi and the proliferation of mobile communication devices. However, many existing methods for constructing fingerprint datasets rely on labor-intensive and time-consuming processes of collecting large amounts of data. Additionally, these methods often focus on ideal laboratory environments, rather than considering the practical challenges of large multi-floor buildings. To address these issues, we present a novel WiDAGCN model that can be trained using a small number of labeled site survey data and large amounts of unlabeled crowdsensed WiFi fingerprints. By constructing heterogeneous graphs based on received signal strength indicators (RSSIs) between waypoints and WiFi access points (APs), our model is able to effectively capture the topological structure of the data. We also incorporate graph convolutional networks (GCNs) to extract graph-level embeddings, a feature that has been largely overlooked in previous WiFi indoor localization studies. To deal with the challenges of large amounts of unlabeled data and multiple data domains, we employ a semi-supervised domain adversarial training scheme to effectively utilize unlabeled data and align the data distributions across domains. Our system is evaluated using a public indoor localization dataset that includes multiple buildings, and the results show that it performs competitively in terms of localization accuracy in large buildings.
翻訳日:2023-04-03 20:56:03 公開日:2023-03-31
# ガウス測度の間のシュル=オディンガー橋は閉形式を持つ

The Schr\"odinger Bridge between Gaussian Measures has a Closed Form ( http://arxiv.org/abs/2202.05722v2 )

ライセンス: Link先を確認
Charlotte Bunne, Ya-Ping Hsieh, Marco Cuturi, Andreas Krause(参考訳) ガウス間の静的な最適輸送$(\mathrm{OT})$問題は、ガウス写像を別のガウスに変形させる最適写像、あるいはより一般的にはカップリングを回復しようとする。 広く研究され、様々なタスクに応用されている。 本稿では,最近,拡散型生成モデルとの関係から機械学習への関心が高まっているschr\"odinger bridge (sb)問題としても知られるotの動的定式化に注目する。 静的な設定とは対照的に、ガウス分布においても動的設定についてはあまり知られていない。 本稿では,ガウス測度間のsbの閉形式表現を提案する。 凸プログラムの研究に簡単に還元できる静的ガウスOT問題とは対照的に、SBを解くためのフレームワークはリーマン幾何学やジェネレータ理論のような非常に複雑なツールを必要とする。 特に、ガウス測度間のSBの解は、それ自体が自明な平均および共分散核を持つガウス過程であり、生成的モデリングや補間のような多くの下流アプリケーションに容易に適用可能であることを証明している。 そこで本研究では,単細胞ゲノミクスデータの進化をモデル化する新しい手法を考案し,既存のsb法と比較して数値安定性が大幅に向上したことを報告する。

The static optimal transport $(\mathrm{OT})$ problem between Gaussians seeks to recover an optimal map, or more generally a coupling, to morph a Gaussian into another. It has been well studied and applied to a wide variety of tasks. Here we focus on the dynamic formulation of OT, also known as the Schr\"odinger bridge (SB) problem, which has recently seen a surge of interest in machine learning due to its connections with diffusion-based generative models. In contrast to the static setting, much less is known about the dynamic setting, even for Gaussian distributions. In this paper, we provide closed-form expressions for SBs between Gaussian measures. In contrast to the static Gaussian OT problem, which can be simply reduced to studying convex programs, our framework for solving SBs requires significantly more involved tools such as Riemannian geometry and generator theory. Notably, we establish that the solutions of SBs between Gaussian measures are themselves Gaussian processes with explicit mean and covariance kernels, and thus are readily amenable for many downstream applications such as generative modeling or interpolation. To demonstrate the utility, we devise a new method for modeling the evolution of single-cell genomics data and report significantly improved numerical stability compared to existing SB-based approaches.
翻訳日:2023-04-03 20:55:39 公開日:2023-03-31
# Concatenated Classic and Neural (CCN) Codes: ConcatenatedAE

Concatenated Classic and Neural (CCN) Codes: ConcatenatedAE ( http://arxiv.org/abs/2209.01701v2 )

ライセンス: Link先を確認
Onur G\"unl\"u, Rick Fritschek, Rafael F. Schaefer(参考訳) 誤り訂正に使用される小さなニューラルネットワーク(NN)は、古典的なチャネルコードを改善し、チャネルモデルの変更に対処する。 我々は、同じNNを複数回符号化した後、外部の古典コードと直列結合することで、そのような構造のコード次元を拡大する。 我々は同じネットワークパラメータを持つNNを設計し、各Reed-Solomon符号は異なるNNへの入力となる。 付加的なガウス雑音流路におけるブロック誤差確率の小さなニューラルコードと比較しての顕著な改善と、チャネルモデルの変化に対するロバスト性を示す。

Small neural networks (NNs) used for error correction were shown to improve on classic channel codes and to address channel model changes. We extend the code dimension of any such structure by using the same NN under one-hot encoding multiple times, then serially-concatenated with an outer classic code. We design NNs with the same network parameters, where each Reed-Solomon codeword symbol is an input to a different NN. Significant improvements in block error probabilities for an additive Gaussian noise channel as compared to the small neural code are illustrated, as well as robustness to channel model changes.
翻訳日:2023-04-03 20:45:22 公開日:2023-03-31
# 光周波数拡散のないツインフィールド量子鍵分布

Twin-field quantum key distribution without optical frequency dissemination ( http://arxiv.org/abs/2208.09347v2 )

ライセンス: Link先を確認
Lai Zhou, Jinping Lin, Yumang Jing and Zhiliang Yuan(参考訳) ツインフィールド(TF)量子鍵分布(QKD)は、基本的にリピータライクなレートロススケーリングにより、長距離セキュアファイバー通信の最も有効なソリューションとして急速に上昇している。 しかし、その実装の複雑さは、うまく対処できなければ、現実の世界への進出を妨げたり、妨げたりすることができる。 ツインフィールドコヒーレンス(英語版)の要求を満たすため、全ての現在のセットアップは基本的に、QKDシステムが単純な量子リンクを提供するスケーラビリティに欠ける巨大でリソース非効率な干渉計構造を採用した。 本稿では,閉干渉計を使わずに開水路を安定化し,位相感応型量子通信に適用可能な新しい手法を提案する。 局所的に発生する周波数コムを用いて相互コヒーレンスを確立することにより,サービスファイバーを必要としない,100km非対称性のリンク上で動作可能な,シンプルで汎用的なTF-QKD構成を開発する。 セットアップのリピータライクな動作を確認し、615.6kmの距離で0.32ビット/秒の有限サイズ速度を得る。

Twin-field (TF) quantum key distribution (QKD) has rapidly risen as the most viable solution to long-distance secure fibre communication thanks to its fundamentally repeater-like rate-loss scaling. However, its implementation complexity, if not successfully addressed, could impede or even prevent its advance into real-world. To satisfy its requirement for twin-field coherence, all present setups adopted essentially a gigantic, resource-inefficient interferometer structure that lacks scalability that mature QKD systems provide with simplex quantum links. Here we introduce a novel technique that can stabilise an open channel without using a closed interferometer and has general applicability to phase-sensitive quantum communications. Using locally generated frequency combs to establish mutual coherence, we develop a simple and versatile TF-QKD setup that does not need service fibre and can operate over links of 100 km asymmetry. We confirm the setup's repeater-like behaviour and obtain a finite-size rate of 0.32 bit/s at a distance of 615.6 km.
翻訳日:2023-04-03 20:45:10 公開日:2023-03-31
# 差動的にプライベートな垂直フェデレーションクラスタリング

Differentially Private Vertical Federated Clustering ( http://arxiv.org/abs/2208.01700v2 )

ライセンス: Link先を確認
Zitao Li, Tianhao Wang, Ninghui Li(参考訳) 多くのアプリケーションでは、複数のパーティが同じユーザセットに関するプライベートデータを持っているが、非結合な属性セットで、サーバはモデルをトレーニングするためにデータを活用したいと考えている。 データのプライバシを保護しながらモデル学習を可能にするためには、データパーティがプライベートデータではなく、モデルをトレーニングするための情報のみを共有する垂直フェデレーション学習(vfl)技術が必要です。 しかし、正確なモデルを学習しながら共有情報がプライバシーを維持することは困難である。 本論文で提案するアルゴリズムは,サーバが証明可能なディファレンシャルプライバシ保証を備えたグローバルセンタのセットを取得可能な,非プライベートな垂直フェデレートk-meansクラスタリングに対する,最初の実用的なソリューションである。 このアルゴリズムは,信頼できない中央サーバを想定し,ローカルなデータパーティから個別のローカルセンタとメンバシップエンコーディングを集約する。 受信した情報に基づいてグローバルデータセットのシナプスとして重み付けされたグリッドを構築する。 最終中心は、重み付きグリッド上で任意のk平均アルゴリズムを実行することで生成される。 格子重み推定の手法は,フラジョレット・マーチンスケッチに基づく,新しい,軽量で,差分的にプライベートな交叉基数推定アルゴリズムを用いる。 さらに、2つ以上のデータパーティを持つ設定における推定精度を向上させるために、重み付け推定アルゴリズムの洗練されたバージョンとパラメータチューニング戦略を提案し、中央のプライベート設定でそれに近い最終的なk-meansユーティリティを減らす。 提案手法は,提案アルゴリズムによって計算されたクラスタセンターの理論的有用性解析と実験評価を行い,既存の手法に基づく2つのベースラインよりも理論的および実験的に優れた性能を示すことを示す。

In many applications, multiple parties have private data regarding the same set of users but on disjoint sets of attributes, and a server wants to leverage the data to train a model. To enable model learning while protecting the privacy of the data subjects, we need vertical federated learning (VFL) techniques, where the data parties share only information for training the model, instead of the private data. However, it is challenging to ensure that the shared information maintains privacy while learning accurate models. To the best of our knowledge, the algorithm proposed in this paper is the first practical solution for differentially private vertical federated k-means clustering, where the server can obtain a set of global centers with a provable differential privacy guarantee. Our algorithm assumes an untrusted central server that aggregates differentially private local centers and membership encodings from local data parties. It builds a weighted grid as the synopsis of the global dataset based on the received information. Final centers are generated by running any k-means algorithm on the weighted grid. Our approach for grid weight estimation uses a novel, light-weight, and differentially private set intersection cardinality estimation algorithm based on the Flajolet-Martin sketch. To improve the estimation accuracy in the setting with more than two data parties, we further propose a refined version of the weights estimation algorithm and a parameter tuning strategy to reduce the final k-means utility to be close to that in the central private setting. We provide theoretical utility analysis and experimental evaluation results for the cluster centers computed by our algorithm and show that our approach performs better both theoretically and empirically than the two baselines based on existing techniques.
翻訳日:2023-04-03 20:44:52 公開日:2023-03-31
# スマートフォン写真の知覚色差の測定

Measuring Perceptual Color Differences of Smartphone Photographs ( http://arxiv.org/abs/2205.13489v2 )

ライセンス: Link先を確認
Zhihua Wang, Keshuo Xu, Yang Yang, Jianlei Dong, Shuhang Gu, Lihao Xu, Yuming Fang, and Kede Ma(参考訳) 現代のスマートフォン写真では、知覚色差(CD)の測定が非常に重要である。 長い歴史にもかかわらず、ほとんどのcdは均質なカラーパッチの心理物理学的データや、ごく少数の単純で自然な写真画像によって制限されている。 したがって、既存のCD対策が、より大きなコンテンツ複雑さと学習ベースの画像信号プロセッサを特徴とするスマートフォン写真時代を一般化するかどうかは疑わしい。 本稿では,これまでで最大のCD評価用画像データセットを整理し,その画像が画像であることを示す。 1)フラッグシップスマートフォン6台で撮影。 2)photoshopによる編集。 3)スマートフォンの内蔵フィルタによる後処理,及び 4)不正確な色プロファイルで再現した。 次に、3万対の画像ペアの知覚cdを注意深く制御した実験室環境で収集する大規模心理物理学実験を行う。 新たに確立したデータセットに基づいて,従来のメトリクスの一般化として,軽量ニューラルネットワークに基づくエンドツーエンド学習可能なcd公式を構築する最初の試みの一つである。 広範な実験により、最適化された式は33の既存のcd測度を大きなマージンで上回り、密な監督なしで合理的なローカルcdマップを提供し、均質なカラーパッチデータにうまく一般化し、経験的に数学的な意味で適切な計量として振る舞うことが示されている。 私たちのデータセットとコードはhttps://github.com/hellooks/cdnetで公開されている。

Measuring perceptual color differences (CDs) is of great importance in modern smartphone photography. Despite the long history, most CD measures have been constrained by psychophysical data of homogeneous color patches or a limited number of simplistic natural photographic images. It is thus questionable whether existing CD measures generalize in the age of smartphone photography characterized by greater content complexities and learning-based image signal processors. In this paper, we put together so far the largest image dataset for perceptual CD assessment, in which the photographic images are 1) captured by six flagship smartphones, 2) altered by Photoshop, 3) post-processed by built-in filters of the smartphones, and 4) reproduced with incorrect color profiles. We then conduct a large-scale psychophysical experiment to gather perceptual CDs of 30,000 image pairs in a carefully controlled laboratory environment. Based on the newly established dataset, we make one of the first attempts to construct an end-to-end learnable CD formula based on a lightweight neural network, as a generalization of several previous metrics. Extensive experiments demonstrate that the optimized formula outperforms 33 existing CD measures by a large margin, offers reasonable local CD maps without the use of dense supervision, generalizes well to homogeneous color patch data, and empirically behaves as a proper metric in the mathematical sense. Our dataset and code are publicly available at https://github.com/hellooks/CDNet.
翻訳日:2023-04-03 20:44:06 公開日:2023-03-31
# haystackのhay:指数量子回路複雑性の明示的な例

Hay from the haystack: explicit examples of exponential quantum circuit complexity ( http://arxiv.org/abs/2205.06977v2 )

ライセンス: Link先を確認
Yifan Jia, Michael M. Wolf(参考訳) 量子状態やユニタリの大部分が量子ビット数で指数関数的に回路複雑性を持つ。 同様に、それらの多くは指数最小記述長を持ち、指数的複雑性の例を特定することは困難である。 本研究では,定数記述長と指数回路複雑性の例を構築する。 我々は、各元が積から正確に生成される指数的な2ビットゲート数を必要とし、族内の大多数の要素の近似生成に対して同じことが真であるような無限の族を提供する。 結果は大きな超越度の集合に基づいており、テンソルネットワーク、対角ユニタリ、最大コヒーレント状態について議論されている。

The vast majority of quantum states and unitaries have circuit complexity exponential in the number of qubits. In a similar vein, most of them also have exponential minimum description length, which makes it difficult to pinpoint examples of exponential complexity. In this work, we construct examples of constant description length but exponential circuit complexity. We provide infinite families such that each element requires an exponential number of two-qubit gates to be generated exactly from a product and where the same is true for the approximate generation of the vast majority of elements in the family. The results are based on sets of large transcendence degree and discussed for tensor networks, diagonal unitaries, and maximally coherent states.
翻訳日:2023-04-03 20:43:42 公開日:2023-03-31
# ノイズメソスコピック系におけるコヒーレント変動, オープン量子SSEPと自由確率

Coherent Fluctuations in Noisy Mesoscopic Systems, the Open Quantum SSEP and Free Probability ( http://arxiv.org/abs/2204.11680v4 )

ライセンス: Link先を確認
Ludwig Hruza and Denis Bernard(参考訳) 量子コヒーレンス(quantum coherences)は、特定の距離内で量子力学的に干渉する粒子の能力を特徴付ける。 ノイズの多い多体量子系では、これらのコヒーレンスは変動する。 このような揺らぎを平衡外条件で研究するための単純な玩具モデルとして、開量子対称単純排他過程 (Q-SSEP) があり、これは2つの貯水池の間にランダムな振幅を持つ近傍の部位に1次元のスピンレスフェルミオンをホッピングするものである。 ここで、q-ssepにおけるコヒーレンスのゆらぎのダイナミクスは、自由確率論の概念である自由積として自然解釈を持つことを示す。 この知見に基づいて、ノイズが粗い記述から現れる一般的なメソスコピック系におけるコヒーレントゆらぎを記述するのに、自由確率理論が適切な枠組みであると期待するヒューリスティックな議論を与える。 Q-SSEPの場合、コヒーレンスの連結なゆらぎの時間発展と単純な定常解を導出するために、自由確率理論へのリンクをどのように利用できるかを示す。

Quantum coherences characterise the ability of particles to quantum mechanically interfere within some given distances. In the context of noisy many-body quantum systems these coherences can fluctuate. A simple toy model to study such fluctuations in an out-of-equilibrium setting is the open quantum symmetric simple exclusion process (Q-SSEP) which describes spinless fermions in one dimension hopping to neighbouring sites with random amplitudes coupled between two reservoirs. Here we show that the dynamics of fluctuations of coherences in Q-SSEP have a natural interpretation as free cumulants, a concept from free probability theory. Based on this insight we provide heuristic arguments why we expect free probability theory to be an appropriate framework to describe coherent fluctuations in generic mesoscopic systems where the noise emerges from a coarse-grained description. In the case of Q-SSEP we show how the link to free probability theory can be used to derive the time evolution of connected fluctuations of coherences as well as a simple steady state solution.
翻訳日:2023-04-03 20:43:14 公開日:2023-03-31
# 適応測定フィルタ:量子マルコフ連鎖の最適推定のための効率的な戦略

Adaptive measurement filter: efficient strategy for optimal estimation of quantum Markov chains ( http://arxiv.org/abs/2204.08964v4 )

ライセンス: Link先を確認
Alfred Godley and Madalin Guta(参考訳) 連続時間計測は、量子工学と量子制御における多くのタスクに役立ち、環境を通じて監視される開量子システムの動的パラメータの推定を含む。 しかし、そのような測定は出力状態で利用できる情報の最大量を抽出しないので、代替の最適測定戦略を見つけることが大きな課題である。 本稿では、離散時間入力出力量子マルコフ連鎖の設定においてこの問題を解決する。 本稿では,「計測フィルタ」演算子を更新し,出力単位の連続的な測定基準を決定する反復的な手順からなる一次元動的パラメータの最適推定アルゴリズムを提案する。 このスキームの重要な要素は、システムとの相互作用後に出力を後処理する方法としてコヒーレント量子吸収器を使用することである。 これは、結合系と吸収体定常状態が基準パラメータ値で純粋であるように適応的に設計される。 このスキームは、最適連続時間適応測定のエキサイティングな展望を提供するが、現実的な実用的な実装を見つけるにはより多くの作業が必要である。

Continuous-time measurements are instrumental for a multitude of tasks in quantum engineering and quantum control, including the estimation of dynamical parameters of open quantum systems monitored through the environment. However, such measurements do not extract the maximum amount of information available in the output state, so finding alternative optimal measurement strategies is a major open problem. In this paper we solve this problem in the setting of discrete-time input-output quantum Markov chains. We present an efficient algorithm for optimal estimation of one-dimensional dynamical parameters which consists of an iterative procedure for updating a `measurement filter' operator and determining successive measurement bases for the output units. A key ingredient of the scheme is the use of a coherent quantum absorber as a way to post-process the output after the interaction with the system. This is designed adaptively such that the joint system and absorber stationary state is pure at a reference parameter value. The scheme offers an exciting prospect for optimal continuous-time adaptive measurements, but more work is needed to find realistic practical implementations.
翻訳日:2023-04-03 20:42:54 公開日:2023-03-31
# エンドツーエンド音声強調システムのバッチサイズ入力について

On Batching Variable Size Inputs for Training End-to-End Speech Enhancement Systems ( http://arxiv.org/abs/2301.10587v2 )

ライセンス: Link先を確認
Philippe Gonzalez, Tommy Sonne Alstr{\o}m, Tobias May(参考訳) ニューラルネットワークに基づく音声強調システムの性能はモデルアーキテクチャの影響が主であるが、トレーニング時間や計算資源の利用は主にバッチサイズなどのトレーニングパラメータに影響されている。 雑音と残響音声の混合時間は異なるため、特に最先端のエンドツーエンドシステムでは、訓練中に可変サイズ入力を処理するバッチ処理戦略が必要となる。 このような戦略は通常、ゼロパディングとデータランダム化の妥協を目指しており、各バッチでより一貫した量のデータを動的バッチサイズと組み合わせることができる。 しかし、これらの戦略がリソースの利用やネットワーク性能に与える影響は十分に文書化されていない。 本稿では,一致条件と一致条件の両方で評価されたConv-TasNetの学習統計と音声強調性能に及ぼすバッチ処理戦略とバッチサイズの影響を系統的に検討する。 トレーニング中に小さなバッチサイズを使用することで、バッチ戦略全体の両方の条件でパフォーマンスが向上することが分かりました。 さらに、動的バッチサイズでソートまたはバケットバッチを使用することで、バッチサイズが固定されたランダムバッチと同等の性能を達成しながら、トレーニング時間とgpuメモリ使用量を削減できる。

The performance of neural network-based speech enhancement systems is primarily influenced by the model architecture, whereas training times and computational resource utilization are primarily affected by training parameters such as the batch size. Since noisy and reverberant speech mixtures can have different duration, a batching strategy is required to handle variable size inputs during training, in particular for state-of-the-art end-to-end systems. Such strategies usually strive for a compromise between zero-padding and data randomization, and can be combined with a dynamic batch size for a more consistent amount of data in each batch. However, the effect of these strategies on resource utilization and more importantly network performance is not well documented. This paper systematically investigates the effect of different batching strategies and batch sizes on the training statistics and speech enhancement performance of a Conv-TasNet, evaluated in both matched and mismatched conditions. We find that using a small batch size during training improves performance in both conditions for all batching strategies. Moreover, using sorted or bucket batching with a dynamic batch size allows for reduced training time and GPU memory usage while achieving similar performance compared to random batching with a fixed batch size.
翻訳日:2023-04-03 20:36:48 公開日:2023-03-31
# 原子式上のワンホップ推論を用いた論理メッセージパッシングネットワーク

Logical Message Passing Networks with One-hop Inference on Atomic Formulas ( http://arxiv.org/abs/2301.08859v3 )

ライセンス: Link先を確認
Zihao Wang, Yangqiu Song, Ginny Y. Wong, Simon See(参考訳) 知識グラフ(KG)に対する複雑なクエリアンサーリング(CQA)は多くのアプリケーションをサポートするために多くの注目を集めています。 KGは通常不完全であるので、複雑なニューラルネットワークで集合演算子をパラメータ化することで論理的クエリに答えるニューラルモデルが提案されている。 しかし、そのような手法は通常、多くの実体とゼロからの組込みを持つ神経集合演算子を訓練するが、組込み演算子や神経集合演算子がパフォーマンスにどのように寄与するかは定かではない。 本稿では,KG埋め込みをニューラルネットワーク演算子から分解する,複雑なクエリ応答のための単純なフレームワークを提案する。 複雑なクエリを問合せグラフに表現することを提案する。 問合せグラフ上では、局所的な原子式上のワンホップ推論と、複雑な問合せ応答のグローバル論理推論を結合する論理メッセージパッシングニューラルネットワーク(LMPNN)を提案する。 我々は、既存の有効なKG埋め込みを利用して、原子式上のワンホップ推論を行い、その結果をLMPNNで渡されるメッセージと見なす。 論理式全体に対する推論プロセスはLMPNNの前方通過に変換され、局所的な情報を漸進的に集約して解答の埋め込みを予測する。 異なるタイプのクエリに対する複雑な論理推論は、LMPNNアーキテクチャに基づいたトレーニング例から学習される。 理論的には、我々のクエリグラフ補充は、一般的なオペレータツリーの定式化よりも一般的であるため、我々のアプローチはより広範な複雑なKGクエリに適用できる。 経験的に、我々のアプローチは新しい最先端のニューラルCQAモデルをもたらす。 本研究は,複雑なkg問合せ課題と知識グラフ表現学習の長期的成果とのギャップを橋渡しする。

Complex Query Answering (CQA) over Knowledge Graphs (KGs) has attracted a lot of attention to potentially support many applications. Given that KGs are usually incomplete, neural models are proposed to answer the logical queries by parameterizing set operators with complex neural networks. However, such methods usually train neural set operators with a large number of entity and relation embeddings from the zero, where whether and how the embeddings or the neural set operators contribute to the performance remains not clear. In this paper, we propose a simple framework for complex query answering that decomposes the KG embeddings from neural set operators. We propose to represent the complex queries into the query graph. On top of the query graph, we propose the Logical Message Passing Neural Network (LMPNN) that connects the local one-hop inferences on atomic formulas to the global logical reasoning for complex query answering. We leverage existing effective KG embeddings to conduct one-hop inferences on atomic formulas, the results of which are regarded as the messages passed in LMPNN. The reasoning process over the overall logical formulas is turned into the forward pass of LMPNN that incrementally aggregates local information to finally predict the answers' embeddings. The complex logical inference across different types of queries will then be learned from training examples based on the LMPNN architecture. Theoretically, our query-graph represenation is more general than the prevailing operator-tree formulation, so our approach applies to a broader range of complex KG queries. Empirically, our approach yields the new state-of-the-art neural CQA model. Our research bridges the gap between complex KG query answering tasks and the long-standing achievements of knowledge graph representation learning.
翻訳日:2023-04-03 20:36:28 公開日:2023-03-31
# ガウス過程状態空間モデルの柔軟性と解釈可能性

Towards Flexibility and Interpretability of Gaussian Process State-Space Model ( http://arxiv.org/abs/2301.08843v2 )

ライセンス: Link先を確認
Zhid Lin, Feng Yin and Juan Maro\~nas(参考訳) ガウス過程状態空間モデル(GPSSM)は過去10年間に多くの注目を集めてきた。 しかし、GPSSMのモデル表現力は満足には程遠い。 ほとんどのGPSSM研究は、二乗指数(SE)カーネルやMat\'{e}rnカーネルのような予備的なカーネルを持つ標準ガウス過程(GP)に依存しており、モデル表現力とその複雑なシナリオへの応用を制限する。 この問題に対処するため,本稿ではtgpssmsと呼ばれる確率的状態空間モデルの新しいクラスを提案する。 パラメトリック正規化フローを活用することで、TGPSSMは標準GPSSMのGPプリエントを強化し、状態空間モデルはより柔軟で表現力のあるものになる。 さらに, TGPSSMにおける学習と推論のためのスケーラブルな変分推論アルゴリズムを提案し, 潜時状態の変分分布に柔軟かつ最適な構造を提供する。 このアルゴリズムはgpのスパース表現と正規化フローの単射性のため、解釈可能で計算効率が良い。 提案アルゴリズムの学習と推論性能をさらに向上するため,制約付き最適化フレームワークを統合し,状態空間の表現能力を向上し,ハイパーパラメータを最適化する。 種々の合成および実データに基づく実験結果から,提案したTGPSSMは,いくつかの最先端手法と比較して,優れた学習と推論性能が得られることが示された。 ソースコードは \url{https://github.com/zhidilin/TGPSSM} で公開されている。

The Gaussian process state-space model (GPSSM) has attracted much attention over the past decade. However, the model representation power of the GPSSM is far from satisfactory. Most GPSSM studies rely on the standard Gaussian process (GP) with a preliminary kernel, such as the squared exponential (SE) kernel or Mat\'{e}rn kernel, which limits the model representation power and its application in complex scenarios. To address this issue, this paper proposes a novel class of probabilistic state-space models, called TGPSSMs. By leveraging a parametric normalizing flow, the TGPSSMs enrich the GP priors in the standard GPSSM, rendering the state-space model more flexible and expressive. Additionally, we present a scalable variational inference algorithm for learning and inference in TGPSSMs, which provides a flexible and optimal structure for the variational distribution of latent states. The algorithm is interpretable and computationally efficient owing to the sparse representation of GP and the bijective nature of normalizing flow. To further improve the learning and inference performance of the proposed algorithm, we integrate a constrained optimization framework to enhance the state-space representation capabilities and optimize the hyperparameters. The experimental results based on various synthetic and real datasets corroborate that the proposed TGPSSM yields superior learning and inference performance compared to several state-of-the-art methods. The accompanying source code is available at \url{https://github.com/zhidilin/TGPSSM}.
翻訳日:2023-04-03 20:36:01 公開日:2023-03-31
# アウトデコヒーレンスによる古典性:概念、マルコビアン性との関係、およびランダム行列論アプローチ

Classicality with(out) decoherence: Concepts, relation to Markovianity, and a random matrix theory approach ( http://arxiv.org/abs/2301.02563v2 )

ライセンス: Link先を確認
Philipp Strasberg(参考訳) 古典の世界が量子物理学の根底からどのように現われるかという疑問に対する答えは、次のように再検討され、連結され、拡張される。 まず、オープン量子系のデコヒーレンス、一貫性/デコヒーレントヒストリー、コルモゴロフ一貫性の3つの異なる概念を比較する。 第二に、これらの概念をつなぐ量子マルコフ性(厳密に定義される)の重要な役割が確立される。 第3に、ランダム行列理論モデルを用いて、大量のコヒーレンスが存在するにもかかわらず、遅い観測値と粗い観測値の測定統計値において、量子効果が指数関数的に抑制されることが示されている。 これはまた数値的に例示されており、古典性の出現に対する非可積分性とカオスの可能性と重要性を強調している。

Answers to the question how a classical world emerges from underlying quantum physics are revisited, connected and extended as follows. First, three distinct concepts are compared: decoherence in open quantum systems, consistent/decoherent histories and Kolmogorov consistency. Second, the crucial role of quantum Markovianity (defined rigorously) to connect these concepts is established. Third, using a random matrix theory model, quantum effects are shown to be exponentially suppressed in the measurement statistics of slow and coarse observables despite the presence of large amount of coherences. This is also numerically exemplified, and it highlights the potential and importance of non-integrability and chaos for the emergence of classicality.
翻訳日:2023-04-03 20:35:38 公開日:2023-03-31
# 量子ジャジンスキー等式の設定における射影仮説

Projection hypothesis in the setting for the quantum Jarzynski equality ( http://arxiv.org/abs/2212.07785v3 )

ライセンス: Link先を確認
Eiji Konishi(参考訳) 射影量子計測は現代の量子力学において理論的に受け入れられた過程である。 しかし、その射影仮説は実験的に確立された経験則と見なされている。 本稿では,観測可能な全集合が制限された射影量子計測における射影仮説のハミルトニアン過程の実現に関する先行結果と,イベント読み取りに必要な作業(つまり,射影量子計測における情報的過程)に関する先行結果を組み合わせる。 次に、これら2つの相互独立な量子計測理論結果を同時に試験するための量子熱力学スキームを提案する。

Projective quantum measurement is a theoretically accepted process in modern quantum mechanics. However, its projection hypothesis is widely regarded as an experimentally established empirical law. In this paper, we combine a previous result regarding the realization of a Hamiltonian process of the projection hypothesis in projective quantum measurement, where the complete set of the observables is restricted, and a previous result regarding the work required for an event reading (i.e., the informatical process in projective quantum measurement). Then, a quantum thermodynamic scheme is proposed for experimentally testing these two mutually independent theoretical results of projective quantum measurement simultaneously.
翻訳日:2023-04-03 20:35:23 公開日:2023-03-31
# 光路変調を用いた表面音波の定量的光学画像化法

Quantitative optical imaging method for surface acoustic wave using optical path modulation ( http://arxiv.org/abs/2212.07369v3 )

ライセンス: Link先を確認
Ryusuke Hisatomi, Kotaro Taga, Ryo Sasaki, Yoichi Shiota, Takahiro Moriyama, Teruo Ono(参考訳) 弾性表面波(SAW)は、その表面局在化、高電気制御性、低伝搬損失により、古典的および量子情報キャリアとして様々な分野で用いられている。 SAWと他の物理系、例えば磁化、電子電荷、電子スピンとの結合とハイブリダイゼーションは、最近のフォノニクスやスピントロニクスの焦点である。 表面波振幅の精密測定は結合強度を議論するためにしばしば必要となる。 しかし、そのような測定技術はごくわずかであり、概してかなり複雑な分析を必要とする。 そこで我々は,SAWを定量的に特徴付ける簡単な測定手法を開発し,実証する。 この技術は、光路変調により、コヒーレント駆動SAWによる表面の揺動を光学的に検出する。 さらに、計測システムがショットノイズ制限状態で動作した場合、光路変調信号から光スポットの表面傾斜を推定することができる。 我々の実証技術は,SAW関連研究にとって重要なツールとなる。

Surface acoustic wave (SAW) is used in various fields as classical and quantum information carriers because of its surface localization, high electrical controllability, and low propagation loss. Coupling and hybridization between the SAW and other physical systems such as magnetization, electron charge, and electron spin are the recent focuses in phononics and spintronics. Precise measurement of surface wave amplitude is often necessary to discuss the coupling strengths. However, there are only a few such measurement techniques and they generally require a rather complex analysis. Here we develop and demonstrate a straightforward measurement technique that can quantitatively characterize the SAW. The technique optically detects the surface waving due to the coherently driven SAW by the optical path modulation. Furthermore, when the measurement system operates in the shot-noise-limited regime, the surface slope at the optical spot can be deduced from the optical path modulation signal. Our demonstrated technique will be an important tool for SAW-related research.
翻訳日:2023-04-03 20:35:13 公開日:2023-03-31
# ヒルベルト空間還元による絡み合った島

Entanglement Islands from Hilbert Space Reduction ( http://arxiv.org/abs/2211.17004v3 )

ライセンス: Link先を確認
Debarshi Basu, Qiang Wen and Shangjie Zhou(参考訳) 本稿では、純粋に量子情報の観点から、 textit{Island formula} を理解することを試みる。 島相は、状態が埋め込まれた量子状態とヒルベルト空間の性質であることを示す。 より明確に言うと、ある部分集合の状態が別の部分集合の状態に完全にエンコードされた量子系において、システムのヒルベルト空間は減少し、減少密度行列と関連するエントロピー量を計算する方法も本質的に変化する。 このようなヒルベルト空間の減少は量子系の新しい島式をもたらすが、これはブラックホールの蒸発の過程でユニタリ性を救うために最近提案された重力における同じ島式である。 この文脈では、Mathur/AMPSパラドックスに簡単な解を与える。 さらに, 絡み合う島々が出現する非重力場理論構成を提案し, 島相の絡み合い構造を説明するとともに, 実験室における島相の実現方法を提案する。

In this paper we try to understand the \textit{Island formula} from a purely quantum information perspective. We propose that the island phase is a property of the quantum state and the Hilbert space where the state is embedded in. More explicitly we show that, in a quantum system when the state of a subset is totally encoded in the state of another subset, the Hilbert space of the system will reduce, and the way we compute the reduced density matrix and related entropy quantities will also change essentially. Such reductions of the Hilbert space result in a new island formula in quantum systems, which we conjecture to be the same island formula in gravity recently proposed to rescue the unitarity in the process of black hole evaporation. In this context, we give a simple resolution to the Mathur/AMPS paradox. Furthermore, we propose a non-gravitational field theory configuration where entanglement islands emerge, give a description for the entanglement structure of the island phase and propose how to realize the island phase in the lab.
翻訳日:2023-04-03 20:35:00 公開日:2023-03-31
# 医学的意思決定問題に対する相対的スパーシティ

Relative Sparsity for Medical Decision Problems ( http://arxiv.org/abs/2211.16566v3 )

ライセンス: Link先を確認
Samuel J. Weisenthal, Sally W. Thurston, Ashkan Ertefaie(参考訳) 既存の統計手法では、政策や、共変量から意思決定へのマッピングを推定することができ、意思決定者(例えば、血圧と心拍率に基づいて低血圧治療を行うか)を指示することができる。 医療においてこのようなデータ駆動ポリシーを使うことには大きな関心がある。 しかし、医療提供者や患者に対して、新しいポリシーが現在のケアの標準とどのように異なるかを説明することは、しばしば重要である。 この目的は、ケアの基準から新しいポリシーに移行する際に変化するポリシー(すなわち血圧と心拍率のパラメータ)の側面を特定することができれば促進される。 この目的のために,信頼地域政策最適化(TRPO)の考え方を適用した。 しかし,我々の研究では,trpoと異なり,提案する方針とケアの標準との差異は,解釈可能性とともにスパースすることが求められている。 これにより `relative sparsity" が得られ、チューニングパラメータの関数である $\lambda$ として、ケアの標準(例えば心拍数のみ)において、推奨ポリシーのパラメータ数と異なるパラメータの数を概ね制御できる。 我々は,現在のケア標準の文脈で説明が容易なポリシーを導出し,$\lambda$を選択し,シミュレーションを行い,実際の医療データセットを用いて我々の方法を記述するための基準を提案する。 我々の研究は、データ駆動型意思決定支援の導入を促進し、健康的な結果を改善する大きな可能性を秘めている。

Existing statistical methods can estimate a policy, or a mapping from covariates to decisions, which can then instruct decision makers (e.g., whether to administer hypotension treatment based on covariates blood pressure and heart rate). There is great interest in using such data-driven policies in healthcare. However, it is often important to explain to the healthcare provider, and to the patient, how a new policy differs from the current standard of care. This end is facilitated if one can pinpoint the aspects of the policy (i.e., the parameters for blood pressure and heart rate) that change when moving from the standard of care to the new, suggested policy. To this end, we adapt ideas from Trust Region Policy Optimization (TRPO). In our work, however, unlike in TRPO, the difference between the suggested policy and standard of care is required to be sparse, aiding with interpretability. This yields ``relative sparsity," where, as a function of a tuning parameter, $\lambda$, we can approximately control the number of parameters in our suggested policy that differ from their counterparts in the standard of care (e.g., heart rate only). We propose a criterion for selecting $\lambda$, perform simulations, and illustrate our method with a real, observational healthcare dataset, deriving a policy that is easy to explain in the context of the current standard of care. Our work promotes the adoption of data-driven decision aids, which have great potential to improve health outcomes.
翻訳日:2023-04-03 20:34:43 公開日:2023-03-31
# マルチエージェント協調のためのグラフ学習

Unrolled Graph Learning for Multi-Agent Collaboration ( http://arxiv.org/abs/2210.17101v2 )

ライセンス: Link先を確認
Enpei Zhang, Shuo Tang, Xiaowen Dong, Siheng Chen, Yanfeng Wang(参考訳) マルチエージェント学習は、データ交換の制限の下で分散機械学習シナリオに取り組むために注目を集めている。 しかし、既存のマルチエージェント学習モデルは、通常、エージェント間の固定的かつ強制的な協調関係の下でのデータ融合を検討する。 このギャップを埋めるために,エージェントが適切なコラボレータを自律的に検出し,パフォーマンス向上のためにコラボレータのモデルを参照できる,ヒューマンコラボレーションにインスパイアされた分散マルチエージェント学習モデルを提案する。 このような適応的な協調を実現するために,協調グラフを用いて協調関係を示す。 協調グラフは、異なるエージェント間のモデル類似性に基づいたグラフ学習技術によって得られる。 モデルの類似性は固定されたグラフィカル最適化では定式化できないため、グラフ学習ネットワークを展開することで設計する。 回帰タスクと分類タスクの両方をテストすることで,提案する協調モデルが正確な協調関係を解明し,エージェントの学習性能を大幅に向上できることを確認した。

Multi-agent learning has gained increasing attention to tackle distributed machine learning scenarios under constrictions of data exchanging. However, existing multi-agent learning models usually consider data fusion under fixed and compulsory collaborative relations among agents, which is not as flexible and autonomous as human collaboration. To fill this gap, we propose a distributed multi-agent learning model inspired by human collaboration, in which the agents can autonomously detect suitable collaborators and refer to collaborators' model for better performance. To implement such adaptive collaboration, we use a collaboration graph to indicate the pairwise collaborative relation. The collaboration graph can be obtained by graph learning techniques based on model similarity between different agents. Since model similarity can not be formulated by a fixed graphical optimization, we design a graph learning network by unrolling, which can learn underlying similar features among potential collaborators. By testing on both regression and classification tasks, we validate that our proposed collaboration model can figure out accurate collaborative relationship and greatly improve agents' learning performance.
翻訳日:2023-04-03 20:34:20 公開日:2023-03-31
# レーザー位相と強度雑音に対する量子ゲート忠実性の感度

Sensitivity of quantum gate fidelity to laser phase and intensity noise ( http://arxiv.org/abs/2210.11007v3 )

ライセンス: Link先を確認
X. Jiang, J. Scott, Mark Friesen, and M. Saffman(参考訳) 中性原子量子ビットにおけるゲート操作の忠実性は、しばしばレーザー駆動のゆらぎによって制限される。 ここでは,レーザー位相と強度雑音に対する量子ゲートの感度を定量化する。 まず, 白色雑音とサーボバンプの影響に着目し, レーザー自己ヘテロダインノイズスペクトルの特徴を同定するモデルを開発した。 十分に安定化されたレーザーの特性である弱雑音状態において、マスター方程式の摂動解に基づく解析理論は位相雑音を含む数値シミュレーションと非常によく一致することを示す。 1光および2光のラビ振動に対する量子ゲート密度を計算し、スペクトル雑音ピークに対するRabi周波数の適切な選択により拡張可能であることを示す。 また,Rabi周波数よりもスペクトル支援が小さい強度雑音の影響を解析した。 以上の結果から,所望のゲートファイパティを達成するために必要なレーザノイズレベルを定式化する。

The fidelity of gate operations on neutral atom qubits is often limited by fluctuations of the laser drive. Here, we quantify the sensitivity of quantum gate fidelities to laser phase and intensity noise. We first develop models to identify features observed in laser self-heterodyne noise spectra, focusing on the effects of white noise and servo bumps. In the weak-noise regime, characteristic of well-stabilized lasers, we show that an analytical theory based on a perturbative solution of a master equation agrees very well with numerical simulations that incorporate phase noise. We compute quantum gate fidelities for one- and two-photon Rabi oscillations and show that they can be enhanced by an appropriate choice of Rabi frequency relative to spectral noise peaks. We also analyze the influence of intensity noise with spectral support smaller than the Rabi frequency. Our results establish requirements on laser noise levels needed to achieve desired gate fidelities.
翻訳日:2023-04-03 20:34:01 公開日:2023-03-31
# 第3モードとの分散結合による2つのボソニックポラリトンの絡み合い

Entangling Two Bosonic Polaritons via Dispersive Coupling with a Third Mode ( http://arxiv.org/abs/2303.15217v2 )

ライセンス: Link先を確認
Xuan Zuo, Zhi-Yuan Fan, Hang Qian, Rui-Chang Shen, Jie Li(参考訳) 2つのハイブリッド化(偏光子)モードを形成する2つの強結合ボソニック系を絡む一般的なメカニズムを提供する。 これは第3ボソニックモードとの分散結合によって実現される。 2つのハイブリッドモードがそれぞれ第3のモードで散在する駆動フィールドのサイドバンドと共振する場合と、2つのポラリトンにおける2つのボソニックモードの重みが適切に選択された場合に、静止絡みが達成される。 絡み合いは、系の散逸と浴槽温度に対して堅牢である。 絡み合い理論は非常に一般的であり、キャビティマグノメカニクス、エキシトン-オプトメカニクス、プラズモン-フォトン-フォノン系など様々なボソニック系に適用できる。

We provide a general mechanism of entangling two strongly-coupled bosonic systems that form two hybridized (polariton) modes. This is realized by dispersively coupling with a third bosonic mode. Stationary entanglement is achieved when the two hybridized modes are respectively resonant with the sidebands of the drive field scattered by the third mode and when the weights of the two bosonic modes in the two polaritons are appropriately chosen. The entanglement is robust against dissipations of the system and bath temperature. The entanglement theory is quite general and applicable to a variety of bosonic systems, such as cavity magnomechanical, exciton-optomechanics, and plasmon-photon-phonon systems.
翻訳日:2023-04-03 20:27:26 公開日:2023-03-31
# 協調型マルチエージェントタスクにおける学習報酬マシン

Learning Reward Machines in Cooperative Multi-Agent Tasks ( http://arxiv.org/abs/2303.14061v2 )

ライセンス: Link先を確認
Leo Ardon, Daniel Furelos-Blanco, Alessandra Russo(参考訳) 本稿では,協調的なタスク分解と,サブタスクの構造を符号化した報酬機械(rms)の学習を組み合わせたマルチエージェント強化学習(marl)への新しいアプローチを提案する。 提案手法は, 部分的に観察可能な環境における報酬の非マルコフ的性質に対処し, 協調作業の完了に必要な学習方針の解釈性を向上させる。 各サブタスクに関連付けられたrmは分散的に学習され、各エージェントの振る舞いを導くのに使用される。 これにより、協調的マルチエージェント問題の複雑さが減少し、より効果的な学習が可能となる。 以上の結果から,本手法はMARL,特に大規模状態空間と複数エージェントを持つ複雑な環境での今後の研究の方向性として期待できると考えられる。

This paper presents a novel approach to Multi-Agent Reinforcement Learning (MARL) that combines cooperative task decomposition with the learning of reward machines (RMs) encoding the structure of the sub-tasks. The proposed method helps deal with the non-Markovian nature of the rewards in partially observable environments and improves the interpretability of the learnt policies required to complete the cooperative task. The RMs associated with each sub-task are learnt in a decentralised manner and then used to guide the behaviour of each agent. By doing so, the complexity of a cooperative multi-agent problem is reduced, allowing for more effective learning. The results suggest that our approach is a promising direction for future research in MARL, especially in complex environments with large state spaces and multiple agents.
翻訳日:2023-04-03 20:27:08 公開日:2023-03-31
# 軌道ロボットの近似3次元モデルによる6次元物体位置推定

6D Object Pose Estimation from Approximate 3D Models for Orbital Robotics ( http://arxiv.org/abs/2303.13241v2 )

ライセンス: Link先を確認
Maximilian Ulmer, Maximilian Durner, Martin Sundermeyer, Manuel Stoiber, and Rudolph Triebel(参考訳) そこで本稿では,物体の3次元形状を3次元モデルとしてのみ与えた単一の画像から,物体の6次元ポーズを推定する新しい手法を提案する。 これを実現するために,各画素の3dモデル座標を回帰する密度の高い2d-3d対応予測器を用いる。 また,3次元座標に加えて画素座標誤差を推定し,誤りとなる可能性のある対応を破棄する。 これにより、オブジェクトの複数の6次元ポーズ仮説を生成でき、それを高効率な領域ベースアプローチで反復的に洗練することができる。 また、各仮説の確率を推定し、最も可能性の高いものを選択することができる、新しい画素単位の後方定式化も導入する。 実験で示したように、我々のアプローチは、過剰露出、高コントラスト、低信号対雑音比といった極端な視覚条件を扱うことができる。 これにより、軌道上のロボット応用のために転がる衛星の姿勢を推定する、特に困難なタスクにおいて強力な技術となる。 提案手法は,SPEED+データセット上での最先端性能を実現し,SPEC2021ポストモーテムコンペティションで優勝した。

We present a novel technique to estimate the 6D pose of objects from single images where the 3D geometry of the object is only given approximately and not as a precise 3D model. To achieve this, we employ a dense 2D-to-3D correspondence predictor that regresses 3D model coordinates for every pixel. In addition to the 3D coordinates, our model also estimates the pixel-wise coordinate error to discard correspondences that are likely wrong. This allows us to generate multiple 6D pose hypotheses of the object, which we then refine iteratively using a highly efficient region-based approach. We also introduce a novel pixel-wise posterior formulation by which we can estimate the probability for each hypothesis and select the most likely one. As we show in experiments, our approach is capable of dealing with extreme visual conditions including overexposure, high contrast, or low signal-to-noise ratio. This makes it a powerful technique for the particularly challenging task of estimating the pose of tumbling satellites for in-orbit robotic applications. Our method achieves state-of-the-art performance on the SPEED+ dataset and has won the SPEC2021 post-mortem competition.
翻訳日:2023-04-03 20:26:38 公開日:2023-03-31
# 因果関係からみた画像復元のための学習歪不変表現

Learning Distortion Invariant Representation for Image Restoration from A Causality Perspective ( http://arxiv.org/abs/2303.06859v2 )

ライセンス: Link先を確認
Xin Li, Bingchen Li, Xin Jin, Cuiling Lan, Zhibo Chen(参考訳) 近年,画像復元におけるディープニューラルネットワーク(dnn)の飛躍的な進歩を目の当たりにしている。 しかし、重要な制限は、異なる次数や型を持つ実世界の分解に対してうまく一般化できないことである。 本稿では,原因不明の劣化に対するDNNの一般化能力を向上させるために,因果的視点から画像復元のための新たなトレーニング戦略を提案する。 本手法は, 歪み不変表現学習 (dil) と呼ばれ, それぞれの歪みタイプと次数を1つの特定の共起体として扱い, 劣化の有害な共起効果を排除することにより歪み不変表現を学習する。 我々は,最適化の観点から異なる歪みの干渉をモデル化することにより,因果関係におけるバックドアの基準を導出する。 特に,共起者としての仮想的歪みタイプと程度をシミュレートするために,反事実的歪み強化を導入する。 そして、対応する歪み画像に基づいて、仮想モデル更新による各歪みの介入をインスタンス化し、メタラーニングの観点から排除する。 広範に実験を行い,非知覚歪型と程度に対する一般化能力に対するdilの有効性を実証した。 私たちのコードはhttps://github.com/lixinustc/Causal-IR-DILで公開されます。

In recent years, we have witnessed the great advancement of Deep neural networks (DNNs) in image restoration. However, a critical limitation is that they cannot generalize well to real-world degradations with different degrees or types. In this paper, we are the first to propose a novel training strategy for image restoration from the causality perspective, to improve the generalization ability of DNNs for unknown degradations. Our method, termed Distortion Invariant representation Learning (DIL), treats each distortion type and degree as one specific confounder, and learns the distortion-invariant representation by eliminating the harmful confounding effect of each degradation. We derive our DIL with the back-door criterion in causality by modeling the interventions of different distortions from the optimization perspective. Particularly, we introduce counterfactual distortion augmentation to simulate the virtual distortion types and degrees as the confounders. Then, we instantiate the intervention of each distortion with a virtual model updating based on corresponding distorted images, and eliminate them from the meta-learning perspective. Extensive experiments demonstrate the effectiveness of our DIL on the generalization capability for unseen distortion types and degrees. Our code will be available at https://github.com/lixinustc/Causal-IR-DIL.
翻訳日:2023-04-03 20:26:19 公開日:2023-03-31
# リモートセンシング画像生成のためのGANの特性と非現実的説明

Intriguing Property and Counterfactual Explanation of GAN for Remote Sensing Image Generation ( http://arxiv.org/abs/2303.05240v2 )

ライセンス: Link先を確認
Xingzhe Su, Wenwen Qiang, Jie Hu, Fengge Wu, Changwen Zheng, Fuchun Sun(参考訳) generative adversarial networks (gans) は自然画像分野において著しい進歩を遂げている。 しかしながら、リモートセンシング(RS)画像生成タスクにGANを適用する場合、GANモデルは自然画像生成よりもRS画像生成のためのトレーニングデータのサイズに敏感である、という驚くべき現象が観察される。 言い換えると、rs画像の生成品質は、カテゴリごとのトレーニングカテゴリやサンプルの数によって大きく変化する。 本稿では,この現象を2種類の玩具実験から解析し,GANモデルに含まれる特徴情報の量は,トレーニングデータを減らすことで減少することを示す。 次に、データ生成プロセスの構造因果モデル(SCM)を構築し、生成したデータを対物として解釈する。 このSCMに基づいて、生成した画像の品質が特徴情報の量と正の相関関係があることを理論的に証明する。 これはトレーニング中にganモデルによって学習された機能情報を強化するための洞察を提供する。 その結果,一様正則化 (UR) とエントロピー正則化 (ER) という2つの革新的な調整手法が提案され,GANモデルで得られた情報をそれぞれ分布レベルとサンプルレベルで向上する。 我々は理論上,実証的に手法の有効性と汎用性を示す。 3つのrsデータセットと2つの自然データセットに関する広範囲な実験により、本手法がrs画像生成タスクにおいて確立されたモデルを上回ることを示した。 ソースコードはhttps://github.com/rootSue/Causal-RSGANで入手できる。

Generative adversarial networks (GANs) have achieved remarkable progress in the natural image field. However, when applying GANs in the remote sensing (RS) image generation task, an extraordinary phenomenon is observed: the GAN model is more sensitive to the size of training data for RS image generation than for natural image generation. In other words, the generation quality of RS images will change significantly with the number of training categories or samples per category. In this paper, we first analyze this phenomenon from two kinds of toy experiments and conclude that the amount of feature information contained in the GAN model decreases with reduced training data. Then we establish a structural causal model (SCM) of the data generation process and interpret the generated data as the counterfactuals. Based on this SCM, we theoretically prove that the quality of generated images is positively correlated with the amount of feature information. This provides insights for enriching the feature information learned by the GAN model during training. Consequently, we propose two innovative adjustment schemes, namely Uniformity Regularization (UR) and Entropy Regularization (ER), to increase the information learned by the GAN model at the distributional and sample levels, respectively. We theoretically and empirically demonstrate the effectiveness and versatility of our methods. Extensive experiments on three RS datasets and two natural datasets show that our methods outperform the well-established models on RS image generation tasks. The source code is available at https://github.com/rootSue/Causal-RSGAN.
翻訳日:2023-04-03 20:25:59 公開日:2023-03-31
# ノイズ型ディジタル量子シミュレータにおける ising meson spectroscopy

Ising Meson Spectroscopy on a Noisy Digital Quantum Simulator ( http://arxiv.org/abs/2303.03311v2 )

ライセンス: Link先を確認
Christopher Lamb, Yicheng Tang, Robert Davis and Ananda Roy(参考訳) 量子シミュレーションは、強相互作用量子場理論(QFT)における非摂動現象の研究に必須の手法である可能性がある。 現代の量子時代には、ノイズの中間スケール量子〜(NISQ)シミュレータが広く利用可能であり、地平線上により大きな量子マシンがあるため、どのような非摂動QFT問題は既存の量子ハードウェアで解決できるのか? 既存の雑音量子マシンは、強い相互作用を持つ1+1D QFTの大きいファミリーのエネルギースペクトルを分析するのに利用できることを示す。 後者は、通常、素粒子の高次元QFTと関連する「クォーク閉じ込め」や「偽真空崩壊」のような幅広い非摂動効果を示す。 ibmのibmq_mumbai量子シミュレータでクエンチ実験を行い、1+1次元量子イジングモデルのエネルギースペクトルを長手場で計算した。 後者のモデルが特に興味深いのは、2次元量子色力学のt'Hooftモデルに類似したイジング領域壁の凝縮ポテンシャルから生じるメソニック境界状態の形成である。 その結果,nisq時代のディジタル量子シミュレーションは,密度行列再正規化群やqft解析のための切断共形空間法といった数値手法の代替となる可能性が示唆された。

Quantum simulation has the potential to be an indispensable technique for the investigation of non-perturbative phenomena in strongly-interacting quantum field theories (QFTs). In the modern quantum era, with Noisy Intermediate Scale Quantum~(NISQ) simulators widely available and larger-scale quantum machines on the horizon, it is natural to ask: what non-perturbative QFT problems can be solved with the existing quantum hardware? We show that existing noisy quantum machines can be used to analyze the energy spectrum of a large family of strongly-interacting 1+1D QFTs. The latter exhibit a wide-range of non-perturbative effects like `quark confinement' and `false vacuum decay' which are typically associated with higher-dimensional QFTs of elementary particles. We perform quench experiments on IBM's ibmq_mumbai quantum simulator to compute the energy spectrum of 1+1D quantum Ising model with a longitudinal field. The latter model is particularly interesting due to the formation of mesonic bound states arising from a confining potential for the Ising domain-walls, reminiscent of t'Hooft's model of two-dimensional quantum chromodynamics. Our results demonstrate that digital quantum simulation in the NISQ era has the potential to be a viable alternative to numerical techniques such as density matrix renormalization group or the truncated conformal space methods for analyzing QFTs.
翻訳日:2023-04-03 20:25:35 公開日:2023-03-31
# オートエンコーダは3次元CT超解像に真に適用可能か?

Is Autoencoder Truly Applicable for 3D CT Super-Resolution? ( http://arxiv.org/abs/2302.10272v2 )

ライセンス: Link先を確認
Weixun Luo, Xiaodan Xing, Guang Yang(参考訳) ボトルネック構造を特徴とするオートエンコーダ(ae)とその変種は、セグメンテーション、再構築、ノイズ除去など、様々な医療画像解析タスクに広く適用されている。 上述した課題における有望な性能にもかかわらず、本論文では、AEモデルは3次元CTデータの単一画像超解像(SISR)には適用できないと主張している。 我々の仮説は、AEモデルの特徴マップを縮小するボトルネックアーキテクチャが入力画像の細部を劣化させ、超解像の性能を妨害できるというものである。 u-netは異なるレベルの情報をマージするスキップ接続を提案したが、機能再サイズ操作の劣化の影響はスキップ接続によって除去できないと主張している。 大規模アブレーション実験を行ない,一般のCT肺データセット上でボトルネック設計を伴わないモデルの性能を比較することにより,U-Netを含むAEモデルでは,ベースラインモデルと比較して相容れないSISR結果(p<0.05ドル)が得られた。 我々の研究は、3D CT SISRタスクにおけるAEアーキテクチャの適合性に関する最初の比較研究であり、特に3D CT SISRタスクにおけるモデルアーキテクチャの選択を再考する根拠となっている。 完全な実装とトレーニングされたモデルは、https://github.com/roldbach/autoencoder-3d-ct-sisrで見ることができる。

Featured by a bottleneck structure, autoencoder (AE) and its variants have been largely applied in various medical image analysis tasks, such as segmentation, reconstruction and de-noising. Despite of their promising performances in aforementioned tasks, in this paper, we claim that AE models are not applicable to single image super-resolution (SISR) for 3D CT data. Our hypothesis is that the bottleneck architecture that resizes feature maps in AE models degrades the details of input images, thus can sabotage the performance of super-resolution. Although U-Net proposed skip connections that merge information from different levels, we claim that the degrading impact of feature resizing operations could hardly be removed by skip connections. By conducting large-scale ablation experiments and comparing the performance between models with and without the bottleneck design on a public CT lung dataset , we have discovered that AE models, including U-Net, have failed to achieve a compatible SISR result ($p<0.05$ by Student's t-test) compared to the baseline model. Our work is the first comparative study investigating the suitability of AE architecture for 3D CT SISR tasks and brings a rationale for researchers to re-think the choice of model architectures especially for 3D CT SISR tasks. The full implementation and trained models can be found at: https://github.com/Roldbach/Autoencoder-3D-CT-SISR
翻訳日:2023-04-03 20:25:09 公開日:2023-03-31
# 時空曲率によるデコヒーレンス

Decoherence due to Spacetime Curvature ( http://arxiv.org/abs/2302.09038v2 )

ライセンス: Link先を確認
Raghvendra Singh, Kabir Khanna, Dawood Kothawala(参考訳) 過去数年間、エンタングルメントやデコヒーレンスのような量子現象における重力の役割の研究にかなりの関心が寄せられている。 特に、重力時間拡張は、複合量子系の質量中心の重ね合わせであると考えられている。 重力の真の効果は時空の曲率にエンコードされるので、そのようなデコヒーレンスの普遍性はリーマンテンソル$R_{abcd}$の成分によって特徴づけられなければならない。 一般曲線時空における複合系の還元密度行列を求め,曲率の観点でデコヒーレンス時間スケールを明示的に表現する。 慣性フレームのデコヒーレンスは潮流加速によって引き起こされる。 また、自己重力の影響を解析し、外部曲率との重力相互作用のカップリングが$m \to m + H_{\rm int}/c^2$で達成できないことを示す。

There has been considerable interest over the past years in investigating the role of gravity in quantum phenomenon such as entanglement and decoherence. In particular, gravitational time dilation is believed to decohere superpositions of center of mass of composite quantum systems. Since true effects of gravity are encoded in the curvature of spacetime, the universality of such decoherence must be characterized through components of Riemann tensor $R_{abcd}$, with a clear separation from non-inertial kinematic effects. We obtain the reduced density matrix of a composite system in a generic curved spacetime and express the decoherence time scale explicitly in terms of curvature. The decoherence in an inertial frame is caused by tidal acceleration. We also analyze the effects of self-gravity and show that the coupling of gravitational interaction with external curvature can not be captured by the replacement $m \to m + H_{\rm int}/c^2$.
翻訳日:2023-04-03 20:24:39 公開日:2023-03-31
# ニュークロン:スパークリオーダー可能な行列とテンソルを一定サイズ圧縮

NeuKron: Constant-Size Lossy Compression of Sparse Reorderable Matrices and Tensors ( http://arxiv.org/abs/2302.04570v2 )

ライセンス: Link先を確認
Taehyung Kwon, Jihoon Ko, Jinhong Jung, Kijung Shin(参考訳) 多くの実世界のデータは自然にスパースリオーダー可能な行列として表され、行と列は任意に順序付けられる(例えば、二部グラフの隣接行列)。 従来の方法でスパース行列をストッキングするには、非ゼロ数の空間線型の量が必要であり、スパース行列(例えば、Trncated SVD)の損失圧縮は通常、行数と列数の空間線型の量を必要とする。 本研究では,スパースリオーダー可能な行列を定数サイズ空間に圧縮するためのNeuKronを提案する。 ニュークロンは定数のパラメータを持つリカレントニューラルネットワークを用いてクロネッカー製品を一般化する。 ニュークロンは与えられた行列が積によって近似するようにパラメータを更新し、近似を容易にするために行列の行と列を再順序付けする。 更新には、入力行列内の非零個数を線形にし、各エントリの近似値を対数時間で取り出すことができる。 我々はまた、行列を一般化するスパースリオーダー可能なテンソル(例えば多層グラフ)を圧縮するためにNeuKronを拡張する。 10個の実世界のデータセットの実験を通して、ニュークロンは (a)コンパクト:類似の近似誤差を持つ競合製品よりも最大5桁のスペースを必要とする。 (b)精度:類似の大きさの出力を持つ競争相手の最大10倍の近似誤差を付与し、 (c)スケーラブル:2億3000万以上の非ゼロエントリを持つマトリックスをうまく圧縮する。

Many real-world data are naturally represented as a sparse reorderable matrix, whose rows and columns can be arbitrarily ordered (e.g., the adjacency matrix of a bipartite graph). Storing a sparse matrix in conventional ways requires an amount of space linear in the number of non-zeros, and lossy compression of sparse matrices (e.g., Truncated SVD) typically requires an amount of space linear in the number of rows and columns. In this work, we propose NeuKron for compressing a sparse reorderable matrix into a constant-size space. NeuKron generalizes Kronecker products using a recurrent neural network with a constant number of parameters. NeuKron updates the parameters so that a given matrix is approximated by the product and reorders the rows and columns of the matrix to facilitate the approximation. The updates take time linear in the number of non-zeros in the input matrix, and the approximation of each entry can be retrieved in logarithmic time. We also extend NeuKron to compress sparse reorderable tensors (e.g. multi-layer graphs), which generalize matrices. Through experiments on ten real-world datasets, we show that NeuKron is (a) Compact: requiring up to five orders of magnitude less space than its best competitor with similar approximation errors, (b) Accurate: giving up to 10x smaller approximation error than its best competitors with similar size outputs, and (c) Scalable: successfully compressing a matrix with over 230 million non-zero entries.
翻訳日:2023-04-03 20:24:22 公開日:2023-03-31
# ハミング距離に基づく量子k-ネアレスト近傍分類アルゴリズム

Quantum K-nearest neighbor classification algorithm based on Hamming distance ( http://arxiv.org/abs/2103.04253v2 )

ライセンス: Link先を確認
Jing Li, Song Lin, Yu Kai, Gongde Guo(参考訳) k-nearest近傍分類アルゴリズムは、サンプル間の類似性によってサンプルのカテゴリを決定する機械学習における最も基本的なアルゴリズムの1つである。 本稿では,ハミング距離を持つ量子K-アネレスト近傍分類アルゴリズムを提案する。 このアルゴリズムでは、まず量子計算を用いてハミング距離を並列に取得する。 そして、未順序整数列の最小値を求めるためのコア・サブアルゴリズムを示し、最小距離を求める。 これら2つのサブアルゴリズムに基づいて、K-アネレスト近傍分類アルゴリズムの全量子フレームを示す。 最後に,提案アルゴリズムは時間複雑性を短時間で解析することにより,2次高速化を実現することができることを示した。

K-nearest neighbor classification algorithm is one of the most basic algorithms in machine learning, which determines the sample's category by the similarity between samples. In this paper, we propose a quantum K-nearest neighbor classification algorithm with Hamming distance. In this algorithm, quantum computation is firstly utilized to obtain Hamming distance in parallel. Then, a core sub-algorithm for searching the minimum of unordered integer sequence is presented to find out the minimum distance. Based on these two sub-algorithms, the whole quantum frame of K-nearest neighbor classification algorithm is presented. At last, it is shown that the proposed algorithm can achieve a quadratical speedup by analyzing its time complexity briefly.
翻訳日:2023-04-03 18:39:24 公開日:2023-03-31
# ディープメトリック埋め込みにおける特徴表現

Feature Representation in Deep Metric Embeddings ( http://arxiv.org/abs/2102.03176v2 )

ライセンス: Link先を確認
Ryan Furlong, Vincent O'Brien, James Garland, Daniel Palacios-Alonso, Francisco Dominguez-Mateos(参考訳) 深層メトリック学習(dml)では、ハイレベルな入力データは低レベルの表現(埋め込み)空間で表現され、同じクラスからのサンプルが密にマッピングされ、異なるクラスからのサンプルがさらに別々にマッピングされる。 この下層表現では、各既知のクラスからの1つの推論サンプルのみが、クラス間の正確な識別を要求する。 DMLモデルがクラスを識別するために使用する特徴と、トレーニングプロセスにおける各機能の重要性は、不明である。 そこで本研究では,顔(アイデンティティ)を識別する訓練を施した埋め込みを用いて,非教師なしクラスタリングを用いて顔の識別に関わる特徴を識別し,その表現を組込み空間内で調べる。 本研究は,1つのアイデンティティに異なる属性が考慮されるクラス内下位差別(ひげや感情など)と,性別,肌色,年齢などの異なる属性が考慮されるクラス内下位差別(クラス内差別)の2つのケースに分類される。 クラス内のシナリオでは、推論プロセスは単一のアイデンティティの共通属性を区別し、それぞれ90.0\%と76.0\%の精度を達成する。 また、性別、肌の色、年齢に対して、99.3\%、99.3\%、94.1\%などの高い精度で、余分なクラス分類を行うこともできる。

In deep metric learning (DML), high-level input data are represented in a lower-level representation (embedding) space, such that samples from the same class are mapped close together, while samples from disparate classes are mapped further apart. In this lower-level representation, only a single inference sample from each known class is required to discriminate between classes accurately. The features a DML model uses to discriminate between classes and the importance of each feature in the training process are unknown. To investigate this, this study takes embeddings trained to discriminate faces (identities) and uses unsupervised clustering to identify the features involved in facial identity discrimination by examining their representation within the embedded space. This study is split into two cases; intra class sub-discrimination, where attributes that differ between a single identity are considered; such as beards and emotions; and extra class sub-discrimination, where attributes which differ between different identities/people, are considered; such as gender, skin tone and age. In the intra class scenario, the inference process distinguishes common attributes between single identities, achieving 90.0\% and 76.0\% accuracy for beards and glasses, respectively. The system can also perform extra class sub-discrimination with a high accuracy rate, notably 99.3\%, 99.3\% and 94.1\% for gender, skin tone, and age, respectively.
翻訳日:2023-04-03 18:39:09 公開日:2023-03-31
# 混合整数プログラミングを用いた整数値ニューラルネットワークの最適学習

Optimal training of integer-valued neural networks with mixed integer programming ( http://arxiv.org/abs/2009.03825v5 )

ライセンス: Link先を確認
T\'omas Thorbjarnarson and Neil Yorke-Smith(参考訳) 最近の研究は、ニューラルネットワーク(NN)の特定の側面を最適化するためにMIP(Mixed Integer Programming)ソルバを使用することの可能性を示している。 しかし、MIPソルバを用いたNNのトレーニングの興味深いアプローチは、未調査である。 NNをトレーニングするための最先端の手法は、通常勾配ベースであり、重要なデータ、GPU上の計算、広範囲なハイパーパラメータチューニングを必要とする。 対照的に、mipソルバによるトレーニングはgpuや重いハイパーパラメータチューニングを必要としないが、現時点では少量のデータしか扱えない。 本稿は、MIPソルバを用いて二項化NNを訓練する最近の進歩に基づく。 我々は、トレーニング効率を改善し、整数値ニューラルネットワーク(INN)の重要なクラスをトレーニングできる新しいMIPモデルを定式化することで、現在の作業を超えています。 NNのトレーニングにMIPを用いることの意義を高めるために,2つの新しい手法を提案する。 最初の方法は、トレーニング中にNN内のニューロン数を最適化する。 これにより、トレーニング前にネットワークアーキテクチャを決定する必要がなくなる。 第2の方法は、MIPが処理可能なトレーニングデータの量に対処し、MIPソルバがトレーニングに使用できるデータ量を劇的に増加させるバッチトレーニング方法を提供する。 MIPモデルを用いたNNのトレーニングでは,これまでよりもはるかに多くのデータの利用が期待できる。 2つの実世界のデータ制限データセットの実験結果は、精度、トレーニング時間、データ量の観点から、我々のアプローチがnnをmipでトレーニングする前の技術を大きく上回っていることを示している。 私たちの方法論は、最小限のトレーニングデータが利用可能である場合のNNのトレーニングや、最小限のメモリ要件によるトレーニングに長けています。

Recent work has shown potential in using Mixed Integer Programming (MIP) solvers to optimize certain aspects of neural networks (NNs). However the intriguing approach of training NNs with MIP solvers is under-explored. State-of-the-art-methods to train NNs are typically gradient-based and require significant data, computation on GPUs, and extensive hyper-parameter tuning. In contrast, training with MIP solvers does not require GPUs or heavy hyper-parameter tuning, but currently cannot handle anything but small amounts of data. This article builds on recent advances that train binarized NNs using MIP solvers. We go beyond current work by formulating new MIP models which improve training efficiency and which can train the important class of integer-valued neural networks (INNs). We provide two novel methods to further the potential significance of using MIP to train NNs. The first method optimizes the number of neurons in the NN while training. This reduces the need for deciding on network architecture before training. The second method addresses the amount of training data which MIP can feasibly handle: we provide a batch training method that dramatically increases the amount of data that MIP solvers can use to train. We thus provide a promising step towards using much more data than before when training NNs using MIP models. Experimental results on two real-world data-limited datasets demonstrate that our approach strongly outperforms the previous state of the art in training NN with MIP, in terms of accuracy, training time and amount of data. Our methodology is proficient at training NNs when minimal training data is available, and at training with minimal memory requirements -- which is potentially valuable for deploying to low-memory devices.
翻訳日:2023-04-03 18:38:43 公開日:2023-03-31
# 適応型ジョイント分布学習

Adaptive joint distribution learning ( http://arxiv.org/abs/2110.04829v2 )

ライセンス: Link先を確認
Damir Filipovic and Michael Multerer and Paul Schneider(参考訳) 我々は、テンソル積再現核ヒルベルト空間 (rkhs) に合同確率分布を埋め込むための新しい枠組みを開発した。 我々のフレームワークはRKHSモデリングの本質的な制約を緩和し,最大数百万のデータポイントのサンプルサイズから推定するRandon-Nikodym誘導体の低次元,正規化,正のモデルに対応している。 よく定義された正規化および正条件分布は、我々のアプローチにとって自然な副産物である。 この埋め込みは計算が速く、予測から分類までの学習問題に対応している。 理論的結果は良好な数値結果によって補われている。

We develop a new framework for embedding joint probability distributions in tensor product reproducing kernel Hilbert spaces (RKHS). Our framework accommodates a low-dimensional, normalized and positive model of a Radon-Nikodym derivative, which we estimate from sample sizes of up to several million data points, alleviating the inherent limitations of RKHS modeling. Well-defined normalized and positive conditional distributions are natural by-products to our approach. The embedding is fast to compute and accommodates learning problems ranging from prediction to classification. Our theoretical findings are supplemented by favorable numerical results.
翻訳日:2023-04-03 17:56:58 公開日:2023-03-31
# 多言語社会イベント検出のための知識蒸留

Transferring Knowledge Distillation for Multilingual Social Event Detection ( http://arxiv.org/abs/2108.03084v3 )

ライセンス: Link先を確認
Jiaqian Ren and Hao Peng and Lei Jiang and Jia Wu and Yongxin Tong and Lihong Wang and Xu Bai and Bo Wang and Qiang Yang(参考訳) 最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。 しかし、ほとんどの研究は、豊富なトレーニングサンプルを持つ言語における単言語データに向けられている。 これは、より一般的な多言語設定と、比較的未熟な話し言葉を残している。 本稿では,多言語データストリームにおけるイベント検出のための言語間埋め込みを組み込んだgnnを提案する。 最初のエクスプロイトは、GNNを多言語データで動作させることである。 このために、ノードレベルとセマンティックレベルの両方で異なる言語でメッセージを整列する構築戦略を概説する。 メッセージ間の関係は、同一だが異なる言語で参照されるエンティティをマージすることによって確立される。 非英語のメッセージ表現は、言語間埋め込みによって英語意味空間に変換される。 得られたメッセージグラフは、GNNモデルによって一様に符号化される。 より少ない言語を検出する必要がある特別な場合、CLKDと呼ばれる新しい言語間知識蒸留フレームワークは、英語の類似スレッドから学んだ事前知識を活用して、注釈付きデータの曖昧さを補う。 合成データと実世界のデータセットの両方の実験により、このフレームワークは多言語データとトレーニングサンプルが不足している言語の両方で検出に非常に効果的であることが示されている。

Recently published graph neural networks (GNNs) show promising performance at social event detection tasks. However, most studies are oriented toward monolingual data in languages with abundant training samples. This has left the more common multilingual settings and lesser-spoken languages relatively unexplored. Thus, we present a GNN that incorporates cross-lingual word embeddings for detecting events in multilingual data streams. The first exploit is to make the GNN work with multilingual data. For this, we outline a construction strategy that aligns messages in different languages at both the node and semantic levels. Relationships between messages are established by merging entities that are the same but are referred to in different languages. Non-English message representations are converted into English semantic space via the cross-lingual word embeddings. The resulting message graph is then uniformly encoded by a GNN model. In special cases where a lesser-spoken language needs to be detected, a novel cross-lingual knowledge distillation framework, called CLKD, exploits prior knowledge learned from similar threads in English to make up for the paucity of annotated data. Experiments on both synthetic and real-world datasets show the framework to be highly effective at detection in both multilingual data and in languages where training samples are scarce.
翻訳日:2023-04-03 17:56:48 公開日:2023-03-31
# 点由来セグメンテーションによるきめ細かいドメイン適応群カウント

Fine-grained Domain Adaptive Crowd Counting via Point-derived Segmentation ( http://arxiv.org/abs/2108.02980v2 )

ライセンス: Link先を確認
Yongtuo Liu, Dan Xu, Sucheng Ren, Hanjie Wu, Hongmin Cai, Shengfeng He(参考訳) ドメインシフトのため、訓練された群衆カウントモデルがワイルドに展開されると、通常、大きなパフォーマンス低下が観測される。 既存のドメイン適応型群集計数法は有望な結果をもたらすが、一般に各群集画像を全体とみなし、総体的にドメインの相違を低減し、ドメイン適応性能のさらなる向上を抑える。 そこで本研究では,群集画像から \emph{ domain-invariant} 群集と \emph{ domain-specific} の背景を抽出し,群集カウントのための微細な領域適応法を設計する。 具体的には,群衆を背景から切り離すため,細心の注意点から群衆のセグメンテーションを学ぶことを提案する。 本研究では,群集領域伝達(crt)と群集密度アライメント(cda)という2つの群集対応適応モジュールからなる群集対応ドメイン適応機構を設計する。 CRTモジュールは、バックグラウンドの障害を超えたドメイン間でのクラウド機能の転送を誘導するように設計されている。 CDAモジュールは、ターゲットドメインの群集密度を自身の群集密度分布によって正規化する。 提案手法は, 広く利用されている適応シナリオにおいて, 従来のアプローチを一貫して上回っている。

Due to domain shift, a large performance drop is usually observed when a trained crowd counting model is deployed in the wild. While existing domain-adaptive crowd counting methods achieve promising results, they typically regard each crowd image as a whole and reduce domain discrepancies in a holistic manner, thus limiting further improvement of domain adaptation performance. To this end, we propose to untangle \emph{domain-invariant} crowd and \emph{domain-specific} background from crowd images and design a fine-grained domain adaption method for crowd counting. Specifically, to disentangle crowd from background, we propose to learn crowd segmentation from point-level crowd counting annotations in a weakly-supervised manner. Based on the derived segmentation, we design a crowd-aware domain adaptation mechanism consisting of two crowd-aware adaptation modules, i.e., Crowd Region Transfer (CRT) and Crowd Density Alignment (CDA). The CRT module is designed to guide crowd features transfer across domains beyond background distractions. The CDA module dedicates to regularising target-domain crowd density generation by its own crowd density distribution. Our method outperforms previous approaches consistently in the widely-used adaptation scenarios.
翻訳日:2023-04-03 17:56:31 公開日:2023-03-31
# 一般的な介入パターンを持つパネルの学習的治療効果

Learning Treatment Effects in Panels with General Intervention Patterns ( http://arxiv.org/abs/2106.02780v2 )

ライセンス: Link先を確認
Vivek F. Farias, Andrew A. Li, Tianyi Peng(参考訳) パネルデータによる因果推論の問題は、中心的な計量問題である。 M^*$ を低階行列とし、E$ を零平均雑音行列とする。 a `treatment' matrix $z$ with entry in $\{0,1\}$ については、エントリ $o_{ij} := m^*_{ij} + e_{ij} + \mathcal{t}_{ij} z_{ij}$ where $\mathcal{t}_{ij} $ が未知で不均一な治療効果を持つ行列 $o$ を観察します。 この問題は、平均的な処理効果である$\tau^* := \sum_{ij} \mathcal{t}_{ij} z_{ij} / \sum_{ij} z_{ij}$ を推定する必要がある。 合成制御パラダイムは、$z$が単一の行にサポートを置くときに$\tau^*$を推定するアプローチを提供する。 本稿では、このフレームワークを拡張して、一般の$Z$に対して$\tau^*$の利率最適回復を可能にする。 私たちの保証は、この一般的な設定で最初のタイプです。 合成および実世界のデータに対する計算実験は、競合する推定器よりもかなり有利である。

The problem of causal inference with panel data is a central econometric question. The following is a fundamental version of this problem: Let $M^*$ be a low rank matrix and $E$ be a zero-mean noise matrix. For a `treatment' matrix $Z$ with entries in $\{0,1\}$ we observe the matrix $O$ with entries $O_{ij} := M^*_{ij} + E_{ij} + \mathcal{T}_{ij} Z_{ij}$ where $\mathcal{T}_{ij} $ are unknown, heterogenous treatment effects. The problem requires we estimate the average treatment effect $\tau^* := \sum_{ij} \mathcal{T}_{ij} Z_{ij} / \sum_{ij} Z_{ij}$. The synthetic control paradigm provides an approach to estimating $\tau^*$ when $Z$ places support on a single row. This paper extends that framework to allow rate-optimal recovery of $\tau^*$ for general $Z$, thus broadly expanding its applicability. Our guarantees are the first of their type in this general setting. Computational experiments on synthetic and real-world data show a substantial advantage over competing estimators.
翻訳日:2023-04-03 17:56:06 公開日:2023-03-31
# structtoken : structure priorを用いた意味セグメンテーション再考

StructToken : Rethinking Semantic Segmentation with Structural Prior ( http://arxiv.org/abs/2203.12612v6 )

ライセンス: Link先を確認
Fangjian Lin, Zhanhao Liang, Sitong Wu, Junjun He, Kai Chen, Shengwei Tian(参考訳) 従来のディープラーニングベースの手法では、セマンティックセグメンテーションは静的またはダイナミックなピクセル単位の分類タスクと見なされており、各ピクセル表現を特定のカテゴリに分類する。 しかしながら、これらの手法は、人間の意思決定メカニズムにとって重要なオブジェクトの構造情報を無視しながら、より良いピクセル表現や分類カーネルの学習のみに焦点を当てている。 本稿では,構造認識抽出というセマンティックセグメンテーションの新しいパラダイムを提案する。 具体的には、学習された構造トークンのセットと画像特徴とのインタラクションを通じてセグメンテーション結果を生成し、各カテゴリの構造情報を特徴から段階的に抽出することを目的としている。 広範な実験により,ade20k,cityscapes,coco-stuff-10kの3つのベンチマークにおいて,我々の構造体が最先端を上回っていることが示された。

In previous deep-learning-based methods, semantic segmentation has been regarded as a static or dynamic per-pixel classification task, \textit{i.e.,} classify each pixel representation to a specific category. However, these methods only focus on learning better pixel representations or classification kernels while ignoring the structural information of objects, which is critical to human decision-making mechanism. In this paper, we present a new paradigm for semantic segmentation, named structure-aware extraction. Specifically, it generates the segmentation results via the interactions between a set of learned structure tokens and the image feature, which aims to progressively extract the structural information of each category from the feature. Extensive experiments show that our StructToken outperforms the state-of-the-art on three widely-used benchmarks, including ADE20K, Cityscapes, and COCO-Stuff-10K.
翻訳日:2023-04-03 17:48:42 公開日:2023-03-31
# 外部記憶を用いたマルチモーダルダイナミクスの連続学習

Continual Learning of Multi-modal Dynamics with External Memory ( http://arxiv.org/abs/2203.00936v3 )

ライセンス: Link先を確認
Abdullah Akg\"ul, Gozde Unal, Melih Kandemir(参考訳) 本研究では,新しい動作モードが順次出現した場合に,モデルが動的環境に適合する問題について検討する。 学習モデルは、新しいモードが現れることを認識しているが、個々のトレーニングシーケンスの真のモードにアクセスできない。 パラメータ転送は破滅的な干渉に悩まされ、エピソディックなメモリ設計は、シーケンスの基幹構造に関する知識を必要とするため、最先端の継続的学習アプローチでは、この設定には対応できない。 ニューラルエピソディックメモリにおいて、遭遇したシーケンスのモード記述子を維持することにより、両方の制限を克服する新しい連続学習法を考案する。 我々はメモリの重み付けに先立ってディリクレプロセスを採用し、モード記述子の効率的な保存を促進する。 本手法は,過去のタスクの類似モードの記述子を現在のシーケンスのモードに検索し,その記述子を制御入力として遷移カーネルに入力することにより,タスク間での知識の伝達を継続学習する。 本稿では,本手法の連続学習性能をメインストリームパラメータ転送手法と比較する。

We study the problem of fitting a model to a dynamical environment when new modes of behavior emerge sequentially. The learning model is aware when a new mode appears, but it does not have access to the true modes of individual training sequences. The state-of-the-art continual learning approaches cannot handle this setup, because parameter transfer suffers from catastrophic interference and episodic memory design requires the knowledge of the ground-truth modes of sequences. We devise a novel continual learning method that overcomes both limitations by maintaining a descriptor of the mode of an encountered sequence in a neural episodic memory. We employ a Dirichlet Process prior on the attention weights of the memory to foster efficient storage of the mode descriptors. Our method performs continual learning by transferring knowledge across tasks by retrieving the descriptors of similar modes of past tasks to the mode of a current sequence and feeding this descriptor into its transition kernel as control input. We observe the continual learning performance of our method to compare favorably to the mainstream parameter transfer approach.
翻訳日:2023-04-03 17:48:25 公開日:2023-03-31
# VRL3: ビジュアルディープ強化学習のためのデータ駆動フレームワーク

VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning ( http://arxiv.org/abs/2202.10324v3 )

ライセンス: Link先を確認
Che Wang, Xufang Luo, Keith Ross, Dongsheng Li(参考訳) 視覚深層学習(DRL)課題を解決するためのシンプルな設計の強力なデータ駆動型フレームワークであるVRL3を提案する。 我々は、データ駆動アプローチをとる際の多くの大きな障害を分析し、データ駆動型ビジュアルDRLに関する一連の設計原則、新しい発見、重要な洞察を示す。 我々のフレームワークには3つのステージがある: ステージ1では非RLデータセット(例: ImageNet)を使ってタスクに依存しない視覚表現を学習し、ステージ2ではオフラインのRLデータ(例: 限られた数の専門家によるデモンストレーション)を使ってタスクに依存しない表現をより強力なタスク固有の表現に変換する。 前回のSOTAと比べ、手操作の難易度とリアルな視覚入力による課題に対して、VRL3は平均して780%のサンプル効率を達成する。 最も困難なタスクでは、VRL3は1220%のサンプリング効率(より広いエンコーダを使用する場合の2440%)で、計算の10%しか処理しない。 これらの重要な結果は、データ駆動の深層強化学習の大きな可能性を示している。

We propose VRL3, a powerful data-driven framework with a simple design for solving challenging visual deep reinforcement learning (DRL) tasks. We analyze a number of major obstacles in taking a data-driven approach, and present a suite of design principles, novel findings, and critical insights about data-driven visual DRL. Our framework has three stages: in stage 1, we leverage non-RL datasets (e.g. ImageNet) to learn task-agnostic visual representations; in stage 2, we use offline RL data (e.g. a limited number of expert demonstrations) to convert the task-agnostic representations into more powerful task-specific representations; in stage 3, we fine-tune the agent with online RL. On a set of challenging hand manipulation tasks with sparse reward and realistic visual inputs, compared to the previous SOTA, VRL3 achieves an average of 780% better sample efficiency. And on the hardest task, VRL3 is 1220% more sample efficient (2440% when using a wider encoder) and solves the task with only 10% of the computation. These significant results clearly demonstrate the great potential of data-driven deep reinforcement learning.
翻訳日:2023-04-03 17:47:46 公開日:2023-03-31
# quantus: ニューラルネットワークの説明の責任評価のための説明可能なaiツールキット

Quantus: An Explainable AI Toolkit for Responsible Evaluation of Neural Network Explanations and Beyond ( http://arxiv.org/abs/2202.06861v2 )

ライセンス: Link先を確認
Anna Hedstr\"om, Leander Weber, Dilyara Bareeva, Franz Motzkus, Wojciech Samek, Sebastian Lapuschkin, Marina M.-C. H\"ohne(参考訳) 説明方法の評価は、まだ深く研究されていない研究課題であるが、説明可能性については、人工知能への信頼を高めるため、その正確性を確認するためには、説明方法を体系的に検証・比較する必要がある。 これまでxai評価にフォーカスしたツールは存在せず、研究者がニューラルネットワークの予測に関する説明のパフォーマンスを徹底的に評価できる。 この分野の透明性と再現性を高めるため、我々はquantusを開発した。quantusはpythonの包括的な評価ツールキットで、よく組織された評価メトリクスのコレクションと説明可能なメソッドを評価するチュートリアルを含んでいる。 ツールキットは徹底的にテストされ、PyPi(https://github.com/understandable-machine-intelligence-lab/Quantus/)のオープンソースライセンスで利用可能である。

The evaluation of explanation methods is a research topic that has not yet been explored deeply, however, since explainability is supposed to strengthen trust in artificial intelligence, it is necessary to systematically review and compare explanation methods in order to confirm their correctness. Until now, no tool with focus on XAI evaluation exists that exhaustively and speedily allows researchers to evaluate the performance of explanations of neural network predictions. To increase transparency and reproducibility in the field, we therefore built Quantus -- a comprehensive, evaluation toolkit in Python that includes a growing, well-organised collection of evaluation metrics and tutorials for evaluating explainable methods. The toolkit has been thoroughly tested and is available under an open-source license on PyPi (or on https://github.com/understandable-machine-intelligence-lab/Quantus/).
翻訳日:2023-04-03 17:47:25 公開日:2023-03-31
# 光リンク量子通信ネットワークのための認証型マルチパーティ量子キーアグリーメント

Authenticated Multiparty Quantum Key Agreement for Optical-Ring Quantum Communication Networks ( http://arxiv.org/abs/2112.07929v2 )

ライセンス: Link先を確認
Li-Zhen Gao, Xin Zhang, Song Lin, Ning Wang and Gong-De Guo(参考訳) 遠隔地におけるユーザのための通信や分散コンピューティングを実現するために、量子通信ネットワークは様々なデバイスで接続されている。 光リング量子ネットワークにおけるセキュアな通信のための仮セッション鍵の生成問題を解決するため,量子鍵アグリーメントプロトコルを提案する。 鍵契約プロトコルにおいて、攻撃者は、法的ユーザを偽装して交渉プロセスに参加させ、容易に合意鍵を盗み取ることができる。 これはほとんどの量子鍵合意プロトコルでは見過ごされ、実用的な実装では安全ではない。 この問題を考えると、提案プロトコルでは、ユーザのアイデンティティを認証する機能が追加される。 古典的なハッシュ関数とアイデンティティ情報を組み合わせることで,量子探索アルゴリズムの特性に応じた認証操作を設計する。 提案プロトコルのセキュリティ解析において、量子状態識別を用いて、プロトコルが共通の攻撃や偽装攻撃に対して安全であることを示す。 さらに、単一の光子のみを準備・測定する必要があるため、既存の技術でプロトコルが実現可能である。

Quantum communication networks are connected by various devices to achieve communication or distributed computing for users in remote locations. In order to solve the problem of generating temporary session key for secure communication in optical-ring quantum networks, a quantum key agreement protocol is proposed. In the key agreement protocols, an attacker can impersonate a legal user to participate in the negotiation process and eavesdrop the agreement key easily. This is often overlooked in most quantum key agreement protocols, which makes them insecure in practical implementation. Considering this problem, the function of authenticating the user's identity is added in the proposed protocol. Combining classical hash function with identity information, we design the authentication operation conforming to the characteristics of quantum search algorithm. In the security analysis of the proposed protocol, quantum state discrimination is utilized to show that the protocol is secure against common attacks and impersonation attack. In addition, only single photons need to be prepared and measured, which makes our protocol feasible with existing technology.
翻訳日:2023-04-03 17:46:38 公開日:2023-03-31
# 高次空間文脈の再現性評価による画像の深部生成モデルの評価法

A Method for Evaluating Deep Generative Models of Images via Assessing the Reproduction of High-order Spatial Context ( http://arxiv.org/abs/2111.12577v2 )

ライセンス: Link先を確認
Rucha Deshpande, Mark A. Anastasio and Frank J. Brooks(参考訳) 深部生成モデル(dgms)は診断イメージングに革命をもたらす可能性がある。 GAN(Generative Adversarial Network)は、広く使われているDGMの一種である。 GANなどのDGMを実際に使用するためにドメインの専門知識を必要とするアプリケーションでは、一般的に、生成された画像のドメイン関連品質を評価するための適切な、あるいは自動的な手段が存在しない。 本稿では,2つのGANアーキテクチャによって出力される画像の客観的なテストについて述べる。 我々は、訓練されたGANにより生成した画像の特徴を再現できるいくつかの確率的文脈モデル(SCM)を設計した。 これらの特徴のいくつかは、共分散行列では容易に表現できない高次、アルゴリズム的な画素配列規則である。 我々は、既知の配置規則の特定の効果を検出するために統計的分類器を設計し検証した。 次に、2つの異なるganがさまざまなトレーニングシナリオで機能コンテキストを正しく再現した率と、機能クラスの類似度をテストした。 生成した画像のアンサンブルは視覚的にほぼ正確に見え、アンサンブル測度では高い精度を示すが、既知の空間配置は示さない。 さらに、異なる空間秩序のスペクトルで訓練されたGANは、トレーニングデータにおけるこれらの秩序の所定の頻度を尊重しなかった。 主な結論は、画像毎に多数のエラーを定量化するためにSCMを設計できるが、アンサンブル統計では捉えられないが、GAN生成画像のその後の使用に確実に影響を及ぼす。

Deep generative models (DGMs) have the potential to revolutionize diagnostic imaging. Generative adversarial networks (GANs) are one kind of DGM which are widely employed. The overarching problem with deploying GANs, and other DGMs, in any application that requires domain expertise in order to actually use the generated images is that there generally is not adequate or automatic means of assessing the domain-relevant quality of generated images. In this work, we demonstrate several objective tests of images output by two popular GAN architectures. We designed several stochastic context models (SCMs) of distinct image features that can be recovered after generation by a trained GAN. Several of these features are high-order, algorithmic pixel-arrangement rules which are not readily expressed in covariance matrices. We designed and validated statistical classifiers to detect specific effects of the known arrangement rules. We then tested the rates at which two different GANs correctly reproduced the feature context under a variety of training scenarios, and degrees of feature-class similarity. We found that ensembles of generated images can appear largely accurate visually, and show high accuracy in ensemble measures, while not exhibiting the known spatial arrangements. Furthermore, GANs trained on a spectrum of distinct spatial orders did not respect the given prevalence of those orders in the training data. The main conclusion is that SCMs can be engineered to quantify numerous errors, per image, that may not be captured in ensemble statistics but plausibly can affect subsequent use of the GAN-generated images.
翻訳日:2023-04-03 17:46:14 公開日:2023-03-31
# 自動学術論文レビュー:概念,技術,課題

Automated scholarly paper review: Concepts, technologies, and challenges ( http://arxiv.org/abs/2111.07533v3 )

ライセンス: Link先を確認
Jialiang Lin, Jiaxin Song, Zhangping Zhou, Yidong Chen, Xiaodong Shi(参考訳) ピアレビューは、学術出版において重要な役割を果たす研究評価のメカニズムとして広く受け入れられている。 しかし、このメカニズムに対する批判は、そのほとんどは効率が悪く再現性が低いためである。 近年、ピアレビュープロセスを支援するために人工知能(AI)が応用されている。 それでも人間の関与により、このような制限は避けられないままである。 本稿では,aspr(automated scholarly paper review)の概念とパイプラインを提案し,本格的コンピュータ化レビュープロセスを実現するための文献と技術について検討する。 レビューと議論に基づいて,ASPRの各段階にすでに対応する研究と予備的な実装が存在すると結論づける。 我々は、既存の技術でasprの課題をさらに調査する。 主な困難は、不完全な文書解析と表現、不適切なデータ、欠陥のある人間とコンピュータの相互作用、欠陥のある深い論理的推論である。 さらに、倫理的・倫理的な問題を議論し、ASPRの今後の方向性を指摘する。 近い将来、 aspr と peer review は、 aspr が人間からのレビュー作業を完全に引き受ける前に、強化的な方法で共存していくだろう。

Peer review is a widely accepted mechanism for research evaluation, playing a pivotal role in academic publishing. However, criticisms have long been leveled on this mechanism, mostly because of its poor efficiency and low reproducibility. Recent years have seen the application of artificial intelligence (AI) in assisting the peer review process. Nonetheless, with the involvement of humans, such limitations remain inevitable. In this paper, we propose the concept and pipeline of automated scholarly paper review (ASPR) and review the relevant literature and technologies of achieving a full-scale computerized review process. On the basis of the review and discussion, we conclude that there is already corresponding research and preliminary implementation at each stage of ASPR. We further look into the challenges in ASPR with the existing technologies. The major difficulties lie in imperfect document parsing and representation, inadequate data, defective human-computer interaction, and flawed deep logical reasoning. Moreover, we discuss the possible moral and ethical issues and point out the future directions of ASPR. In the foreseeable future, ASPR and peer review will coexist in a reinforcing manner before ASPR is able to fully undertake the reviewing workload from humans.
翻訳日:2023-04-03 17:45:49 公開日:2023-03-31
# 逆拡散モデルを用いた教師なし医用画像翻訳

Unsupervised Medical Image Translation with Adversarial Diffusion Models ( http://arxiv.org/abs/2207.08208v3 )

ライセンス: Link先を確認
Muzaffer \"Ozbey, Onat Dalmaz, Salman UH Dar, Hasan A Bedel, \c{S}aban \"Ozturk, Alper G\"ung\"or, Tolga \c{C}ukur(参考訳) ソースからターゲットへのモダリティ変換による欠落画像のインプテーションは、医療画像プロトコルの多様性を向上させる。 対象画像を合成するための広範的アプローチは、生成的対向ネットワーク(GAN)を介してワンショットマッピングを行う。 しかし、暗黙的に画像分布を特徴づけるganモデルはサンプル忠実性に乏しい。 本稿では, 医用画像翻訳の性能を向上させるために, 逆拡散モデルsyndiffに基づく新しい手法を提案する。 画像分布の直接相関を捉えるために、SynDiffは、ノイズとソースイメージを段階的にターゲット画像にマッピングする条件拡散プロセスを利用する。 推論中の高速かつ正確な画像サンプリングには、逆拡散方向の対向射影で大きな拡散ステップを採る。 未ペアデータセットのトレーニングを可能にするため、サイクル一貫性アーキテクチャは2つのモードを両側に翻訳する混合拡散モジュールと非拡散モジュールによって考案される。 マルチコントラストMRIおよびMRI-CT翻訳におけるGANと拡散モデルに対するSynDiffの有用性について,広範囲な評価を行った。 我々の実証は、SynDiffが競合するベースラインに対して定量的かつ質的に優れたパフォーマンスを提供することを示している。

Imputation of missing images via source-to-target modality translation can improve diversity in medical imaging protocols. A pervasive approach for synthesizing target images involves one-shot mapping through generative adversarial networks (GAN). Yet, GAN models that implicitly characterize the image distribution can suffer from limited sample fidelity. Here, we propose a novel method based on adversarial diffusion modeling, SynDiff, for improved performance in medical image translation. To capture a direct correlate of the image distribution, SynDiff leverages a conditional diffusion process that progressively maps noise and source images onto the target image. For fast and accurate image sampling during inference, large diffusion steps are taken with adversarial projections in the reverse diffusion direction. To enable training on unpaired datasets, a cycle-consistent architecture is devised with coupled diffusive and non-diffusive modules that bilaterally translate between two modalities. Extensive assessments are reported on the utility of SynDiff against competing GAN and diffusion models in multi-contrast MRI and MRI-CT translation. Our demonstrations indicate that SynDiff offers quantitatively and qualitatively superior performance against competing baselines.
翻訳日:2023-04-03 17:39:12 公開日:2023-03-31
# 非局所散逸を伴うスピン系における持続振動の同期

Synchronization of persistent oscillations in spin systems with non-local dissipations ( http://arxiv.org/abs/2207.06860v3 )

ライセンス: Link先を確認
Xingli Li, Yan Li, Jiasen Jin(参考訳) 非局所散逸を伴うスピンの量子小体系における同期現象を探索する。 外部駆動がなければ、システムはリウヴィリアンの純粋に想像上の固有値の出現を伴う長時間ダイナミクスにおいて安定な振動挙動を示すことができる。 さらに、次のアネレスト近傍のスピンの振動は、確率的シュリンガー方程式内の量子軌道解析によって完全に同期される。 クラスター平均場近似による無限大格子における長時間振動の出現の可能性についても論じる。

We explore the synchronization phenomenon in the quantum few-body system of spins with the non-local dissipation. Without the external driving, we find that the system can exhibit stable oscillatory behaviors in the long-time dynamics accompanied by the appearance of the purely imaginary eigenvalues of the Liouvillian. Moreover, the oscillations of the next-nearest-neighboring spins are completely synchronized revealed by the quantum trajectory analysis within the stochastic Schr\"odinger equation. The possibility of the appearance of the long-time oscillations in infinite-size lattice by means of cluster mean-field approximation is also discussed.
翻訳日:2023-04-03 17:38:59 公開日:2023-03-31
# 条件付きモンジュマップの監督訓練

Supervised Training of Conditional Monge Maps ( http://arxiv.org/abs/2206.14262v2 )

ライセンス: Link先を確認
Charlotte Bunne, Andreas Krause, Marco Cuturi(参考訳) 最適輸送(OT)理論は、多くの可能な選択の中から確率測度を他のものにマッピングする最も効率的な方法を定義し、選択する一般的な原理を記述している。 この理論は、ソースとターゲットの確率の対を$(\mu, \nu)$、パラメータ化された写像を$T_\theta$とすることで、効率的に$\mu$を$\nu$にマッピングできる。 治療に対する細胞反応の予測のような多くのアプリケーションでは、最適な輸送問題を定義する入力/出力データの対 $(\mu, \nu)$ が孤立して発生するのではなく、例えば未処理細胞と処理細胞の集団を比較する場合の文脈 $c$ に関連付けられている。 OT推定におけるそのコンテキストを考慮し、コンテキスト変数に条件付きOTマップの族を推定するマルチタスクアプローチであるCondOTを紹介し、コンテキストラベル$c_i$でタグ付けされたいくつかの測度(\mu_i, \nu_i\right)$ tagged)を用いて、そのコンテキストを推定する。 CondOT は、グローバルマップ $\mathcal{T}_\theta$ を、データセット $\left\{\left(c_i,\left(\mu_i, \nu_i\right)\right)\right\}$、すなわち $\mathcal{T}_\theta\left(c_i\right) \sharp \mu_i \approx \nu_i$ に適合するだけでなく、意味のある写像 $\mathcal{T}_\theta\left(c_{\text {new }}\right) を生成するために一般化する必要がある。 提案手法は,部分的に入力された凸ニューラルネットワークに対して,ガウス近似にインスパイアされた堅牢で効率的な初期化戦略を導入し,新しい用途を提供する。 本研究では,CondOTが単一細胞に対する遺伝的・治療的摂動の任意の組み合わせの効果を推測する能力を示した。

Optimal transport (OT) theory describes general principles to define and select, among many possible choices, the most efficient way to map a probability measure onto another. That theory has been mostly used to estimate, given a pair of source and target probability measures $(\mu, \nu)$, a parameterized map $T_\theta$ that can efficiently map $\mu$ onto $\nu$. In many applications, such as predicting cell responses to treatments, pairs of input/output data measures $(\mu, \nu)$ that define optimal transport problems do not arise in isolation but are associated with a context $c$, as for instance a treatment when comparing populations of untreated and treated cells. To account for that context in OT estimation, we introduce CondOT, a multi-task approach to estimate a family of OT maps conditioned on a context variable, using several pairs of measures $\left(\mu_i, \nu_i\right)$ tagged with a context label $c_i$. CondOT learns a global map $\mathcal{T}_\theta$ conditioned on context that is not only expected to fit all labeled pairs in the dataset $\left\{\left(c_i,\left(\mu_i, \nu_i\right)\right)\right\}$, i.e., $\mathcal{T}_\theta\left(c_i\right) \sharp \mu_i \approx \nu_i$, but should also generalize to produce meaningful maps $\mathcal{T}_\theta\left(c_{\text {new }}\right)$ when conditioned on unseen contexts $c_{\text {new }}$. Our approach harnesses and provides a novel usage for partially input convex neural networks, for which we introduce a robust and efficient initialization strategy inspired by Gaussian approximations. We demonstrate the ability of CondOT to infer the effect of an arbitrary combination of genetic or therapeutic perturbations on single cells, using only observations of the effects of said perturbations separately.
翻訳日:2023-04-03 17:38:53 公開日:2023-03-31
# 雑音ラベルを用いた画像セグメンテーションについて : 精度とダイスに対する最適解のキャラクタリゼーションとボリューム特性

On Image Segmentation With Noisy Labels: Characterization and Volume Properties of the Optimal Solutions to Accuracy and Dice ( http://arxiv.org/abs/2206.06484v4 )

ライセンス: Link先を確認
Marcus Nordstr\"om, Henrik Hult, Jonas S\"oderberg, Fredrik L\"ofman(参考訳) 対象ラベルがノイズである場合の医用画像のセグメンテーション,精度,ダイスにおける2つのパフォーマンス指標について検討した。 どちらの指標も最適セグメンテーションの集合のキャラクタリゼーションと体積特性に関するいくつかのステートメントが証明され、関連する実験が提供されている。 私たちの主な洞察は (i)両方の指標に対する解の体積は、目標の期待される体積から著しくずれる可能性がある。 (ii)精度に対する解の体積は、常にサイスに対する解の体積と同等以下である。 (iii)両メトリクスの最適解が一致するのは、実現可能なセグメンテーションの集合が、対象の期待される体積に等しい体積を持つセグメンテーションの集合に制限されるときである。

We study two of the most popular performance metrics in medical image segmentation, Accuracy and Dice, when the target labels are noisy. For both metrics, several statements related to characterization and volume properties of the set of optimal segmentations are proved, and associated experiments are provided. Our main insights are: (i) the volume of the solutions to both metrics may deviate significantly from the expected volume of the target, (ii) the volume of a solution to Accuracy is always less than or equal to the volume of a solution to Dice and (iii) the optimal solutions to both of these metrics coincide when the set of feasible segmentations is constrained to the set of segmentations with the volume equal to the expected volume of the target.
翻訳日:2023-04-03 17:38:01 公開日:2023-03-31
# mixmae:階層的視覚トランスフォーマーの効率的な事前訓練のためのマスク付きオートエンコーダ

MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of Hierarchical Vision Transformers ( http://arxiv.org/abs/2205.13137v4 )

ライセンス: Link先を確認
Jihao Liu, Xin Huang, Jinliang Zheng, Yu Liu, Hongsheng Li(参考訳) 本稿では,様々な階層型視覚変換器に適用可能な,シンプルかつ効率的な事前学習法であるMixMAEを提案する。 既存のマスク付き画像モデリング(MIM)手法は、入力トークンのランダムなサブセットを特殊(MASK)シンボルに置き換え、劣化した画像から元の画像トークンを再構成することを目的としている。 しかし,[mask]記号の使用は,マスキング率(例えばsimmimでは60%)が大きいため,トレーニングを遅くし,トレーニング前の微調整不整合を引き起こすことが判明した。 一方、MAEはエンコーダに[MASK]トークンを導入していないが、階層的な視覚変換には適用できない。 課題を解決し、階層モデルの事前学習を加速するために、ある画像のマスクされたトークンを、別の画像の目に見えるトークン、すなわち混合画像の作成に置き換える。 次に、混合入力から2つのオリジナル画像を再構成するために二重再構成を行い、効率を大幅に向上させる。 MixMAEは様々な階層型変換器に適用できるが,本論文では大きなウィンドウサイズを持つSwin Transformerを用いて,巨大なモデルサイズ(6億のパラメータに達する)までスケールする。 実験の結果,mixmaeは高品質の視覚表現を効率的に学習できることがわかった。 特に、mixmae with swin-b/w14は、600エポックの事前トレーニングによってimagenet-1kで85.1%のtop-1精度を達成している。 さらに、他の6つのデータセットでの転送性能は、MixMAEが従来のMIMメソッドよりもFLOP/パフォーマンストレードオフが優れていることを示している。 コードはhttps://github.com/Sense-X/MixMIMで入手できる。

In this paper, we propose Mixed and Masked AutoEncoder (MixMAE), a simple but efficient pretraining method that is applicable to various hierarchical Vision Transformers. Existing masked image modeling (MIM) methods for hierarchical Vision Transformers replace a random subset of input tokens with a special [MASK] symbol and aim at reconstructing original image tokens from the corrupted image. However, we find that using the [MASK] symbol greatly slows down the training and causes pretraining-finetuning inconsistency, due to the large masking ratio (e.g., 60% in SimMIM). On the other hand, MAE does not introduce [MASK] tokens at its encoder at all but is not applicable for hierarchical Vision Transformers. To solve the issue and accelerate the pretraining of hierarchical models, we replace the masked tokens of one image with visible tokens of another image, i.e., creating a mixed image. We then conduct dual reconstruction to reconstruct the two original images from the mixed input, which significantly improves efficiency. While MixMAE can be applied to various hierarchical Transformers, this paper explores using Swin Transformer with a large window size and scales up to huge model size (to reach 600M parameters). Empirical results demonstrate that MixMAE can learn high-quality visual representations efficiently. Notably, MixMAE with Swin-B/W14 achieves 85.1% top-1 accuracy on ImageNet-1K by pretraining for 600 epochs. Besides, its transfer performances on the other 6 datasets show that MixMAE has better FLOPs / performance tradeoff than previous popular MIM methods. Code is available at https://github.com/Sense-X/MixMIM.
翻訳日:2023-04-03 17:37:24 公開日:2023-03-31
# スロー計測によるQAOA

The QAOA with Slow Measurements ( http://arxiv.org/abs/2205.06845v4 )

ライセンス: Link先を確認
Anthony M. Polloreno and Graeme Smith(参考訳) 量子近似最適化アルゴリズム(quantum approximation optimization algorithm,qaoa)は、当初組合せ最適化問題を解くために開発されたが、量子コンピュータの性能評価の標準となっている。 完全な記述型ベンチマーク技術は、多くの量子ビット(n \gtrsim 10$)に対して禁止的に高価であるため、QAOAは実際に計算ベンチマークとして機能することが多い。 qaoaは、量子サブルーチンの最適なパラメータを見つけようとする古典的な最適化サブルーチンを含む。 残念ながら、QAOAで使用される多くのオプティマイザは、最小化されるエネルギーの信頼できる推定を得るためにパラメータ空間の点当たりの多くのショット(N \gtrsim 1000$)を必要とする。 しかしながら、中性原子量子コンピュータのような実験的な量子コンピューティングプラットフォームは、これらのシステムで使用される古典的な最適化サブルーチンに固有の要件を課している。 本稿では,QAOA(デュアルアニール)のための勾配自由古典最適化器の性能について検討し,$N=1$,$n=16$であっても最適化が可能であることを実証する。

The Quantum Approximate Optimization Algorithm (QAOA) was originally developed to solve combinatorial optimization problems, but has become a standard for assessing the performance of quantum computers. Fully descriptive benchmarking techniques are often prohibitively expensive for large numbers of qubits ($n \gtrsim 10$), so the QAOA often serves in practice as a computational benchmark. The QAOA involves a classical optimization subroutine that attempts to find optimal parameters for a quantum subroutine. Unfortunately, many optimizers used for the QAOA require many shots ($N \gtrsim 1000$) per point in parameter space to get a reliable estimate of the energy being minimized. However, some experimental quantum computing platforms such as neutral atom quantum computers have slow repetition rates, placing unique requirements on the classical optimization subroutine used in the QAOA in these systems. In this paper we investigate the performance of a gradient free classical optimizer for the QAOA - dual annealing - and demonstrate that optimization is possible even with $N=1$ and $n=16$.
翻訳日:2023-04-03 17:36:54 公開日:2023-03-31
# HIT-UAV:無人航空機による物体検出のための高高度赤外線熱データセット

HIT-UAV: A high-altitude infrared thermal dataset for Unmanned Aerial Vehicle-based object detection ( http://arxiv.org/abs/2204.03245v2 )

ライセンス: Link先を確認
Jiashun Suo, Tianyi Wang, Xingzhou Zhang, Haiyang Chen, Wei Zhou, Weisong Shi(参考訳) 無人航空機(UAV)における物体検出のための高高度赤外線サーマルデータセットであるHIT-UAVデータセットを提案する。 このデータセットは、学校、駐車場、道路、遊び場など様々なシナリオでUAVが撮影した数百のビデオで43,470フレームから抽出された2,898個の赤外線熱画像からなる。 さらに、HIT-UAVは飛行高度、カメラ視点、日付、日光強度など、各画像に不可欠な飛行データを提供する。 各画像に対して、2種類のバウンディングボックス(向きと標準)を持つオブジェクトインスタンスを手動でアノテートし、空中画像におけるオブジェクトインスタンスのかなりの重複を解決する。 我々の知る限りでは、HIT-UAVは人や車両を検出するための、初めて公開された高高度UAVベースの赤外線熱データセットである。 我々は,HIT-UAVを用いたオブジェクト検出アルゴリズムの訓練と評価を行った。 その結果,赤外線サーマル画像は対象物に関する重要な無関係な情報を含まないため,HIT-UAVに対して極めて優れた検出性能が得られた。 我々は、HIT-UAVが様々なUAVベースの応用と研究に貢献すると考えている。 データセットはhttps://github.com/suojiashun/HIT-UAV-Infrared-Thermal-Datasetで無償公開されている。

We present the HIT-UAV dataset, a high-altitude infrared thermal dataset for object detection applications on Unmanned Aerial Vehicles (UAVs). The dataset comprises 2,898 infrared thermal images extracted from 43,470 frames in hundreds of videos captured by UAVs in various scenarios including schools, parking lots, roads, and playgrounds. Moreover, the HIT-UAV provides essential flight data for each image, such as flight altitude, camera perspective, date, and daylight intensity. For each image, we have manually annotated object instances with bounding boxes of two types (oriented and standard) to tackle the challenge of significant overlap of object instances in aerial images. To the best of our knowledge, the HIT-UAV is the first publicly available high-altitude UAV-based infrared thermal dataset for detecting persons and vehicles. We have trained and evaluated well-established object detection algorithms on the HIT-UAV. Our results demonstrate that the detection algorithms perform exceptionally well on the HIT-UAV compared to visual light datasets since infrared thermal images do not contain significant irrelevant information about objects. We believe that the HIT-UAV will contribute to various UAV-based applications and researches. The dataset is freely available at https://github.com/suojiashun/HIT-UAV-Infrared-Thermal-Dataset.
翻訳日:2023-04-03 17:36:34 公開日:2023-03-31
# M-MELD:会話における感情認識のための多言語多人数データセット

M-MELD: A Multilingual Multi-Party Dataset for Emotion Recognition in Conversations ( http://arxiv.org/abs/2203.16799v4 )

ライセンス: Link先を確認
Sreyan Ghosh and S Ramaneswaran and Utkarsh Tyagi and Harshvardhan Srivastava and Samden Lepcha and S Sakshi and Dinesh Manocha(参考訳) 感情の表現は人間の日常コミュニケーションの重要な部分である。 会話における感情認識(英: Emotion Recognition in conversation、ERC)は、会話における各発話の背後にある感情を識別する研究分野である。 ercでは過去に多くの作業が行われているが、これらの作業は英語でのercのみに焦点を当てており、他の言語を無視している。 本稿では,Multilingual MELD (M-MELD)を紹介し,Multimodal EmotionLines Dataset (MELD) \cite{poria2018meld} を英語以外の4言語(ギリシャ語,ポーランド語,フランス語,スペイン語)に拡張する。 これら4言語すべてに対して強力なベースラインを確立するだけでなく、ERCの対話対話における逐次的・対話的会話コンテキストを利用する新しいアーキテクチャであるCDLSTMも提案する。 提案手法は計算効率が高く,言語間エンコーダのみを用いて言語間を移動可能であり,MELD と M-MELD の両方の文献において,ほとんどのユニモーダルテキストアプローチよりも優れた性能を実現する。 データとコードをGitHubで公開しています。

Expression of emotions is a crucial part of daily human communication. Emotion recognition in conversations (ERC) is an emerging field of study, where the primary task is to identify the emotion behind each utterance in a conversation. Though a lot of work has been done on ERC in the past, these works only focus on ERC in the English language, thereby ignoring any other languages. In this paper, we present Multilingual MELD (M-MELD), where we extend the Multimodal EmotionLines Dataset (MELD) \cite{poria2018meld} to 4 other languages beyond English, namely Greek, Polish, French, and Spanish. Beyond just establishing strong baselines for all of these 4 languages, we also propose a novel architecture, DiscLSTM, that uses both sequential and conversational discourse context in a conversational dialogue for ERC. Our proposed approach is computationally efficient, can transfer across languages using just a cross-lingual encoder, and achieves better performance than most uni-modal text approaches in the literature on both MELD and M-MELD. We make our data and code publicly on GitHub.
翻訳日:2023-04-03 17:35:56 公開日:2023-03-31
# 神経進化はスキル発見のための強化学習の競合的代替手段である

Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery ( http://arxiv.org/abs/2210.03516v2 )

ライセンス: Link先を確認
Felix Chalumeau, Raphael Boige, Bryan Lim, Valentin Mac\'e, Maxime Allard, Arthur Flajolet, Antoine Cully, Thomas Pierrot(参考訳) deep reinforcement learning(rl)は、複雑な制御タスクを解決するためにニューラルネットワークポリシをトレーニングするための強力なパラダイムとして登場した。 しかしながら、これらのポリシーは、訓練されたタスクと環境の正確な仕様に適合しがちであり、条件がわずかにずれたり、階層的に構成された場合、さらに複雑なタスクを解決するためにうまく機能しない。 最近の研究は、単一の政策とは対照的に、様々な領域の国家行動空間を探索するために推進される政策の混合を訓練することが、適応タスクや階層的計画において大きな影響を与える様々な行動セットを生成することによって、この欠点に対処できることを示した。 これは典型的には、RLによって最適化された目的関数に多様性項(しばしば情報理論に由来する)を含めることで実現される。 しかし、これらのアプローチは、しばしば注意深いハイパーパラメータチューニングを効果的に必要とします。 本研究は, 広範に用いられない神経進化法, 特にqd( quality diversity)が, スキル発見のための情報理論に基づくrlの代替となることを実証する。 8つの最先端アルゴリズム(各作業ラインの4つのフラッグシップアルゴリズム)を比較した広範な実証評価を通じて (i)スキルの多様性を直接評価する指標。 (ii)適応作業における技能の発揮、及び (iii)階層的計画のためのプリミティブとして使用する場合、qdメソッドは、ハイパーパラメータに対する感度が低く、スケーラブルで、性能が同等で、時には改善される。 すべての環境に対してほぼ最適性能を提供する方法が存在しないため、今後の方向性を提案し、最適化されたオープンソース実装を提供することで、さらなる研究を支援するための豊富なスコープがある。

Deep Reinforcement Learning (RL) has emerged as a powerful paradigm for training neural policies to solve complex control tasks. However, these policies tend to be overfit to the exact specifications of the task and environment they were trained on, and thus do not perform well when conditions deviate slightly or when composed hierarchically to solve even more complex tasks. Recent work has shown that training a mixture of policies, as opposed to a single one, that are driven to explore different regions of the state-action space can address this shortcoming by generating a diverse set of behaviors, referred to as skills, that can be collectively used to great effect in adaptation tasks or for hierarchical planning. This is typically realized by including a diversity term - often derived from information theory - in the objective function optimized by RL. However these approaches often require careful hyperparameter tuning to be effective. In this work, we demonstrate that less widely-used neuroevolution methods, specifically Quality Diversity (QD), are a competitive alternative to information-theory-augmented RL for skill discovery. Through an extensive empirical evaluation comparing eight state-of-the-art algorithms (four flagship algorithms from each line of work) on the basis of (i) metrics directly evaluating the skills' diversity, (ii) the skills' performance on adaptation tasks, and (iii) the skills' performance when used as primitives for hierarchical planning; QD methods are found to provide equal, and sometimes improved, performance whilst being less sensitive to hyperparameters and more scalable. As no single method is found to provide near-optimal performance across all environments, there is a rich scope for further research which we support by proposing future directions and providing optimized open-source implementations.
翻訳日:2023-04-03 17:30:32 公開日:2023-03-31
# 自己注意誘導による拡散モデルのサンプル品質改善

Improving Sample Quality of Diffusion Models Using Self-Attention Guidance ( http://arxiv.org/abs/2210.00939v5 )

ライセンス: Link先を確認
Susung Hong, Gyuseong Lee, Wooseok Jang, Seungryong Kim(参考訳) 拡散モデル(DDM)はその例外的な世代品質と多様性に注目されている。 この成功は主に、分類器や分類器フリーガイダンスのような、クラスまたはテキスト条件拡散誘導手法の使用によるものである。 本稿では,従来のガイダンス手法を超越した,より包括的な視点を提案する。 この一般的な観点から, 生成画像の品質向上のために, 新たな条件およびトレーニングフリー戦略を導入する。 簡単な解法として、ブラーガイダンスは、その微細な情報と構造に対する中間サンプルの適合性を向上し、拡散モデルにより適度なガイダンススケールで高品質なサンプルを生成することができる。 これを改善するために、自己注意誘導(SAG)は拡散モデルの中間的な自己注意マップを用いて安定性と有効性を高める。 具体的には、SAGは各イテレーションで拡散モデルが関与する領域のみを逆向きに曖昧にし、それに従って誘導する。 実験の結果,sagはadm,iddpm,stable diffusion,ditなど様々な拡散モデルの性能を向上させることがわかった。 さらに,従来の指導手法とSAGを組み合わせることで,さらなる改善が期待できる。

Denoising diffusion models (DDMs) have attracted attention for their exceptional generation quality and diversity. This success is largely attributed to the use of class- or text-conditional diffusion guidance methods, such as classifier and classifier-free guidance. In this paper, we present a more comprehensive perspective that goes beyond the traditional guidance methods. From this generalized perspective, we introduce novel condition- and training-free strategies to enhance the quality of generated images. As a simple solution, blur guidance improves the suitability of intermediate samples for their fine-scale information and structures, enabling diffusion models to generate higher quality samples with a moderate guidance scale. Improving upon this, Self-Attention Guidance (SAG) uses the intermediate self-attention maps of diffusion models to enhance their stability and efficacy. Specifically, SAG adversarially blurs only the regions that diffusion models attend to at each iteration and guides them accordingly. Our experimental results show that our SAG improves the performance of various diffusion models, including ADM, IDDPM, Stable Diffusion, and DiT. Moreover, combining SAG with conventional guidance methods leads to further improvement.
翻訳日:2023-04-03 17:30:02 公開日:2023-03-31
# 有界単純x構造行列分解:アルゴリズム、識別可能性および応用

Bounded Simplex-Structured Matrix Factorization: Algorithms, Identifiability and Applications ( http://arxiv.org/abs/2209.12638v2 )

ライセンス: Link先を確認
Olivier Vu Thanh, Nicolas Gillis, Fabian Lecron(参考訳) 本稿では,BSSMF (bounded simplex-structured matrix factorization) と呼ばれる新しい低ランク行列分解モデルを提案する。 入力行列 $x$ と因子化ランク $r$ が与えられると、bssmf は$r$ の列を持つ行列 $w$ と $r$ の列を持つ行列 $h$ を探し、$x \approx wh$ となる。 BSSMFは非負行列分解 (NMF) と単純構造行列分解 (SSMF) を一般化する。 例えば、$x$ の行が画像を表す場合や$x$ は netflix や movielens のデータセットのような評価行列であり、$x$ のエントリは$[1,5]$ のインターバルに属する場合などである。 単純x構造行列 $h$ は、容易に理解可能な分解をもたらすだけでなく、$x$ のカラムのソフトクラスタリングを提供するだけでなく、$wh$ の各列のエントリが $w$ の列と同じ間隔に属することを意味する。 本稿では,まずBSSMFの高速アルゴリズムを提案する。 次に、BSSMFの識別可能性条件、すなわち、BSSMFが一意的な分解を許容する条件を自明な曖昧さまで提供する。 最後に,画像群における特徴抽出と推薦システムにおける行列補完問題という2つの応用におけるbssmfの有効性について述べる。

In this paper, we propose a new low-rank matrix factorization model dubbed bounded simplex-structured matrix factorization (BSSMF). Given an input matrix $X$ and a factorization rank $r$, BSSMF looks for a matrix $W$ with $r$ columns and a matrix $H$ with $r$ rows such that $X \approx WH$ where the entries in each column of $W$ are bounded, that is, they belong to given intervals, and the columns of $H$ belong to the probability simplex, that is, $H$ is column stochastic. BSSMF generalizes nonnegative matrix factorization (NMF), and simplex-structured matrix factorization (SSMF). BSSMF is particularly well suited when the entries of the input matrix $X$ belong to a given interval; for example when the rows of $X$ represent images, or $X$ is a rating matrix such as in the Netflix and MovieLens datasets where the entries of $X$ belong to the interval $[1,5]$. The simplex-structured matrix $H$ not only leads to an easily understandable decomposition providing a soft clustering of the columns of $X$, but implies that the entries of each column of $WH$ belong to the same intervals as the columns of $W$. In this paper, we first propose a fast algorithm for BSSMF, even in the presence of missing data in $X$. Then we provide identifiability conditions for BSSMF, that is, we provide conditions under which BSSMF admits a unique decomposition, up to trivial ambiguities. Finally, we illustrate the effectiveness of BSSMF on two applications: extraction of features in a set of images, and the matrix completion problem for recommender systems.
翻訳日:2023-04-03 17:29:45 公開日:2023-03-31
# バックドア透かしによるブラックボックスデータセット所有者認証

Black-box Dataset Ownership Verification via Backdoor Watermarking ( http://arxiv.org/abs/2209.06015v2 )

ライセンス: Link先を確認
Yiming Li, Mingyan Zhu, Xue Yang, Yong Jiang, Tao Wei, Shu-Tao Xia(参考訳) 深層学習、特に深層ニューラルネットワーク(dnn)は、その高い効率性と効率性のために、多くの重要な応用において広く、かつうまく採用されている。 dnnの急速な発展は、高品質なデータセット(例えば、imagenet)の存在により、研究者や開発者が自分のメソッドのパフォーマンスを簡単に検証できる。 現在、既存のデータセットのほとんどすべてが、許可なく商業目的ではなく、学術目的や教育目的にのみ適用する必要がある。 しかし、それを保証する良い方法はありません。 本稿では,公開データセットの保護を,ディフェンダーがパラメータやトレーニングの詳細に関する情報を持たず,モデルにのみ問い合わせることのできる(幸運な)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。 この定式化に基づき,バックドア透かしを介して外部パターンを埋め込み,保護のためのオーナシップ検証を提案する。 提案手法は,データセット透かしとデータセット検証の2つの主要な部分を含む。 具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。 また,本手法の理論的解析を行った。 本手法の有効性を検証するために,複数のタスクのベンチマークデータセットの実験を行った。 主な実験を再現するコードは \url{https://github.com/thuyimingli/dvbw} で入手できる。

Deep learning, especially deep neural networks (DNNs), has been widely and successfully adopted in many critical applications for its high effectiveness and efficiency. The rapid development of DNNs has benefited from the existence of some high-quality datasets ($e.g.$, ImageNet), which allow researchers and developers to easily verify the performance of their methods. Currently, almost all existing released datasets require that they can only be adopted for academic or educational purposes rather than commercial purposes without permission. However, there is still no good way to ensure that. In this paper, we formulate the protection of released datasets as verifying whether they are adopted for training a (suspicious) third-party model, where defenders can only query the model while having no information about its parameters and training details. Based on this formulation, we propose to embed external patterns via backdoor watermarking for the ownership verification to protect them. Our method contains two main parts, including dataset watermarking and dataset verification. Specifically, we exploit poison-only backdoor attacks ($e.g.$, BadNets) for dataset watermarking and design a hypothesis-test-guided method for dataset verification. We also provide some theoretical analyses of our methods. Experiments on multiple benchmark datasets of different tasks are conducted, which verify the effectiveness of our method. The code for reproducing main experiments is available at \url{https://github.com/THUYimingLi/DVBW}.
翻訳日:2023-04-03 17:29:10 公開日:2023-03-31
# ハーディの非局所性における成功確率の増大:理論と実証

Increased success probability in Hardy's nonlocality: Theory and demonstration ( http://arxiv.org/abs/2209.05716v2 )

ライセンス: Link先を確認
Duc Minh Tran, Van-Duy Nguyen, Le Bin Ho, Hung Q. Nguyen(参考訳) ある測度に依存すると、量子非局所性はより視覚的に現れる。 粒子対上の基底変換と相互作用を用いて、ハーディは任意の局所的な隠れ変数理論はパラドックスをもたらすと論理的に主張した。 元の研究から拡張し、2つの異なるアプローチを用いてn粒子系に対する量子非局所スキームを導入する。 まず、理論モデルはハーディの非局所性条件と確率の解析結果と共に導出される。 第二に、量子回路を用いた量子シミュレーションが構築され、解析理論と非常によく一致する。 n=3 の実量子コンピュータで実証すると、理論と比較して妥当な結果が得られる。 nが成長するにつれて、マクロスケールでも成功確率は15.6%であり、これは以前の結果よりも強い。

Depending on the way one measures, quantum nonlocality might manifest more visibly. Using basis transformations and interactions on a particle pair, Hardy logically argued that any local hidden variable theory leads to a paradox. Extended from the original work, we introduce a quantum nonlocal scheme for n-particle systems using two distinct approaches. First, a theoretical model is derived with analytical results for Hardy's nonlocality conditions and probability. Second, a quantum simulation using quantum circuits is constructed that matches very well to the analytical theory. When demonstrated on real quantum computers for n=3, we obtain reasonable results compared to theory. Even at macroscopic scales as n grows, the success probability asymptotes 15.6%, which is stronger than previous results.
翻訳日:2023-04-03 17:28:48 公開日:2023-03-31
# CLONeR:Occupancy Grid-Aided Neural Representationのためのカメラライダーフュージョン

CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural Representations ( http://arxiv.org/abs/2209.01194v3 )

ライセンス: Link先を確認
Alexandra Carlson, Manikandasriram Srinivasan Ramanagopal, Nathan Tseng, Matthew Johnson-Roberson, Ram Vasudevan, Katherine A. Skinner(参考訳) ニューラルラジアンス場(NeRF)の最近の進歩は、最先端の斬新なビュー合成を実現し、シーン特性の高密度な推定を容易にする。 しかし、NeRFは、フィールドロボティクスの応用に典型的なように、カメラから遠ざかるシーンコンテンツで、非常に狭い視野で撮影される、大きくて無界なシーンでは失敗することが多い。 特に、nerf方式のアルゴリズムは、(1)ポーズの多様性が乏しいビューが不足している場合、(2)シーンが飽和と影を含んでいる場合、(3)微細な構造を持つ大きなアンバウンドシーンを微細にサンプリングする場合には計算集約的になる。 本稿では,スパーク入力センサビューから観測される大規模な屋外走行シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。 これは、NeRFフレームワーク内の占有と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。 さらに,NeRFモデルと平行に3D Occupancy Grid Maps (OGM) を構築するための新しい手法を提案し,この占有網を利用して距離空間におけるボリュームレンダリングのための線に沿った点のサンプリングを改善する。 提案手法は,KITTIデータセットから得られたシーンの定量的および定性的な実験を通じて,スパース入力データを用いたトレーニングにおいて,新しいビュー合成および深度予測タスクにおいて,最先端のNeRFモデルよりも優れた性能を示すことを示す。

Recent advances in neural radiance fields (NeRFs) achieve state-of-the-art novel view synthesis and facilitate dense estimation of scene properties. However, NeRFs often fail for large, unbounded scenes that are captured under very sparse views with the scene content concentrated far away from the camera, as is typical for field robotics applications. In particular, NeRF-style algorithms perform poorly: (1) when there are insufficient views with little pose diversity, (2) when scenes contain saturation and shadows, and (3) when finely sampling large unbounded scenes with fine structures becomes computationally intensive. This paper proposes CLONeR, which significantly improves upon NeRF by allowing it to model large outdoor driving scenes that are observed from sparse input sensor views. This is achieved by decoupling occupancy and color learning within the NeRF framework into separate Multi-Layer Perceptrons (MLPs) trained using LiDAR and camera data, respectively. In addition, this paper proposes a novel method to build differentiable 3D Occupancy Grid Maps (OGM) alongside the NeRF model, and leverage this occupancy grid for improved sampling of points along a ray for volumetric rendering in metric space. Through extensive quantitative and qualitative experiments on scenes from the KITTI dataset, this paper demonstrates that the proposed method outperforms state-of-the-art NeRF models on both novel view synthesis and dense depth prediction tasks when trained on sparse input data.
翻訳日:2023-04-03 17:28:37 公開日:2023-03-31
# クラスは文脈と副詞に不変:外部分布一般化のための学習不変性について

Class Is Invariant to Context and Vice Versa: On Learning Invariance for Out-Of-Distribution Generalization ( http://arxiv.org/abs/2208.03462v2 )

ライセンス: Link先を確認
Jiaxin Qi, Kaihua Tang, Qianru Sun, Xian-Sheng Hua, and Hanwang Zhang(参考訳) Out-Of-Distribution Generalization (OOD) とは、環境変化に対する不変性を学習することである。 すべてのクラスのコンテキストが均等に分散されている場合、OODは自明である。 しかし、そのようなバランスのとれたデータセットの収集は現実的ではない。 不均衡なデータを学習することで、モデルがコンテキストに偏り、OODを損なう。 したがって、OODの鍵はコンテキストバランスである。 先行研究において広く採用されている仮定である文脈バイアスは、バイアス付きクラス予測から直接注釈付けや推定が可能であり、文脈が不完全あるいは不正確であると主張する。 コンテキストもクラスに不変であり、コンテキストバイアス(文脈ラベルなしで)を解決する様々な環境としてクラス(すでにラベル付けされている)を考える動機となります。 この概念を実装し、クラス内サンプル類似性の対照的な損失を最小限に抑えつつ、この類似性を全てのクラスにわたって不変とすることで実装する。 種々のコンテキストバイアスとドメインギャップを持つベンチマークにおいて、文脈推定を備えた単純な再重み付けに基づく分類器が最先端の性能を達成することを示す。 Appendix の理論的正当化と https://github.com/simpleshinobu/IRMCon のコードを提供する。

Out-Of-Distribution generalization (OOD) is all about learning invariance against environmental changes. If the context in every class is evenly distributed, OOD would be trivial because the context can be easily removed due to an underlying principle: class is invariant to context. However, collecting such a balanced dataset is impractical. Learning on imbalanced data makes the model bias to context and thus hurts OOD. Therefore, the key to OOD is context balance. We argue that the widely adopted assumption in prior work, the context bias can be directly annotated or estimated from biased class prediction, renders the context incomplete or even incorrect. In contrast, we point out the everoverlooked other side of the above principle: context is also invariant to class, which motivates us to consider the classes (which are already labeled) as the varying environments to resolve context bias (without context labels). We implement this idea by minimizing the contrastive loss of intra-class sample similarity while assuring this similarity to be invariant across all classes. On benchmarks with various context biases and domain gaps, we show that a simple re-weighting based classifier equipped with our context estimation achieves state-of-the-art performance. We provide the theoretical justifications in Appendix and codes on https://github.com/simpleshinobu/IRMCon.
翻訳日:2023-04-03 17:28:06 公開日:2023-03-31
# ニューラルネットワークによる非拘束音声スプライシング検出と位置推定

Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks ( http://arxiv.org/abs/2207.14682v3 )

ライセンス: Link先を確認
Denise Moussa, Germans Hirsch, Christian Riess(参考訳) 無料で使いやすいオーディオ編集ツールは、オーディオスプライシングを簡単に行うことができる。 説得力のある偽造は、同一人物の様々な音声サンプルを組み合わせることで作成できる。 このようなスプライスの検出は、誤った情報を検討する公共部門と、証拠の完全性を検証する法的文脈の両方において重要である。 残念ながら、既存のオーディオスプライシング検出アルゴリズムのほとんどは、手作りの機能を使用し、特定の仮定を行う。 しかし、犯罪捜査員はしばしば、未知の特性を持つ訓練されていない情報源からの音声サンプルに直面しているため、より一般的な方法の必要性が高まる。 本研究は,このニーズに対応するために,制約のない音声スプライシング検出に向けた第一歩を踏み出す。 我々は、スプライシングを偽装する可能性のある後処理操作の形で、様々な攻撃シナリオをシミュレートする。 本研究では,検出とローカライゼーションのためのTransformer sequence-to-sequence(seq2seq)ネットワークを提案する。 提案手法は,汎用ネットワークである efficientnet [28] と regnet [25] と同様に,既存のスプライシング検出法 (3, 10]) よりも優れていることを示す。

Freely available and easy-to-use audio editing tools make it straightforward to perform audio splicing. Convincing forgeries can be created by combining various speech samples from the same person. Detection of such splices is important both in the public sector when considering misinformation, and in a legal context to verify the integrity of evidence. Unfortunately, most existing detection algorithms for audio splicing use handcrafted features and make specific assumptions. However, criminal investigators are often faced with audio samples from unconstrained sources with unknown characteristics, which raises the need for more generally applicable methods. With this work, we aim to take a first step towards unconstrained audio splicing detection to address this need. We simulate various attack scenarios in the form of post-processing operations that may disguise splicing. We propose a Transformer sequence-to-sequence (seq2seq) network for splicing detection and localization. Our extensive evaluation shows that the proposed method outperforms existing dedicated approaches for splicing detection [3, 10] as well as the general-purpose networks EfficientNet [28] and RegNet [25].
翻訳日:2023-04-03 17:27:46 公開日:2023-03-31
# ロングテール標本分布におけるハードノイズの同定

Identifying Hard Noise in Long-Tailed Sample Distribution ( http://arxiv.org/abs/2207.13378v2 )

ライセンス: Link先を確認
Xuanyu Yi, Kaihua Tang, Xian-Sheng Hua, Joo-Hwee Lim, Hanwang Zhang(参考訳) 従来の de-noising 法は、全てのサンプルが独立で同一に分布しているという仮定に依存しているため、結果の分類器はノイズに邪魔されても、そのノイズをトレーニング分布の外れ値として容易に識別することができる。 しかし、この仮定は必然的に長い尾を持つ大規模データでは非現実的である。 このような不均衡なトレーニングデータによって、分類器は、それまで"簡単な"ノイズが"ハード"なクラスに変わり、クリーンなテールサンプルとほぼ同等の外れ値になる尾クラスに対して、識別性が低下する。 この新たな課題を,NLT (Noisy Long-Tailed Classification) と呼ぶ。 当然のことながら、ほとんどのノイズ除去手法はハードノイズの識別に失敗し、ImageNet-NLT、Animal10-NLT、Food101-NLTという3つのNLTベンチマークで性能が大幅に低下した。 そこで我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。 我々のブートストラッピング哲学は、まず、クラスとコンテキストの分布変化に不変なノイズ識別子として分類器を学習し、「ハード」ノイズを「簡単」ノイズに減らし、その除去により不変性がさらに向上する。 実験結果から,h2eは,従来のバランスのとれた設定で安定した性能を維持しつつ,最先端の脱ノイズ法と,そのアブレーションよりも優れていた。 データセットとコードはhttps://github.com/yxymessi/h2e-frameworkで入手できる。

Conventional de-noising methods rely on the assumption that all samples are independent and identically distributed, so the resultant classifier, though disturbed by noise, can still easily identify the noises as the outliers of training distribution. However, the assumption is unrealistic in large-scale data that is inevitably long-tailed. Such imbalanced training data makes a classifier less discriminative for the tail classes, whose previously "easy" noises are now turned into "hard" ones -- they are almost as outliers as the clean tail samples. We introduce this new challenge as Noisy Long-Tailed Classification (NLT). Not surprisingly, we find that most de-noising methods fail to identify the hard noises, resulting in significant performance drop on the three proposed NLT benchmarks: ImageNet-NLT, Animal10-NLT, and Food101-NLT. To this end, we design an iterative noisy learning framework called Hard-to-Easy (H2E). Our bootstrapping philosophy is to first learn a classifier as noise identifier invariant to the class and context distributional changes, reducing "hard" noises to "easy" ones, whose removal further improves the invariance. Experimental results show that our H2E outperforms state-of-the-art de-noising methods and their ablations on long-tailed settings while maintaining a stable performance on the conventional balanced settings. Datasets and codes are available at https://github.com/yxymessi/H2E-Framework
翻訳日:2023-04-03 17:27:30 公開日:2023-03-31
# 神経社会物理による人軌道予測

Human Trajectory Prediction via Neural Social Physics ( http://arxiv.org/abs/2207.10435v2 )

ライセンス: Link先を確認
Jiangbei Yue, Dinesh Manocha and He Wang(参考訳) 軌道予測は多くの分野で広く研究され、多くのモデルベースおよびモデルフリー手法が研究されている。 前者はルールベース、幾何モデル、最適化モデルを含み、後者は主にディープラーニングアプローチで構成されている。 本稿では,ニューラル微分方程式モデルに基づく2つの手法を組み合わせた新しい手法を提案する。 新しいモデル(neural social physicsまたはnsp)は、学習可能なパラメータを持つ明示的な物理モデルを使用するディープニューラルネットワークである。 明示的物理モデルは歩行者行動のモデル化において強い帰納的バイアスとなり、ネットワークの他の部分はシステムのパラメータ推定と動的確率モデリングの観点から強いデータフィッティング能力を提供する。 NSPを6つのデータセット上の15のディープラーニング手法と比較し、最先端のパフォーマンスを5.56%-70%改善した。 また, nspは, 実験データの2~5倍の密度を持つ場合において, 推定可能な軌跡の予測に優れた一般化性を示す。 最後に,NSPの物理モデルは,ブラックボックスの深層学習とは対照的に,歩行者行動のもっともらしい説明を提供することができることを示す。 コードはhttps://github.com/realcrane/human-trajectory-prediction-via-neural-social-physics。

Trajectory prediction has been widely pursued in many fields, and many model-based and model-free methods have been explored. The former include rule-based, geometric or optimization-based models, and the latter are mainly comprised of deep learning approaches. In this paper, we propose a new method combining both methodologies based on a new Neural Differential Equation model. Our new model (Neural Social Physics or NSP) is a deep neural network within which we use an explicit physics model with learnable parameters. The explicit physics model serves as a strong inductive bias in modeling pedestrian behaviors, while the rest of the network provides a strong data-fitting capability in terms of system parameter estimation and dynamics stochasticity modeling. We compare NSP with 15 recent deep learning methods on 6 datasets and improve the state-of-the-art performance by 5.56%-70%. Besides, we show that NSP has better generalizability in predicting plausible trajectories in drastically different scenarios where the density is 2-5 times as high as the testing data. Finally, we show that the physics model in NSP can provide plausible explanations for pedestrian behaviors, as opposed to black-box deep learning. Code is available: https://github.com/realcrane/Human-Trajectory-Prediction-via-Neural-Social-Physics.
翻訳日:2023-04-03 17:26:58 公開日:2023-03-31
# TAP-Vid:ビデオ中の任意のポイントを追跡するベンチマーク

TAP-Vid: A Benchmark for Tracking Any Point in a Video ( http://arxiv.org/abs/2211.03726v2 )

ライセンス: Link先を確認
Carl Doersch, Ankush Gupta, Larisa Markeeva, Adri\`a Recasens, Lucas Smaira, Yusuf Aytar, Jo\~ao Carreira, Andrew Zisserman, Yi Yang(参考訳) 映像からのジェネリックモーションの理解は、物体の追跡だけでなく、その表面がどのように変形し動くかも知覚する。 この情報は3次元形状、物理的特性、物体の相互作用に関する推論に有用である。 より長いビデオクリップよりも表面上の任意の物理点を追跡するという問題は注目されているが、これまで評価のためのデータセットやベンチマークは存在しなかった。 本稿では,まず問題を定式化し,任意の点(TAP)を追尾する。 そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオを組み合わせたベンチマークを行った。 ベンチマークの作成の中心となるのは、光学フローの推定値を使って、カメラシェイクのような簡単で短期的な動きを補償する、新しい半自動的なクラウドソーシングパイプラインです。 合成データに関するパイプラインを検証するとともに、単純なエンドツーエンドのポイントトラッキングモデルtap-netを提案し、合成データでトレーニングされた場合のベンチマークのすべてのメソッドを上回っています。

Generic motion understanding from video involves not only tracking objects, but also perceiving how their surfaces deform and move. This information is useful to make inferences about 3D shape, physical properties and object interactions. While the problem of tracking arbitrary physical points on surfaces over longer video clips has received some attention, no dataset or benchmark for evaluation existed, until now. In this paper, we first formalize the problem, naming it tracking any point (TAP). We introduce a companion benchmark, TAP-Vid, which is composed of both real-world videos with accurate human annotations of point tracks, and synthetic videos with perfect ground-truth point tracks. Central to the construction of our benchmark is a novel semi-automatic crowdsourced pipeline which uses optical flow estimates to compensate for easier, short-term motion like camera shake, allowing annotators to focus on harder sections of video. We validate our pipeline on synthetic data and propose a simple end-to-end point tracking model TAP-Net, showing that it outperforms all prior methods on our benchmark when trained on synthetic data.
翻訳日:2023-04-03 17:19:37 公開日:2023-03-31
# アルツハイマー病検出のための事前学習型言語モデルによる即時学習

Exploiting prompt learning with pre-trained language models for Alzheimer's Disease detection ( http://arxiv.org/abs/2210.16539v2 )

ライセンス: Link先を確認
Yi Wang, Jiajun Deng, Tianzi Wang, Bo Zheng, Shoukang Hu, Xunying Liu, Helen Meng(参考訳) アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行を遅らせるために重要である。 音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。 BERTのような事前学習言語モデル(PLM)によって生成されたテキスト埋め込み機能は、そのようなシステムで広く使われている。 しかし、PLMドメインの微調整は一般的に、バックエンドAD検出タスクと矛盾しないマスキングワードや文予測コストに基づいている。 そこで本研究では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整について検討する。 さらに, PLM微調整中に, 発声フレーズに, ヘスレーションやポーズフィラートークン周波数に基づく拡散特性を取り入れた。 異なるplm(bertとroberta)を用いたシステムや、異なる微調整パラダイム(慣習的マスキング言語モデリングとプロンプトベースの微調整)を用いたシステム間の意思決定ベースの組み合わせがさらに適用される。 AD検出システムの性能測定には,15回以上の実験結果の平均,標準偏差,精度スコアの最大値が採用されている。 高齢者48名からなるadress20テストセットでは, 平均検出精度84.20% (std 2.09%, best 87.5%) と 82.64% (std 4.0%, best 89.58%) が手話書き起こしとasr音声書き起こしを用いて得られた。

Early diagnosis of Alzheimer's disease (AD) is crucial in facilitating preventive care and to delay further progression. Speech based automatic AD screening systems provide a non-intrusive and more scalable alternative to other clinical screening techniques. Textual embedding features produced by pre-trained language models (PLMs) such as BERT are widely used in such systems. However, PLM domain fine-tuning is commonly based on the masked word or sentence prediction costs that are inconsistent with the back-end AD detection task. To this end, this paper investigates the use of prompt-based fine-tuning of PLMs that consistently uses AD classification errors as the training objective function. Disfluency features based on hesitation or pause filler token frequencies are further incorporated into prompt phrases during PLM fine-tuning. The decision voting based combination among systems using different PLMs (BERT and RoBERTa) or systems with different fine-tuning paradigms (conventional masked-language modelling fine-tuning and prompt-based fine-tuning) is further applied. Mean, standard deviation and the maximum among accuracy scores over 15 experiment runs are adopted as performance measurements for the AD detection system. Mean detection accuracy of 84.20% (with std 2.09%, best 87.5%) and 82.64% (with std 4.0%, best 89.58%) were obtained using manual and ASR speech transcripts respectively on the ADReSS20 test set consisting of 48 elderly speakers.
翻訳日:2023-04-03 17:19:01 公開日:2023-03-31
# 局所的再現によるグローバルニューラルネットワークの抽象化に向けて

Towards Global Neural Network Abstractions with Locally-Exact Reconstruction ( http://arxiv.org/abs/2210.12054v2 )

ライセンス: Link先を確認
Edoardo Manino, Iury Bessa, Lucas Cordeiro(参考訳) ニューラルネットワークは非線形関数の強力なクラスである。 しかし、そのブラックボックスの性質は、彼らの行動の説明と安全性の確認を困難にしている。 抽象化技術は、ニューラルネットワークをよりシンプルで近似的な関数に変換することで、この課題に対処します。 残念ながら、既存の抽象化技術はスラックであり、入力ドメインの小さなローカル領域に適用性を制限する。 本稿では,Center-Exact Reconstruction (GINNACER) を用いたグローバルインターバルニューラルネットワーク抽象化を提案する。 提案手法は,任意の局所入力に対して正確な再構成を保証しつつ,入力領域全体の音量近似境界を生成する。 実験の結果,GINNACERは最先端のグローバル抽象技術よりも数桁厳密であり,局所的な抽象技術と競合していることがわかった。

Neural networks are a powerful class of non-linear functions. However, their black-box nature makes it difficult to explain their behaviour and certify their safety. Abstraction techniques address this challenge by transforming the neural network into a simpler, over-approximated function. Unfortunately, existing abstraction techniques are slack, which limits their applicability to small local regions of the input domain. In this paper, we propose Global Interval Neural Network Abstractions with Center-Exact Reconstruction (GINNACER). Our novel abstraction technique produces sound over-approximation bounds over the whole input domain while guaranteeing exact reconstructions for any given local input. Our experiments show that GINNACER is several orders of magnitude tighter than state-of-the-art global abstraction techniques, while being competitive with local ones.
翻訳日:2023-04-03 17:18:13 公開日:2023-03-31
# 論理ビットパフォーマンスのためのRydberg Gatesの最適化

Optimizing Rydberg Gates for Logical Qubit Performance ( http://arxiv.org/abs/2210.06879v3 )

ライセンス: Link先を確認
Sven Jandura, Jeff D Thompson, Guido Pupillo(参考訳) ロバストゲート配列は、実験的な欠陥に対するゲート操作の感度を低下させるために広く用いられている。 一般に、最適化は平均ゲート誤差を最小化するが、近年の量子誤差補正の研究は、符号化された論理量子ビットの性能が平均エラー率だけでなく、発生するエラーの種類にも敏感であることを示した。 ここでは,中性原子量子ビットに対して,強度不均一性とドップラーシフトという2つの一般的な不完全性に対して頑健なrydbergブロックゲートの族を示す。 これらの門は、中等度または大規模な不備のために既存の門より優れている。 また、メタスタブル$~^{171}$Ybに基づく消去バイアス量子ビットの文脈におけるこれらのゲートの論理的性能についても考察する。 この場合、ロバストゲートは、これらの量子ビットの消去誤差に対するネイティブな大きなバイアスを保っているため、不完全性の小さな値であっても、既存のゲートよりも優れている。 これらの結果は、中性原子を用いたフォールトトレラント量子コンピューティングを実現するためのレーザー安定性と原子温度要件を著しく低減する。 論理キュービット性能のためにゲートを最適化するアプローチは、他のキュービットプラットフォームに適用できる。

Robust gate sequences are widely used to reduce the sensitivity of gate operations to experimental imperfections. Typically, the optimization minimizes the average gate error, however, recent work in quantum error correction has demonstrated that the performance of encoded logical qubits is sensitive to not only the average error rate, but also the type of errors that occur. Here, we present a family of Rydberg blockade gates for neutral atom qubits that are robust against two common, major imperfections: intensity inhomogeneity and Doppler shifts. These gates outperform existing gates for moderate or large imperfections. We also consider the logical performance of these gates in the context of an erasure-biased qubit based on metastable $~^{171}$Yb. In this case, we observe that the robust gates outperform existing gates for even very small values of the imperfections, because they maintain the native large bias towards erasure errors for these qubits. These results significantly reduce the laser stability and atomic temperature requirements to achieve fault-tolerant quantum computing with neutral atoms. The approach of optimizing gates for logical qubit performance may be applied to other qubit platforms.
翻訳日:2023-04-03 17:17:48 公開日:2023-03-31
# Augmentationsの価値はどれくらいか? スケーリング則、不変性、暗黙の正規化に関する研究

How Much Data Are Augmentations Worth? An Investigation into Scaling Laws, Invariance, and Implicit Regularization ( http://arxiv.org/abs/2210.06441v2 )

ライセンス: Link先を確認
Jonas Geiping, Micah Goldblum, Gowthami Somepalli, Ravid Shwartz-Ziv, Tom Goldstein, Andrew Gordon Wilson(参考訳) データ拡張による明らかなパフォーマンス上のメリットにもかかわらず、なぜそのような効果があるのかは分かっていない。 本稿では、データ拡張が動作するいくつかの重要なメカニズムを解消する。 付加的な実データと付加的な実データとの交換率を確立することで、分散テストのシナリオでは、多種多様なサンプルを生成するが、データ分布と矛盾する増分は、追加のトレーニングデータよりもさらに価値が高いことが分かる。 さらに,不変性を促進するデータ拡張は,特に中小規模のトレーニングセットにおいて,非分散のみよりも有用であることがわかった。 この観察結果から,トレーニング中に増強がさらなる確率性をもたらし,損失景観を効果的に平坦化させることを示した。

Despite the clear performance benefits of data augmentations, little is known about why they are so effective. In this paper, we disentangle several key mechanisms through which data augmentations operate. Establishing an exchange rate between augmented and additional real data, we find that in out-of-distribution testing scenarios, augmentations which yield samples that are diverse, but inconsistent with the data distribution can be even more valuable than additional training data. Moreover, we find that data augmentations which encourage invariances can be more valuable than invariance alone, especially on small and medium sized training sets. Following this observation, we show that augmentations induce additional stochasticity during training, effectively flattening the loss landscape.
翻訳日:2023-04-03 17:17:30 公開日:2023-03-31
# 校正からの距離の統一理論

A Unifying Theory of Distance from Calibration ( http://arxiv.org/abs/2211.16886v2 )

ライセンス: Link先を確認
Jaros{\l}aw B{\l}asiok, Parikshit Gopalan, Lunjia Hu, Preetum Nakkiran(参考訳) 確率予測器のキャリブレーションからの距離をどのように定義・測定するかという基本的な問題について検討する。 完全校正の概念はよく理解されているが、完全校正からの距離を定量化する方法についてのコンセンサスはない。 文献では多くの校正策が提案されているが、それらがどう比較されているかは定かではなく、期待校正誤差(ECE)など多くの一般的な対策は連続性のような基本的な性質を満足できない。 資産試験に関する文献から着想を得た校正対策分析のための厳密な枠組みを提案する。 キャリブレーションからの距離について,最寄りの完全キャリブレーション予測器までの距離が$\ell_1$であることを示す。 我々は、この距離と多項式的に関係のあるものとして一貫したキャリブレーション測度を定義する。 本フレームワークの適用により,スムーズキャリブレーション,インターバルキャリブレーション,ラプラスカーネルキャリブレーションという,一貫性のある3つのキャリブレーションを効率的に推定できる。 前者の2つは基底真理距離に二次近似を与え、予測のみアクセスモデルと呼ばれるキャリブレーションを測定するための自然モデルにおいて情報理論上最適であることを示した。 そこで本研究では,キャリブレーションまでの距離を測定するための基礎的な下限と上限を定め,実際に特定の測定値(例えばLaplaceカーネルキャリブレーション)を優先する理論的正当性を提供する。

We study the fundamental question of how to define and measure the distance from calibration for probabilistic predictors. While the notion of perfect calibration is well-understood, there is no consensus on how to quantify the distance from perfect calibration. Numerous calibration measures have been proposed in the literature, but it is unclear how they compare to each other, and many popular measures such as Expected Calibration Error (ECE) fail to satisfy basic properties like continuity. We present a rigorous framework for analyzing calibration measures, inspired by the literature on property testing. We propose a ground-truth notion of distance from calibration: the $\ell_1$ distance to the nearest perfectly calibrated predictor. We define a consistent calibration measure as one that is polynomially related to this distance. Applying our framework, we identify three calibration measures that are consistent and can be estimated efficiently: smooth calibration, interval calibration, and Laplace kernel calibration. The former two give quadratic approximations to the ground truth distance, which we show is information-theoretically optimal in a natural model for measuring calibration which we term the prediction-only access model. Our work thus establishes fundamental lower and upper bounds on measuring the distance to calibration, and also provides theoretical justification for preferring certain metrics (like Laplace kernel calibration) in practice.
翻訳日:2023-04-03 17:12:04 公開日:2023-03-31
# DATID-3D:3次元生成モデルのためのテキスト・画像拡散を用いた多様性保存領域適応

DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative Model ( http://arxiv.org/abs/2211.16374v2 )

ライセンス: Link先を確認
Gwanghyun Kim and Se Young Chun(参考訳) 近年の3次元生成モデルは、高分解能フォトリアリスティック画像の表示一貫性と詳細な3d形状による合成において顕著な性能を発揮しているが、大量のトレーニング画像とそのカメラ分布情報を必要とするため、多様な領域での訓練は困難である。 テキスト誘導型ドメイン適応法は,CLIP(Contrastive Language- Image Pre-training)を活用して,あるドメインの2次元生成モデルを他のドメインのモデルに変換するという,優れた性能を示している。 しかし、その欠点の一つは、CLIPテキストエンコーダの決定論的性質のため、元の生成モデルにおけるサンプルの多様性がドメイン適応生成モデルでは十分に保存されていないことである。 テキスト誘導ドメイン適応は、破滅的な多様性の喪失だけでなく、テキスト画像の対応の劣りや画像品質の低下により、3D生成モデルにとってさらに困難になる。 本稿では,テキスト間拡散モデルを用いた3次元生成モデルに適したドメイン適応手法であるDATID-3Dを提案する。 従来のテキスト誘導ドメイン適応手法の3D拡張とは異なり、我々の新しいパイプラインはソースドメインの最先端の3Dジェネレータを微調整し、テキスト誘導ターゲットドメインの高解像度で多視点一貫した画像を追加データなしで合成することができ、既存のテキスト誘導ドメイン適応手法よりも多様性とテキストイメージ対応性が高い。 さらに,テキストの多様性を十分に享受するために,ワンショットのインスタンス選択適応やシングルビューの3D再構成などの多様な3D画像操作を提案する。

Recent 3D generative models have achieved remarkable performance in synthesizing high resolution photorealistic images with view consistency and detailed 3D shapes, but training them for diverse domains is challenging since it requires massive training images and their camera distribution information. Text-guided domain adaptation methods have shown impressive performance on converting the 2D generative model on one domain into the models on other domains with different styles by leveraging the CLIP (Contrastive Language-Image Pre-training), rather than collecting massive datasets for those domains. However, one drawback of them is that the sample diversity in the original generative model is not well-preserved in the domain-adapted generative models due to the deterministic nature of the CLIP text encoder. Text-guided domain adaptation will be even more challenging for 3D generative models not only because of catastrophic diversity loss, but also because of inferior text-image correspondence and poor image quality. Here we propose DATID-3D, a domain adaptation method tailored for 3D generative models using text-to-image diffusion models that can synthesize diverse images per text prompt without collecting additional images and camera information for the target domain. Unlike 3D extensions of prior text-guided domain adaptation methods, our novel pipeline was able to fine-tune the state-of-the-art 3D generator of the source domain to synthesize high resolution, multi-view consistent images in text-guided targeted domains without additional data, outperforming the existing text-guided domain adaptation methods in diversity and text-image correspondence. Furthermore, we propose and demonstrate diverse 3D image manipulations such as one-shot instance-selected adaptation and single-view manipulated 3D reconstruction to fully enjoy diversity in text.
翻訳日:2023-04-03 17:11:10 公開日:2023-03-31
# SfM-TTR:シングルビュー深度ネットワークのテスト時間リファインメントのための動き構造の利用

SfM-TTR: Using Structure from Motion for Test-Time Refinement of Single-View Depth Networks ( http://arxiv.org/abs/2211.13551v2 )

ライセンス: Link先を確認
Sergio Izquierdo, Javier Civera(参考訳) 単一の視点から深度マップを推定することは幾何学的に不適切であり、最先端の手法は深度ニューラルネットワークを用いた視覚的外見との学習深度の関係に依存する。 一方、structure from motion (sfm) は、画像間のマッチングが局所的な識別テクスチャによって制限されるため、非常に正確だがスパースなマップを生成するために、多視点の制約を利用する。 本研究では、SfM-TTRと呼ばれる新しいテスト時間改善手法を提案し、SfMマルチビューキューを用いてテスト時のシングルビュー深度ネットワークの性能を向上させることにより、両手法の強みを組み合わせる。 具体的には、テスト時の自己監督信号としてスパースSfM点群を用い、ネットワークエンコーダを微調整して、テストシーンのより良い表現を学習する。 以上の結果から,SfM-TTRがいくつかの最先端の自己監督型・教師型ネットワークに追加されたことにより,その性能が大幅に向上し,従来のTTRベースラインよりも高い結果が得られた。 コードはhttps://github.com/serizba/sfm-ttrで入手できる。

Estimating a dense depth map from a single view is geometrically ill-posed, and state-of-the-art methods rely on learning depth's relation with visual appearance using deep neural networks. On the other hand, Structure from Motion (SfM) leverages multi-view constraints to produce very accurate but sparse maps, as matching across images is typically limited by locally discriminative texture. In this work, we combine the strengths of both approaches by proposing a novel test-time refinement (TTR) method, denoted as SfM-TTR, that boosts the performance of single-view depth networks at test time using SfM multi-view cues. Specifically, and differently from the state of the art, we use sparse SfM point clouds as test-time self-supervisory signal, fine-tuning the network encoder to learn a better representation of the test scene. Our results show how the addition of SfM-TTR to several state-of-the-art self-supervised and supervised networks improves significantly their performance, outperforming previous TTR baselines mainly based on photometric multi-view consistency. The code is available at https://github.com/serizba/SfM-TTR.
翻訳日:2023-04-03 17:10:34 公開日:2023-03-31
# MagicPony:野生の3D動物を学習する

MagicPony: Learning Articulated 3D Animals in the Wild ( http://arxiv.org/abs/2211.12497v2 )

ライセンス: Link先を確認
Shangzhe Wu, Ruining Li, Tomas Jakab, Christian Rupprecht, Andrea Vedaldi(参考訳) 馬のような関節動物の3次元形状,調音,視点,テクスチャ,照明を入力として予測する問題を考える。 変形のトポロジに関する仮定を最小限に抑えながら、対象カテゴリのワンビュー画像からこの予測器を純粋に学習するMagicPonyという新しい手法を提案する。 その中核は、明瞭な形状と外観を暗黙的に表現し、神経磁場とメッシュの強さを組み合わせたものである。 モデルが物体の形状やポーズを理解するのを助けるために,既製の自己監督型視覚変換器で捉えた知識を3Dモデルに融合させる。 視点推定における局所視能を克服するために,追加の訓練コストを伴わない新しい視点サンプリング方式を提案する。 MagicPonyは、この挑戦的なタスクの先行作業より優れており、実際のイメージでしか訓練されていないにもかかわらず、アートの再構築における優れた一般化を実証している。

We consider the problem of predicting the 3D shape, articulation, viewpoint, texture, and lighting of an articulated animal like a horse given a single test image as input. We present a new method, dubbed MagicPony, that learns this predictor purely from in-the-wild single-view images of the object category, with minimal assumptions about the topology of deformation. At its core is an implicit-explicit representation of articulated shape and appearance, combining the strengths of neural fields and meshes. In order to help the model understand an object's shape and pose, we distil the knowledge captured by an off-the-shelf self-supervised vision transformer and fuse it into the 3D model. To overcome local optima in viewpoint estimation, we further introduce a new viewpoint sampling scheme that comes at no additional training cost. MagicPony outperforms prior work on this challenging task and demonstrates excellent generalisation in reconstructing art, despite the fact that it is only trained on real images.
翻訳日:2023-04-03 17:10:10 公開日:2023-03-31
# 光子はかつてどこにいたか 嘘をついています

Photons are lying about where they have been, again ( http://arxiv.org/abs/2211.12399v2 )

ライセンス: Link先を確認
Gregory Reznik, Carlotta Versmold, Jan Dziewior, Florian Huber, Shrobona Bagchi, Harald Weinfurter, Justin Dressel, Lev Vaidman(参考訳) Bhati and Arvind [Phys. Lett. A, 127955 (2022)] は、最近、特別に設計された実験において、光子検出イベントのタイミングは弱い値のアプローチに従って存在しない場所で光子の存在を示すと主張した。 疑わしい矛盾は、この場所での相互作用のために、ポスト選択された光子に印刷された信号の異常な感度をもたらす微妙な干渉効果によって解決される(例えば、入れ子化されたマッハ・ツェンダー干渉計とドーブ・プリズム(quant.. stud.: mat. found. 2, 255 (2015)))。 粒子自体にインプリントされた情報に基づいて, 特定の位置における前・後選択粒子の存在特性について, 奥行き解析を行う。 理論的結果は,提案実験のコンピュータシミュレーションにより検証される。

Bhati and Arvind [Phys. Lett. A, 127955 (2022)] recently argued that in a specially designed experiment the timing of photon detection events demonstrates photon presence at a location at which they are not present according to the weak value approach. The alleged contradiction is resolved by a subtle interference effect resulting in anomalous sensitivity of the signal imprinted on the postselected photons for the interaction at this location, similarly to the case of a nested Mach-Zehnder interferometer with a Dove prism [Quant. Stud.: Mat. Found. 2, 255 (2015)]. We perform an in depth analysis of the characterization of the presence of a pre- and postselected particle at a particular location based on information imprinted on the particle itself. The theoretical results are tested by a computer simulation of the proposed experiment.
翻訳日:2023-04-03 17:09:52 公開日:2023-03-31
# 階層画像分類のための意味誘導レベルカテゴリハイブリッド予測ネットワーク

Semantic Guided Level-Category Hybrid Prediction Network for Hierarchical Image Classification ( http://arxiv.org/abs/2211.12277v3 )

ライセンス: Link先を確認
Peng Wang, Jingzhou Chen, Yuntao Qian(参考訳) 階層分類(hc)は、複数のラベルを階層構造に分類したオブジェクトを割り当てる。 既存のディープラーニングベースのHCメソッドは通常、リーフノードに到達するまでルートノードから始まるインスタンスを予測する。 しかし、現実の世界では、ノイズ、閉塞、ぼかし、解像度の低い画像は、下位レベルの分類に十分な情報を提供していない。 この問題に対処するため,我々は,レベルとカテゴリの予測をエンドツーエンドで共同で行うことのできる,セマンティックガイド付きレベルカテゴリハイブリッド予測ネットワーク(SGLCHPN)を提案する。 SGLCHPNは、入力画像から特徴ベクトルを抽出するビジュアルトランスフォーマーと、カテゴリ単語の埋め込みをクエリとして使用するセマンティックガイド付きクロスアテンションモジュールの2つのモジュールから構成される。 提案手法を評価するために,画像が幅広い品質で,個々の品質に応じて階層内の異なるレベル(深度)にラベル付けされる2つの新しいデータセットを構築した。 実験の結果,提案手法の有効性が示された。

Hierarchical classification (HC) assigns each object with multiple labels organized into a hierarchical structure. The existing deep learning based HC methods usually predict an instance starting from the root node until a leaf node is reached. However, in the real world, images interfered by noise, occlusion, blur, or low resolution may not provide sufficient information for the classification at subordinate levels. To address this issue, we propose a novel semantic guided level-category hybrid prediction network (SGLCHPN) that can jointly perform the level and category prediction in an end-to-end manner. SGLCHPN comprises two modules: a visual transformer that extracts feature vectors from the input images, and a semantic guided cross-attention module that uses categories word embeddings as queries to guide learning category-specific representations. In order to evaluate the proposed method, we construct two new datasets in which images are at a broad range of quality and thus are labeled to different levels (depths) in the hierarchy according to their individual quality. Experimental results demonstrate the effectiveness of our proposed HC method.
翻訳日:2023-04-03 17:09:35 公開日:2023-03-31
# quantinar: 正直な科学研究のためのブロックチェーンp2pエコシステム

Quantinar: a blockchain p2p ecosystem for honest scientific research ( http://arxiv.org/abs/2211.11525v2 )

ライセンス: Link先を確認
Raul Bag, Bruno Spilak, Julian Winkel, Wolfgang Karl H\"ardle(参考訳) 情報化時代にあって、データの力と正しい統計分析が普及したことは一度もない。 アカデミックと実践者は、現在、量的手法の正確な適用を必要としている。 しかし、多くのブランチは整合性の危機にさらされており、統計モデルの不適切な使用、$p$-hacking、HARKing、結果の複製に失敗することが示されている。 ブロックチェーンネットワークであるquantinar(quantinar.com)に基づいたp2p(p2p)エコシステムを用いて、quantlets(quantlet.com)やソフトウェアスニペット形式でコードとペアリングした定量的分析知識をサポートする。 ブロックチェーン技術の統合により、quantinarは完全な透明性と再現可能な科学的研究を確実にする分散型自律組織(dao)となる。

Living in the Information Age, the power of data and correct statistical analysis has never been more prevalent. Academics and practitioners require nowadays an accurate application of quantitative methods. Yet many branches are subject to a crisis of integrity, which is shown in an improper use of statistical models, $p$-hacking, HARKing, or failure to replicate results. We propose the use of a Peer-to-Peer (P2P) ecosystem based on a blockchain network, Quantinar (quantinar.com), to support quantitative analytics knowledge paired with code in the form of Quantlets (quantlet.com) or software snippets. The integration of blockchain technology makes Quantinar a decentralized autonomous organization (DAO) that ensures fully transparent and reproducible scientific research.
翻訳日:2023-04-03 17:09:19 公開日:2023-03-31
# スマートグラスの実用的ステレオ深度システム

A Practical Stereo Depth System for Smart Glasses ( http://arxiv.org/abs/2211.10551v2 )

ライセンス: Link先を確認
Jialiang Wang, Daniel Scharstein, Akash Bapat, Kevin Blackburn-Matzen, Matthew Yu, Jonathan Lehman, Suhib Alsisan, Yanghan Wang, Sam Tsai, Jan-Michael Frahm, Zijian He, Peter Vajda, Michael F. Cohen, Matt Uyttendaele(参考訳) 本稿では, 事前処理, オンラインステレオ修正, ステレオ深度推定を, 信頼性の低いモノクロ深度推定にフォールバックして行う, エンド・ツー・エンドのステレオ深度検知システムの設計について述べる。 深度センシングシステムの出力は、新しいビュー生成パイプラインで使用され、スマートグラスで撮影したポイントオブビュー画像を使用して、3d計算写真効果を生成する。 これらのステップはすべて、携帯電話の厳格な計算予算でオンデバイスで実行されます。ユーザが幅広いスマートフォンを使用できると期待しているため、私たちの設計は汎用的で、スマートフォンGPUのような特定のハードウェアやMLアクセラレーションに依存しない必要があります。 これらのステップは十分に研究されているが、実際的なシステムの記述はまだ欠けている。 このようなシステムでは、これらのステップはすべて相互に連携して動作し、システム内の障害に対して適切にフォールバックする必要がある。 例えば、熱によるキャリブレーションの予期せぬ変更の処理方法を示し、ワイルドな深さ推定を堅牢にサポートし、スムーズなユーザエクスペリエンスに必要なメモリとレイテンシの制約にも従っています。 トレーニングされたモデルは高速で、6歳のSamsung Galaxy S8のCPU上では1秒未満で動作します。 われわれのモデルは、見当たらないデータに対してよく一般化し、ミドルベリーやスマートグラスから捉えた画像の良好な結果が得られる。

We present the design of a productionized end-to-end stereo depth sensing system that does pre-processing, online stereo rectification, and stereo depth estimation with a fallback to monocular depth estimation when rectification is unreliable. The output of our depth sensing system is then used in a novel view generation pipeline to create 3D computational photography effects using point-of-view images captured by smart glasses. All these steps are executed on-device on the stringent compute budget of a mobile phone, and because we expect the users can use a wide range of smartphones, our design needs to be general and cannot be dependent on a particular hardware or ML accelerator such as a smartphone GPU. Although each of these steps is well studied, a description of a practical system is still lacking. For such a system, all these steps need to work in tandem with one another and fallback gracefully on failures within the system or less than ideal input data. We show how we handle unforeseen changes to calibration, e.g., due to heat, robustly support depth estimation in the wild, and still abide by the memory and latency constraints required for a smooth user experience. We show that our trained models are fast, and run in less than 1s on a six-year-old Samsung Galaxy S8 phone's CPU. Our models generalize well to unseen data and achieve good results on Middlebury and in-the-wild images captured from the smart glasses.
翻訳日:2023-04-03 17:08:48 公開日:2023-03-31
# 熱浴中における過酸化水素正イオンの定性モデル

Qualitative model of a positive hydrogen peroxide ion in a thermal bath ( http://arxiv.org/abs/2212.10662v3 )

ライセンス: Link先を確認
Chen Ran, Yuri Ozhigov, You Jiangchuan(参考訳) 単一モードの光学キャビティ内の酸素と水素を1つの価電子で結合し、熱浴に浸漬する一対の原子について定性モデルを提案した。 電子と空洞場の相互作用は核の状態に依存し、熱浴のフォノンモードの温度によって決定される。 このような系の量子力学のコンピュータシミュレーションは、安定な分子イオンと分離された中性酸素原子と正の水素イオンの両方の形成の安定な性質を示している。

A qualitative model is proposed for a pair of atoms: oxygen and hydrogen in a single-mode optical cavity, bound by one valence electron and immersed in a thermal bath. The interaction of an electron with the cavity field depends on the state of the nuclei, which, in turn, is determined by the temperature of the phonon mode of the thermal bath. Computer simulation of the quantum dynamics of such a system shows the stable nature of the formation of both a stable molecular ion and a separate neutral oxygen atom and a positive hydrogen ion.
翻訳日:2023-04-03 17:01:28 公開日:2023-03-31
# StyleDomain: ワンショット領域適応のためのStyleGANの効率的および軽量パラメータ化

StyleDomain: Efficient and Lightweight Parameterizations of StyleGAN for One-shot and Few-shot Domain Adaptation ( http://arxiv.org/abs/2212.10229v2 )

ライセンス: Link先を確認
Aibek Alanov, Vadim Titov, Maksim Nakhodnov, Dmitry Vetrov(参考訳) GANのドメイン適応は、大規模なデータセットに事前訓練された最先端のGANモデル(例:StyleGAN)を、サンプルが少ない特定の領域(例:顔、スケッチなど)に微調整する問題である。 この問題に様々な方法で対処するメソッドはたくさんありますが、まだ答えが得られていない重要な質問がたくさんあります。 本稿では,GANのドメイン適応問題について,StyleGANモデルに焦点をあてた,体系的かつ詳細な解析を行う。 まず、ソースドメインとターゲットドメインの類似度に応じて、ジェネレータを新しいドメインに適応させる役割を担っているstyleganの最も重要な部分について詳細な調査を行う。 この詳細な研究の結果、ドメイン適応のためのStyleGANの新しい効率的かつ軽量なパラメータ化を提案する。 特に、StyleSpace(StyleDomain方向)には、類似したドメインに適応するのに十分な方向があり、さらに小さくすることができる。 類似したドメインに対して、我々は、低データレジームで短時間適応する場合に既存のベースラインを上回ることができる、アフィン$+$とアフィンライト$+$パラメータ化を提案する。 最後に、StyleDomain方向を調べ、ドメイン混合やクロスドメイン画像の変形に応用する多くの驚くべき特性を見出す。

Domain adaptation of GANs is a problem of fine-tuning the state-of-the-art GAN models (e.g. StyleGAN) pretrained on a large dataset to a specific domain with few samples (e.g. painting faces, sketches, etc.). While there are a great number of methods that tackle this problem in different ways, there are still many important questions that remain unanswered. In this paper, we provide a systematic and in-depth analysis of the domain adaptation problem of GANs, focusing on the StyleGAN model. First, we perform a detailed exploration of the most important parts of StyleGAN that are responsible for adapting the generator to a new domain depending on the similarity between the source and target domains. As a result of this in-depth study, we propose new efficient and lightweight parameterizations of StyleGAN for domain adaptation. Particularly, we show there exist directions in StyleSpace (StyleDomain directions) that are sufficient for adapting to similar domains and they can be reduced further. For dissimilar domains, we propose Affine$+$ and AffineLight$+$ parameterizations that allows us to outperform existing baselines in few-shot adaptation with low data regime. Finally, we examine StyleDomain directions and discover their many surprising properties that we apply for domain mixing and cross-domain image morphing.
翻訳日:2023-04-03 17:01:18 公開日:2023-03-31
# サンプリングアルゴリズムを用いた量子ボソニック系の切断効果の推定

Estimating truncation effects of quantum bosonic systems using sampling algorithms ( http://arxiv.org/abs/2212.08546v2 )

ライセンス: Link先を確認
Masanori Hanada, Junyu Liu, Enrico Rinaldi, Masaki Tezuka(参考訳) 量子コンピュータ上のボソンをシミュレートするには、無限次元局所ヒルベルト空間を有限次元に切り換えることで理論を正則化する必要がある。 実用的な量子応用の探索において、トラクション誤差がどれほど大きいかを知ることが重要である。 一般に、良い量子コンピュータがなければ、エラーを見積もるのは容易ではない。 本稿では,古典的デバイス,特にマルコフ連鎖モンテカルロにおける従来のサンプリング手法が,現在利用可能な計算資源量でこの問題に対処できることを示す。 実演として、このアイデアを2次元格子上のスカラー場理論に適用し、正確な対角化法を用いて達成できる範囲を超えている。 この方法は、ボソニック理論の現実的な量子シミュレーションに必要なリソースを推定したり、対応する量子シミュレーションの結果の妥当性を確認するのに使うことができる。

To simulate bosons on a qubit- or qudit-based quantum computer, one has to regularize the theory by truncating infinite-dimensional local Hilbert spaces to finite dimensions. In the search for practical quantum applications, it is important to know how big the truncation errors can be. In general, it is not easy to estimate errors unless we have a good quantum computer. In this paper we show that traditional sampling methods on classical devices, specifically Markov Chain Monte Carlo, can address this issue with a reasonable amount of computational resources available today. As a demonstration, we apply this idea to the scalar field theory on a two-dimensional lattice, with a size that goes beyond what is achievable using exact diagonalization methods. This method can be used to estimate the resources needed for realistic quantum simulations of bosonic theories, and also, to check the validity of the results of the corresponding quantum simulations.
翻訳日:2023-04-03 17:00:53 公開日:2023-03-31
# 誘導伝送マップを有するエンコーダデコーダネットワーク:アーキテクチャ

Encoder-Decoder Network with Guided Transmission Map: Architecture ( http://arxiv.org/abs/2212.05936v2 )

ライセンス: Link先を確認
Le-Anh Tran, Dong-Chul Park(参考訳) 本稿では,新規かつ効果的な単一画像復調方式であるEDN-GTMを用いたエンコーダ・デコーダネットワークのアーキテクチャについて考察する。 EDN-GTMは、ネットワークの入力として、ダークチャネル事前(DCP)アプローチによって推定される対応する送信マップと合わせて、従来のRGBハジー画像を取る。 EDN-GTMは、タスクのデハージングのために開発されたU-Netの強化された構造を採用し、その結果のEDN-GDMは、PSNRとSSIMのメトリクスでベンチマークデハージングデータセットに最先端のパフォーマンスを示す。 本稿では,EDN-GTMの成功に大きく貢献するよく設計されたアーキテクチャを深く理解するために,高度なネットワーク設計を調査するためのスキームの中核構造を選択するための広範な実験と分析について述べる。

An insight into the architecture of the Encoder-Decoder Network with Guided Transmission Map (EDN-GTM), a novel and effective single image dehazing scheme, is presented in this paper. The EDN-GTM takes a conventional RGB hazy image in conjunction with the corresponding transmission map estimated by the dark channel prior (DCP) approach as inputs of the network. The EDN-GTM adopts an enhanced structure of U-Net developed for dehazing tasks and the resulting EDN-GDM has shown state-of-the-art performances on benchmark dehazing datasets in terms of PSNR and SSIM metrics. In order to give an in-depth understanding of the well-designed architecture which largely contributes to the success of the EDN-GTM, extensive experiments and analysis from selecting the core structure of the scheme to investigating advanced network designs are presented in this paper.
翻訳日:2023-04-03 17:00:10 公開日:2023-03-31
# 視覚言語モデルのための学習領域不変プロンプト

Learning Domain Invariant Prompt for Vision-Language Models ( http://arxiv.org/abs/2212.04196v2 )

ライセンス: Link先を確認
Cairong Zhao, Yubin Wang, Xinyang Jiang, Yifei Shen, Kaitao Song, Dongsheng Li, and Duoqian Miao(参考訳) プロンプト学習は、CLIPのような強力なビジョン言語基盤モデルを、ごく少数のサンプルで学習可能なプロンプトベクトルをチューニングすることで、下流データセットに適応する最も効果的でトレンドな方法の1つである。 しかし、素早い学習はドメイン内のデータよりも優れたパフォーマンスを達成するが、未確認のクラスやドメインに一般化するという大きな課題に直面している。 いくつかの既存のプロンプト学習方法は、異なるトークンやドメインの異なるプロンプトを適応的に生成することでこの問題に対処するが、未知のドメインに一般化する学習プロンプトの能力を無視する。 本稿では,メタプロンプト(MetaPrompt)と呼ばれる未知の領域に一般化可能な,emph{ domain invariant}プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。 具体的には、画像とテキストの両モードから入力のためのプロンプトを生成するために、デュアルモーダリティ・プロンプト・チューニング・ネットワークを提案する。 新規な非対称的な対照的な損失により、学習したプロンプトの一般化能力を高めるために、訓練済みの視覚言語モデルからの表現が監督される。 さらに、メタ学習に基づくプロンプトチューニングアルゴリズムを提案し、特定のドメインやクラスに対してチューニングされたタスク固有のプロンプトを明示的に制約し、他のドメインやクラスでも優れたパフォーマンスを実現する。 ベース・ツー・ニュー・ジェネライゼーションのための11のデータセットとドメイン・ジェネライゼーションのための4つのデータセットに関する広範な実験は、この手法が既存の手法を一貫して著しく上回っていることを示している。

Prompt learning is one of the most effective and trending ways to adapt powerful vision-language foundation models like CLIP to downstream datasets by tuning learnable prompt vectors with very few samples. However, although prompt learning achieves excellent performance over in-domain data, it still faces the major challenge of generalizing to unseen classes and domains. Some existing prompt learning methods tackle this issue by adaptively generating different prompts for different tokens or domains but neglecting the ability of learned prompts to generalize to unseen domains. In this paper, we propose a novel prompt learning paradigm that directly generates \emph{domain invariant} prompt that can be generalized to unseen domains, called MetaPrompt. Specifically, a dual-modality prompt tuning network is proposed to generate prompts for input from both image and text modalities. With a novel asymmetric contrastive loss, the representation from the original pre-trained vision-language model acts as supervision to enhance the generalization ability of the learned prompt. More importantly, we propose a meta-learning-based prompt tuning algorithm that explicitly constrains the task-specific prompt tuned for one domain or class to also achieve good performance in another domain or class. Extensive experiments on 11 datasets for base-to-new generalization and 4 datasets for domain generalization demonstrate that our method consistently and significantly outperforms existing methods.
翻訳日:2023-04-03 16:59:54 公開日:2023-03-31
# CoP: 優先度制御によるFactual Unconsistency Detection

CoP: Factual Inconsistency Detection by Controlling the Preference ( http://arxiv.org/abs/2212.01611v2 )

ライセンス: Link先を確認
Shuaijie She, Xiang Geng, Shujian Huang, Jiajun Chen(参考訳) 抽象要約は、文書を入力として与えられた要約を生成する過程である。 かなりの進展があったが、文書と生成された要約との間の現実的な矛盾は、その実用的応用を制限している。 前回の研究では、生成モデルによって割り当てられた確率は、結果整合性の選好、言語や知識の選好など、生成された要約に対する選好を反映していることがわかった。 事実整合性の選好を分離するために,プロンプトの助けを借りて生成モデルの選好を制御し,教師なしフレームワークCoPを提案する。 より具体的には、このフレームワークは追加の入力としてテキストプロンプトが導入される追加の推論ステップを実行する。 このように、別の選好は、この余分な推論プロセスの生成確率によって記述される。 上記の2つの選好の違い、すなわち確率の差は、事実的不一致を検出するための測定として使用できる。 興味深いことに、適切に設計されたプロンプトによって、我々のフレームワークは特定の嗜好を評価し、エンティティ関連不整合、コア参照関連不整合など、きめ細かい不整合のカテゴリを計測できることがわかった。 さらに、当社のフレームワークは、ラベル付きデータからより良いプロンプトを学ぶために、教師付き設定に拡張することも可能です。 実験の結果,3つの非一貫性検出タスクにおいて新たなsota結果が得られた。

Abstractive summarization is the process of generating a summary given a document as input. Although significant progress has been made, the factual inconsistency between the document and the generated summary still limits its practical applications. Previous work found that the probabilities assigned by the generation model reflect its preferences for the generated summary, including the preference for factual consistency, and the preference for the language or knowledge prior as well. To separate the preference for factual consistency, we propose an unsupervised framework named CoP by controlling the preference of the generation model with the help of prompt. More specifically, the framework performs an extra inference step in which a text prompt is introduced as an additional input. In this way, another preference is described by the generation probability of this extra inference process. The difference between the above two preferences, i.e. the difference between the probabilities, could be used as measurements for detecting factual inconsistencies. Interestingly, we found that with the properly designed prompt, our framework could evaluate specific preferences and serve as measurements for fine-grained categories of inconsistency, such as entity-related inconsistency, coreference-related inconsistency, etc. Moreover, our framework could also be extended to the supervised setting to learn better prompt from the labeled data as well. Experiments show that our framework achieves new SOTA results on three factual inconsistency detection tasks.
翻訳日:2023-04-03 16:59:29 公開日:2023-03-31
# 同時探索と同定による3次元物体ゴールナビゲーション

3D-Aware Object Goal Navigation via Simultaneous Exploration and Identification ( http://arxiv.org/abs/2212.00338v3 )

ライセンス: Link先を確認
Jiazhao Zhang, Liu Dai, Fanpeng Meng, Qingnan Fan, Xuelin Chen, Kai Xu, He Wang(参考訳) 見えない環境でのオブジェクトゴールナビゲーション(ObjectNav)は、Embodied AIの基本的なタスクである。 既存の作業のエージェントは、2Dマップ、シーングラフ、イメージシーケンスに基づいてObjectNavポリシーを学ぶ。 このタスクが3D空間で発生することを考慮すれば、3Dエージェントは細かな空間情報から学習することでObjectNav能力を向上することができる。 しかし,このフロアレベルのタスクでは,サンプル効率の低さと計算コストの高騰から,3次元シーン表現の活用は禁止的に実践的ではない。 本研究では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。 2つのサブポリス、すなわちコーナー誘導探索政策とカテゴリー認識識別政策は、オンライン融合3Dポイントを観察として同時に実施する。 広範な実験を通じて,このフレームワークが3次元シーン表現から学習することで,objectnavの性能を劇的に向上できることを示す。 我々のフレームワークはmatterport3dとgibsonデータセット上のすべてのモジュールベースメソッドで最高のパフォーマンスを実現しますが、トレーニングに計算コスト(最大30倍)を必要とします。

Object goal navigation (ObjectNav) in unseen environments is a fundamental task for Embodied AI. Agents in existing works learn ObjectNav policies based on 2D maps, scene graphs, or image sequences. Considering this task happens in 3D space, a 3D-aware agent can advance its ObjectNav capability via learning from fine-grained spatial information. However, leveraging 3D scene representation can be prohibitively unpractical for policy learning in this floor-level task, due to low sample efficiency and expensive computational cost. In this work, we propose a framework for the challenging 3D-aware ObjectNav based on two straightforward sub-policies. The two sub-polices, namely corner-guided exploration policy and category-aware identification policy, simultaneously perform by utilizing online fused 3D points as observation. Through extensive experiments, we show that this framework can dramatically improve the performance in ObjectNav through learning from 3D scene representation. Our framework achieves the best performance among all modular-based methods on the Matterport3D and Gibson datasets, while requiring (up to 30x) less computational cost for training.
翻訳日:2023-04-03 16:59:07 公開日:2023-03-31
# 立方相関クラスタリングにおける部分最適性

Partial Optimality in Cubic Correlation Clustering ( http://arxiv.org/abs/2302.04694v2 )

ライセンス: Link先を確認
David Stein, Silvia Di Gregorio, Bjoern Andres(参考訳) 高次相関クラスタリング問題は表現モデルであり,近年,いくつかの応用において局所探索ヒューリスティックスが提案されている。 しかし、最適性の証明はNPハードであり、すでに問題文の複雑さによって妨げられている。 本稿では,完全グラフと立方体目的関数の特別な場合に対する部分最適条件の確立に着目する。 さらに、これらの条件をテストするアルゴリズムを定義し、その効果を2つのデータセット上で数値的に検証する。

The higher-order correlation clustering problem is an expressive model, and recently, local search heuristics have been proposed for several applications. Certifying optimality, however, is NP-hard and practically hampered already by the complexity of the problem statement. Here, we focus on establishing partial optimality conditions for the special case of complete graphs and cubic objective functions. In addition, we define and implement algorithms for testing these conditions and examine their effect numerically, on two datasets.
翻訳日:2023-04-03 16:52:57 公開日:2023-03-31
# PAC-Bayes境界の導出のための統一的レシピ

A unified recipe for deriving (time-uniform) PAC-Bayes bounds ( http://arxiv.org/abs/2302.03421v3 )

ライセンス: Link先を確認
Ben Chugg, Hongjian Wang, Aaditya Ramdas(参考訳) PAC-ベイジアン一般化境界を導出するための統一的枠組みを提案する。 この話題に関する他の文献とは異なり、我々の境界は任意の時効(すなわち、時間ユニフォーム)であり、固定されたサンプルサイズだけでなく、常に停止時間を保持することを意味する。 私たちのアプローチは以下の順に4つのツールを組み合わせています。 a)非負のスーパーマリンタレスまたは逆サブマリンタレス (b)混合物の方法 (c)Donsker-Varadhan式(または他の凸双対性原理) (d) ヴィルの不平等。 我々の主な成果は、離散確率過程の幅広いクラスに対応するPAC-Bayes定理である。 この結果は、シーガー、マクレスター、マウラー、カトニといった有名な古典的PAC-ベイズ境界の時間一様版と最近の多くの境界に加えてどのように意味するかを示す。 いくつかの新しい境界も提示する。 我々はまた,従来の仮定,特に非定常損失関数と非定常損失関数を緩和することを可能にする。 つまり、過去の境界の導出を統一し、将来の境界の探索を容易にする: スーパーマーチンゲールまたはサブマーチンゲール条件が満たされているかどうかを単にチェックし、もしそうであれば(時間一様)pac-bayesバウンドを保証できる。

We present a unified framework for deriving PAC-Bayesian generalization bounds. Unlike most previous literature on this topic, our bounds are anytime-valid (i.e., time-uniform), meaning that they hold at all stopping times, not only for a fixed sample size. Our approach combines four tools in the following order: (a) nonnegative supermartingales or reverse submartingales, (b) the method of mixtures, (c) the Donsker-Varadhan formula (or other convex duality principles), and (d) Ville's inequality. Our main result is a PAC-Bayes theorem which holds for a wide class of discrete stochastic processes. We show how this result implies time-uniform versions of well-known classical PAC-Bayes bounds, such as those of Seeger, McAllester, Maurer, and Catoni, in addition to many recent bounds. We also present several novel bounds. Our framework also enables us to relax traditional assumptions; in particular, we consider nonstationary loss functions and non-i.i.d. data. In sum, we unify the derivation of past bounds and ease the search for future bounds: one may simply check if our supermartingale or submartingale conditions are met and, if so, be guaranteed a (time-uniform) PAC-Bayes bound.
翻訳日:2023-04-03 16:52:24 公開日:2023-03-31
# 自動運転における異常検出のための知覚データセット:調査

Perception Datasets for Anomaly Detection in Autonomous Driving: A Survey ( http://arxiv.org/abs/2302.02790v2 )

ライセンス: Link先を確認
Daniel Bogdoll and Svenja Uhlemeyer and Kamil Kowol and J. Marius Z\"ollner(参考訳) 自律運転のための認識システムに使用されるディープニューラルネットワーク(DNN)は、あらゆる状況において確実に高いパフォーマンスを達成する必要があるため、トレーニングする大量のデータを必要とする。 しかし、これらのdnnは通常、トレーニングデータで利用可能な閉じたセマンティクスクラスに制限されており、従って、これまで見つからなかったインスタンスと向き合うと信頼できない。 したがって, 実世界の異常, 実世界の異常, 合成異常, 完全に合成されたシーンの3つのグループに分類できる, 異常検出法の評価のための複数の知覚データセットが作成されている。 このサーベイは構造化され、私たちの知る限り、自律運転における異常検出のための知覚データセットの完全な概要と比較を提供する。 各章はタスクや基礎的真実、コンテキスト情報、ライセンスに関する情報を提供する。 さらに、既存のデータセットにおける現在の弱点とギャップについて論じ、さらなるデータ開発の重要性を強調する。

Deep neural networks (DNN) which are employed in perception systems for autonomous driving require a huge amount of data to train on, as they must reliably achieve high performance in all kinds of situations. However, these DNN are usually restricted to a closed set of semantic classes available in their training data, and are therefore unreliable when confronted with previously unseen instances. Thus, multiple perception datasets have been created for the evaluation of anomaly detection methods, which can be categorized into three groups: real anomalies in real-world, synthetic anomalies augmented into real-world and completely synthetic scenes. This survey provides a structured and, to the best of our knowledge, complete overview and comparison of perception datasets for anomaly detection in autonomous driving. Each chapter provides information about tasks and ground truth, context information, and licenses. Additionally, we discuss current weaknesses and gaps in existing datasets to underline the importance of developing further data.
翻訳日:2023-04-03 16:52:00 公開日:2023-03-31
# プロンプト正規化による視覚言語モデルのdebiased fine-tuning

Debiased Fine-Tuning for Vision-language Models by Prompt Regularization ( http://arxiv.org/abs/2301.12429v2 )

ライセンス: Link先を確認
Beier Zhu and Yulei Niu and Saeil Lee and Minhoe Hur and Hanwang Zhang(参考訳) 我々は,ダウンストリームタスクにおける大規模視覚言語事前学習モデルの微調整のための新しいパラダイムであるpromply regularization (proreg)を提案する。 下流のタスクデータに簡単に適合する従来の微調整とは異なり、ProRegは事前訓練されたモデルに微調整を規則化するよう促すことで予測を使用する。 動機は、大きなモデル「[CLASS]の写真」をプロンプトすることで、FI-linの答えは、通常バイアスのかかるタスクデータ分布とは独立しながら、事前学習された百科事典の知識にのみ依存する。 具体的には、微調整中のトレーニングサンプル予測を考慮し、まず、即時予測のKullbackLeibler損失とグランドトラストラベルのクロスエントロピー損失を計算し、次に、予め訓練された領域と下流領域の転送を自動的に調整するサンプル適応トレードオフ重みと組み合わせる。 様々なアウト・オブ・ディストリビューション・ベンチマークにおいて,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。

We present a new paradigm for fine-tuning large-scale visionlanguage pre-trained models on downstream task, dubbed Prompt Regularization (ProReg). Different from traditional fine-tuning which easily overfits to the downstream task data, ProReg uses the prediction by prompting the pretrained model to regularize the fine-tuning. The motivation is: by prompting the large model "a photo of a [CLASS]", the fil-lin answer is only dependent on the pretraining encyclopedic knowledge while independent of the task data distribution, which is usually biased. Specifically, given a training sample prediction during fine-tuning, we first calculate its KullbackLeibler loss of the prompt prediction and Cross-Entropy loss of the ground-truth label, and then combine them with a proposed sample-wise adaptive trade-off weight, which automatically adjusts the transfer between the pretrained and downstream domains. On various out-of-distribution benchmarks, we show the consistently strong performance of ProReg compared with conventional fine-tuning, zero-shot prompt, prompt tuning, and other state-of-the-art methods.
翻訳日:2023-04-03 16:51:22 公開日:2023-03-31
# マルチモーダル埋め込みによるクロスターゲットスタンス検出のためのFew-shot Learning

Few-shot Learning for Cross-Target Stance Detection by Aggregating Multimodal Embeddings ( http://arxiv.org/abs/2301.04535v2 )

ライセンス: Link先を確認
Parisa Jamadi Khiabani, Arkaitz Zubiaga(参考訳) スタンス検出タスクの人気が高まっているにもかかわらず、既存のアプローチは、主にソーシャルメディア投稿のテキストコンテンツを使って分類することに限られており、そのタスクの社会的性質を見越している。 姿勢検出タスクは,少数のトレーニング設定であっても,モデルがトレーニング中に少数の関連するサンプルしか見ていない新たなターゲットに対する姿勢を予測する必要がある,クロスターゲット分類シナリオでは特に困難になる。 課題の社会的性質を活用してソーシャルメディアにおける多目的姿勢検出に対処するため,テキストとネットワークの両方の特徴から得られたマルチモーダルな埋め込みを集約する新しいモデルであるCT-TNを導入する。 我々は, 複数ショットのクロスターゲットシナリオにおいて, 6種類のターゲット対の異なる組み合わせについて実験を行う。 ct-tnと最先端のクロスターゲット・スタンス検出モデルを比較し,ベースラインモデルで11%から21%の平均性能改善を達成し,本モデルの有効性を実証する。 異なる数のショットで実験したところ、CT-TNは目的地の300のインスタンスを見た後、他のモデルよりも優れていた。 さらに, アブレーション実験では, CT-TNの各成分が最終性能に対して正の寄与を示す。 さらに,ソーシャルメディアユーザ間のネットワークインタラクションを解析し,ターゲット間のスタンス検出にソーシャル機能を利用する可能性を明らかにする。

Despite the increasing popularity of the stance detection task, existing approaches are predominantly limited to using the textual content of social media posts for the classification, overlooking the social nature of the task. The stance detection task becomes particularly challenging in cross-target classification scenarios, where even in few-shot training settings the model needs to predict the stance towards new targets for which the model has only seen few relevant samples during training. To address the cross-target stance detection in social media by leveraging the social nature of the task, we introduce CT-TN, a novel model that aggregates multimodal embeddings derived from both textual and network features of the data. We conduct experiments in a few-shot cross-target scenario on six different combinations of source-destination target pairs. By comparing CT-TN with state-of-the-art cross-target stance detection models, we demonstrate the effectiveness of our model by achieving average performance improvements ranging from 11% to 21% across different baseline models. Experiments with different numbers of shots show that CT-TN can outperform other models after seeing 300 instances of the destination target. Further, ablation experiments demonstrate the positive contribution of each of the components of CT-TN towards the final performance. We further analyse the network interactions between social media users, which reveal the potential of using social features for cross-target stance detection.
翻訳日:2023-04-03 16:50:41 公開日:2023-03-31
# ステップ:未ラベルの手続きビデオからの自己教師付きキーステップ抽出

STEPs: Self-Supervised Key Step Extraction from Unlabeled Procedural Videos ( http://arxiv.org/abs/2301.00794v2 )

ライセンス: Link先を確認
Anshul Shah, Benjamin Lundell, Harpreet Sawhney, Rama Chellappa(参考訳) 我々は、拡張現実(ar)ヘッドセットが仕事のトレーニングやパフォーマンスに革命をもたらす可能性に動機付けられた、ラベルなしの手続きビデオから重要なステップを抽出する問題に対処する。 問題を表現学習とキーステップ抽出という2つのステップに分解する。 ラベルのない様々なステップの異種表現を学習するための学習目標であるBootstrapped Multi-Cue Contrastive (BMC2)損失を提案する。 従来の作業とは違って,自己監督のために市販の機能を利用する軽量時間モジュールの訓練手法を開発した。 私たちのアプローチは、光学フロー、深度、視線といった複数の手がかりからの情報をシームレスに活用し、キーステップの識別的特徴を学習し、arアプリケーションにとって役立ちます。 最終的に、表現とサンプルをクラスタリングするチューナブルアルゴリズムを通じて、キーステップを抽出する。 キーステップのローカライゼーションと位相分類のタスクにおいて,先行作業よりも大幅な改善が見られた。 定性的な結果は,抽出されたキーステップが手続きタスクの様々なステップを簡潔に表現する意味を持つことを示す。

We address the problem of extracting key steps from unlabeled procedural videos, motivated by the potential of Augmented Reality (AR) headsets to revolutionize job training and performance. We decompose the problem into two steps: representation learning and key steps extraction. We propose a training objective, Bootstrapped Multi-Cue Contrastive (BMC2) loss to learn disciriminative representations for various steps without any labels. Different from prior works, we develop techniques to train a light-weight temporal module which uses off-the-shelf features for self supervision. Our approach can seamlessly leverage information from multiple cues like optical flow, depth or gaze to learn discriminative features for key-steps making it amenable for AR applications. We finally extract key steps via a tunable algorithm that clusters the representations and samples. We show significant improvements over prior works for the task of key step localization and phase classification. Qualitative results demonstrate that the extracted key steps are meaningful to succinctly represent various steps of the procedural tasks.
翻訳日:2023-04-03 16:50:19 公開日:2023-03-31
# 大規模言語モデルのためのフェアネスガイド付き少数ショットプロンプト

Fairness-guided Few-shot Prompting for Large Language Models ( http://arxiv.org/abs/2303.13217v3 )

ライセンス: Link先を確認
Huan Ma, Changqing Zhang, Yatao Bian, Lemao Liu, Zhirui Zhang, Peilin Zhao, Shu Zhang, Huazhu Fu, Qinghua Hu, Bingzhe Wu(参考訳) 大規模な言語モデルでは、いくつかの入力出力例によって構築されたプロンプトを条件にすることで、これらのモデルを多数の下流タスクに直接適用することが可能である。 しかしながら、以前の研究では、トレーニング例、サンプル順序、プロンプト形式の変化によって、コンテキスト内学習は高い不安定性に苦しむことが示されている。 したがって、適切なプロンプトの構築は、文脈内学習の性能向上に不可欠である。 本稿では,予測バイアスの観点からこの問題を再検討する。 具体的には,ラベルや属性に対する固定プロンプトの予測バイアスを評価するための指標を提案する。 そして、バイアスの高いプロンプトが常に不十分な予測品質につながることを実証的に示す。 そこで本研究では,文脈内学習の性能向上のための最善のプロンプトを同定するために,欲望探索に基づく新しい探索戦略を提案する。 我々は,gpt-3のような最先端の主流モデルを用いて,様々な下流タスクで包括的な実験を行う。 提案手法は,テキスト内学習性能を効果的かつ解釈可能な方法で向上させることができることを示す。

Large language models have demonstrated surprising ability to perform in-context learning, i.e., these models can be directly applied to solve numerous downstream tasks by conditioning on a prompt constructed by a few input-output examples. However, prior research has shown that in-context learning can suffer from high instability due to variations in training examples, example order, and prompt formats. Therefore, the construction of an appropriate prompt is essential for improving the performance of in-context learning. In this paper, we revisit this problem from the view of predictive bias. Specifically, we introduce a metric to evaluate the predictive bias of a fixed prompt against labels or a given attributes. Then we empirically show that prompts with higher bias always lead to unsatisfactory predictive quality. Based on this observation, we propose a novel search strategy based on the greedy search to identify the near-optimal prompt for improving the performance of in-context learning. We perform comprehensive experiments with state-of-the-art mainstream models such as GPT-3 on various downstream tasks. Our results indicate that our method can enhance the model's in-context learning performance in an effective and interpretable manner.
翻訳日:2023-04-03 16:43:44 公開日:2023-03-31
# ALOFT:ドメイン一般化のための動的低周波変換を用いた軽量MLP様アーキテクチャ

ALOFT: A Lightweight MLP-like Architecture with Dynamic Low-frequency Transform for Domain Generalization ( http://arxiv.org/abs/2303.11674v2 )

ライセンス: Link先を確認
Jintao Guo, Na Wang, Lei Qi, Yinghuan Shi(参考訳) ドメイン一般化(Domain Generalization, DG)は、複数のソースドメインを再学習することなく、未確認のターゲットドメインに適切に一般化するモデルを学習することを目的としている。 既存のDGの作業の多くは畳み込みニューラルネットワーク(CNN)に基づいている。 しかし、畳み込みカーネルの局所的な操作により、モデルは局所的な表現(例えばテクスチャ)に重きを置いてしまうため、本質的にモデルがソース領域に過度に適合しやすくなり、一般化能力を損なう。 近年,画像の異なるパッチ間でのグローバルインタラクションを学習することで,教師あり学習タスクにおいて有望な結果が得られている。 そこで本研究では,まずDGにおけるCNN法とMLP法の違いを分析し,MPP法の方がCNN法よりもグローバル表現(構造)をよりよく把握できるので,より優れた一般化能力を示すことを示す。 そして、最近の軽量MLP法に基づいて、最先端のCNN方式よりも優れた強力なベースラインを得る。 ベースラインはフィルタを用いてグローバルな構造表現を学習し、周波数空間の無関係な情報を抑制する。 さらに,大域的な構造特徴を維持しつつ,局所的なテクスチャ特徴を摂動させることができる動的低周波スペクトル変換(aloft)を提案する。 提案手法は,SOTA CNNに基づくDG法と比較して,少数のパラメータで高い性能向上を達成できることを示した。 私たちのコードはhttps://github.com/lingeringlight/ALOFT/で利用可能です。

Domain generalization (DG) aims to learn a model that generalizes well to unseen target domains utilizing multiple source domains without re-training. Most existing DG works are based on convolutional neural networks (CNNs). However, the local operation of the convolution kernel makes the model focus too much on local representations (e.g., texture), which inherently causes the model more prone to overfit to the source domains and hampers its generalization ability. Recently, several MLP-based methods have achieved promising results in supervised learning tasks by learning global interactions among different patches of the image. Inspired by this, in this paper, we first analyze the difference between CNN and MLP methods in DG and find that MLP methods exhibit a better generalization ability because they can better capture the global representations (e.g., structure) than CNN methods. Then, based on a recent lightweight MLP method, we obtain a strong baseline that outperforms most state-of-the-art CNN-based methods. The baseline can learn global structure representations with a filter to suppress structure irrelevant information in the frequency space. Moreover, we propose a dynAmic LOw-Frequency spectrum Transform (ALOFT) that can perturb local texture features while preserving global structure features, thus enabling the filter to remove structure-irrelevant information sufficiently. Extensive experiments on four benchmarks have demonstrated that our method can achieve great performance improvement with a small number of parameters compared to SOTA CNN-based DG methods. Our code is available at https://github.com/lingeringlight/ALOFT/.
翻訳日:2023-04-03 16:43:05 公開日:2023-03-31
# スパイキング時空間変圧器によるイベントベースヒューマンポーズ追跡

Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer ( http://arxiv.org/abs/2303.09681v2 )

ライセンス: Link先を確認
Shihao Zou, Yuxuan Mu, Xinxin Zuo, Sen Wang, Li Cheng(参考訳) イベントカメラは、動きのダイナミクスを捉えるための生物学的にインスパイアされた視覚センサーとして登場し、3Dのポーズトラッキングやビデオベースの人間のポーズ推定の新しい可能性を示す。 しかし、ポーズトラッキングにおける既存の作業では、確固とした開始姿勢を確立するために、追加のグレースケールイメージが必要か、イベントストリームのセグメントを分解して静的なイベントフレームを形成することで、一時的な依存関係を全て無視するかのどちらかである。 一方、多くのイベントベースタスクにおいて、ニューラルネットワーク(ANN)の有効性が示されてきたが、ANNの使用は、高密度フレームベースの画像シーケンスと比較して、イベントカメラからのイベントの発生が時空間的にはるかに小さいという事実を無視する傾向にある。 上記の課題に触発されて、イベントベースのポーズトラッキングのための、エンドツーエンドのスパース深層学習アプローチを提案する。 1) 当社の知る限りでは,3次元人物ポーズ追跡がイベントのみから得られるのはこれが初めてであり,入力の一部としてフレームベースの画像にアクセスする必要がなくなる。 2)本手法はスパイク要素ワイズ(SEW)ResNetとスパイク時空間変換器からなるスパイクニューラルネットワーク(SNN)の枠組みに基づいている。 3) 大規模合成データセットを構築し, 広範かつ多種多様なアノテートされた3次元動作と, SynEventHPD と呼ばれる長時間のイベントストリームデータを特徴付ける。 実験により,SOTA(State-of-the-art (SOTA) ANN) よりも優れた性能を示すとともに,FLOPSの80%の計算量削減を実現している。 さらに,提案手法は,人間のポーズトラッキングの回帰タスクにおいて,SOTA SNNよりも優れていた。 私たちの実装はhttps://github.com/JimmyZou/HumanPoseTracking_SNNで公開されています。

Event camera, as an emerging biologically-inspired vision sensor for capturing motion dynamics, presents new potential for 3D human pose tracking, or video-based 3D human pose estimation. However, existing works in pose tracking either require the presence of additional gray-scale images to establish a solid starting pose, or ignore the temporal dependencies all together by collapsing segments of event streams to form static event frames. Meanwhile, although the effectiveness of Artificial Neural Networks (ANNs, a.k.a. dense deep learning) has been showcased in many event-based tasks, the use of ANNs tends to neglect the fact that compared to the dense frame-based image sequences, the occurrence of events from an event camera is spatiotemporally much sparser. Motivated by the above mentioned issues, we present in this paper a dedicated end-to-end sparse deep learning approach for event-based pose tracking: 1) to our knowledge this is the first time that 3D human pose tracking is obtained from events only, thus eliminating the need of accessing to any frame-based images as part of input; 2) our approach is based entirely upon the framework of Spiking Neural Networks (SNNs), which consists of Spike-Element-Wise (SEW) ResNet and a novel Spiking Spatiotemporal Transformer; 3) a large-scale synthetic dataset is constructed that features a broad and diverse set of annotated 3D human motions, as well as longer hours of event stream data, named SynEventHPD. Empirical experiments demonstrate that, with superior performance over the state-of-the-art (SOTA) ANNs counterparts, our approach also achieves a significant computation reduction of 80% in FLOPS. Furthermore, our proposed method also outperforms SOTA SNNs in the regression task of human pose tracking. Our implementation is available at https://github.com/JimmyZou/HumanPoseTracking_SNN and dataset will be released upon paper acceptance.
翻訳日:2023-04-03 16:42:17 公開日:2023-03-31
# MKL-$L_{0/1}$-SVMのためのADMMソルバー

An ADMM Solver for the MKL-$L_{0/1}$-SVM ( http://arxiv.org/abs/2303.04445v2 )

ライセンス: Link先を確認
Yijie Shi and Bin Zhu(参考訳) 我々は、悪名高い$(0,1)$-loss関数を持つサポートベクターマシンの多重カーネル学習(mkl)問題を定式化する。 いくつかの一階最適条件が与えられ、非凸および非滑らかな最適化問題に対する高速ADMMソルバの開発に利用される。 合成平面データに関する単純な数値実験は、我々のmkl-$l_{0/1}$-svmフレームワークが有望であることを示している。

We formulate the Multiple Kernel Learning (abbreviated as MKL) problem for the support vector machine with the infamous $(0,1)$-loss function. Some first-order optimality conditions are given and then exploited to develop a fast ADMM solver for the nonconvex and nonsmooth optimization problem. A simple numerical experiment on synthetic planar data shows that our MKL-$L_{0/1}$-SVM framework could be promising.
翻訳日:2023-04-03 16:41:11 公開日:2023-03-31
# 2次元畳み込みニューラルネットワークと肺CTによる地上ガラス不透明度の重症度分類:3日間の探索

Severity classification of ground-glass opacity via 2-D convolutional neural network and lung CT scans: a 3-day exploration ( http://arxiv.org/abs/2303.16904v2 )

ライセンス: Link先を確認
Lisa Y.W. Tang(参考訳) グラウンドグラスの不透明度は、COVID-19や肺炎、肺線維症、結核など、多くの肺疾患の指標である。 本稿では,2023年IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023)のAI-Enabled Medical Image Analysis Workshopで開催される第3の課題である“COVID-19 Competition”によって,3日間にわたって実施およびテストされた概念実証フレームワークの実験結果を紹介する。 新たに構築された仮想環境(2023年3月17日作成)を用いて,Dense Neural Network, Residual Neural Networks (ResNet), Vision Transformerなどの事前学習された2次元畳み込みニューラルネットワーク(CNN)および微調整の程度を調査した。 実証実験に基づき,すべてのCNNアーキテクチャに対して標準学習率0.001でADAMの最適化アルゴリズムを微調整し,検証損失が高原に達すると早期停止を適用した。 トレーニングされたcnn毎に、トレーニング中に達成した最高の検証精度を持つモデル状態が格納され、その後、チャレンジオーガナイザが提供する検証セットから得られた未検出サンプルの新しい分類のために再ロードされる。 オーガナイザによると、これらの2D CNNのうち、ResNetとRecurrent Neural Network(Gated Recurrent Units)を組み合わせたアーキテクチャに匹敵するパフォーマンスを得るものはほとんどなかった。 課題要件の一部として、この演習の過程で生成されたソースコードはhttps://github.com/lisatwyw/cov19.comに投稿される。 また、他の研究者がPyTorch 1.13.1とTorchVision 0.14.1のアプローチ可能なPythonファイルの少ないこの軽量プロトタイプを見つけることを期待している。

Ground-glass opacity is a hallmark of numerous lung diseases, including patients with COVID19 and pneumonia, pulmonary fibrosis, and tuberculosis. This brief note presents experimental results of a proof-of-concept framework that got implemented and tested over three days as driven by the third challenge entitled "COVID-19 Competition", hosted at the AI-Enabled Medical Image Analysis Workshop of the 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023). Using a newly built virtual environment (created on March 17, 2023), we investigated various pre-trained two-dimensional convolutional neural networks (CNN) such as Dense Neural Network, Residual Neural Networks (ResNet), and Vision Transformers, as well as the extent of fine-tuning. Based on empirical experiments, we opted to fine-tune them using ADAM's optimization algorithm with a standard learning rate of 0.001 for all CNN architectures and apply early-stopping whenever the validation loss reached a plateau. For each trained CNN, the model state with the best validation accuracy achieved during training was stored and later reloaded for new classifications of unseen samples drawn from the validation set provided by the challenge organizers. According to the organizers, few of these 2D CNNs yielded performance comparable to an architecture that combined ResNet and Recurrent Neural Network (Gated Recurrent Units). As part of the challenge requirement, the source code produced during the course of this exercise is posted at https://github.com/lisatwyw/cov19. We also hope that other researchers may find this light prototype consisting of few Python files based on PyTorch 1.13.1 and TorchVision 0.14.1 approachable.
翻訳日:2023-04-03 16:34:12 公開日:2023-03-31
# 非イドデータを用いたニューラルネットワークによるフェデレーション学習

Neural Collapse Inspired Federated Learning with Non-iid Data ( http://arxiv.org/abs/2303.16066v2 )

ライセンス: Link先を確認
Chenxi Huang and Liang Xie and Yibo Yang and Wenxiao Wang and Binbin Lin and Deng Cai(参考訳) フェデレーション学習における課題の1つは、異種デバイス間で非独立で同一に分散した(非ID)特性であり、これはローカル更新に大きな違いをもたらし、中央サーバの性能に影響を及ぼす。 この課題に対処するために多くの研究が提案されているが、彼らは変化の円滑化とディープラーニングモデルによるハイパフォーマンスの達成に失敗するために、局所的なトレーニングと集約プロセスのみに焦点を当てている。 神経崩壊現象に触発されて,各クライアントを分類のための最適なグローバル構造に最適化するよう強制する。 具体的には、ランダムなsimplex equiangular tight frame(etf)として初期化し、ローカル更新中にすべてのクライアントの単位最適化ターゲットとして修正します。 すべてのクライアントがグローバルな最適化に収束することを保証した後、各カテゴリにグローバルなメモリベクトルを追加し、クライアント間のクラス内条件分布のバイアスによるパラメータ変動を緩和することを提案する。 実験結果から,本手法は,異なるサイズデータセットの収束速度を高速にすることで,性能を向上できることを示した。

One of the challenges in federated learning is the non-independent and identically distributed (non-iid) characteristics between heterogeneous devices, which cause significant differences in local updates and affect the performance of the central server. Although many studies have been proposed to address this challenge, they only focus on local training and aggregation processes to smooth the changes and fail to achieve high performance with deep learning models. Inspired by the phenomenon of neural collapse, we force each client to be optimized toward an optimal global structure for classification. Specifically, we initialize it as a random simplex Equiangular Tight Frame (ETF) and fix it as the unit optimization target of all clients during the local updating. After guaranteeing all clients are learning to converge to the global optimum, we propose to add a global memory vector for each category to remedy the parameter fluctuation caused by the bias of the intra-class condition distribution among clients. Our experimental results show that our method can improve the performance with faster convergence speed on different-size datasets.
翻訳日:2023-04-03 16:33:36 公開日:2023-03-31
# AutoKary2022: 染色体インスタンスセグメンテーションのための大規模アノテーション付き日付セット

AutoKary2022: A Large-Scale Densely Annotated Dateset for Chromosome Instance Segmentation ( http://arxiv.org/abs/2303.15839v2 )

ライセンス: Link先を確認
Dan You, Pengcheng Xia, Qiuzhu Chen, Minghui Wu, Suncheng Xiang, Jun Wang(参考訳) 染色体異常 (karyotype analysis) の診断には, 異相細胞顕微鏡画像からの染色体インスタンスの自動分割が重要である。 しかし、高い注釈付きデータセットの欠如や染色体の複雑な形態、例えば、密度分布、任意の方向、幅広い長さがあるため、依然として困難な課題である。 この領域の開発を容易にするために、我々は、50人の患者から612の顕微鏡画像に27,000以上の染色体インスタンスを含むautokary2022という、大規模な密注釈付きデータセットを手作業で構築する。 具体的には、各インスタンスにポリゴンマスクとクラスラベルをアノテートして、正確な染色体の検出とセグメンテーションを支援する。 その上で,本データセットの代表的な手法を体系的に検討し,多くの興味深い知見を得た。 このデータセットが医学的理解に向けて研究を進めることを願っている。 データセットは、https://github.com/wangjuncongyu/chromosome-instance-segmentation-datasetで利用できる。

Automated chromosome instance segmentation from metaphase cell microscopic images is critical for the diagnosis of chromosomal disorders (i.e., karyotype analysis). However, it is still a challenging task due to lacking of densely annotated datasets and the complicated morphologies of chromosomes, e.g., dense distribution, arbitrary orientations, and wide range of lengths. To facilitate the development of this area, we take a big step forward and manually construct a large-scale densely annotated dataset named AutoKary2022, which contains over 27,000 chromosome instances in 612 microscopic images from 50 patients. Specifically, each instance is annotated with a polygonal mask and a class label to assist in precise chromosome detection and segmentation. On top of it, we systematically investigate representative methods on this dataset and obtain a number of interesting findings, which helps us have a deeper understanding of the fundamental problems in chromosome instance segmentation. We hope this dataset could advance research towards medical understanding. The dataset can be available at: https://github.com/wangjuncongyu/chromosome-instance-segmentation-dataset.
翻訳日:2023-04-03 16:33:19 公開日:2023-03-31
# 量子エミッタ鎖からのトポロジカル単一光子放出

Topological Single Photon Emission from Quantum Emitter Chains ( http://arxiv.org/abs/2303.15807v2 )

ライセンス: Link先を確認
Yubin Wang, Huawen Xu, Xinyi Deng, Timothy Liew, Sanjib Ghosh, and Qihua Xiong(参考訳) 本研究では, 雑音量子エミッタの集合体から作製した活性量子su-schrieffer-heeger鎖から, 識別不能な単一光子を生成する手法を開発した。 驚くべきことに、活性量子鎖の単一光子放出スペクトルは、単一のエミッタや位相的に自明な鎖に比べて非常に狭い。 さらに、この効果は非自明から自明な相転移点に劇的に近くなる。 この効果を用いて、長いトポロジカル量子鎖の単一光子線幅が任意に狭くなり、識別不能な単一光子の理想的な源となることを示す。 最後に、実際の量子エミッタの具体例から、このモデルの微視的・定量的解析を行い、実験的な実現の観点から最も重要なパラメータを分析する。

We develop a scheme of generating highly indistinguishable single photons from an active quantum Su-Schrieffer-Heeger chain made from a collection of noisy quantum emitters. Surprisingly, the single photon emission spectrum of the active quantum chain is extremely narrow compared to that of a single emitter or topologically trivial chain. Moreover, this effect becomes dramatically strong close to the non-trivial-to-trivial phase transition point. Using this effect, we show that the single photon linewidth of a long topological quantum chain can become arbitrarily narrow, constituting an ideal source of indistinguishable single photons. Finally, taking specific examples of actual quantum emitters, we provide a microscopic and quantitative analysis of our model and analyze the most important parameters in view of the experimental realization.
翻訳日:2023-04-03 16:32:58 公開日:2023-03-31
# 筆跡生成のための手書き文字と文字スタイルの相違

Disentangling Writer and Character Styles for Handwriting Generation ( http://arxiv.org/abs/2303.14736v2 )

ライセンス: Link先を確認
Gang Dai, Yifan Zhang, Qingfeng Wang, Qing Du, Zhuliang Yu, Zhuoman Liu, Shuangping Huang(参考訳) 多様な手書きを合成する訓練マシンは興味深いタスクだ。 近年,RNNを用いたタイマライズされたオンライン漢字生成手法が提案されている。 しかし、その方法は主に人物全体の筆跡を捉え、同一人物が書いた文字間の微妙な不一致を無視することに焦点を当てている。 例えば、人の手書き文字は通常、一般的な一様性(グリフのスラントやアスペクト比など)を示すが、文字の細部(例えば、ストロークの長さや曲率)にはまだ小さなスタイルのバリエーションがある。 そこで本研究では,文字レベルと文字レベルの両方のスタイル表現を個々の手書き文字から切り離し,リアルな手書き文字を合成することを提案する。 具体的には,2つの相補的コントラストを用いたSDT(style-disentangled Transformer)を用いて,参照サンプルのスタイル共通性を抽出し,各サンプルの詳細なスタイルパターンを抽出する。 様々な言語スクリプトに関する広範囲な実験がsdtの有効性を実証している。 特に,2つの学習されたスタイル表現が,異なる周波数の情報を提示し,異なるスタイル抽出の重要性を強調した。 私たちのソースコードは、https://github.com/dailenson/SDT.comで公開されています。

Training machines to synthesize diverse handwritings is an intriguing task. Recently, RNN-based methods have been proposed to generate stylized online Chinese characters. However, these methods mainly focus on capturing a person's overall writing style, neglecting subtle style inconsistencies between characters written by the same person. For example, while a person's handwriting typically exhibits general uniformity (e.g., glyph slant and aspect ratios), there are still small style variations in finer details (e.g., stroke length and curvature) of characters. In light of this, we propose to disentangle the style representations at both writer and character levels from individual handwritings to synthesize realistic stylized online handwritten characters. Specifically, we present the style-disentangled Transformer (SDT), which employs two complementary contrastive objectives to extract the style commonalities of reference samples and capture the detailed style patterns of each sample, respectively. Extensive experiments on various language scripts demonstrate the effectiveness of SDT. Notably, our empirical findings reveal that the two learned style representations provide information at different frequency magnitudes, underscoring the importance of separate style extraction. Our source code is public at: https://github.com/dailenson/SDT.
翻訳日:2023-04-03 16:32:46 公開日:2023-03-31
# チャットGPTと新しい学術的現実:人工知能による研究論文と学術出版における大規模言語モデルの倫理

ChatGPT and a New Academic Reality: Artificial Intelligence-Written Research Papers and the Ethics of the Large Language Models in Scholarly Publishing ( http://arxiv.org/abs/2303.13367v2 )

ライセンス: Link先を確認
Brady Lund, Ting Wang, Nishith Reddy Mannuru, Bing Nie, Somipam Shimray, and Ziang Wang(参考訳) 本稿では,テキストベースのユーザ要求(チャットボット)を自然言語処理で処理する生成事前学習型トランスフォーマであるOpenAIs ChatGPTについて論じる。 ChatGPTと同様のモデルの歴史と原則について論じる。 この技術は、学術や学術研究、出版に対する潜在的な影響に関連して論じられる。 ChatGPTはエッセイやその他の学術的写本の自動作成の潜在的なモデルと見なされている。 chatgptの背後にある技術であるgpt-3のような大規模言語モデルや、研究者や研究者による利用によって生じる潜在的な倫理的問題は、人工知能、機械学習、自然言語処理における研究と学術出版の幅広い進歩の文脈の中で議論され、位置づけられている。

This paper discusses OpenAIs ChatGPT, a generative pre-trained transformer, which uses natural language processing to fulfill text-based user requests (i.e., a chatbot). The history and principles behind ChatGPT and similar models are discussed. This technology is then discussed in relation to its potential impact on academia and scholarly research and publishing. ChatGPT is seen as a potential model for the automated preparation of essays and other types of scholarly manuscripts. Potential ethical issues that could arise with the emergence of large language models like GPT-3, the underlying technology behind ChatGPT, and its usage by academics and researchers, are discussed and situated within the context of broader advancements in artificial intelligence, machine learning, and natural language processing for research and scholarly publishing.
翻訳日:2023-04-03 16:31:59 公開日:2023-03-31
# 類似した線形表現から学ぶ:適応性、最小性、ロバスト性

Learning from Similar Linear Representations: Adaptivity, Minimaxity, and Robustness ( http://arxiv.org/abs/2303.17765v1 )

ライセンス: Link先を確認
Ye Tian, Yuqi Gu, Yang Feng(参考訳) MTL(Representation Multi-task Learning)とTL(Transfer Learning)は実践的に大きな成功を収めている。 しかし、これらの方法の理論的理解はまだ不十分である。 既存の理論的な研究の多くは、全てのタスクが同じ表現を共有している場合に焦点を当てており、MTLとTLはほとんど常に性能を改善していると主張している。 しかし、タスクの数が増えるにつれて、すべてのタスクが同じ表現を共有していると仮定すると、非現実的である。 また、これは必ずしも経験的な結果と一致せず、共有表現が必ずしもシングルタスクやターゲットのみの学習性能を改善するとは限らないことを示唆している。 本稿では,外れたタスクを扱いながら, \textit{ similar but not exactly the same} 線形表現を用いてタスクから学ぶ方法を理解することを目的とする。 MTL と TL 設定の両方のタスクに対して,類似構造に対する \textit{adaptive} と \textit{robust} の2つのアルゴリズムを提案する。 私たちのアルゴリズムは、タスク間の表現が十分に似ていて、外れたタスクの割合が小さい場合に、シングルタスクやターゲットのみの学習よりも優れています。 さらに、表現が相違する場合でも、シングルタスク学習やターゲットのみの学習よりも常に悪い結果が得られます。 情報理論的な下限を提供し、我々のアルゴリズムが大規模なシステムにおいてほぼ最適であることを示す。

Representation multi-task learning (MTL) and transfer learning (TL) have achieved tremendous success in practice. However, the theoretical understanding of these methods is still lacking. Most existing theoretical works focus on cases where all tasks share the same representation, and claim that MTL and TL almost always improve performance. However, as the number of tasks grow, assuming all tasks share the same representation is unrealistic. Also, this does not always match empirical findings, which suggest that a shared representation may not necessarily improve single-task or target-only learning performance. In this paper, we aim to understand how to learn from tasks with \textit{similar but not exactly the same} linear representations, while dealing with outlier tasks. We propose two algorithms that are \textit{adaptive} to the similarity structure and \textit{robust} to outlier tasks under both MTL and TL settings. Our algorithms outperform single-task or target-only learning when representations across tasks are sufficiently similar and the fraction of outlier tasks is small. Furthermore, they always perform no worse than single-task learning or target-only learning, even when the representations are dissimilar. We provide information-theoretic lower bounds to show that our algorithms are nearly \textit{minimax} optimal in a large regime.
翻訳日:2023-04-03 15:39:02 公開日:2023-03-31
# 逆ロバスト連続学習に向けて

Towards Adversarially Robust Continual Learning ( http://arxiv.org/abs/2303.17764v1 )

ライセンス: Link先を確認
Tao Bai, Chen Chen, Lingjuan Lyu, Jun Zhao, Bihan Wen(参考訳) 近年の研究では、連続学習によって訓練されたモデルは、標準的な教師付き学習と連続学習モデルの学習柔軟性と同等のパフォーマンスを達成でき、実世界での幅広い応用が可能になることが示されている。 しかし、ディープラーニングモデルは敵の攻撃に弱いことが示されている。 標準教師付き学習の文脈におけるモデルロバスト性に関する研究は多いが、敵の攻撃から連続的な学習を保護することは未だ研究されていない。 この研究ギャップを埋めるために,我々は,連続学習における敵対的ロバストネスを最初に研究し,連続学習モデルのロバスト性を高めるために,新しい手法である \textbf{t}ask-\textbf{a}ware \textbf{b}oundary \textbf{a}ugmentation (taba)を提案する。 CIFAR-10とCIFAR-100の広範な実験により、敵の攻撃防御における敵の訓練とTABAの有効性が示された。

Recent studies show that models trained by continual learning can achieve the comparable performances as the standard supervised learning and the learning flexibility of continual learning models enables their wide applications in the real world. Deep learning models, however, are shown to be vulnerable to adversarial attacks. Though there are many studies on the model robustness in the context of standard supervised learning, protecting continual learning from adversarial attacks has not yet been investigated. To fill in this research gap, we are the first to study adversarial robustness in continual learning and propose a novel method called \textbf{T}ask-\textbf{A}ware \textbf{B}oundary \textbf{A}ugmentation (TABA) to boost the robustness of continual learning models. With extensive experiments on CIFAR-10 and CIFAR-100, we show the efficacy of adversarial training and TABA in defending adversarial attacks.
翻訳日:2023-04-03 15:38:40 公開日:2023-03-31
# ガウス変数に対する一般化情報ボトルネック

Generalized Information Bottleneck for Gaussian Variables ( http://arxiv.org/abs/2303.17762v1 )

ライセンス: Link先を確認
Vudtiwat Ngampruetikorn, David J. Schwab(参考訳) 情報ボトルネック(IB)法は、表現学習を理解するための魅力的なフレームワークを提供するが、その応用は計算の難易度によって制限されることが多い。 IB法の解析的特徴は、実際的な関心だけでなく、学習現象に対する新たな洞察につながる可能性がある。 ここでは、元のIB法における相互情報をRenyiとJeffreysの発散に基づく相関測度に置き換える一般化されたIB問題を考える。 ガウス相関変数の場合の正確な解析的 IB 解を導出する。 解析の結果,以前のIB症例と同様の一連の構造遷移が明らかとなった。 さらに, renyi と jeffreys ib の問題を解くと, 一般に異なる表現が得られるが, 構造遷移は同一の臨界トレードオフパラメータで発生し, renyi と jeffreys ib の解は元のib 目的の下でうまく機能することがわかった。 IB法を代替相関法で定式化することは,元のIB問題に対する近似解を得るための戦略となる可能性が示唆された。

The information bottleneck (IB) method offers an attractive framework for understanding representation learning, however its applications are often limited by its computational intractability. Analytical characterization of the IB method is not only of practical interest, but it can also lead to new insights into learning phenomena. Here we consider a generalized IB problem, in which the mutual information in the original IB method is replaced by correlation measures based on Renyi and Jeffreys divergences. We derive an exact analytical IB solution for the case of Gaussian correlated variables. Our analysis reveals a series of structural transitions, similar to those previously observed in the original IB case. We find further that although solving the original, Renyi and Jeffreys IB problems yields different representations in general, the structural transitions occur at the same critical tradeoff parameters, and the Renyi and Jeffreys IB solutions perform well under the original IB objective. Our results suggest that formulating the IB method with alternative correlation measures could offer a strategy for obtaining an approximate solution to the original IB problem.
翻訳日:2023-04-03 15:38:21 公開日:2023-03-31
# CAMEL:大規模言語モデル社会の「ミンド」探索のためのコミュニケーションエージェント

CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society ( http://arxiv.org/abs/2303.17760v1 )

ライセンス: Link先を確認
Guohao Li, Hasan Abed Al Kader Hammoud, Hani Itani, Dmitrii Khizbullin, Bernard Ghanem(参考訳) 会話型およびチャットベースの言語モデルの急速な進歩は、複雑なタスク解決の著しい進歩をもたらした。 しかし、彼らの成功は会話を導くための人間の入力に大きく依存しています。 本稿では,コミュニケーションエージェント間の自律的協調を促進するスケーラブルな手法の構築の可能性について検討し,その「認知的」プロセスについて考察する。 自律的な協調を実現するための課題を解決するために,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。 我々のアプローチは、人間の意図と整合性を維持しながら、チャットエージェントをタスク完了に向けて誘導するインセプションプロンプトの使用である。 チャットエージェントの動作と能力を研究するために,ロールプレイングが会話データを生成する方法を紹介し,会話言語モデルを研究する上で貴重な資源を提供する。 私たちのコントリビューションには,新たなコミュニケーションエージェントフレームワークの導入,マルチエージェントシステムの協調行動と能力を研究するためのスケーラブルなアプローチの提供,コミュニケーションエージェントの研究を支援するライブラリのオープンソース化などが含まれています。 プロジェクトのGitHubリポジトリは、https://github.com/lightaime/camelで公開されている。

The rapid advancement of conversational and chat-based language models has led to remarkable progress in complex task-solving. However, their success heavily relies on human input to guide the conversation, which can be challenging and time-consuming. This paper explores the potential of building scalable techniques to facilitate autonomous cooperation among communicative agents and provide insight into their "cognitive" processes. To address the challenges of achieving autonomous cooperation, we propose a novel communicative agent framework named role-playing. Our approach involves using inception prompting to guide chat agents toward task completion while maintaining consistency with human intentions. We showcase how role-playing can be used to generate conversational data for studying the behaviors and capabilities of chat agents, providing a valuable resource for investigating conversational language models. Our contributions include introducing a novel communicative agent framework, offering a scalable approach for studying the cooperative behaviors and capabilities of multi-agent systems, and open-sourcing our library to support research on communicative agents and beyond. The GitHub repository of this project is made publicly available on: https://github.com/lightaime/camel.
翻訳日:2023-04-03 15:38:01 公開日:2023-03-31
# rf原子磁気センサによる磁気ジョーンズベクトル検出

Magnetic Jones Vector Detection with RF Atomic Magnetometers ( http://arxiv.org/abs/2303.17757v1 )

ライセンス: Link先を確認
Cicely Motamedi and Karen Sauer(参考訳) 2次元平面における電波(rf)磁場の絶対配向と偏光状態が、2つの光ポンピング原子磁気センサを用いて一意に決定できることを理論的および実験的に示す。 さらに、これらの量子センサからの出力信号を磁気ジョーンズベクトルとして容易に表現することができる。 この複合装置は、RF方向を見つける際に電界検出を補完したり、電界が無視可能なアプリケーションで使用することができる。 後者は、ソースが近接場限界で放射する磁気双極子としてモデル化できる無数の応用で見られる。 この新しいツールは、RF励起に対する材料の反応を特徴づけたり、信号とノイズを区別するために使用することができる。

We show, theoretically and experimentally, how the absolute orientation and polarization state of radio-frequency (RF) magnetic fields in a transverse 2D plane can be uniquely determined using two optically pumped atomic magnetometers. In addition, the output signals from these quantum sensors can be readily expressed as a magnetic Jones vector. This composite device can complement electric field detection in finding RF directions, or it can be used in applications where the electric field is negligible. The latter is found in a myriad of applications where the source can be modeled as radiating magnetic dipoles in the near-field limit. This new tool could be used to characterize a material's response to RF excitation or to distinguish signal from noise.
翻訳日:2023-04-03 15:37:43 公開日:2023-03-31
# 量子ソフトウェアのための契約フレームワークによる設計

Design by Contract Framework for Quantum Software ( http://arxiv.org/abs/2303.17750v1 )

ライセンス: Link先を確認
Masaomi Yamaguchi and Nobukazu Yoshioka(参考訳) 信頼性の高い量子ソフトウェアを実現するため、量子ソフトウェアの正しさを自動的に保証する手法が最近研究されている。 しかし、それらは主に固定量子回路ではなく固定量子回路に焦点を当てている。 一般的な手法であるにもかかわらず、同じ手順に従う異なるパラメータを用いた構築回路の正しさは保証されない。 この目的のために,量子ソフトウェアのための設計・契約フレームワークを提案する。 我々のフレームワークはpython組み込み言語を提供し、特定の手続きによって構築された全ての量子回路の入出力状態に対するアサーションを記述する。 さらに、測定結果の統計的処理に関するアサーションを書き、最終結果を得るための手続きの正確性を保証する方法も提供する。 これらのアサーションは量子コンピュータシミュレータを使って自動的にチェックされる。 評価のために、我々はフレームワークを実装し、広く使われている量子アルゴリズムのアサーションを書いた。 その結果、我々のフレームワークは量子ソフトウェアの全手続きを検証するのに十分な表現力を持っていることがわかった。

To realize reliable quantum software, techniques to automatically ensure the quantum software's correctness have recently been investigated. However, they primarily focus on fixed quantum circuits rather than the procedure of building quantum circuits. Despite being a common approach, the correctness of building circuits using different parameters following the same procedure is not guaranteed. To this end, we propose a design-by-contract framework for quantum software. Our framework provides a python-embedded language to write assertions on the input and output states of all quantum circuits built by certain procedures. Additionally, it provides a method to write assertions about the statistical processing of measurement results to ensure the procedure's correctness for obtaining the final result. These assertions are automatically checked using a quantum computer simulator. For evaluation, we implemented our framework and wrote assertions for some widely used quantum algorithms. Consequently, we found that our framework has sufficient expressive power to verify the whole procedure of quantum software.
翻訳日:2023-04-03 15:37:33 公開日:2023-03-31
# 絡み合いエンベズメントの完全特徴

Complete Characterization of Entanglement Embezzlement ( http://arxiv.org/abs/2303.17749v1 )

ライセンス: Link先を確認
Elia Zanoni, Thomas Theurer, Gilad Gour(参考訳) ローカル操作と古典通信(LOCC)を使用して、絡み合いは操作できるが、生成されない。 しかし、絡み合うことはできる。 本研究では,ユニバーサル・エンベジング・ファミリーを完全に特徴付け,ヴァン・ダムとヘイデンが導入したオリジナル・ファミリーをいかに独身化しているかを実証する。 これを達成するため、我々はまず純粋から混合状態のlocc変換の完全な特徴付けを行い、これに対する操作的解釈を提供する。 次に,新しい変換距離を導入し,それに対する閉形式式を導出する。 これらの結果は独立した関心事かもしれない。

Using local operations and classical communication (LOCC), entanglement can be manipulated but not created. However, entanglement can be embezzled. In this work, we completely characterize universal embezzling families and demonstrate how this singles out the original family introduced by van Dam and Hayden. To achieve this, we first give a full characterization of pure to mixed state LOCC-conversions, which provides an operational interpretation to the concurrence. Then, we introduce a new conversion distance and derive a closed form expression for it. These results might be of independent interest.
翻訳日:2023-04-03 15:37:20 公開日:2023-03-31
# MLGCN:3Dポイントクラウド分析のための超効率的なグラフ畳み込みニューラルモデル

MLGCN: An Ultra Efficient Graph Convolution Neural Model For 3D Point Cloud Analysis ( http://arxiv.org/abs/2303.17748v1 )

ライセンス: Link先を確認
Mohammad Khodadad, Morteza Rezanejad, Ali Shiraee Kasmaee, Kaleem Siddiqi, Dirk Walther, Hamidreza Mahyar(参考訳) 3Dポイントクラウドの分析は、ロボティクス、ビジョン、グラフィックに様々な応用がある。 プロセッシングは自然に疎らで、空間分解能が異なり、通常は秩序がないため、特定の課題を示す。 特徴を抽象化するグラフベースのネットワークは、分析のために畳み込みニューラルネットワークに代わる有望な代替手段として登場したが、これらは計算的に重く、メモリ非効率である可能性がある。 これらの制限に対処するために、我々は、グラフニューラルネットワーク(gnn)ブロックを使用して、特定の局所レベルにある3dポイントクラウドから特徴を抽出する、新しい多レベルグラフ畳み込みニューラルネットワーク(mlgcn)モデルを導入する。 本手法では,各nnグラフをgnnブロック内のgcnブロック間で共有し,従来のモデルと比較して効率的かつ効果的に処理する。 我々は,このアプローチがポイントクラウドに基づくオブジェクト分類や,ベンチマークデータセットにおける部分セグメンテーションタスクに与える影響を実証し,最先端モデルと同等の結果が得られるとともに,浮動小数点演算 (flops) を最大1000倍削減し,ストレージ要件を大幅に削減できることを示した。 したがって、mlgcnモデルは、計算資源が不足している産業アプリケーションにおけるポイントクラウドベースの3d形状解析と特に関連がある可能性がある。

The analysis of 3D point clouds has diverse applications in robotics, vision and graphics. Processing them presents specific challenges since they are naturally sparse, can vary in spatial resolution and are typically unordered. Graph-based networks to abstract features have emerged as a promising alternative to convolutional neural networks for their analysis, but these can be computationally heavy as well as memory inefficient. To address these limitations we introduce a novel Multi-level Graph Convolution Neural (MLGCN) model, which uses Graph Neural Networks (GNN) blocks to extract features from 3D point clouds at specific locality levels. Our approach employs precomputed graph KNNs, where each KNN graph is shared between GCN blocks inside a GNN block, making it both efficient and effective compared to present models. We demonstrate the efficacy of our approach on point cloud based object classification and part segmentation tasks on benchmark datasets, showing that it produces comparable results to those of state-of-the-art models while requiring up to a thousand times fewer floating-point operations (FLOPs) and having significantly reduced storage requirements. Thus, our MLGCN model could be particular relevant to point cloud based 3D shape analysis in industrial applications when computing resources are scarce.
翻訳日:2023-04-03 15:37:10 公開日:2023-03-31
# 短期交通流予測のための低速シフト型機械学習手法

A Slow-Shifting Concerned Machine Learning Method for Short-term Traffic Flow Forecasting ( http://arxiv.org/abs/2303.17782v1 )

ライセンス: Link先を確認
Zann Koh, Yan Qin, Yong Liang Guan, Chau Yuen(参考訳) ラッシュ時における混雑地域における交通流の予測能力は,渋滞緩和やインフラ整備の計画について当局が決定を下すのに役立つため,ますます重要になっている。 しかし、交通流予測における重要な課題は、日周期と週周期の時間ピークの緩やかなシフトであり、その結果、交通流信号の非定常性が生じ、正確な予測が困難になる。 この課題に対処するために,2つの部分を含む交通流予測のためのスローシフト型機械学習手法を提案する。 まず,交通流データの非定常性を緩和する機能工学として,経験的モード分解を利用する。 第2に、時間的特徴の把握における短期的メモリネットワークの優位性から、静止成分を入力として高度なトラヒックフロー予測モデルを構築する。 最後に,本手法を実世界のデータベンチマークに適用し,既存手法との比較を行う。 提案手法は,ルート平均二乗誤差と平均絶対パーセンテージ誤差を用いて,最先端の結果を14.55%,62.56%向上させる。

The ability to predict traffic flow over time for crowded areas during rush hours is increasingly important as it can help authorities make informed decisions for congestion mitigation or scheduling of infrastructure development in an area. However, a crucial challenge in traffic flow forecasting is the slow shifting in temporal peaks between daily and weekly cycles, resulting in the nonstationarity of the traffic flow signal and leading to difficulty in accurate forecasting. To address this challenge, we propose a slow shifting concerned machine learning method for traffic flow forecasting, which includes two parts. First, we take advantage of Empirical Mode Decomposition as the feature engineering to alleviate the nonstationarity of traffic flow data, yielding a series of stationary components. Second, due to the superiority of Long-Short-Term-Memory networks in capturing temporal features, an advanced traffic flow forecasting model is developed by taking the stationary components as inputs. Finally, we apply this method on a benchmark of real-world data and provide a comparison with other existing methods. Our proposed method outperforms the state-of-art results by 14.55% and 62.56% using the metrics of root mean squared error and mean absolute percentage error, respectively.
翻訳日:2023-04-03 15:29:54 公開日:2023-03-31
# コード生成のためのインコンテキスト学習の強化に向けて

Towards Enhancing In-Context Learning for Code Generation ( http://arxiv.org/abs/2303.17780v1 )

ライセンス: Link先を確認
Jia Li, Yunfei Zhao, Yongmin Li, Ge Li, Zhi Jin(参考訳) In-context Learning (ICL) with pre-trained language model (PTLMs)は、コード生成において大きな成功を収めている。 ICLは訓練を必要としない。 PTLMはいくつかの要件コード例と新しい要件からなるプロンプトを入力として取り、新しいプログラムを出力する。 しかし、既存の研究は自然言語生成のためのiclテクニックを単に再利用し、コード生成のユニークな特徴を無視している。 これらの研究を標準iclと呼んでいる。 人間のコーディングプロセスの観察に触発されて,AceCoderというコード生成のための新しいICLアプローチを提案する。 標準のICLと比較して、AceCoderには2つの新しい特徴がある。 1) 例検索。 同様のプログラムをサンプルとして取り出し、プログラミングスキル(例えば、アルゴリズム、API)を学習する。 (2) コード生成のガイド。 これはPTLMがプログラムを生成する前に中間の予備(例えば、テストケース、API)を出力することを奨励する。 プリミティブは、ptlmが要件を理解し、次のコード生成を導くのに役立つ。 AceCoderを6つのPTLM(例えばCodex)に適用し、Pass@kを使って3つの公開ベンチマークで評価する。 その結果,AceCoderはコード生成におけるPTLMの性能を大幅に向上させることができることがわかった。 1) Pass@1の観点では、AceCoderは標準のICLを79.7%、微調整のモデルを171%上回っている。 2) AceCoderは、異なるサイズのPTLM(例えば、1Bから175B)と異なる言語(例えば、Python、Java、JavaScript)で有効である。 3) 中間予備案の複数の選択肢について検討する。 (4) 生成したプログラムを3つの面から手動で評価し,acecoderの優位性を証明する。 (5) 実践者に対するICLに関するいくつかの知見について論じる。

In-context learning (ICL) with pre-trained language models (PTLMs) has shown great success in code generation. ICL does not require training. PTLMs take as the input a prompt consisting of a few requirement-code examples and a new requirement, and output a new program. However, existing studies simply reuse ICL techniques for natural language generation and ignore unique features of code generation. We refer to these studies as standard ICL. Inspired by observations of the human coding process, we propose a novel ICL approach for code generation named AceCoder. Compared to standard ICL, AceCoder has two novelties. (1) Example retrieval. It retrieves similar programs as examples and learns programming skills (e.g., algorithms, APIs) from them. (2) Guided Code Generation. It encourages PTLMs to output an intermediate preliminary (e.g., test cases, APIs) before generating programs. The preliminary can help PTLMs understand requirements and guide the next code generation. We apply AceCoder to six PTLMs (e.g., Codex) and evaluate it on three public benchmarks using the Pass@k. Results show that AceCoder can significantly improve the performance of PTLMs on code generation. (1) In terms of Pass@1, AceCoder outperforms standard ICL by up to 79.7% and fine-tuned models by up to 171%. (2) AceCoder is effective in PTLMs with different sizes (e.g., 1B to 175B) and different languages (e.g., Python, Java, and JavaScript). (3) We investigate multiple choices of the intermediate preliminary. (4) We manually evaluate generated programs in three aspects and prove the superiority of AceCoder. (5) Finally, we discuss some insights about ICL for practitioners.
翻訳日:2023-04-03 15:29:32 公開日:2023-03-31
# スティフェル多様体上の分散弱凸最適化

Decentralized Weakly Convex Optimization Over the Stiefel Manifold ( http://arxiv.org/abs/2303.17779v1 )

ライセンス: Link先を確認
Jinxin Wang, Jiang Hu, Shixiang Chen, Zengde Deng, Anthony Man-Cho So(参考訳) 分散設定におけるスティーフェル多様体上の非スムース最適化問題のクラスに焦点をあて、n$エージェントの連結ネットワークが有限サム目的関数を協調的に最小化し、各成分は周囲ユークリッド空間において弱凸となる。 このような最適化問題はアプリケーションで頻繁に発生するが、その非滑らかさと非凸性のために非常に難しい。 そこで本研究では,分散化リーマン勾配法 (DRSM) と呼ばれる反復的手法を提案する。 大域収束と $\mathcal{O}(\varepsilon^{-2} \log^2(\varepsilon^{-1}))$ の反復複雑性は、変分解析から近い滑らかさの強力なツールによって確立され、これは独立な興味を持つ。 また,DRSMの局所的な線形収束性は,手前の問題がよりシャープな性質を持つ場合に,幾何的に減少する段差を用いて示す。 理論的知見を補うために数値実験を行った。

We focus on a class of non-smooth optimization problems over the Stiefel manifold in the decentralized setting, where a connected network of $n$ agents cooperatively minimize a finite-sum objective function with each component being weakly convex in the ambient Euclidean space. Such optimization problems, albeit frequently encountered in applications, are quite challenging due to their non-smoothness and non-convexity. To tackle them, we propose an iterative method called the decentralized Riemannian subgradient method (DRSM). The global convergence and an iteration complexity of $\mathcal{O}(\varepsilon^{-2} \log^2(\varepsilon^{-1}))$ for forcing a natural stationarity measure below $\varepsilon$ are established via the powerful tool of proximal smoothness from variational analysis, which could be of independent interest. Besides, we show the local linear convergence of the DRSM using geometrically diminishing stepsizes when the problem at hand further possesses a sharpness property. Numerical experiments are conducted to corroborate our theoretical findings.
翻訳日:2023-04-03 15:29:06 公開日:2023-03-31
# crossloc3d: 地上のクロスソース3d位置認識

CrossLoc3D: Aerial-Ground Cross-Source 3D Place Recognition ( http://arxiv.org/abs/2303.17778v1 )

ライセンス: Link先を確認
Tianrui Guan, Aswath Muthuselvam, Montana Hoover, Xijun Wang, Jing Liang, Adarsh Jagan Sathyamoorthy, Damon Conover, Dinesh Manocha(参考訳) そこで我々は,クロスソース環境での大規模点マッチング問題を解決する新しい3D位置認識手法であるCrossLoc3Dを提案する。 クロスソースなポイントクラウドデータは、異なる精度の深度センサや、異なる距離や視点から取得したポイントセットに対応する。 異なるソースから取得した点間の表現ギャップを考慮に入れた3次元位置認識手法の開発という課題に対処する。 提案手法は,多粒度特徴を活用し,最も顕著な特徴に対応する畳み込みカーネルサイズを選択することで,クロスソースデータを処理する。 拡散モデルにインスパイアされた本手法では,埋め込み空間を異なるソースから単一の正準空間に徐々にシフトさせ,よりよいメトリック学習を実現する。 さらにCS-Campus3Dは,空中および地上の両方のLiDARスキャンから得られる点雲データからなる,最初の3次元地上クロスソースデータセットである。 cs-campus3dのポイントクラウドは、表示ギャップや、異なるビュー、ポイント密度、ノイズパターンなどの特徴を持っている。 CS-Campus3Dベンチマークでは,CrossLoc3Dアルゴリズムが4.74%から15.37%の改善を実現し,Oxford RobotCarの最先端の3D位置認識手法に匹敵する性能を達成した。 コードとCS-Campus3Dベンチマークをリリースします。

We present CrossLoc3D, a novel 3D place recognition method that solves a large-scale point matching problem in a cross-source setting. Cross-source point cloud data corresponds to point sets captured by depth sensors with different accuracies or from different distances and perspectives. We address the challenges in terms of developing 3D place recognition methods that account for the representation gap between points captured by different sources. Our method handles cross-source data by utilizing multi-grained features and selecting convolution kernel sizes that correspond to most prominent features. Inspired by the diffusion models, our method uses a novel iterative refinement process that gradually shifts the embedding spaces from different sources to a single canonical space for better metric learning. In addition, we present CS-Campus3D, the first 3D aerial-ground cross-source dataset consisting of point cloud data from both aerial and ground LiDAR scans. The point clouds in CS-Campus3D have representation gaps and other features like different views, point densities, and noise patterns. We show that our CrossLoc3D algorithm can achieve an improvement of 4.74% - 15.37% in terms of the top 1 average recall on our CS-Campus3D benchmark and achieves performance comparable to state-of-the-art 3D place recognition method on the Oxford RobotCar. We will release the code and CS-Campus3D benchmark.
翻訳日:2023-04-03 15:28:44 公開日:2023-03-31
# 2次元投影入力による3次元変換の内部表現の学習

Learning Internal Representations of 3D Transformations from 2D Projected Inputs ( http://arxiv.org/abs/2303.17776v1 )

ライセンス: Link先を確認
Marissa Connor, Bruno Olshausen, Christopher Rozell(参考訳) 3次元の世界で相互作用する場合、ヒトは2次元網膜画像に投影された視覚入力から3次元構造を推定しなければならない。 運動誘起変換を手がかりとして物体形状の持続性を用いることにより、この弱拘束された問題を解く際に、深さの曖昧さを解消できることが示されている。 生体視覚系が内部的に3次元変換をどう表現するかを理解することを目的として, 2次元点の運動から3次元構造を推定できる生成多様体モデルに基づく計算モデルを提案する。 我々のモデルは、最小限の監督で変換の表現を学習することができ、人間が発達的または進化的な時間スケールで内部表現を開発する方法の実証を提供する。 回転運動に着目し, 2次元投影点からの深さを推定し, 2次元学習刺激から3次元回転変換を学習し, 心理物理学的構造から運動実験における人間のパフォーマンスと比較した。

When interacting in a three dimensional world, humans must estimate 3D structure from visual inputs projected down to two dimensional retinal images. It has been shown that humans use the persistence of object shape over motion-induced transformations as a cue to resolve depth ambiguity when solving this underconstrained problem. With the aim of understanding how biological vision systems may internally represent 3D transformations, we propose a computational model, based on a generative manifold model, which can be used to infer 3D structure from the motion of 2D points. Our model can also learn representations of the transformations with minimal supervision, providing a proof of concept for how humans may develop internal representations on a developmental or evolutionary time scale. Focused on rotational motion, we show how our model infers depth from moving 2D projected points, learns 3D rotational transformations from 2D training stimuli, and compares to human performance on psychophysical structure-from-motion experiments.
翻訳日:2023-04-03 15:28:18 公開日:2023-03-31
# 半弱教師付き物体運動予測

Semi-Weakly Supervised Object Kinematic Motion Prediction ( http://arxiv.org/abs/2303.17774v1 )

ライセンス: Link先を確認
Gengxin Liu, Qian Sun, Haibin Huang, Chongyang Ma, Yulan Guo, Li Yi, Hui Huang, Ruizhen Hu(参考訳) 3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。 3Dオブジェクトのトポロジ的構造と幾何学的詳細の両方に大きなバリエーションがあるため、これは依然として困難な課題であり、大規模ラベル付きデータの欠如はディープラーニングに基づくアプローチの性能を制限している。 本稿では,物体運動予測問題の課題を半弱教師付き方式で解決する。 私たちの重要な観察は2つある。 まず、完全に注釈付けされたモーションラベルを持つ3Dデータセットは限られているが、大規模にオブジェクト部分のセマンティックセマンティックセグメンテーションのためのデータセットやメソッドが存在する。 第2に、セマンティクス部分のセグメンテーションと移動部分のセグメンテーションは必ずしも一貫してはいないが、基盤となる3d構造から移動部分を検出することが可能である。 この目的に向けて,階層的部分レベルのセグメンテーションと移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。 このネットワークは、まず完全なラベル付きモビリティ情報を持つPartNet-Mobilityデータセットでトレーニングし、さらに粒度の細かい階層的な部分レベルのセグメンテーションでPartNetデータセットに適用することができる。 ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3次元オブジェクトを生成し、既存のセグメンテーションによる弱い教師付き学習にも利用できる。 実験の結果, 従来の3次元部分走査における運動予測のための拡張データでは, 顕著な性能向上が見られた。

Given a 3D object, kinematic motion prediction aims to identify the mobile parts as well as the corresponding motion parameters. Due to the large variations in both topological structure and geometric details of 3D objects, this remains a challenging task and the lack of large scale labeled data also constrain the performance of deep learning based approaches. In this paper, we tackle the task of object kinematic motion prediction problem in a semi-weakly supervised manner. Our key observations are two-fold. First, although 3D dataset with fully annotated motion labels is limited, there are existing datasets and methods for object part semantic segmentation at large scale. Second, semantic part segmentation and mobile part segmentation is not always consistent but it is possible to detect the mobile parts from the underlying 3D structure. Towards this end, we propose a graph neural network to learn the map between hierarchical part-level segmentation and mobile parts parameters, which are further refined based on geometric alignment. This network can be first trained on PartNet-Mobility dataset with fully labeled mobility information and then applied on PartNet dataset with fine-grained and hierarchical part-level segmentation. The network predictions yield a large scale of 3D objects with pseudo labeled mobility information and can further be used for weakly-supervised learning with pre-existing segmentation. Our experiments show there are significant performance boosts with the augmented data for previous method designed for kinematic motion prediction on 3D partial scans.
翻訳日:2023-04-03 15:28:03 公開日:2023-03-31
# Einstein-Podolsky-Rosenステアリングによるスケーラブル量子ネットワーク決定

Scalable Quantum Network Determination with Einstein-Podolsky-Rosen Steering ( http://arxiv.org/abs/2303.17771v1 )

ライセンス: Link先を確認
Wei-Ting Kao, Chien-Ying Huang, Tung-Ju Tsai, Shih-Hsuan Chen, Sheng-Yan Sun, Yu-Cheng Li, Teh-Lu Liao, Chih-Sung Chuu, He Lu, Che-Ming Li(参考訳) 絡み合った終端ノードの量子ネットワークは、非並列量子インターネットアプリケーションに対する古典的相関よりも強い。 しかし、実用的な量子ネットワークはノイズが存在し、最悪の場合、既存の古典的なデータに終端ノードが記述される。 このような信頼できないネットワークでは、量子ネットワークの忠実度と真のマルチノードの絡み合いが重要な問題となっている。 ここでは、理論上、実験的に、ネットワークノードが恒星トポロジーに絡まろうとするとき、真に$N$-node Einstein-Podolsky-Rosen ステアリングをノイズ耐性の高いネットワークで検出するには、わずか$N+1$の設定が必要であることを示す。 この小さな実験で、ステアリング検出は信頼できない測定装置の存在下で量子ネットワークの忠実度と真のマルチノードの絡み合いを決定する。 実験では, 自発的パラメトリック・ダウンコンバージョン・エンタングルメント源を用いて, 真の3光子および4光子量子ネットワークの真のマルチ光子ステアリングによる決定と, 広く使用されているエンタングルメント証人の偽陽性を示す。 本研究は,実際の絡み合い量子ネットワークのセットアップを精度良く評価するのに役立つ。

Quantum networks of entangled end nodes serve stronger than the classical correlation for unparalleled quantum internet applications. However, practical quantum networking exists noise, at worst, causing end nodes to be described in pre-existing classical data. In such untrusted networks, determining the quantum network fidelity and genuine multi-node entanglement becomes crucial problems. Here, we theoretically and experimentally show that when the network nodes aim to be entangled in a star topology, detecting truly $N$-node Einstein-Podolsky-Rosen steering in networks with high noise tolerance requires only $N+1$ measurement settings. With this small experimental effort, steering detection determines the quantum network fidelity and genuine multi-node entanglement in the presence of untrusted measurement devices. Experimentally, using spontaneous parametric down-conversion entanglement sources, we demonstrate the determinations of genuine 3-photon and 4-photon quantum networks via genuine multi-photon steering and the false positives of the widely used entanglement witnesses. Our results help accurately evaluate setting up realistic entanglement-backbone quantum networks.
翻訳日:2023-04-03 15:27:38 公開日:2023-03-31
# 高炉分類器設計のためのドメイン知識統合化

Domain Knowledge integrated for Blast Furnace Classifier Design ( http://arxiv.org/abs/2303.17769v1 )

ライセンス: Link先を確認
Shaohan Chen, Di Fan and Chuanhou Gao(参考訳) 高炉のモデリングと制御は産業分野における重要な問題の1つであり、ブラックボックスモデルは複雑な高炉システムを記述する効果的な手段である。 実際には、産業アプリケーションにおける安全性や省エネといった、応用に応じて異なる学習目標が存在することが多い。 そこで本稿では,産業応用のための分類器を提供するドメイン知識統合分類モデルを設計するための枠組みを提案する。 我々の知識を取り入れた学習手法により,利用者は「重要なサンプル」を識別する分類器を作成でき(その誤分類は深刻な結果をもたらす)、残りのサンプルを適切に分類する精度を保っている。 提案手法の有効性を2つの実火炉データセットで検証し, 運転者が従来より優れた炉システム制御に有効であったことを示唆した。

Blast furnace modeling and control is one of the important problems in the industrial field, and the black-box model is an effective mean to describe the complex blast furnace system. In practice, there are often different learning targets, such as safety and energy saving in industrial applications, depending on the application. For this reason, this paper proposes a framework to design a domain knowledge integrated classification model that yields a classifier for industrial application. Our knowledge incorporated learning scheme allows the users to create a classifier that identifies "important samples" (whose misclassifications can lead to severe consequences) more correctly, while keeping the proper precision of classifying the remaining samples. The effectiveness of the proposed method has been verified by two real blast furnace datasets, which guides the operators to utilize their prior experience for controlling the blast furnace systems better.
翻訳日:2023-04-03 15:27:17 公開日:2023-03-31
# 一般化暗黙的勾配によるスケーラブルベイズメタラーニング

Scalable Bayesian Meta-Learning through Generalized Implicit Gradients ( http://arxiv.org/abs/2303.17768v1 )

ライセンス: Link先を確認
Yilang Zhang, Bingcong Li, Shijian Gao, Georgios B. Giannakis(参考訳) メタラーニングは、限られたデータで新しいタスクに取り組むためのユニークな効果と迅速性を所有している。 その幅広い適用性は、二段階最適化問題と見なすことで明らかにされる。 しかし、アルゴリズムの観点では、内部レベルの最適化が勾配に基づく反復に依存する場合、スケーラビリティの問題に直面している。 暗黙的な分化はこの課題を緩和すると考えられているが、これは等方性ガウス前駆体に限定され、決定論的メタラーニングアプローチのみを好む。 この研究は、確率的ベイズメタラーニングに対する暗黙の微分の利点を交互に活用することで、スケーラビリティのボトルネックを著しく軽減する。 暗黙的ベイズメタラーニング(iBaML)法は、学習可能な事前の範囲を広げるだけでなく、関連する不確実性を定量化する。 さらに、究極の複雑性は、内部レベルの最適化軌道に関わらずよく制御される。 解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。 また,提案手法の性能を実証的に検証するために,広範囲な数値実験を行った。

Meta-learning owns unique effectiveness and swiftness in tackling emerging tasks with limited data. Its broad applicability is revealed by viewing it as a bi-level optimization problem. The resultant algorithmic viewpoint however, faces scalability issues when the inner-level optimization relies on gradient-based iterations. Implicit differentiation has been considered to alleviate this challenge, but it is restricted to an isotropic Gaussian prior, and only favors deterministic meta-learning approaches. This work markedly mitigates the scalability bottleneck by cross-fertilizing the benefits of implicit differentiation to probabilistic Bayesian meta-learning. The novel implicit Bayesian meta-learning (iBaML) method not only broadens the scope of learnable priors, but also quantifies the associated uncertainty. Furthermore, the ultimate complexity is well controlled regardless of the inner-level optimization trajectory. Analytical error bounds are established to demonstrate the precision and efficiency of the generalized implicit gradient over the explicit one. Extensive numerical tests are also carried out to empirically validate the performance of the proposed method.
翻訳日:2023-04-03 15:27:03 公開日:2023-03-31
# 単一画像からの降雨量の同時推定と混合

Joint Depth Estimation and Mixture of Rain Removal From a Single Image ( http://arxiv.org/abs/2303.17766v1 )

ライセンス: Link先を確認
Yongzhen Wang, Xuefeng Yan, Yanbiao Niu, Lina Gong, Yanwen Guo, Mingqiang Wei(参考訳) 雨天は、特に屋外カメラレンズやフロントガラスを通して画像が撮影される場合、シーンオブジェクトの視界を著しく悪化させる。 多くの雨の写真の注意深く観察することで、画像は一般に雨滴、雨のストリーク、雨のヘイズなどの様々な雨水アーチファクトに影響され、近距離から遠方までの画像品質に影響を与え、複雑で絡み合った画像劣化の過程をもたらすことが判明した。 しかし、現在の排水技術は、雨水の1つか2つの種類にしか対処できないため、雨の混合物(MOR)の除去が困難である。 本研究では,MOR効果をフルに考慮したDreMore-Netと呼ばれる,降雨の混合に対する効果的な画像デクリニングパラダイムを提案する。 demore-netは、雨の除去を達成するために、深さの推定とモー除去タスクを統合する共同学習パラダイムである。 奥行き情報は、距離に基づく意味のあるガイダンス情報を提供するので、demore-netがさまざまな種類の雨水を取り除くのに役立つ。 さらに,画像のデアライジング作業における正規化手法について検討し,DeMore-Netのデアライジング性能を向上させるためにHNB(Hybrid Normalization Block)を導入する。 合成データセットと実世界のMOR写真による大規模な実験は、提案したDEMore-Netの優位性を十分に検証している。 コードはhttps://github.com/yz-wang/DEMore-Netで入手できる。

Rainy weather significantly deteriorates the visibility of scene objects, particularly when images are captured through outdoor camera lenses or windshields. Through careful observation of numerous rainy photos, we have found that the images are generally affected by various rainwater artifacts such as raindrops, rain streaks, and rainy haze, which impact the image quality from both near and far distances, resulting in a complex and intertwined process of image degradation. However, current deraining techniques are limited in their ability to address only one or two types of rainwater, which poses a challenge in removing the mixture of rain (MOR). In this study, we propose an effective image deraining paradigm for Mixture of rain REmoval, called DEMore-Net, which takes full account of the MOR effect. Going beyond the existing deraining wisdom, DEMore-Net is a joint learning paradigm that integrates depth estimation and MOR removal tasks to achieve superior rain removal. The depth information can offer additional meaningful guidance information based on distance, thus better helping DEMore-Net remove different types of rainwater. Moreover, this study explores normalization approaches in image deraining tasks and introduces a new Hybrid Normalization Block (HNB) to enhance the deraining performance of DEMore-Net. Extensive experiments conducted on synthetic datasets and real-world MOR photos fully validate the superiority of the proposed DEMore-Net. Code is available at https://github.com/yz-wang/DEMore-Net.
翻訳日:2023-04-03 15:26:46 公開日:2023-03-31
# Never a Dull Moment: 時系列分類のベースラインとしての分布特性

Never a Dull Moment: Distributional Properties as a Baseline for Time-Series Classification ( http://arxiv.org/abs/2303.17809v1 )

ライセンス: Link先を確認
Trent Henderson, Annie G. Bryant, Ben D. Fulcher(参考訳) 時系列分類問題に取り組むための複雑なアルゴリズム的アプローチは、この数十年で大きく成長し、高度で難解な深層学習に基づく手法の開発も行われている。 しかし、単純な方法と比べれば、与えられた問題に対して強力なパフォーマンスを得るのに、そのような複雑さがいつ必要か判断するのは困難である。 本稿では、時系列値の平均値と標準値の偏差を無視する2つの単純な特徴の空間における線形分類器として、非常に単純な分類手法の性能を評価する。 128個の不平等な時系列の分類問題の大規模なリポジトリを通して、この単純な分布モーメントベースのアプローチは69の問題の確率を上回り、2つの問題で100%の精度に達した。 神経画像による時系列ケーススタディでは、平均偏差と標準偏差に基づく単純な線形モデルは、時系列ダイナミクスの特徴を付加するモデルよりも、統合失調症の個人を分類する上で優れていることが判明した。 時系列の単純な分布特性のパフォーマンスを比較することは、複雑な時系列分類モデルの性能を解釈するための重要な文脈を提供する。

The variety of complex algorithmic approaches for tackling time-series classification problems has grown considerably over the past decades, including the development of sophisticated but challenging-to-interpret deep-learning-based methods. But without comparison to simpler methods it can be difficult to determine when such complexity is required to obtain strong performance on a given problem. Here we evaluate the performance of an extremely simple classification approach -- a linear classifier in the space of two simple features that ignore the sequential ordering of the data: the mean and standard deviation of time-series values. Across a large repository of 128 univariate time-series classification problems, this simple distributional moment-based approach outperformed chance on 69 problems, and reached 100% accuracy on two problems. With a neuroimaging time-series case study, we find that a simple linear model based on the mean and standard deviation performs better at classifying individuals with schizophrenia than a model that additionally includes features of the time-series dynamics. Comparing the performance of simple distributional features of a time series provides important context for interpreting the performance of complex time-series classification models, which may not always be required to obtain high accuracy.
翻訳日:2023-04-03 15:20:54 公開日:2023-03-31
# 韓国医学における大規模言語モデルの可能性を探る--文化的適応医療への基礎モデルアプローチ

Exploring the Potential of Large Language models in Traditional Korean Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare ( http://arxiv.org/abs/2303.17807v1 )

ライセンス: Link先を確認
Dongyeop Jang and Chang-Eop Kim(参考訳) 導入: 従来の韓国医学(TKM)は個々の診断と治療を強調し、限られたデータと暗黙のプロセスのためにAIモデリングを困難にしている。 大規模言語モデルであるGPT-3.5とGPT-4は、医学固有の訓練を欠いているにもかかわらず、素晴らしい医療知識を示している。 本研究は,TKMにおけるGPT-3.5とGPT-4の能力を評価することを目的とした。 方法: GPT-3.5 (2023年2月) と GPT-4 (2023年3月) のモデルでは, 被験者12名を対象に, 2022年の調査から340の回答を得た。 各質問は、初期化セッションでそれぞれ5回独立に評価された。 結果: GPT-3.5 と GPT-4 はそれぞれ 42.06% と 57.29% の精度で GPT-4 は通過性能に近かった。 被験者の精度には有意差があり、神経心理学では83.75%、内科医学では28.75%であった(第2報)。 どちらのモデルもリコールベースと診断ベースでは高い精度を示したが、介入ベースでは困難であった。 TKM-特定知識を必要とする質問の精度は、GPT-4でない質問の精度よりも比較的低く、表に基づく質問の精度は高く、両モデルとも一貫した応答を示した。 一貫性と精度の正の相関が認められた。 結論: 本研究のモデルはドメイン特化訓練を伴わないtkmの意思決定においてほぼ合格性能を示した。 しかし、文化に偏った学習によって引き起こされたと考えられる限界も観察された。 本研究は, 臨床支援, 医学教育, 医学研究など, 文化的適応医療における基礎モデルの可能性について示唆する。

Introduction: Traditional Korean medicine (TKM) emphasizes individualized diagnosis and treatment, making AI modeling difficult due to limited data and implicit processes. GPT-3.5 and GPT-4, large language models, have shown impressive medical knowledge despite lacking medicine-specific training. This study aimed to assess the capabilities of GPT-3.5 and GPT-4 for TKM using the Korean National Licensing Examination for Korean Medicine Doctors. Methods: GPT-3.5 (February 2023) and GPT-4 (March 2023) models answered 340 questions from the 2022 examination across 12 subjects. Each question was independently evaluated five times in an initialized session. Results: GPT-3.5 and GPT-4 achieved 42.06% and 57.29% accuracy, respectively, with GPT-4 nearing passing performance. There were significant differences in accuracy by subjects, with 83.75% accuracy for neuropsychiatry compared to 28.75% for internal medicine (2). Both models showed high accuracy in recall-based and diagnosis-based questions but struggled with intervention-based ones. The accuracy for questions that require TKM-specialized knowledge was relatively lower than the accuracy for questions that do not GPT-4 showed high accuracy for table-based questions, and both models demonstrated consistent responses. A positive correlation between consistency and accuracy was observed. Conclusion: Models in this study showed near-passing performance in decision-making for TKM without domain-specific training. However, limits were also observed that were believed to be caused by culturally-biased learning. Our study suggests that foundation models have potential in culturally-adapted medicine, specifically TKM, for clinical assistance, medical education, and medical research.
翻訳日:2023-04-03 15:20:32 公開日:2023-03-31
# 逆レンダリングのためのニューラルマイクロファセットフィールド

Neural Microfacet Fields for Inverse Rendering ( http://arxiv.org/abs/2303.17806v1 )

ライセンス: Link先を確認
Alexander Mai, Dor Verbin, Falko Kuester, Sara Fridovich-Keil(参考訳) 本稿では,シーン画像から材料,幾何学,環境照明を復元するニューラルマイクロファセット場を提案する。 本手法では, 各試料を(潜在的に不透明な)表面として扱うことにより, ボリューム設定内にマイクロファセット反射率モデルを用いる。 表面ベースのモンテカルロレンダリングをボリューム設定で使用することで、表面ベースの光輸送における数十年の研究と、ビュー合成のためのボリュームレンダリングの最近の進歩を組み合わせることで、逆レンダリングを効率的に行うことができる。 提案手法は, 逆レンダリング, 高忠実度幾何, 高周波照明の詳細を捉え, その新しいビュー合成結果は, 照明や材料を回復しない最先端の手法と同等である。

We present Neural Microfacet Fields, a method for recovering materials, geometry, and environment illumination from images of a scene. Our method uses a microfacet reflectance model within a volumetric setting by treating each sample along the ray as a (potentially non-opaque) surface. Using surface-based Monte Carlo rendering in a volumetric setting enables our method to perform inverse rendering efficiently by combining decades of research in surface-based light transport with recent advances in volume rendering for view synthesis. Our approach outperforms prior work in inverse rendering, capturing high fidelity geometry and high frequency illumination details; its novel view synthesis results are on par with state-of-the-art methods that do not recover illumination or materials.
翻訳日:2023-04-03 15:20:07 公開日:2023-03-31
# 初期化の効果について:2層ニューラルネットワークのスケーリングパス

On the Effect of Initialization: The Scaling Path of 2-Layer Neural Networks ( http://arxiv.org/abs/2303.17805v1 )

ライセンス: Link先を確認
Sebastian Neumayer and L\'ena\"ic Chizat and Michael Unser(参考訳) 教師付き学習において、正規化経路はゼロで初期化された勾配降下の最適化経路の便利な理論的プロキシとして用いられることがある。 本稿では,無限幅2層reluニューラルネットワークにおける重みの非ゼロ初期分布による正則化経路の修正について検討する。 非平衡最適輸送理論(unbalanced optimal transport theory)とのリンクを利用することで、2層ネットワークトレーニングの非凸性にもかかわらず、この問題は無限次元凸に対応することを証明している。 対応する関数最適化問題を定式化し,その主特性について検討する。 特に、初期化のスケールが$0$から$+\infty$の範囲にあるとき、関連する経路がカーネルとリッチレジームの間で連続的に補間されることが示される。 数値実験により,我々の設定では,最適化パスのスケーリングパスと最終状態が,これらの極端点を超えても同じように振る舞うことが確認された。

In supervised learning, the regularization path is sometimes used as a convenient theoretical proxy for the optimization path of gradient descent initialized with zero. In this paper, we study a modification of the regularization path for infinite-width 2-layer ReLU neural networks with non-zero initial distribution of the weights at different scales. By exploiting a link with unbalanced optimal transport theory, we show that, despite the non-convexity of the 2-layer network training, this problem admits an infinite dimensional convex counterpart. We formulate the corresponding functional optimization problem and investigate its main properties. In particular, we show that as the scale of the initialization ranges between $0$ and $+\infty$, the associated path interpolates continuously between the so-called kernel and rich regimes. The numerical experiments confirm that, in our setting, the scaling path and the final states of the optimization path behave similarly even beyond these extreme points.
翻訳日:2023-04-03 15:19:53 公開日:2023-03-31
# 軽量ビジョントランスにおける局所認識の再考

Rethinking Local Perception in Lightweight Vision Transformer ( http://arxiv.org/abs/2303.17803v1 )

ライセンス: Link先を確認
Qihang Fan, Huaibo Huang, Jiyang Guan, Ran He(参考訳) 視覚変換器(ViT)は様々な視覚タスクに有効であることが示されている。 しかし、それらをモバイルフレンドリーなサイズにリサイズすると、パフォーマンスが大幅に低下する。 そのため、軽量な視覚トランスフォーマーの開発は重要な研究分野となっている。 本稿では,コンテキスト対応の局所拡張を利用した軽量視覚トランスフォーマであるcloformerを紹介する。 cloformerは、バニラ畳み込み演算子でよく使われるグローバルな共有重みと注意を向けるトークン固有のコンテキスト認識重みの関係を探求し、高頻度の局所情報をキャプチャする効果的で簡単なモジュールを提案する。 CloFormerでは、注意スタイルの畳み込み演算子であるAttnConvを紹介します。 提案するattnconvは、共有重みを使ってローカル情報を集約し、注意深く設計されたコンテキストアウェア重みを配置し、ローカル機能を強化する。 CloFormerのFLOPを減らすためにプールを使用するAttnConvとバニラアテンションを組み合わせることで、モデルは高周波と低周波の情報を認識することができる。 画像分類,物体検出,意味セグメンテーションなどの広範な実験を行い,cloformerの優位性を実証した。

Vision Transformers (ViTs) have been shown to be effective in various vision tasks. However, resizing them to a mobile-friendly size leads to significant performance degradation. Therefore, developing lightweight vision transformers has become a crucial area of research. This paper introduces CloFormer, a lightweight vision transformer that leverages context-aware local enhancement. CloFormer explores the relationship between globally shared weights often used in vanilla convolutional operators and token-specific context-aware weights appearing in attention, then proposes an effective and straightforward module to capture high-frequency local information. In CloFormer, we introduce AttnConv, a convolution operator in attention's style. The proposed AttnConv uses shared weights to aggregate local information and deploys carefully designed context-aware weights to enhance local features. The combination of the AttnConv and vanilla attention which uses pooling to reduce FLOPs in CloFormer enables the model to perceive high-frequency and low-frequency information. Extensive experiments were conducted in image classification, object detection, and semantic segmentation, demonstrating the superiority of CloFormer.
翻訳日:2023-04-03 15:19:39 公開日:2023-03-31
# 信号部分空間間の差分部分空間に基づく時系列異常検出

Time-series Anomaly Detection based on Difference Subspace between Signal Subspaces ( http://arxiv.org/abs/2303.17802v1 )

ライセンス: Link先を確認
Takumi Kanai, Naoya Sogi, Atsuto Maki, Kazuhiro Fukui(参考訳) 本稿では,差分部分空間の概念を特異スペクトル解析(SSA)に取り入れた時系列データの異常検出手法を提案する。 鍵となる考え方は、過去と現在の時系列データに対応する2つの信号部分空間間の差分部分空間のわずかな時間変化を異常スコアとして監視することである。 これは、2つの信号部分空間間の最小角度を変化度として測定する従来のSSA法を自然な一般化である。 最小角度を差分部分空間に置き換えることで、SSAベースのフレームワークを用いて、その大きさと方向における2つの部分空間の全体構造的差異を捉えることができる。 公開時系列データセットの性能評価により,提案手法の有効性を実証する。

This paper proposes a new method for anomaly detection in time-series data by incorporating the concept of difference subspace into the singular spectrum analysis (SSA). The key idea is to monitor slight temporal variations of the difference subspace between two signal subspaces corresponding to the past and present time-series data, as anomaly score. It is a natural generalization of the conventional SSA-based method which measures the minimum angle between the two signal subspaces as the degree of changes. By replacing the minimum angle with the difference subspace, our method boosts the performance while using the SSA-based framework as it can capture the whole structural difference between the two subspaces in its magnitude and direction. We demonstrate our method's effectiveness through performance evaluations on public time-series datasets.
翻訳日:2023-04-03 15:19:21 公開日:2023-03-31
# パーソナライズ音声認識のための対話行動誘導型コンテキストアダプタ

Dialog act guided contextual adapter for personalized speech recognition ( http://arxiv.org/abs/2303.17799v1 )

ライセンス: Link先を確認
Feng-Ju Chang, Thejaswi Muniyappa, Kanthashree Mysore Sathyendra, Kai Wei, Grant P. Strimel, Ross McGowan(参考訳) マルチターンダイアログにおけるパーソナライゼーションは、エンドツーエンドの自動音声認識(E2E ASR)モデルにとって長年の課題であった。 近年,ユーザカタログを用いた稀な単語認識に取り組みつつある。 しかし、この適応には重要なキューであるダイアログアクトが組み込まれておらず、これはマルチターンダイアログのシナリオで利用できる。 本稿では,対話型act誘導型コンテキストアダプタネットワークを提案する。 具体的には、ダイアログを活用して、最も関連するユーザカタログを選択し、オーディオと、キャリア句とユーザカタログ間の意味関係の両方に基づいてクエリを作成し、コンテキストバイアスをよりよくガイドする。 産業音声アシスタントのデータセットでは、ダイアログアクトエンコーダのみのモデルと文脈適応の両方で性能が向上し、非コンテキストモデルよりも最も改善された: マルチターンダイアログシナリオにおける平均相対単語エラー率削減(WERR)は、非コンテキストモデルよりも39%のWERRを達成した先行技術であるコンテキストアダプタと比較して58%である。

Personalization in multi-turn dialogs has been a long standing challenge for end-to-end automatic speech recognition (E2E ASR) models. Recent work on contextual adapters has tackled rare word recognition using user catalogs. This adaptation, however, does not incorporate an important cue, the dialog act, which is available in a multi-turn dialog scenario. In this work, we propose a dialog act guided contextual adapter network. Specifically, it leverages dialog acts to select the most relevant user catalogs and creates queries based on both -- the audio as well as the semantic relationship between the carrier phrase and user catalogs to better guide the contextual biasing. On industrial voice assistant datasets, our model outperforms both the baselines - dialog act encoder-only model, and the contextual adaptation, leading to the most improvement over the no-context model: 58% average relative word error rate reduction (WERR) in the multi-turn dialog scenario, in comparison to the prior-art contextual adapter, which has achieved 39% WERR over the no-context model.
翻訳日:2023-04-03 15:19:07 公開日:2023-03-31
# FONT:自然運動を用いたフロー誘導ワンショットトーキングヘッドジェネレーション

FONT: Flow-guided One-shot Talking Head Generation with Natural Head Motions ( http://arxiv.org/abs/2303.17789v1 )

ライセンス: Link先を確認
Jin Liu, Xi Wang, Xiaomeng Fu, Yesheng Chai, Cai Yu, Jiao Dai, Jizhong Han(参考訳) ワンショット音声ヘッドジェネレーションは近年注目され、様々な創造的、実用的な応用がなされている。 理想的な自然かつ鮮明な音声ヘッドビデオは、自然な頭部ポーズの変化を含むべきである。 しかし、音声・視覚的モダリティの間に自然なギャップがあるため、ヘッドポーズシーケンスを駆動音からマッピングすることは困難である。 本研究では,生成した音声の頭上でのNaTural Head Motions(FONT)を実現するフロー誘導ワンショットモデルを提案する。 具体的には、ヘッドポーズ予測モジュールは、ソースフェイスと駆動オーディオからヘッドポーズシーケンスを生成するように設計されている。 ランダムサンプリング操作と構造的類似性制約を加え,音声-視覚間の一対多マッピングの多様性をモデル化し,自然な頭部ポーズを予測する。 次に,音源から教師なしのキーポイントを生成し,音声とポーズのシーケンスを駆動し,顔構造情報を記述するキーポイント予測器を開発する。 最後に、フロー誘導オクルージョン対応ジェネレータを用いて、推定キーポイントとソースフェイスから写真リアルな音声ヘッドビデオを生成する。 広範な実験結果から、FONTは自然な頭部のポーズや口形状の同期による発話ヘッドを生成し、他の比較手法よりも優れていることが証明された。

One-shot talking head generation has received growing attention in recent years, with various creative and practical applications. An ideal natural and vivid generated talking head video should contain natural head pose changes. However, it is challenging to map head pose sequences from driving audio since there exists a natural gap between audio-visual modalities. In this work, we propose a Flow-guided One-shot model that achieves NaTural head motions(FONT) over generated talking heads. Specifically, the head pose prediction module is designed to generate head pose sequences from the source face and driving audio. We add the random sampling operation and the structural similarity constraint to model the diversity in the one-to-many mapping between audio-visual modality, thus predicting natural head poses. Then we develop a keypoint predictor that produces unsupervised keypoints from the source face, driving audio and pose sequences to describe the facial structure information. Finally, a flow-guided occlusion-aware generator is employed to produce photo-realistic talking head videos from the estimated keypoints and source face. Extensive experimental results prove that FONT generates talking heads with natural head poses and synchronized mouth shapes, outperforming other compared methods.
翻訳日:2023-04-03 15:18:47 公開日:2023-03-31
# 注意は必ずしも必要ではない:ドメイン特化テキストの効率的な分類に向けて

Attention is Not Always What You Need: Towards Efficient Classification of Domain-Specific Text ( http://arxiv.org/abs/2303.17786v1 )

ライセンス: Link先を確認
Yasmen Wahba, Nazim Madhavji, and John Steinbacher(参考訳) 階層で組織された数百のクラスを持つ大規模なITコーパスでは、階層内の上位レベルのクラスの正確な分類のタスクは、下位レベルに伝播するエラーを避けるために不可欠である。 ビジネスの世界では、特にパフォーマンスの向上が限界であれば、高価なブラックボックスモデルよりも効率的で説明可能なmlモデルが好まれる。 自然言語処理(NLP)コミュニティの現在のトレンドは、巨大な事前学習された言語モデル(PLM)や、ほとんどあらゆる種類のNLPタスク(質問応答、感情分析、テキスト分類など)に自己注意モデル(BERT)を採用することである。 PLMの広範な使用と、幅広いNLPタスクにおける印象的なパフォーマンスにもかかわらず、これらのモデルがドメイン固有のテキスト分類(TC)タスクに採用されている理由として、コンテキスト化された埋め込み(例えば、PLM)の目的を表わすドメイン固有のテキストで見られる専門用語(jargon)の単文的な性質を考えると、明確で明確な必要性は欠如している。 本稿では,3つのTCデータセット上での線形SVM分類器とTFIDFベクトル化モデルとの比較を行った。 結果はLinearSVMと同等のパフォーマンスを示している。 本研究は, ドメイン固有TCタスクに対して, 線形モデルにより, 注目に基づくモデルに匹敵する, 安価で再現性があり, 解釈可能な代替手段を提供できることを示した。

For large-scale IT corpora with hundreds of classes organized in a hierarchy, the task of accurate classification of classes at the higher level in the hierarchies is crucial to avoid errors propagating to the lower levels. In the business world, an efficient and explainable ML model is preferred over an expensive black-box model, especially if the performance increase is marginal. A current trend in the Natural Language Processing (NLP) community is towards employing huge pre-trained language models (PLMs) or what is known as self-attention models (e.g., BERT) for almost any kind of NLP task (e.g., question-answering, sentiment analysis, text classification). Despite the widespread use of PLMs and the impressive performance in a broad range of NLP tasks, there is a lack of a clear and well-justified need to as why these models are being employed for domain-specific text classification (TC) tasks, given the monosemic nature of specialized words (i.e., jargon) found in domain-specific text which renders the purpose of contextualized embeddings (e.g., PLMs) futile. In this paper, we compare the accuracies of some state-of-the-art (SOTA) models reported in the literature against a Linear SVM classifier and TFIDF vectorization model on three TC datasets. Results show a comparable performance for the LinearSVM. The findings of this study show that for domain-specific TC tasks, a linear model can provide a comparable, cheap, reproducible, and interpretable alternative to attention-based models.
翻訳日:2023-04-03 15:18:25 公開日:2023-03-31
# SOSR: Wavelet Augmentation Transformer を用いたソースフリー画像超解像

SOSR: Source-Free Image Super-Resolution with Wavelet Augmentation Transformer ( http://arxiv.org/abs/2303.17783v1 )

ライセンス: Link先を確認
Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Lei Zhang, Ran He(参考訳) 異なる分解カーネルを持つ異なるカメラによって撮影された実世界の画像は、しばしば画像超解像におけるデバイス間ドメインギャップをもたらす。 この問題に対する一般的な試みは、ソースデータにアクセスする必要のないドメイン適応(UDA)である。 多くの実用的なアプリケーションにおいて、データのプライバシーポリシーや送信制限を考慮して、ラベル付きソースデータに事前トレーニングされたモデルを、ラベルなしのターゲットデータのみを持つターゲットドメインに適応させる、ソースフリーイメージスーパーレゾリューションフレームワーク(sosr)を提案する。 SOSRはソースモデルを利用して、教師学習のための洗練された擬似ラベルを生成する。 そこで本研究では,既存のネットワークに柔軟に組み込むことができるWavelet Augmentation Transformer (WAT) という,新しいウェーブレットベースの拡張手法を提案する。 WATは、変形可能な注意によって効率的に集約される様々なサンプルの様々なレベルの低周波情報を学習する。 さらに,疑似ラベルの精度を向上させるために,不確実性を考慮した自己学習機構を提案する。 より優れたSR結果を取得し、擬似ラベルの過適合を避けるために、ターゲットLRとSR画像間の周波数情報を制限するために、いくつかの正規化損失を提案する。 実験により、ソースデータにアクセスせずに、SOSRは最先端のUDA手法よりも優れた結果が得られることが示された。

Real-world images taken by different cameras with different degradation kernels often result in a cross-device domain gap in image super-resolution. A prevalent attempt to this issue is unsupervised domain adaptation (UDA) that needs to access source data. Considering privacy policies or transmission restrictions of data in many practical applications, we propose a SOurce-free image Super-Resolution framework (SOSR) to address this issue, i.e., adapt a model pre-trained on labeled source data to a target domain with only unlabeled target data. SOSR leverages the source model to generate refined pseudo-labels for teacher-student learning. To better utilize the pseudo-labels, this paper proposes a novel wavelet-based augmentation method, named Wavelet Augmentation Transformer (WAT), which can be flexibly incorporated with existing networks, to implicitly produce useful augmented data. WAT learns low-frequency information of varying levels across diverse samples, which is aggregated efficiently via deformable attention. Furthermore, an uncertainty-aware self-training mechanism is proposed to improve the accuracy of pseudo-labels, with inaccurate predictions being rectified by uncertainty estimation. To acquire better SR results and avoid overfitting pseudo-labels, several regularization losses are proposed to constrain the frequency information between target LR and SR images. Experiments show that without accessing source data, SOSR achieves superior results to the state-of-the-art UDA methods.
翻訳日:2023-04-03 15:17:55 公開日:2023-03-31
# 授業映像から学習手順を考慮した映像表現とそのナレーション

Learning Procedure-aware Video Representation from Instructional Videos and Their Narrations ( http://arxiv.org/abs/2303.17839v1 )

ライセンス: Link先を確認
Yiwu Zhong, Licheng Yu, Yang Bai, Shangwen Li, Xueting Yan, Yin Li(参考訳) インターネット上での指導ビデオの豊富さとナレーションは、手続き的活動を理解するためのエキサイティングな道のりを提供する。 本研究では,webインストラクションビデオとそのナレーションの大規模データセットに基づいて,アクションステップと時間順序の両方をエンコードする映像表現を,人間のアノテーションを使わずに学習することを提案する。 本手法は,個別のステップ概念をエンコードする映像表現と,時間依存と膨大な個人変動の両方をステップ順序で捉える深い確率モデルとを共同で学習する。 時間順序の学習は,手続き推論に新たな能力をもたらすだけでなく,個々のステップの認識も強化することを示す。 当社のモデルでは,ステップ分類(COIN/EPIC-Kitchensでは+2.8%/+3.3%)とステップ予測(COINでは+7.4%)について,最先端の結果を大幅に向上させる。 さらに,本モデルでは,ステップ分類と予測のためのゼロショット推論,および不完全手順の多様かつ妥当なステップの予測を行う。 私たちのコードはhttps://github.com/facebookresearch/procedurevrlで利用可能です。

The abundance of instructional videos and their narrations over the Internet offers an exciting avenue for understanding procedural activities. In this work, we propose to learn video representation that encodes both action steps and their temporal ordering, based on a large-scale dataset of web instructional videos and their narrations, without using human annotations. Our method jointly learns a video representation to encode individual step concepts, and a deep probabilistic model to capture both temporal dependencies and immense individual variations in the step ordering. We empirically demonstrate that learning temporal ordering not only enables new capabilities for procedure reasoning, but also reinforces the recognition of individual steps. Our model significantly advances the state-of-the-art results on step classification (+2.8% / +3.3% on COIN / EPIC-Kitchens) and step forecasting (+7.4% on COIN). Moreover, our model attains promising results in zero-shot inference for step classification and forecasting, as well as in predicting diverse and plausible steps for incomplete procedures. Our code is available at https://github.com/facebookresearch/ProcedureVRL.
翻訳日:2023-04-03 15:11:25 公開日:2023-03-31
# 解釈の再考:深部視覚分類器の入力非依存性マッピング

Rethinking interpretation: Input-agnostic saliency mapping of deep visual classifiers ( http://arxiv.org/abs/2303.17836v1 )

ライセンス: Link先を確認
Naveed Akhtar, Mohammad A. A. K. Jalwana(参考訳) saliencyメソッドは、入力特徴をモデル出力に関連付けることで、hocモデル解釈を提供する。 現在の方法は、主に単一の入力サンプルを使用してこれを達成するため、モデルに関する入力非依存の問い合わせに答えられない。 また,入力特化唾液度マッピングは,誤帰的特徴帰属の影響を受けやすいことを示した。 現在、モデル解釈に「一般的な」入力機能を使用する試みでは、これらの特徴を含むデータセットへのアクセスを想定している。 そこで本研究では,モデルが出力にもたらした高レベル特徴を計算的に推定する,入力非依存なサリエンシーマッピングの新たな視点を提案する。 これらの特徴は幾何学的に相関しており、非制限データ分布に関するモデルの勾配情報を蓄積することで計算される。 これらの特徴を計算するために、モデル損失面上の独立したデータポイントを、人間が理解可能な概念(例えば分類器のクラスラベル)に関連付けられたローカルミニマに向けて取得する。 体系的なプロジェクション、スケーリング、リファインメントのプロセスでは、この情報はモデル忠実性を損なうことなく、解釈可能な視覚化に変換されます。 可視化は独立した定性解釈として機能する。 広範囲な評価を行ない,大規模モデルにおける様々な概念の可視化を成功させるだけでなく,漏洩した分類器のバックドアシグネチャを識別することで,この新たな形のサリエンシマッピングの興味深い有用性を示す。

Saliency methods provide post-hoc model interpretation by attributing input features to the model outputs. Current methods mainly achieve this using a single input sample, thereby failing to answer input-independent inquiries about the model. We also show that input-specific saliency mapping is intrinsically susceptible to misleading feature attribution. Current attempts to use 'general' input features for model interpretation assume access to a dataset containing those features, which biases the interpretation. Addressing the gap, we introduce a new perspective of input-agnostic saliency mapping that computationally estimates the high-level features attributed by the model to its outputs. These features are geometrically correlated, and are computed by accumulating model's gradient information with respect to an unrestricted data distribution. To compute these features, we nudge independent data points over the model loss surface towards the local minima associated by a human-understandable concept, e.g., class label for classifiers. With a systematic projection, scaling and refinement process, this information is transformed into an interpretable visualization without compromising its model-fidelity. The visualization serves as a stand-alone qualitative interpretation. With an extensive evaluation, we not only demonstrate successful visualizations for a variety of concepts for large-scale models, but also showcase an interesting utility of this new form of saliency mapping by identifying backdoor signatures in compromised classifiers.
翻訳日:2023-04-03 15:10:49 公開日:2023-03-31
# ディープラーニングを用いたSAR画像における変化検出分類器の差分画像の改善

Improved Difference Images for Change Detection Classifiers in SAR Imagery Using Deep Learning ( http://arxiv.org/abs/2303.17835v1 )

ライセンス: Link先を確認
Janne Alatalo, Tuomo Sipola, Mika Rantonen(参考訳) SAR(Synthetic Aperture Radar)画像は、雲のカバーや夜のサイクルに関わらず、リモートセンシング画像のソースとして使用できる。 しかし、スペックルノイズや画像取得条件の変化は、変化検出分類器の課題となる。 本稿では,sar画像処理を改良し,分類アルゴリズムのための高品質差分画像を生成する手法を提案する。 この方法は、要求された取得条件の場所から人工的なSAR画像を生成するニューラルネットワークベースのマッピング変換関数に基づいて構築される。 モデルの入力は、位置からの以前のSAR画像、SAR画像からの撮像角度情報、デジタル標高モデル、気象条件である。 この手法は、欧州宇宙機関のSentinel-1 SAR画像、フィンランド気象研究所の気象データ、フィンランド国立土地測量所のデジタル標高モデルを用いて、フィンランド北東部の位置情報を用いて試験された。 この方法を検証するために,sar画像の変更をシミュレートし,従来の差分画像作成法に比べて性能が大幅に向上した実験を用いて,提案手法の性能を測定した。

Satellite-based Synthetic Aperture Radar (SAR) images can be used as a source of remote sensed imagery regardless of cloud cover and day-night cycle. However, the speckle noise and varying image acquisition conditions pose a challenge for change detection classifiers. This paper proposes a new method of improving SAR image processing to produce higher quality difference images for the classification algorithms. The method is built on a neural network-based mapping transformation function that produces artificial SAR images from a location in the requested acquisition conditions. The inputs for the model are: previous SAR images from the location, imaging angle information from the SAR images, digital elevation model, and weather conditions. The method was tested with data from a location in North-East Finland by using Sentinel-1 SAR images from European Space Agency, weather data from Finnish Meteorological Institute, and a digital elevation model from National Land Survey of Finland. In order to verify the method, changes to the SAR images were simulated, and the performance of the proposed method was measured using experimentation where it gave substantial improvements to performance when compared to a more conventional method of creating difference images.
翻訳日:2023-04-03 15:10:11 公開日:2023-03-31
# 暗黙的に測定したODE-netの実装と(逆修正)誤差解析

Implementation and (Inverse Modified) Error Analysis for implicitly-templated ODE-nets ( http://arxiv.org/abs/2303.17824v1 )

ライセンス: Link先を確認
Aiqing Zhu, Tom Bertalan, Beibei Zhu, Yifa Tang and Ioannis G. Kevrekidis(参考訳) 暗黙的な数値初期値問題解法に基づいてテンプレート化されたODE-netを用いてデータから隠れたダイナミクスを学習する。 まず、解釈を容易にするために、未ロールの暗黙的スキームを用いてode-netの逆修正エラー解析を行う。 非ローリングな暗黙的スキームを用いてode-netをトレーニングすると、逆修正微分方程式(imde)の近似が返される。 さらに、このようなODE-netをトレーニングする際のパラメータ選択の理論的基盤を確立する一方、現在の戦略では、ODE-netの数値積分をブラックボックスとして扱うのが一般的である。 そこで, 学習過程において, 誤りのレベルを監視し, 暗黙的な解の繰り返し数に適応する適応アルゴリズムを定式化し, 未学習の近似の誤差が現在の学習損失より少ないようにした。 これは精度を維持しながら、トレーニングを加速するのに役立つ。 提案手法の利点を非適応解法と比較し,理論解析の有効性を検証するため,いくつかの数値実験を行った。 このアプローチは自然に、方程式に部分的に既知の物理項を組み込むことを可能にし、" `gray box" と呼ばれるものを生み出すことに留意する。

We focus on learning hidden dynamics from data using ODE-nets templated on implicit numerical initial value problem solvers. First, we perform Inverse Modified error analysis of the ODE-nets using unrolled implicit schemes for ease of interpretation. It is shown that training an ODE-net using an unrolled implicit scheme returns a close approximation of an Inverse Modified Differential Equation (IMDE). In addition, we establish a theoretical basis for hyper-parameter selection when training such ODE-nets, whereas current strategies usually treat numerical integration of ODE-nets as a black box. We thus formulate an adaptive algorithm which monitors the level of error and adapts the number of (unrolled) implicit solution iterations during the training process, so that the error of the unrolled approximation is less than the current learning loss. This helps accelerate training, while maintaining accuracy. Several numerical experiments are performed to demonstrate the advantages of the proposed algorithm compared to nonadaptive unrollings, and validate the theoretical analysis. We also note that this approach naturally allows for incorporating partially known physical terms in the equations, giving rise to what is termed ``gray box" identification.
翻訳日:2023-04-03 15:09:48 公開日:2023-03-31
# 連続応答を伴う順序回帰のための解釈可能なニューラルネットワークに基づく非比例オッズモデル

An interpretable neural network-based non-proportional odds model for ordinal regression with continuous response ( http://arxiv.org/abs/2303.17823v1 )

ライセンス: Link先を確認
Akifumi Okuno, Kazuharu Harada(参考訳) 本稿では,順序回帰に対して,応答変数が離散値だけでなく連続値も取り込むことができ,回帰係数は予測順序応答によって異なる,解釈可能なニューラルネットワークに基づく非比例オッズモデル(n$^3$pom)を提案する。 離散応答から直接回帰の線形係数を推定する従来の手法とは対照的に,応答を入力として線形係数を出力する非線形ニューラルネットワークを訓練する。 ニューラルネットワークにより、N$^3$POMは従来の順序回帰の解釈可能性を維持しながら柔軟性を持つ。 予測条件累積確率~(CCP)が共変量空間のユーザ指定領域上で局所的に単調性制約を満たすような十分条件を示すとともに、ニューラルネットワークを適切にトレーニングするための単調性保存確率(MPS)アルゴリズムも提供する。

This paper proposes an interpretable neural network-based non-proportional odds model (N$^3$POM) for ordinal regression, where the response variable can take not only discrete but also continuous values, and the regression coefficients vary depending on the predicting ordinal response. In contrast to conventional approaches estimating the linear coefficients of regression directly from the discrete response, we train a non-linear neural network that outputs the linear coefficients by taking the response as its input. By virtue of the neural network, N$^3$POM may have flexibility while preserving the interpretability of the conventional ordinal regression. We show a sufficient condition so that the predicted conditional cumulative probability~(CCP) satisfies the monotonicity constraint locally over a user-specified region in the covariate space; we also provide a monotonicity-preserving stochastic (MPS) algorithm for training the neural network adequately.
翻訳日:2023-04-03 15:09:28 公開日:2023-03-31
# 連続時間LQR問題に対する効率的なオフポリティ強化学習アルゴリズム

An Efficient Off-Policy Reinforcement Learning Algorithm for the Continuous-Time LQR Problem ( http://arxiv.org/abs/2303.17819v1 )

ライセンス: Link先を確認
Victor G. Lopez and Matthias A. M\"uller(参考訳) 本稿では,システムから測定した入力状態データのみを用いて,連続時間lqr問題を解決するためのオフポリシー強化学習アルゴリズムを提案する。 文献中の他のアルゴリズムと異なり,データ収集ステップ中に探索信号として,特定の持続的にエキサイティングな入力を使用することを提案する。 そして、この持続的に励起されたデータを用いて、我々のアルゴリズムにおける行列方程式の解は存在し、各反復において一意であることを保証する。 最適制御入力に対するアルゴリズムの収束性も証明されている。 さらに,シルベスター変換方程式の解として政策評価ステップを定式化し,その解の効率を高める。 最後に,測定データのみを用いてアルゴリズムを初期化するための安定化ポリシーを決定する手法を提案する。

In this paper, an off-policy reinforcement learning algorithm is designed to solve the continuous-time LQR problem using only input-state data measured from the system. Different from other algorithms in the literature, we propose the use of a specific persistently exciting input as the exploration signal during the data collection step. We then show that, using this persistently excited data, the solution of the matrix equation in our algorithm is guaranteed to exist and to be unique at every iteration. Convergence of the algorithm to the optimal control input is also proven. Moreover, we formulate the policy evaluation step as the solution of a Sylvester-transpose equation, which increases the efficiency of its solution. Finally, a method to determine a stabilizing policy to initialize the algorithm using only measured data is proposed.
翻訳日:2023-04-03 15:09:12 公開日:2023-03-31
# 3次元クラウド理解のための非対称並列点変換器APPT

APPT : Asymmetric Parallel Point Transformer for 3D Point Cloud Understanding ( http://arxiv.org/abs/2303.17815v1 )

ライセンス: Link先を確認
Hengjia Li, Tu Zheng, Zhihao Chi, Zheng Yang, Wenxiao Wang, Boxi Wu, Binbin Lin, Deng Cai(参考訳) トランスフォーマーベースのネットワークは、3Dポイントクラウド理解において素晴らしいパフォーマンスを達成した。 しかし、その多くは局所的な特徴の集約に重点を置いているが、グローバルな依存関係を直接モデル化することは無視されている。 さらに、ローカルコンポーネントやグローバルコンポーネントを効果的に組み込む方法も課題です。 これらの問題に対処するために,非対称並列点変換器(APPT)を提案する。 具体的には,グローバルな特徴を抽出し,有効受容場を拡大するためにグローバルなPivot Attentionを導入する。 さらに,局所情報とグローバル情報を効果的に統合するために,非対称並列構造を設計する。 これらの設計と組み合わせて、APPTはローカル詳細機能に集中しながら、ネットワーク全体を通して機能を取り込むことができる。 s3disの3d意味セマンティクスセグメンテーション,modelnet40の3d形状分類,shapenetの3d部分セグメンテーションなど,3dポイントクラウド理解のためのいくつかのベンチマークにおいて,本手法は先行手法よりも優れており,最先端の手法であることを示す。

Transformer-based networks have achieved impressive performance in 3D point cloud understanding. However, most of them concentrate on aggregating local features, but neglect to directly model global dependencies, which results in a limited effective receptive field. Besides, how to effectively incorporate local and global components also remains challenging. To tackle these problems, we propose Asymmetric Parallel Point Transformer (APPT). Specifically, we introduce Global Pivot Attention to extract global features and enlarge the effective receptive field. Moreover, we design the Asymmetric Parallel structure to effectively integrate local and global information. Combined with these designs, APPT is able to capture features globally throughout the entire network while focusing on local-detailed features. Extensive experiments show that our method outperforms the priors and achieves state-of-the-art on several benchmarks for 3D point cloud understanding, such as 3D semantic segmentation on S3DIS, 3D shape classification on ModelNet40, and 3D part segmentation on ShapeNet.
翻訳日:2023-04-03 15:08:59 公開日:2023-03-31
# 量子機械学習による弱雑音量子状態の複雑性解析

Complexity analysis of weakly noisy quantum states via quantum machine learning ( http://arxiv.org/abs/2303.17813v1 )

ライセンス: Link先を確認
Yusen Wu, Bujiao Wu, Yanqi Song, Xiao Yuan, Jens Eisert, Jingbo Wang(参考訳) フォールトトレラントな動作が可能な量子コンピュータは、古典的な計算モデルよりも証明可能な利点をもたらすことが期待されている。 しかし、ノイズの多い中間スケールの量子時代に量子的優位性が存在するかどうかという問題は根本的で難しい問題である。 この挑戦の根源は、ノイズの多い量子状態のパワーを探索し定量化することの難しさにある。 本研究では,ノイズ状態を生成するのに必要な最短の量子回路のサイズと定義した弱雑音状態の複雑性に着目した。 複雑性を分析するために,構造化量子ニューラルネットワークの固有接続性を利用する量子機械学習(qml)アルゴリズムを提案する。 提案したQMLアルゴリズムは,観測結果から弱雑音状態の複雑性を効率的に予測し,ノイズ量子計算のパワーを特徴付けるためのパラダイムシフトを示す。

Quantum computers capable of fault-tolerant operation are expected to provide provable advantages over classical computational models. However, the question of whether quantum advantages exist in the noisy intermediate-scale quantum era remains a fundamental and challenging problem. The root of this challenge lies in the difficulty of exploring and quantifying the power of noisy quantum states. In this work, we focus on the complexity of weakly noisy states, which we define as the size of the shortest quantum circuit required to prepare the noisy state. To analyze the complexity, we propose a quantum machine learning (QML) algorithm that exploits the intrinsic-connection property of structured quantum neural networks. The proposed QML algorithm enables efficiently predicting the complexity of weakly noisy states from measurement results, representing a paradigm shift in our ability to characterize the power of noisy quantum computation.
翻訳日:2023-04-03 15:08:40 公開日:2023-03-31
# グローバルローカルコンテキスト特徴を用いたゼロショット参照画像分割

Zero-shot Referring Image Segmentation with Global-Local Context Features ( http://arxiv.org/abs/2303.17811v1 )

ライセンス: Link先を確認
Seonghoon Yu, Paul Hongsuch Seo, Jeany Son(参考訳) 参照画像セグメンテーション(RIS)は、入力画像の領域に接する参照表現を与えられたセグメンテーションマスクを見つけることを目的とする。 しかし、このタスクのためのラベル付きデータセットの収集はコストと労力がかかることで悪名高い。 この問題を克服するために,CLIPから事前学習したクロスモーダル知識を利用した,シンプルで効果的なゼロショット参照画像セグメンテーション手法を提案する。 入力テキストに接地したセグメンテーションマスクを得るために,入力画像のグローバルおよびローカルな文脈情報をキャプチャするマスク誘導型ビジュアルエンコーダを提案する。 本手法は,市販マスクの提案手法から得られた事例マスクを利用して,細粒度Istanceレベルのグラウンドを分割することができる。 また、グローバル機能は入力式全体の複雑な文レベルの意味をキャプチャし、ローカル機能は依存構文解析器によって抽出されたターゲット名詞句に焦点を当てるグローバルローカルテキストエンコーダも導入する。 実験では,提案手法は,タスクのゼロショットベースラインや,弱教師付き参照表現セグメンテーションにおいても,かなりのマージンで性能を向上する。 私たちのコードはhttps://github.com/seonghoon-yu/zero-shot-risで利用可能です。

Referring image segmentation (RIS) aims to find a segmentation mask given a referring expression grounded to a region of the input image. Collecting labelled datasets for this task, however, is notoriously costly and labor-intensive. To overcome this issue, we propose a simple yet effective zero-shot referring image segmentation method by leveraging the pre-trained cross-modal knowledge from CLIP. In order to obtain segmentation masks grounded to the input text, we propose a mask-guided visual encoder that captures global and local contextual information of an input image. By utilizing instance masks obtained from off-the-shelf mask proposal techniques, our method is able to segment fine-detailed Istance-level groundings. We also introduce a global-local text encoder where the global feature captures complex sentence-level semantics of the entire input expression while the local feature focuses on the target noun phrase extracted by a dependency parser. In our experiments, the proposed method outperforms several zero-shot baselines of the task and even the weakly supervised referring expression segmentation method with substantial margins. Our code is available at https://github.com/Seonghoon-Yu/Zero-shot-RIS.
翻訳日:2023-04-03 15:08:26 公開日:2023-03-31
# 量子反復符号の破断点

Break-even point of the quantum repetition code ( http://arxiv.org/abs/2303.17810v1 )

ライセンス: Link先を確認
\'Aron Rozgonyi, G\'abor Sz\'echenyi(参考訳) 異なる量子ハードウェア上の量子コードベースのメモリによる量子ビットの寿命の向上は、フォールトトレラントな量子コンピューティングへの大きな一歩である。 理論的には、1つのアイドル量子ビットの寿命よりも長い任意の量子情報を保存する破れ点が、デファッシン時間制限システムにおける量子位相-フリップ繰り返し符号でも破れることを示す。 回路解析計算を適用し, 緩和, 劣化, 欠陥のある量子ゲートの存在下で, 位相フリップ符号の量子メモリとしての効率を決定する。 量子コンピューティングの現在のプラットフォームを考えると、分岐点に達するためにゲートエラー確率と量子エラー補正サイクルの最適繰り返し数を同定する。

Enhancing the lifetime of qubits with quantum code-based memories on different quantum hardware is a significant step towards fault-tolerant quantum computing. We theoretically show that the break-even point, i.e., preserving arbitrary quantum information longer than the lifetime of a single idle qubit, can be beaten even with the quantum phase-flip repetition code in a dephasing-time-limited system. Applying circuit-based analytical calculation, we determine the efficiency of the phase-flip code as a quantum memory in the presence of relaxation, dephasing, and faulty quantum gates. Considering current platforms for quantum computing, we identify the gate error probabilities and optimal repetition number of quantum error correction cycles to reach the break-even point.
翻訳日:2023-04-03 15:08:05 公開日:2023-03-31
# WebQAmGaze: マルチリンガルなWebカメラアイトラッキング-While-Readingデータセット

WebQAmGaze: A Multilingual Webcam Eye-Tracking-While-Reading Dataset ( http://arxiv.org/abs/2303.17876v1 )

ライセンス: Link先を確認
Tiago Ribeiro, Stephanie Brandl, Anders S{\o}gaard, Nora Hollenstein(参考訳) 我々は,公正かつ透明なNLPモデルの開発を支援するために,多言語で低コストな視線追跡読取データセットであるWebQAmGazeを開発した。 webqamgazeには、英語、スペイン語、ドイツ語のテキストを自然に読む332人のウェブカメラによる視線追跡データが含まれている。 参加者は5つのテキストからなる2つの読書タスク、通常読みと情報検索タスクを実行する。 データを前処理すると、関連するスパンの固定は、理解可能な質問に答える際の正当性を示すように見える。 また,高品質アイトラッキングデータに対して収集したデータの比較分析を行う。 その結果,Webcam-ETで得られた特徴と商用ET装置の特徴との間には適度な相関関係が認められた。 このデータはウェブカメラによる読書研究を前進させ、より安価でアクセスしやすいデータ収集の道を開くことができると考えている。 WebQAmGazeは、質問応答(QA)の背後にある認知過程を学び、これらの知見を言語理解の計算モデルに適用するのに有用である。

We create WebQAmGaze, a multilingual low-cost eye-tracking-while-reading dataset, designed to support the development of fair and transparent NLP models. WebQAmGaze includes webcam eye-tracking data from 332 participants naturally reading English, Spanish, and German texts. Each participant performs two reading tasks composed of five texts, a normal reading and an information-seeking task. After preprocessing the data, we find that fixations on relevant spans seem to indicate correctness when answering the comprehension questions. Additionally, we perform a comparative analysis of the data collected to high-quality eye-tracking data. The results show a moderate correlation between the features obtained with the webcam-ET compared to those of a commercial ET device. We believe this data can advance webcam-based reading studies and open a way to cheaper and more accessible data collection. WebQAmGaze is useful to learn about the cognitive processes behind question answering (QA) and to apply these insights to computational models of language understanding.
翻訳日:2023-04-03 15:02:22 公開日:2023-03-31
# glyphdraw: 画像合成モデルにおける漢字をコヒーレントに描く学習

GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models Coherently ( http://arxiv.org/abs/2303.17870v1 )

ライセンス: Link先を確認
Jian Ma, Mingjun Zhao, Chen Chen, Ruichen Wang, Di Niu, Haonan Lu, Xiaodong Lin(参考訳) 近年の言語誘導画像生成の分野におけるブレークスルーは、ユーザ指示に基づく高品質で多彩な画像の作成を可能にした。 合成性能は興味深いが、現在の画像生成モデルの1つの重要な制限は、特に漢字のような複雑なグリフ構造において、画像内でコヒーレントなテキストを生成する能力が不十分であることである。 本稿では,コヒーレントテキストによる画像生成能力を持つ画像生成モデルを内在化することを目的とした汎用学習フレームワークであるglyphdrawを提案する。 我々の知る限りでは、これは漢字の生成に対処する画像合成の分野における最初の作品である。 %で,まずOCR技術を用いて,漢字のイメージをトレーニングサンプルとして収集し,テキストや位置情報を補助情報として抽出した。 まず,画像テキストデータセットの構築戦略を高度に設計し,次に拡散型画像生成器を用いてモデルを構築し,ネットワーク構造を慎重に修正し,グリフと位置情報を用いて漢字の描画を学習できるようにした。 さらに,種々のトレーニング手法を用いて,破滅的忘れを防止し,モデルのオープンドメイン画像合成機能を維持する。 広範にわたる質的定量的実験により,提案手法が精度の高い漢字をプロンプトのように生成するだけでなく,自然に生成したテキストを背景にブレンドすることを示す。 https://1073521013.github.io/glyph-draw.github.ioを参照。

Recent breakthroughs in the field of language-guided image generation have yielded impressive achievements, enabling the creation of high-quality and diverse images based on user instructions. Although the synthesis performance is fascinating, one significant limitation of current image generation models is their insufficient ability to generate coherent text within images, particularly for complex glyph structures like Chinese characters. To address this problem, we introduce GlyphDraw, a general learning framework aiming at endowing image generation models with the capacity to generate images embedded with coherent text. To the best of our knowledge, this is the first work in the field of image synthesis to address the generation of Chinese characters. % we first adopt the OCR technique to collect images with Chinese characters as training samples, and extract the text and locations as auxiliary information. We first sophisticatedly design the image-text dataset's construction strategy, then build our model specifically on a diffusion-based image generator and carefully modify the network structure to allow the model to learn drawing Chinese characters with the help of glyph and position information. Furthermore, we maintain the model's open-domain image synthesis capability by preventing catastrophic forgetting by using a variety of training techniques. Extensive qualitative and quantitative experiments demonstrate that our method not only produces accurate Chinese characters as in prompts, but also naturally blends the generated text into the background. Please refer to https://1073521013.github.io/glyph-draw.github.io
翻訳日:2023-04-03 15:02:05 公開日:2023-03-31
# CAP-VSTNet:コンテンツ親和性保存型バーサタイルスタイル転送

CAP-VSTNet: Content Affinity Preserved Versatile Style Transfer ( http://arxiv.org/abs/2303.17867v1 )

ライセンス: Link先を確認
Linfeng Wen, Chengying Gao, Changqing Zou(参考訳) 機能やピクセル親和性を含むコンテンツ親和性損失は、フォトリアリスティックやビデオスタイル転送のアーティファクトにつながる主要な問題である。 本稿では,新しい可逆残差ネットワークと非バイアス線形変換モジュールで構成されるcap-vstnetという新しいフレームワークを提案する。 この可逆的残余ネットワークは、コンテンツ親和性を保持するだけでなく、従来の可逆的ネットワークとして冗長な情報を導入せず、より優れたスタイリングを容易にする。 線形変換によるピクセル親和性損失問題に対処可能なラプラシアントレーニングロスのマット化により,提案手法が適用可能であり,多彩なスタイル転送に有効である。 広範な実験により、CAP-VSTNetは最先端の手法と比較して質的で定量的な結果が得られることが示された。

Content affinity loss including feature and pixel affinity is a main problem which leads to artifacts in photorealistic and video style transfer. This paper proposes a new framework named CAP-VSTNet, which consists of a new reversible residual network and an unbiased linear transform module, for versatile style transfer. This reversible residual network can not only preserve content affinity but not introduce redundant information as traditional reversible networks, and hence facilitate better stylization. Empowered by Matting Laplacian training loss which can address the pixel affinity loss problem led by the linear transform, the proposed framework is applicable and effective on versatile style transfer. Extensive experiments show that CAP-VSTNet can produce better qualitative and quantitative results in comparison with the state-of-the-art methods.
翻訳日:2023-04-03 15:01:39 公開日:2023-03-31
# MapFormer: 事前変更情報による変更検出の強化

MapFormer: Boosting Change Detection by Using Pre-change Information ( http://arxiv.org/abs/2303.17859v1 )

ライセンス: Link先を確認
Maximilian Bernhard, Niklas Strau{\ss}, Matthias Schubert(参考訳) リモートセンシング画像における変化検出は、都市計画、災害管理、気候研究などの様々な応用に不可欠である。 しかし、意味的に変化した領域を識別する既存の方法は、地球表面の特徴を記述した既存の地図の形で意味情報の可用性を見落としている。 本稿では,この情報を両時間画像の変化検出に活用する。 潜在表現の連結による付加情報の統合は、最先端の変更検出方法よりも大幅に優れていることを示す。 そこで本研究では,バイテンポラル画像の隣の入力として事前変更意味情報を利用する条件変化検出のタスクを提案する。 余分な情報をフル活用するために,利用可能なセマンティック情報に基づいて特徴処理を行うマルチモーダル機能融合モジュールをベースとした新しいアーキテクチャであるMapFormerを提案する。 さらに、視覚表現の学習を導くために、教師付き横断的コントラスト損失を用いる。 提案手法は,dynamicearthnet と hrscd の2値変化 iou において,既存の変化検出手法を 11.7% と 18.4% で上回っている。 さらに,事前変更のセマンティック情報の品質に対するアプローチの頑健さと,事前変更画像の欠如を実証した。 コードは公開される予定だ。

Change detection in remote sensing imagery is essential for a variety of applications such as urban planning, disaster management, and climate research. However, existing methods for identifying semantically changed areas overlook the availability of semantic information in the form of existing maps describing features of the earth's surface. In this paper, we leverage this information for change detection in bi-temporal images. We show that the simple integration of the additional information via concatenation of latent representations suffices to significantly outperform state-of-the-art change detection methods. Motivated by this observation, we propose the new task of Conditional Change Detection, where pre-change semantic information is used as input next to bi-temporal images. To fully exploit the extra information, we propose MapFormer, a novel architecture based on a multi-modal feature fusion module that allows for feature processing conditioned on the available semantic information. We further employ a supervised, cross-modal contrastive loss to guide the learning of visual representations. Our approach outperforms existing change detection methods by an absolute 11.7% and 18.4% in terms of binary change IoU on DynamicEarthNet and HRSCD, respectively. Furthermore, we demonstrate the robustness of our approach to the quality of the pre-change semantic information and the absence pre-change imagery. The code will be made publicly available.
翻訳日:2023-04-03 15:01:23 公開日:2023-03-31
# AIはガンマ線天体物理学者を職から外せるか?

Can AI Put Gamma-Ray Astrophysicists Out of a Job? ( http://arxiv.org/abs/2303.17853v1 )

ライセンス: Link先を確認
Samuel Timothy Spencer, Vikas Joshi, Alison Mairi Wallace Mitchell(参考訳) 4月1日を記念する生成モデルをテーマとしたarXivの提出書のリターとして, パルサー風星雲を非存在画像型大気チェレンコフ望遠鏡(IACT)アレイで検出する論文を作成するために, 最先端の変圧器モデルの能力を評価する。 我々は、そのようなモデルが言語情報のみに基づいて天文観測やソースを解釈する能力を評価し、ピアレビュー中に不正に生成された科学論文を識別できる可能性を評価する(信頼できる生成モデルウォーターマーキングはこれらのツールにはまだデプロイされていない)。 天文学者としての我々の仕事は、当面安全であると結論づける。 この点から、ChatGPTとStable Diffusionに与えられたプロンプトはオレンジで示され、ChatGPTが生成したテキストは黒で示され、(人間)著者による分析は青で示される。

In what will likely be a litany of generative-model-themed arXiv submissions celebrating April the 1st, we evaluate the capacity of state-of-the-art transformer models to create a paper detailing the detection of a Pulsar Wind Nebula with a non-existent Imaging Atmospheric Cherenkov Telescope (IACT) Array. We do this to evaluate the ability of such models to interpret astronomical observations and sources based on language information alone, and to assess potential means by which fraudulently generated scientific papers could be identified during peer review (given that reliable generative model watermarking has yet to be deployed for these tools). We conclude that our jobs as astronomers are safe for the time being. From this point on, prompts given to ChatGPT and Stable Diffusion are shown in orange, text generated by ChatGPT is shown in black, whereas analysis by the (human) authors is in blue.
翻訳日:2023-04-03 15:01:04 公開日:2023-03-31
# 最大共分散展開回帰--点クラウドデータに対する新しい共変量に基づく多様体学習手法

Maximum Covariance Unfolding Regression: A Novel Covariate-based Manifold Learning Approach for Point Cloud Data ( http://arxiv.org/abs/2303.17852v1 )

ライセンス: Link先を確認
Qian Wang, Kamran Paynabar(参考訳) ポイントクラウドデータは、プロセス検査、モデリング、監視、最適化のための製造アプリケーションで広く使われている。 最先端のテンソル回帰技術は、一様格子上の測定結果をテンソルに形成できる構造化点雲データの解析に効果的に用いられている。 しかし、これらの手法は、しばしば多様体の形をした非構造化点クラウドデータを扱うことができない。 本稿では,説明的共変量との相関が最も高い点雲の低次元(ld)多様体を学習できる,最大共分散展開回帰という非線形次元低減手法を提案する。 このLD多様体は、プロセス変数に基づいた回帰モデリングとプロセス最適化に使用される。 提案法の性能は, シミュレーションにより評価し, ベンチマーク法と比較し, スチールブラケット製造を事例として検討した。

Point cloud data are widely used in manufacturing applications for process inspection, modeling, monitoring and optimization. The state-of-art tensor regression techniques have effectively been used for analysis of structured point cloud data, where the measurements on a uniform grid can be formed into a tensor. However, these techniques are not capable of handling unstructured point cloud data that are often in the form of manifolds. In this paper, we propose a nonlinear dimension reduction approach named Maximum Covariance Unfolding Regression that is able to learn the low-dimensional (LD) manifold of point clouds with the highest correlation with explanatory covariates. This LD manifold is then used for regression modeling and process optimization based on process variables. The performance of the proposed method is subsequently evaluated and compared with benchmark methods through simulations and a case study of steel bracket manufacturing.
翻訳日:2023-04-03 15:00:46 公開日:2023-03-31
# マクロ量子力学のためのソフト強磁性体の磁気浮上と高調波トラップ

Magnetic levitation and harmonic trapping of soft ferromagnets for macroscopic quantum mechanics ( http://arxiv.org/abs/2303.17847v1 )

ライセンス: Link先を確認
Maria Fuwa(参考訳) ソフト強磁性体の受動磁気浮上と3次元高調波トラップのためのシステムを提案する。 本プロトコルは垂直トラップにおける磁場勾配と水平トラップに対するマイスナー効果の有限サイズ効果を利用する。 数値的・解析的推定により, 本システムでは, q > 10^8 $ 以上の高い力学的 q-ファクタを許容し, 浮揚物体の量子制御が現在の技術の範囲内にあることを示す。 ソフト強磁性体の内部集合スピン励起の利用により、サブミリスケールの粒子を持つ量子力学的現象を実現できる。

We propose a system for passive magnetic levitation and three-dimensional harmonic trapping of soft ferromagnets. Our protocol utilizes the magnetic field gradient for vertical trapping, and the finite size effect of the Meissner effect for horizontal trapping. We provide numerical and analytical estimations of possible mechanical dissipations to show that our system allows high mechanical Q-factors above $ Q > 10^8 $, and quantum control of the levitated object is within reach of current technologies. The utilization of soft ferromagnet's internal collective spin excitation may allow quantum mechanical phenomena with particles as large as the sub-millimeter-scale.
翻訳日:2023-04-03 15:00:32 公開日:2023-03-31
# WSense: 軽量なヒューマンアクティビティ認識のためのロバストな特徴学習モジュール

WSense: A Robust Feature Learning Module for Lightweight Human Activity Recognition ( http://arxiv.org/abs/2303.17845v1 )

ライセンス: Link先を確認
Ayokunle Olalekan Ige, Mohd Halim Mohd Noor(参考訳) 近年,ウェアラブルセンサ信号から学習した特徴の質を向上させるために,圧縮励起などの様々なモジュールが提案されている。 しかし、これらのモジュールはパラメータ数を大きくすることが多いため、エンドデバイスに簡単にデプロイできる軽量なヒューマンアクティビティ認識モデルの構築には適していない。 本研究では,2つの1d cnnおよびglobal maxプーリング層を用いて,ウェアラブルセンサデータから類似した品質特徴を抽出し,スライディングウインドウの大きさに起因する行動認識モデルの差異を無視する機能学習モジュールwsenseを提案する。 加速度計 (wisdm) と加速度計, ジャイロスコープ, 磁力計 (pamap2) を各種スライディングウィンドウサイズで融合して得られたデータセット上で, cnn と convlstm の特徴学習パイプラインを用いて実験を行った。 合計で90,60 (960) の実験を行い、2つのデータセットのベースラインと既存のメソッドに対する WSense モジュールの検証を行った。 結果は、WSenseモジュールが、同様の品質特徴を学習するパイプラインを支援し、ベースラインと既存のモデルにおいて、すべてのスライディングウィンドウセグメンテーションで最小かつ均一なモデルサイズで性能を向上したことを示している。 コードはhttps://github.com/AOige/WSense.comで入手できる。

In recent times, various modules such as squeeze-and-excitation, and others have been proposed to improve the quality of features learned from wearable sensor signals. However, these modules often cause the number of parameters to be large, which is not suitable for building lightweight human activity recognition models which can be easily deployed on end devices. In this research, we propose a feature learning module, termed WSense, which uses two 1D CNN and global max pooling layers to extract similar quality features from wearable sensor data while ignoring the difference in activity recognition models caused by the size of the sliding window. Experiments were carried out using CNN and ConvLSTM feature learning pipelines on a dataset obtained with a single accelerometer (WISDM) and another obtained using the fusion of accelerometers, gyroscopes, and magnetometers (PAMAP2) under various sliding window sizes. A total of nine hundred sixty (960) experiments were conducted to validate the WSense module against baselines and existing methods on the two datasets. The results showed that the WSense module aided pipelines in learning similar quality features and outperformed the baselines and existing models with a minimal and uniform model size across all sliding window segmentations. The code is available at https://github.com/AOige/WSense.
翻訳日:2023-04-03 15:00:21 公開日:2023-03-31
# オブジェクトへのシェパーディングスロット:安定的でロバストなオブジェクト中心学習を目指して

Shepherding Slots to Objects: Towards Stable and Robust Object-Centric Learning ( http://arxiv.org/abs/2303.17842v1 )

ライセンス: Link先を確認
Jinwoo Kim, Janghyuk Choi, Ho-Jin Choi, Seon Joo Kim(参考訳) オブジェクト中心学習(OCL)は、シーンをオブジェクト中心の表現の集合として表現することで、シーンの一般的および構成的理解を促進する。 OCLは、マルチビュー画像やビデオデータセットにも拡張され、マルチイメージデータの幾何学的情報や時間的情報を利用して、様々なデータ駆動帰納バイアスを適用している。 シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。 したがって、誘導バイアスを適用することの難しさから、単一視点画像のOCLは依然として困難であり、オブジェクト中心表現の一貫性のない学習をもたらす。 そこで本稿では,S Hepherding (SLASH) を用いた単一視点画像のための新しいOCLフレームワークを提案する。 新しいモジュールである attention refining kernel (ark) と intermediate point predictor and encoder (ippe) はそれぞれ、バックグラウンドノイズによってスロットが邪魔にならないようにし、オブジェクト中心表現の学習を容易にするためにスロットが集中する場所を示す。 また,OCLに対して弱い半スーパービジョンアプローチを提案する一方,提案フレームワークは推論中にアシスタントアノテーションを使わずに使用できる。 実験により,提案手法はオブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現することを示す。 コードは \url{https://github.com/object-understanding/slash} で入手できる。

Object-centric learning (OCL) aspires general and compositional understanding of scenes by representing a scene as a collection of object-centric representations. OCL has also been extended to multi-view image and video datasets to apply various data-driven inductive biases by utilizing geometric or temporal information in the multi-image data. Single-view images carry less information about how to disentangle a given scene than videos or multi-view images do. Hence, owing to the difficulty of applying inductive biases, OCL for single-view images remains challenging, resulting in inconsistent learning of object-centric representation. To this end, we introduce a novel OCL framework for single-view images, SLot Attention via SHepherding (SLASH), which consists of two simple-yet-effective modules on top of Slot Attention. The new modules, Attention Refining Kernel (ARK) and Intermediate Point Predictor and Encoder (IPPE), respectively, prevent slots from being distracted by the background noise and indicate locations for slots to focus on to facilitate learning of object-centric representation. We also propose a weak semi-supervision approach for OCL, whilst our proposed framework can be used without any assistant annotation during the inference. Experiments show that our proposed method enables consistent learning of object-centric representation and achieves strong performance across four datasets. Code is available at \url{https://github.com/object-understanding/SLASH}.
翻訳日:2023-04-03 14:59:56 公開日:2023-03-31
# 弱監視学習のためのベンチマーク生成確率モデル

A Benchmark Generative Probabilistic Model for Weak Supervised Learning ( http://arxiv.org/abs/2303.17841v1 )

ライセンス: Link先を確認
Georgios Papadopoulos, Fran Silavong, Sean Moran(参考訳) マシンラーニングモデルのトレーニングに関連し、高品質なデータセットを見つけることは、実践者にとって大きなボトルネックである。 さらに、野心的な現実世界のユースケースに対処するためには、通常、データは教師付きモデルのトレーニングを容易にする高品質なアノテーションでラベル付けされる必要がある。 高品質なラベルでデータを手作業でラベル付けするのは、一般的には時間のかかる課題であり、マシンラーニングプロジェクトではボトルネックになることが多い。 Weak Supervised Learning (WSL) アプローチは、ヒューリスティックス、遠隔監視、知識ベースに基づく未学習データに近似ラベル(擬似ラベル)を割り当てる自動方法を提供することで、アノテーションの負担を軽減するために開発された。 確率的生成潜在変数モデル (PLVM) を用いて, 元のデータセットのヒューリスティックなラベリング表現を訓練し, 擬似ラベルを生成する精度, 高速かつコスト効率のよい方法を提案する。 PLVMは4つのデータセットにまたがって最先端のパフォーマンスを実現する。 例えば、クラス不均衡なSpuseデータセットでは、SnorkelよりもF1スコアが22%高い。 plvmはプラグイン・アンド・プレイ可能で、既存のwslフレームワーク(例えばsnorkel)に置き換えられるか、より複雑なアルゴリズムのベンチマークモデルとして使用できる。

Finding relevant and high-quality datasets to train machine learning models is a major bottleneck for practitioners. Furthermore, to address ambitious real-world use-cases there is usually the requirement that the data come labelled with high-quality annotations that can facilitate the training of a supervised model. Manually labelling data with high-quality labels is generally a time-consuming and challenging task and often this turns out to be the bottleneck in a machine learning project. Weak Supervised Learning (WSL) approaches have been developed to alleviate the annotation burden by offering an automatic way of assigning approximate labels (pseudo-labels) to unlabelled data based on heuristics, distant supervision and knowledge bases. We apply probabilistic generative latent variable models (PLVMs), trained on heuristic labelling representations of the original dataset, as an accurate, fast and cost-effective way to generate pseudo-labels. We show that the PLVMs achieve state-of-the-art performance across four datasets. For example, they achieve 22% points higher F1 score than Snorkel in the class-imbalanced Spouse dataset. PLVMs are plug-and-playable and are a drop-in replacement to existing WSL frameworks (e.g. Snorkel) or they can be used as benchmark models for more complicated algorithms, giving practitioners a compelling accuracy boost.
翻訳日:2023-04-03 14:59:30 公開日:2023-03-31
# 事前学習モデルを用いた深部画像クラスタリングの限界探索

Exploring the Limits of Deep Image Clustering using Pretrained Models ( http://arxiv.org/abs/2303.17896v1 )

ライセンス: Link先を確認
Nikolas Adaloglou and Felix Michels and Hamza Kalisch and Markus Kollmann(参考訳) 本稿では,ラベルを付けずに画像の分類を学習する一般的な手法を提案する。 私たちのアプローチでは,事前訓練された特徴空間の近傍が同じラベルを共有する可能性が高いという事実に基づいて,クラスタリングヘッドの自己蒸留訓練を行う。 本稿では,画像間の関連を学習するための新しい目的として,実例重み付けとともにポイントワイズ相互情報の変種を導入することを提案する。 提案手法は,事前学習した特徴空間の構造を効率的に活用しながら,偽陽性対の効果を弱めることができることを示す。 その結果、ImageNet と CIFAR100 でそれぞれ 6.1$\% と 12.2$\% のクラスタリング精度を 17 ドルの異なる事前訓練モデルで$k$-means で改善した。 最後に、自己教師付き事前トレーニングされたビジョントランスフォーマーを使用して、ImageNetのクラスタリング精度を61.6$\%にします。 コードはオープンソース化される。

We present a general methodology that learns to classify images without labels by leveraging pretrained feature extractors. Our approach involves self-distillation training of clustering heads, based on the fact that nearest neighbors in the pretrained feature space are likely to share the same label. We propose a novel objective to learn associations between images by introducing a variant of pointwise mutual information together with instance weighting. We demonstrate that the proposed objective is able to attenuate the effect of false positive pairs while efficiently exploiting the structure in the pretrained feature space. As a result, we improve the clustering accuracy over $k$-means on $17$ different pretrained models by $6.1$\% and $12.2$\% on ImageNet and CIFAR100, respectively. Finally, using self-supervised pretrained vision transformers we push the clustering accuracy on ImageNet to $61.6$\%. The code will be open-sourced.
翻訳日:2023-04-03 14:53:21 公開日:2023-03-31
# EA-BEV:3Dオブジェクト検出のためのエッジ認識型鳥のs-Eye-Viewプロジェクタ

EA-BEV: Edge-aware Bird' s-Eye-View Projector for 3D Object Detection ( http://arxiv.org/abs/2303.17895v1 )

ライセンス: Link先を確認
Haotian, Hu and Fanyi, Wang and Jingwen, Su and Laifeng, Hu and Tianpeng, Feng and Zhaokai, Zhang and Wangzhi, Zhang(参考訳) 近年,2Dカメラビューと3Dライダービューの特徴を,機能融合のためのBird's-Eye-View(BEV)に変換する,Lft-Splat-Shot-based (LSS-based) 3Dオブジェクト検出法が大幅に進歩している。 しかし、不正確な深さ推定(例えば「深さジャンプ」問題)はLSSベースの手法を開発するのに障害となる。 ディフ・ジャンプ」問題を緩和するため,我々はエッジアウェア・バードズ・ズ・アイ・ビュー(ea-bev)プロジェクタを提案した。 提案したエッジ対応深度融合モジュールと深度推定モジュールを結合することにより、EA-BEVプロジェクタがこの問題を解決し、深度管理を洗練させる。 さらに,大域深度情報と局所限界深度情報の学習を制限するため,疎度深度監視と勾配深度監視を提案する。 我々のEA-BEVプロジェクターは、LSSベースのオブジェクト検出モデルのためのプラグアンドプレイモジュールであり、ベースライン性能を効果的に改善する。 nuScenesベンチマークの有効性を示す。 提案したEA-BEVプロジェクタは、nuScenes 3Dオブジェクト検出ベンチマークとnuScenes BEVマップセグメンテーションベンチマークに基づいて、予測時間の無視可能な、最先端のLSSベースのベースラインを強化することができる。

In recent years, great progress has been made in the Lift-Splat-Shot-based (LSS-based) 3D object detection method, which converts features of 2D camera view and 3D lidar view to Bird's-Eye-View (BEV) for feature fusion. However, inaccurate depth estimation (e.g. the 'depth jump' problem) is an obstacle to develop LSS-based methods. To alleviate the 'depth jump' problem, we proposed Edge-Aware Bird's-Eye-View (EA-BEV) projector. By coupling proposed edge-aware depth fusion module and depth estimate module, the proposed EA-BEV projector solves the problem and enforces refined supervision on depth. Besides, we propose sparse depth supervision and gradient edge depth supervision, for constraining learning on global depth and local marginal depth information. Our EA-BEV projector is a plug-and-play module for any LSS-based 3D object detection models, and effectively improves the baseline performance. We demonstrate the effectiveness on the nuScenes benchmark. On the nuScenes 3D object detection validation dataset, our proposed EA-BEV projector can boost several state-of-the-art LLS-based baselines on nuScenes 3D object detection benchmark and nuScenes BEV map segmentation benchmark with negligible increment of inference time.
翻訳日:2023-04-03 14:53:05 公開日:2023-03-31
# 古典的および量子的決定項過程による臨床データインプテーションの改善

Improved clinical data imputation via classical and quantum determinantal point processes ( http://arxiv.org/abs/2303.17893v1 )

ライセンス: Link先を確認
Skander Kazdaghli, Iordanis Kerenidis, Jens Kieckbusch and Philip Teare(参考訳) 医療データ不足が典型的であり,その信頼性が極めて重要である,生命科学領域を含む機械学習実践者にとって,インプットデータは重要な問題である。 現在、臨床データの計算に標準的アプローチは存在せず、広く使われているアルゴリズムは下流分類にばらつきをもたらす。 本稿では,MICEやMissForestといった多変量帰納法(多変量帰納法)を普及させる決定点過程に基づく新しい計算法を提案する。 その利点は2つある:下流分類の精度の向上によって示される含意データの質を改善すること、そして分類結果からばらつきを取り除く決定論的で信頼性の高い含意を提供すること。 本手法の利点を, 合成および実際の臨床データに対して広範囲なインプテーションを行うことで実験的に実証する。 また,そのような量子アルゴリズムは,古典的手法に対する計算上の優位性を提供するため,決定的点過程を実装するための量子回路も開発する。 我々は、最先端のIBM量子プロセッサ上での小規模計算タスクに対して最大10キュービットの競合結果を示す。 古典的・量子的手法は臨床データ予測モデルの有効性とロバスト性を改善し、より良く信頼性の高いデータインプットを提供する。 これらの改善は、高い精度が重要である設定、例えば、我々のアプローチが予測に対する高い信頼性を提供する薬品臨床試験において、大きな価値をもたらす可能性がある。

Imputing data is a critical issue for machine learning practitioners, including in the life sciences domain, where missing clinical data is a typical situation and the reliability of the imputation is of great importance. Currently, there is no canonical approach for imputation of clinical data and widely used algorithms introduce variance in the downstream classification. Here we propose novel imputation methods based on determinantal point processes that enhance popular techniques such as the Multivariate Imputation by Chained Equations (MICE) and MissForest. Their advantages are two-fold: improving the quality of the imputed data demonstrated by increased accuracy of the downstream classification; and providing deterministic and reliable imputations that remove the variance from the classification results. We experimentally demonstrate the advantages of our methods by performing extensive imputations on synthetic and real clinical data. We also develop quantum circuits for implementing determinantal point processes, since such quantum algorithms provide a computational advantage with respect to classical ones. We demonstrate competitive results with up to ten qubits for small-scale imputation tasks on a state-of-the-art IBM quantum processor. Our classical and quantum methods improve the effectiveness and robustness of clinical data prediction modeling by providing better and more reliable data imputations. These improvements can add significant value in settings where where high precision is critical, such as in pharmaceutical drug trials where our approach can provide higher confidence in the predictions made.
翻訳日:2023-04-03 14:52:34 公開日:2023-03-31
# 区間論理テンソルネットワーク

Interval Logic Tensor Networks ( http://arxiv.org/abs/2303.17892v1 )

ライセンス: Link先を確認
Samy Badreddine and Gianluca Apriceno and Andrea Passerini and Luciano Serafini(参考訳) 本稿では、実データ列を用いて、逐次特性(トレース)やイベント特性などの知識を解釈する2種類の論理であるInterval Real Logic(IRL)を紹介する。 本研究では, ファジィ論理, 台形ファジィ区間を用いた事象継続時間, および区間間の関係を用いたファジィ時間関係を解釈する。 IRLを介して勾配を伝播させることで学習するニューロシンボリックシステムであるInterval Logic Tensor Networks (ILTN)を提案する。 効果的な学習を支援するため、ILTNはソフトプラスアクティベーションを用いてファジィ間隔とIRLの時間的関係を円滑に定義した。 ILTNはIRLで表現された知識を、そのファジィ持続時間を予測するためにイベントの推論を必要とする合成タスクでうまく活用できることを示す。 本システムでは,事象を背景の時間的知識に適合させることができる。

In this paper, we introduce Interval Real Logic (IRL), a two-sorted logic that interprets knowledge such as sequential properties (traces) and event properties using sequences of real-featured data. We interpret connectives using fuzzy logic, event durations using trapezoidal fuzzy intervals, and fuzzy temporal relations using relationships between the intervals' areas. We propose Interval Logic Tensor Networks (ILTN), a neuro-symbolic system that learns by propagating gradients through IRL. In order to support effective learning, ILTN defines smoothened versions of the fuzzy intervals and temporal relations of IRL using softplus activations. We show that ILTN can successfully leverage knowledge expressed in IRL in synthetic tasks that require reasoning about events to predict their fuzzy durations. Our results show that the system is capable of making events compliant with background temporal knowledge.
翻訳日:2023-04-03 14:52:11 公開日:2023-03-31
# 局所制御型偏光投影を用いた騙し偏光に基づく視覚

Fooling Polarization-based Vision using Locally Controllable Polarizing Projection ( http://arxiv.org/abs/2303.17890v1 )

ライセンス: Link先を確認
Zhuoxiao Li, Zhihang Zhong, Shohei Nobuhara, Ko Nishino, Yinqiang Zheng(参考訳) 偏光は、表面形状、材料、照明および視光幾何学に関する豊富な情報を符号化する光の基本特性である。 コンピュータビジョンコミュニティは、偏光データ取得をこれまで以上に容易にするシングルチップモノ/カラー偏光センサーの出現によって、反射除去、形状から偏光、透明な物体セグメンテーション、カラーコンスタンスといった偏光ベースの視覚応用の花を目撃している。 しかし、偏光に基づく視覚は敵攻撃に弱いか? もしそうなら、人間の目で認識されることなく、物理的な世界でこれらの敵対攻撃を実現することができるだろうか? 本稿では、RGBベースのビジョンよりも深刻な偏光ベースのビジョンの脆弱性について、コミュニティに警告する。 市販のLCDプロジェクタを適応させることにより,ガラスの偏光と色配向に対する最先端の偏光に基づく視覚アルゴリズムにうまく活用できる局所制御可能な偏光投影を実現する。 常に攻撃効果と目視能力のトレードオフに苦しむrgbベースの視覚に対する既存の物理的攻撃と比較すると、偏光投射に基づく敵対的な攻撃者は接触なく、視覚的に知覚できない。 これは偏光に基づく視界に前例のないリスクをもたらし、これは単色領域と三色領域の両方において、注意を払うべきであり、対策を考慮すべきである。

Polarization is a fundamental property of light that encodes abundant information regarding surface shape, material, illumination and viewing geometry. The computer vision community has witnessed a blossom of polarization-based vision applications, such as reflection removal, shape-from-polarization, transparent object segmentation and color constancy, partially due to the emergence of single-chip mono/color polarization sensors that make polarization data acquisition easier than ever. However, is polarization-based vision vulnerable to adversarial attacks? If so, is that possible to realize these adversarial attacks in the physical world, without being perceived by human eyes? In this paper, we warn the community of the vulnerability of polarization-based vision, which can be more serious than RGB-based vision. By adapting a commercial LCD projector, we achieve locally controllable polarizing projection, which is successfully utilized to fool state-of-the-art polarization-based vision algorithms for glass segmentation and color constancy. Compared with existing physical attacks on RGB-based vision, which always suffer from the trade-off between attack efficacy and eye conceivability, the adversarial attackers based on polarizing projection are contact-free and visually imperceptible, since naked human eyes can rarely perceive the difference of viciously manipulated polarizing light and ordinary illumination. This poses unprecedented risks on polarization-based vision, both in the monochromatic and trichromatic domain, for which due attentions should be paid and counter measures be considered.
翻訳日:2023-04-03 14:51:52 公開日:2023-03-31
# Nesterovのモーメントと分散原理成分分析によるワイヤレスフェデレーション学習の高速化

Accelerating Wireless Federated Learning via Nesterov's Momentum and Distributed Principle Component Analysis ( http://arxiv.org/abs/2303.17885v1 )

ライセンス: Link先を確認
Yanjie Dong, Luya Wang, Yuanfang Chi, Jia Wang, Haijun Zhang, Fei Richard Yu, Victor C. M. Leung, Xiping Hu(参考訳) サーバとワーカーが直交無線チャネルを介して暗号化されていない情報を交換できる無線フェデレーション学習システムについて検討する。 作業者は帯域幅制限チャンネルを介してローカル勾配をサーバに頻繁にアップロードするので、作業者からサーバへのアップリンク送信は通信ボトルネックとなる。 そのため、ワンショット分散原理成分分析(PCA)を利用して、アップロードした勾配の寸法を小さくし、通信ボトルネックを緩和する。 低次元の勾配とネステロフの運動量に基づいて,pca-based wireless federated learning (pca-wfl) アルゴリズムとその高速化版(pca-awfl)を提案する。 非凸損失関数に対しては、PCA-WFLおよびPCA-AWFLアルゴリズムの収束に対するシステムハイパーパラメータの影響を定量化する有限時間解析を行う。 PCA-AWFLアルゴリズムは理論上PCA-WFLアルゴリズムよりも早く収束することが証明されている。 さらに,PCA-WFLアルゴリズムとPCA-AWFLアルゴリズムの収束速度は,バニラ勾配勾配アルゴリズム上での作業者数に対する線形スピードアップを定量的に示す。 提案したPCA-WFLアルゴリズムとPCA-AWFLアルゴリズムのベンチマークによる収束率の向上を示すために,数値計算結果を用いた。

A wireless federated learning system is investigated by allowing a server and workers to exchange uncoded information via orthogonal wireless channels. Since the workers frequently upload local gradients to the server via bandwidth-limited channels, the uplink transmission from the workers to the server becomes a communication bottleneck. Therefore, a one-shot distributed principle component analysis (PCA) is leveraged to reduce the dimension of uploaded gradients such that the communication bottleneck is relieved. A PCA-based wireless federated learning (PCA-WFL) algorithm and its accelerated version (i.e., PCA-AWFL) are proposed based on the low-dimensional gradients and the Nesterov's momentum. For the non-convex loss functions, a finite-time analysis is performed to quantify the impacts of system hyper-parameters on the convergence of the PCA-WFL and PCA-AWFL algorithms. The PCA-AWFL algorithm is theoretically certified to converge faster than the PCA-WFL algorithm. Besides, the convergence rates of PCA-WFL and PCA-AWFL algorithms quantitatively reveal the linear speedup with respect to the number of workers over the vanilla gradient descent algorithm. Numerical results are used to demonstrate the improved convergence rates of the proposed PCA-WFL and PCA-AWFL algorithms over the benchmarks.
翻訳日:2023-04-03 14:51:23 公開日:2023-03-31
# 古典的駆動場調整による開放型量子電池の効率向上

Enhancing the efficiency of open quantum batteries via adjusting the classical driving field ( http://arxiv.org/abs/2303.17884v1 )

ライセンス: Link先を確認
Maryam Hadipour, Soroush Haseli(参考訳) 量子バッテリ(quantum battery)とは、量子力学の原理によって制御される方法でエネルギーを貯蔵し放出することができる量子粒子からなるシステムを指す。 オープン量子電池の研究は、現実世界の量子システムが環境から完全に隔離されることがほとんどないという事実に動機づけられている。 オープン量子電池の研究における重要な課題の1つは、バッテリと環境の間の複雑な相互作用を正確に捉える理論モデルを開発することである。 オープン量子電池の研究の目的は、環境騒音やその他のデコヒーレンス源が存在する場合でも、高効率で信頼性でエネルギーを貯蔵し放出できる量子デバイスの構築と運用のための実用的な方法を開発することである。 散逸環境の影響下での開放型量子電池の帯電過程について検討する。 本研究では, 従来の駆動場が開放型量子電池の帯電過程に及ぼす影響について検討する。 古典的な駆動フィールドは電池の充電と放電の操作に使用することができ、性能が向上し効率が向上する。 また、開量子バッテリの効率は、量子ビットと古典的駆動場、キャビティの中央周波数と古典的駆動場との間のデチューニングに依存することも示される。

In the context of quantum information, a quantum battery refers to a system composed of quantum particles that can store and release energy in a way that is governed by the principles of quantum mechanics. The study of open quantum batteries is motivated by the fact that real-world quantum systems are almost never perfectly isolated from their environment. One important challenge in the study of open quantum batteries is to develop theoretical models that accurately capture the complex interactions between the battery and its environment. the goal of studying open quantum batteries is to develop practical methods for building and operating quantum devices that can store and release energy with high efficiency and reliability, even in the presence of environmental noise and other sources of decoherence. The charging process of open quantum batteries under the influence of dissipative environment will be studied. In this Work, the effect of the classical driving field on the charging process of open quantum batteries will be investigated. The classical driving field can be used to manipulate the charging and discharging process of the battery, leading to enhanced performance and improved efficiency. It also will be showed that the efficiency of open quantum batteries depends on detuning between the qubit and the classical driving field and central frequency of the cavity and the classical driving field.
翻訳日:2023-04-03 14:51:01 公開日:2023-03-31
# デュアルアテンション変換器による視覚異常検出と識別フロー

Visual Anomaly Detection via Dual-Attention Transformer and Discriminative Flow ( http://arxiv.org/abs/2303.17882v1 )

ライセンス: Link先を確認
Haiming Yao, Wei Luo, Wenyong Yu(参考訳) 本稿では,視覚異常検出のための最新技術であるDual-Atention Transformer and Discriminative Flow(DADF)フレームワークについて紹介する。 通常の知識のみに基づいて、視覚異常検出は産業シナリオに広く応用され、注目を集めている。 しかし、既存のほとんどのメソッドは要件を満たしていない。 対照的に、DTDFは、まずトレーニング済みネットワークを利用して、マルチスケールの事前埋め込みを取得し、続いて、自己注意機構とメモリアテンションを兼ね備えたビジョントランスフォーマーを開発し、シーケンシャルおよびノーマルティフィケーションアソシエーションによる事前埋め込みの2段階再構築を実現している。 さらに,各規模における前処理と再建処理の連立分布の識別可能性を確立するために,正規化フローを用いることを提案する。 DADFは、Mvtec AD上の画像/画素AUROCの98.3/98.4、Mvtec LOCO ADベンチマーク上の画像AUROCの83.7、画素sPROの67.4を達成し、提案手法の有効性を実証した。

In this paper, we introduce the novel state-of-the-art Dual-attention Transformer and Discriminative Flow (DADF) framework for visual anomaly detection. Based on only normal knowledge, visual anomaly detection has wide applications in industrial scenarios and has attracted significant attention. However, most existing methods fail to meet the requirements. In contrast, the proposed DTDF presents a new paradigm: it firstly leverages a pre-trained network to acquire multi-scale prior embeddings, followed by the development of a vision Transformer with dual attention mechanisms, namely self-attention and memorial-attention, to achieve two-level reconstruction for prior embeddings with the sequential and normality association. Additionally, we propose using normalizing flow to establish discriminative likelihood for the joint distribution of prior and reconstructions at each scale. The DADF achieves 98.3/98.4 of image/pixel AUROC on Mvtec AD; 83.7 of image AUROC and 67.4 of pixel sPRO on Mvtec LOCO AD benchmarks, demonstrating the effectiveness of our proposed approach.
翻訳日:2023-04-03 14:50:39 公開日:2023-03-31
# CoSMo: 条件付きプロセスシミュレーションモデルを実装するフレームワーク

CoSMo: a Framework for Implementing Conditioned Process Simulation Models ( http://arxiv.org/abs/2303.17879v1 )

ライセンス: Link先を確認
Rafael S. Oyamada and Gabriel M. Tavares and Paolo Ceravolo(参考訳) プロセスシミュレーションはプロセスマイニングの分析ツールであり、ユーザは変更の影響を計測し、損失を防ぎ、リスクやコストなしでプロセスを更新することができる。 文献では、いくつかのプロセスシミュレーション技術が利用可能であり、通常は特定のイベントログから発見されたプロセスモデルに基づいて構築される。 それぞれのアプローチには強みと限界があります。 前者は制御フローに制限されるが、後者はより解釈可能であるが、後者は自然では解釈できないが、大きなイベントログに対してより一般化能力を持つ。 ディープラーニングのアプローチによって達成された優れたパフォーマンスにもかかわらず、実際のシナリオに適用し、ユーザに価値を生み出すのは相応しいものではない。 この問題は、主に彼らの確率性は制御が難しいためである。 この問題に対処するために,ディープラーニングに基づくプロセスシミュレーションモデルを実装するためのCoSMoフレームワークを提案する。 このフレームワークは、ディープニューラルネットワークの学習フェーズを条件付けすることで、制約を満たすイベントログをシミュレートすることができる。 実験を通して、シミュレーションは制御フローとデータフローの両方の観点から検証され、与えられた条件を満たしながらケースをシミュレートするフレームワークの能力を示す。

Process simulation is an analysis tool in process mining that allows users to measure the impact of changes, prevent losses, and update the process without risks or costs. In the literature, several process simulation techniques are available and they are usually built upon process models discovered from a given event log or learned via deep learning. Each group of approaches has its own strengths and limitations. The former is usually restricted to the control-flow but it is more interpretable, whereas the latter is not interpretable by nature but has a greater generalization capability on large event logs. Despite the great performance achieved by deep learning approaches, they are still not suitable to be applied to real scenarios and generate value for users. This issue is mainly due to fact their stochasticity is hard to control. To address this problem, we propose the CoSMo framework for implementing process simulation models fully based on deep learning. This framework enables simulating event logs that satisfy a constraint by conditioning the learning phase of a deep neural network. Throughout experiments, the simulation is validated from both control-flow and data-flow perspectives, demonstrating the proposed framework's capability of simulating cases while satisfying imposed conditions.
翻訳日:2023-04-03 14:50:18 公開日:2023-03-31
# TinyML深部ニューラルネットワーク推論におけるメモリ最適化のための融合深度タイリング

Fused Depthwise Tiling for Memory Optimization in TinyML Deep Neural Network Inference ( http://arxiv.org/abs/2303.17878v1 )

ライセンス: Link先を確認
Rafael Stahl, Daniel Mueller-Gritschneder, Ulf Schlichtmann(参考訳) ディープニューラルネットワーク(DNN)推論のメモリ最適化は、小さな低消費電力マイクロコントローラへのDNN推論タスクのデプロイを指すTinyMLの出現により、高い関連性を得る。 オーディオキーワード検出やレーダーベースのジェスチャー認識などのアプリケーションは、DNN推論ではアクティベーションやその他の中間データを格納するために大きな実行時バッファを必要とするため、そのような小さなデバイス上でのメモリ制限によって非常に制限される。 本稿では,DNNのメモリ最適化のためのFDT(Fused Depthwise Tiling)手法を提案する。 fdtは、畳み込みにフォーカスした既存のティリングメソッドよりも、幅広いネットワーク層に適用できる。 それまで不可能だったモデルのメモリを減らすことで、tinymlメモリの最適化を大幅に改善し、既存のメソッドで高い実行時間オーバーヘッドを示すモデルに代替設計ポイントを提供する。 最善のティリング構成を特定するために,fdtと既存のティリング手法を完全自動化した方法で適用し,メモリ内のバッファレイアウトのスケジューリングと計画を含む,新しいパス発見手法を用いたエンド・ツー・エンドフローを提案する。 7つの評価モデルのうち、fdtは2つのモデルで76.2%と18.1%という大きなメモリ削減を達成した。 他の2つのモデルは、既存のメソッドでかなりの実行時間のオーバーヘッドを示し、fdtはオーバーヘッドなくメモリ節約の少ない代替設計ポイントを提供した。

Memory optimization for deep neural network (DNN) inference gains high relevance with the emergence of TinyML, which refers to the deployment of DNN inference tasks on tiny, low-power microcontrollers. Applications such as audio keyword detection or radar-based gesture recognition are heavily constrained by the limited memory on such tiny devices because DNN inference requires large intermediate run-time buffers to store activations and other intermediate data, which leads to high memory usage. In this paper, we propose a new Fused Depthwise Tiling (FDT) method for the memory optimization of DNNs, which, compared to existing tiling methods, reduces memory usage without inducing any run time overhead. FDT applies to a larger variety of network layers than existing tiling methods that focus on convolutions. It improves TinyML memory optimization significantly by reducing memory of models where this was not possible before and additionally providing alternative design points for models that show high run time overhead with existing methods. In order to identify the best tiling configuration, an end-to-end flow with a new path discovery method is proposed, which applies FDT and existing tiling methods in a fully automated way, including the scheduling of the operations and planning of the layout of buffers in memory. Out of seven evaluated models, FDT achieved significant memory reduction for two models by 76.2% and 18.1% where existing tiling methods could not be applied. Two other models showed a significant run time overhead with existing methods and FDT provided alternative design points with no overhead but reduced memory savings.
翻訳日:2023-04-03 14:49:59 公開日:2023-03-31
# 中国語攻撃言語検出のためのクロスカルチャー変換学習

Cross-Cultural Transfer Learning for Chinese Offensive Language Detection ( http://arxiv.org/abs/2303.17927v1 )

ライセンス: Link先を確認
Li Zhou, Laura Cabello, Yong Cao, Daniel Hershcovich(参考訳) 攻撃的言語の検出は難しい課題である。 語彙的、構文的、意味的な違いに加えて、文化的規範やセンシティビティといった実用的側面は、この文脈で特に関係するが、大きく異なる。 本稿では,中国語の攻撃的言語検出を対象とし,異文化,特に韓国語と英語からの攻撃的言語検出データを用いた移動学習の影響について検討する。 また, 言語モデル(LM)の伝達性に悪影響を及ぼす要因として, 各種の文化データに基づいて訓練されたLMが, 中国における攻撃的言語検出の異なる特徴に敏感であることがわかった。 しかし, 少数の学習シナリオでは, 限られた資源で非英語攻撃的言語検出に有望な可能性を示す。 本研究は,攻撃的言語検出と包括的デジタル空間の促進における異文化間伝達学習の重要性を強調した。

Detecting offensive language is a challenging task. Generalizing across different cultures and languages becomes even more challenging: besides lexical, syntactic and semantic differences, pragmatic aspects such as cultural norms and sensitivities, which are particularly relevant in this context, vary greatly. In this paper, we target Chinese offensive language detection and aim to investigate the impact of transfer learning using offensive language detection data from different cultural backgrounds, specifically Korean and English. We find that culture-specific biases in what is considered offensive negatively impact the transferability of language models (LMs) and that LMs trained on diverse cultural data are sensitive to different features in Chinese offensive language detection. In a few-shot learning scenario, however, our study shows promising prospects for non-English offensive language detection with limited resources. Our findings highlight the importance of cross-cultural transfer learning in improving offensive language detection and promoting inclusive digital spaces.
翻訳日:2023-04-03 14:44:20 公開日:2023-03-31
# マルチレイヤパーセプトロンを超えて - ニューラルネットワークの複雑なトポロジを探る

Beyond Multilayer Perceptrons: Investigating Complex Topologies in Neural Networks ( http://arxiv.org/abs/2303.17925v1 )

ライセンス: Link先を確認
Tommaso Boccato, Matteo Ferrante, Andrea Duggento, Nicola Toschi(参考訳) 本研究では,ニューラルネットワーク(ANN)の近似能力に対するネットワークトポロジの影響について検討し,特に複雑なトポロジに着目した。 本稿では,Barab\'asi-Albert,Erd\H{o}s-R\'enyi,Watts-Strogatz,Multilayer perceptrons (MLPs)など,様々なトポロジに基づく複雑なANNの構築手法を提案する。 構築されたネットワークは、タスクの難易度とノイズのレベルが異なる多様体学習生成器から生成された合成データセット上で評価される。 以上の結果から,複雑なトポロジは従来のmlpに比べて高い拡散率で優れた性能をもたらすことが明らかとなった。 この性能上の利点は、基盤となるターゲット関数の構成性を利用する複雑なネットワークの能力にある。 しかし、この利点は、フォワードパス計算時間の増加とグラフの損傷に対するロバスト性低下によるものである。 さらに,様々なトポロジ特性とモデル性能の関係について検討する。 解析の結果,ネットワークトポロジが近似能力に与える影響は,個々のトポロジカル属性との単純な相関よりも複雑である可能性が示唆された。 本研究は、ANNの性能向上のための複雑なトポロジの可能性に光を当て、複数のトポロジ特性間の相互作用とモデル性能への影響を探求する将来の研究基盤を提供する。

In this study, we explore the impact of network topology on the approximation capabilities of artificial neural networks (ANNs), with a particular focus on complex topologies. We propose a novel methodology for constructing complex ANNs based on various topologies, including Barab\'asi-Albert, Erd\H{o}s-R\'enyi, Watts-Strogatz, and multilayer perceptrons (MLPs). The constructed networks are evaluated on synthetic datasets generated from manifold learning generators, with varying levels of task difficulty and noise. Our findings reveal that complex topologies lead to superior performance in high-difficulty regimes compared to traditional MLPs. This performance advantage is attributed to the ability of complex networks to exploit the compositionality of the underlying target function. However, this benefit comes at the cost of increased forward-pass computation time and reduced robustness to graph damage. Additionally, we investigate the relationship between various topological attributes and model performance. Our analysis shows that no single attribute can account for the observed performance differences, suggesting that the influence of network topology on approximation capabilities may be more intricate than a simple correlation with individual topological attributes. Our study sheds light on the potential of complex topologies for enhancing the performance of ANNs and provides a foundation for future research exploring the interplay between multiple topological attributes and their impact on model performance.
翻訳日:2023-04-03 14:44:04 公開日:2023-03-31
# IC-FPS:3Dポイントベースオブジェクト検出のためのインスタンスセントロイド高速点サンプリングモジュール

IC-FPS: Instance-Centroid Faster Point Sampling Module for 3D Point-base Object Detection ( http://arxiv.org/abs/2303.17921v1 )

ライセンス: Link先を確認
Hu Haotian, Wang Fanyi, Su Jingwen, Gao Shiyu, Zhang Zhiwang(参考訳) 3dオブジェクト検出は、自動運転とロボティクスにおいて最も重要なタスクの1つだ。 本研究は,大規模クラウド上でのポイントベース手法の低効率化に焦点をあてる。 既存のポイントベース手法では、ダウンサンプリングのfarthest point sampling (fps)戦略を採用している。 効率を向上させるために,我々は,非常に面倒な第1のSet Abstraction (SA) レイヤを効果的に置き換える新しい Instance-Centroid Faster Point Smpling Module (IC-FPS) を提案する。 IC-FPSモジュールは、ローカルな特徴拡散に基づくバックグラウンドポイントフィルタ(LFDBF)とCentroid-Instance Smpling Strategy(CISS)の2つの方法で構成されている。 lfdbfはほとんどの無効なバックグラウンドポイントを除外するために構築され、cissはfps戦略を高速サンプリングセンタロイドとインスタンスポイントで置き換える。 IC-FPSモジュールはほとんど全ての点ベースのモデルに挿入できる。 複数の公開ベンチマークでの大規模な実験はIC-FPSの優位性を示している。 Waymoデータセットでは、提案モジュールはベースラインモデルの性能を大幅に改善し、推論速度を3.8倍に加速する。 大規模ポイントクラウドシナリオにおけるポイントベースモデルのリアルタイム検出が初めて実現される。

3D object detection is one of the most important tasks in autonomous driving and robotics. Our research focuses on tackling low efficiency issue of point-based methods on large-scale point clouds. Existing point-based methods adopt farthest point sampling (FPS) strategy for downsampling, which is computationally expensive in terms of inference time and memory consumption when the number of point cloud increases. In order to improve efficiency, we propose a novel Instance-Centroid Faster Point Sampling Module (IC-FPS) , which effectively replaces the first Set Abstraction (SA) layer that is extremely tedious. IC-FPS module is comprised of two methods, local feature diffusion based background point filter (LFDBF) and Centroid-Instance Sampling Strategy (CISS). LFDBF is constructed to exclude most invalid background points, while CISS substitutes FPS strategy by fast sampling centroids and instance points. IC-FPS module can be inserted to almost every point-based models. Extensive experiments on multiple public benchmarks have demonstrated the superiority of IC-FPS. On Waymo dataset, the proposed module significantly improves performance of baseline model and accelerates inference speed by 3.8 times. For the first time, real-time detection of point-based models in large-scale point cloud scenario is realized.
翻訳日:2023-04-03 14:43:35 公開日:2023-03-31
# 上顎洞における副鼻腔奇形分類のための複数例のセンセンシング

Multiple Instance Ensembling For Paranasal Anomaly Classification In The Maxillary Sinus ( http://arxiv.org/abs/2303.17915v1 )

ライセンス: Link先を確認
Debayan Bhattacharya, Finn Behrendt, Benjamin Tobias Becker, Dirk Beyersdorff, Elina Petersen, Marvin Petersen, Bastian Cheng, Dennis Eggert, Christian Betz, Anna Sophie Hoffmann, Alexander Schlaefer(参考訳) 副鼻腔奇形は定期的な放射線スクリーニング中に発見され、様々な形態的特徴を持つ。 この多様性により、特に限られたデータセットを扱う場合、畳み込みニューラルネットワーク(CNN)がこれらの異常を正確に分類することが難しくなる。 さらに、現在、副鼻腔異常分類へのアプローチは、一度に一つの異常を特定することに制約されている。 これらの課題は、この分野でさらなる研究と開発を必要としている。 本研究では,3次元畳み込みニューラルネットワーク(CNN)を用いて,正常な上顎洞結節(MS)とMSをポリープや嚢胞で分類する可能性を検討した。 頭頸部磁気共鳴画像(MRI)スキャンにおいて関連MS体積を正確に同定する作業は困難であるが,本課題に対処するための簡単な戦略を開発する。 エンド・ツー・エンドのソリューションには,MSボリュームを効果的にローカライズするだけでなく,トレーニングデータセットのサイズを拡大し,分類結果を改善する新しいサンプリング手法が用いられている。 さらに,複数インスタンスアンサンブル予測手法を用いて分類性能の向上を行った。 最後に,MSボリュームの最適サイズを特定し,データセット上で最高の分類性能を実現する。 複数のインスタンスアンサンブル予測戦略とサンプリング戦略により、3D CNNは0.85のF1を達成するが、それなしでは0.70のF1を達成する。 我々は,MSにおける異常分類の可能性を示すとともに,MSにおける異常分類に有用であることを示す新しいアンサンブル戦略とともに,データ拡張戦略を提案する。

Paranasal anomalies are commonly discovered during routine radiological screenings and can present with a wide range of morphological features. This diversity can make it difficult for convolutional neural networks (CNNs) to accurately classify these anomalies, especially when working with limited datasets. Additionally, current approaches to paranasal anomaly classification are constrained to identifying a single anomaly at a time. These challenges necessitate the need for further research and development in this area. In this study, we investigate the feasibility of using a 3D convolutional neural network (CNN) to classify healthy maxillary sinuses (MS) and MS with polyps or cysts. The task of accurately identifying the relevant MS volume within larger head and neck Magnetic Resonance Imaging (MRI) scans can be difficult, but we develop a straightforward strategy to tackle this challenge. Our end-to-end solution includes the use of a novel sampling technique that not only effectively localizes the relevant MS volume, but also increases the size of the training dataset and improves classification results. Additionally, we employ a multiple instance ensemble prediction method to further boost classification performance. Finally, we identify the optimal size of MS volumes to achieve the highest possible classification performance on our dataset. With our multiple instance ensemble prediction strategy and sampling strategy, our 3D CNNs achieve an F1 of 0.85 whereas without it, they achieve an F1 of 0.70. We demonstrate the feasibility of classifying anomalies in the MS. We propose a data enlarging strategy alongside a novel ensembling strategy that proves to be beneficial for paranasal anomaly classification in the MS.
翻訳日:2023-04-03 14:43:12 公開日:2023-03-31
# CIRCLE: リッチなコンテキスト環境のキャプチャ

CIRCLE: Capture In Rich Contextual Environments ( http://arxiv.org/abs/2303.17912v1 )

ライセンス: Link先を確認
Joao Pedro Araujo, Jiaman Li, Karthik Vetrivel, Rishi Agarwal, Deepak Gopinath, Jiajun Wu, Alexander Clegg, C. Karen Liu(参考訳) 環境環境下での3次元人間の動きの合成は、人々が現実世界で行う現実的な活動をシミュレートする上で重要である。 しかし、従来の光学式モーションキャプチャシステムは、人間の動きと複雑なシーンを同時に捉えるには向いていない。 リッチなコンテキストによる人間のモーションデータセットの欠如は、高品質な生成人間のモーションモデルを作成するための障害となる。 本稿では,実世界の動きを捉えながら,高度にコンテクストな仮想空間を知覚し,操作する新たな動き獲得システムを提案する。 本システムにより,実世界の物理的なシーン構築を必要とせずに,高度に多様なシーンにおける高品質な人間の動きの迅速な収集が可能となった。 今回紹介するcircleは,5人の被験者から10時間のフルボディ到達動作を含むデータセットで,rgbdビデオなど,さまざまな形式で表現された環境のエゴセントリックな情報と組み合わせたものだ。 このデータセットを使用して,シーン情報に基づくヒューマンモーションを生成するモデルをトレーニングする。 データセットを活用することで、複雑な3Dシーンのコンテキストにおいて、エゴ中心のシーン情報を使用して、非自明な到達タスクを達成することができる。 データのダウンロードはhttps://stanford-tml.github.io/circle_dataset/を参照。

Synthesizing 3D human motion in a contextual, ecological environment is important for simulating realistic activities people perform in the real world. However, conventional optics-based motion capture systems are not suited for simultaneously capturing human movements and complex scenes. The lack of rich contextual 3D human motion datasets presents a roadblock to creating high-quality generative human motion models. We propose a novel motion acquisition system in which the actor perceives and operates in a highly contextual virtual world while being motion captured in the real world. Our system enables rapid collection of high-quality human motion in highly diverse scenes, without the concern of occlusion or the need for physical scene construction in the real world. We present CIRCLE, a dataset containing 10 hours of full-body reaching motion from 5 subjects across nine scenes, paired with ego-centric information of the environment represented in various forms, such as RGBD videos. We use this dataset to train a model that generates human motion conditioned on scene information. Leveraging our dataset, the model learns to use ego-centric scene information to achieve nontrivial reaching tasks in the context of complex 3D scenes. To download the data please visit https://stanford-tml.github.io/circle_dataset/.
翻訳日:2023-04-03 14:42:46 公開日:2023-03-31
# 非自己回帰型ニューラルマシン翻訳のための選択的知識蒸留

Selective Knowledge Distillation for Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2303.17910v1 )

ライセンス: Link先を確認
Min Liu, Yu Bao, Chengqi Zhao, Shujian Huang(参考訳) 非自己回帰変換器(Non-Autoregressive Transformer、NAT)は、シーケンスレベルの知識蒸留から恩恵を受け、ニューラルマシン翻訳タスクにおいて大きな成功を収める。 しかし、既存の知識蒸留は、教師からNAT学生への誤りの伝播などの副作用があり、NATモデルのさらなる改善を制限し、既存の研究ではほとんど議論されない。 本稿では,高品質で学習が容易なNATフレンドリなターゲットを選択するためのNAT評価器を導入することにより,選択的知識蒸留を導入する。 さらに, NAT性能を高めるため, 単純かつ効果的に蒸留法を導入する。 複数のWMT言語方向といくつかの代表的NATモデルに対する実験結果から,NATモデルのトレーニングデータの質と複雑さのトレードオフを柔軟に実現し,高い性能が得られることが示された。 さらに分析すると、生の翻訳の5%しか蒸留できないため、約2.4 bleuで生のデータで訓練されたnatを上回ることができる。

Benefiting from the sequence-level knowledge distillation, the Non-Autoregressive Transformer (NAT) achieves great success in neural machine translation tasks. However, existing knowledge distillation has side effects, such as propagating errors from the teacher to NAT students, which may limit further improvements of NAT models and are rarely discussed in existing research. In this paper, we introduce selective knowledge distillation by introducing an NAT evaluator to select NAT-friendly targets that are of high quality and easy to learn. In addition, we introduce a simple yet effective progressive distillation method to boost NAT performance. Experiment results on multiple WMT language directions and several representative NAT models show that our approach can realize a flexible trade-off between the quality and complexity of training data for NAT models, achieving strong performances. Further analysis shows that distilling only 5% of the raw translations can help an NAT outperform its counterpart trained on raw data by about 2.4 BLEU.
翻訳日:2023-04-03 14:42:25 公開日:2023-03-31
# 支払い注意:微調整拡散モデルにおける精度検証可能性トレードオフ

Pay Attention: Accuracy Versus Interpretability Trade-off in Fine-tuned Diffusion Models ( http://arxiv.org/abs/2303.17908v1 )

ライセンス: Link先を確認
Mischa Dombrowski, Hadrien Reynaud, Johanna P. M\"uller, Matthew Baugh, Bernhard Kainz(参考訳) 画像品質の観点からの拡散モデルの最近の進歩は、生成モデルに関する研究に大きな変化をもたらした。 現在のアプローチはしばしばドメイン固有のテキストと画像のペアを使って、訓練済みの基礎モデルを微調整する。 このアプローチは、特定の画像に関連付けられた放射線レポートが高可用性であることから、x線画像生成にとって簡単である。 しかし、現在のアプローチでは、モデルが生成しているものを理解するかどうかを検証するために注意層を見ることはほとんどない。 本稿では,生成拡散モデルにおける画像忠実性と解釈可能性との間に重要なトレードオフを見いだす。 特に,学習可能なテキストエンコーダを用いた微調整テキスト・画像モデルでは,拡散モデルの解釈性が欠如していることを示す。 最後に, 言語エンコーダの凍結を保ち, 拡散モデルにより, 特定の疾患に根ざした最新語句の表現性能を達成し, 追加の訓練を行わずに, 拡散モデルの解釈可能性を示す。 コードとモデルはhttps://github.com/mischad/chest-distillationで入手できる。

The recent progress of diffusion models in terms of image quality has led to a major shift in research related to generative models. Current approaches often fine-tune pre-trained foundation models using domain-specific text-to-image pairs. This approach is straightforward for X-ray image generation due to the high availability of radiology reports linked to specific images. However, current approaches hardly ever look at attention layers to verify whether the models understand what they are generating. In this paper, we discover an important trade-off between image fidelity and interpretability in generative diffusion models. In particular, we show that fine-tuning text-to-image models with learnable text encoder leads to a lack of interpretability of diffusion models. Finally, we demonstrate the interpretability of diffusion models by showing that keeping the language encoder frozen, enables diffusion models to achieve state-of-the-art phrase grounding performance on certain diseases for a challenging multi-label segmentation task, without any additional training. Code and models will be available at https://github.com/MischaD/chest-distillation.
翻訳日:2023-04-03 14:42:09 公開日:2023-03-31
# リダイレクトウォーキングによるフル没入型マルチユーザーバーチャルリアリティの予測コンテキスト認識

Predictive Context-Awareness for Full-Immersive Multiuser Virtual Reality with Redirected Walking ( http://arxiv.org/abs/2303.17907v1 )

ライセンス: Link先を確認
Filip Lemic, Jakob Struye, Thomas Van Onsem, Jeroen Famaey, Xavier Costa Perez(参考訳) 仮想現実(VR)技術は、没入性の向上、マルチユーザバーチャルエクスペリエンス(VE)の実現、VEにおけるユーザの制約のないモビリティのサポート、さらにはリダイレクトウォーキング(RDW)を通じて専門のVRセットアップ内での制限などに沿って進歩している。 将来のVRシステムの極端なデータレートとレイテンシ要件を満たすため、無線ネットワークインフラのサポートはミリ波(mmWave)周波数で動作し、ビームフォーミングとビームステアリングによる送信と受信の両方で高い指向性通信を利用する。 送信機と受信側ビームフォーミングとビームステアリングを最適化するために,予測文脈認識の活用を提案する。 特に、RDWを用いたマルチユーザVRセットアップにおけるユーザの側方移動の短期予測は、送信側ビームフォーミングとLine-of-Sight(LoS)によるビームステアリングの最適化に有効である。 同時に、方向移動の短期予測を受信側ビームフォーミングに使用して、カバレッジの柔軟性を向上できる。 これら2つのコンテキスト情報インスタンスの予測における2つのオープン問題を対象としています。 一 RDWによるマルチユーザーVR設定における横移動予測 二 既存の方位運動予測器の訓練に使用する合成頭部回転データセットの作成 実験の結果,側方運動の予測に有望な精度を特徴とする長短記憶(LSTM)ネットワークと,VEから生じるコンテキスト認識が,この精度をさらに向上させることを示した。 第2に、時間GANに基づく配向データ生成手法により、実験により得られたデータと密接に一致する合成サンプルを生成することができることを示す。

Virtual Reality (VR) technology is being advanced along the lines of enhancing its immersiveness, enabling multiuser Virtual Experiences (VEs), and supporting unconstrained mobility of the users in their VEs, while constraining them within specialized VR setups through Redirected Walking (RDW). For meeting the extreme data-rate and latency requirements of future VR systems, supporting wireless networking infrastructures will operate in millimeter Wave (mmWave) frequencies and leverage highly directional communication in both transmission and reception through beamforming and beamsteering. We propose to leverage predictive context-awareness for optimizing transmitter and receiver-side beamforming and beamsteering. In particular, we argue that short-term prediction of users' lateral movements in multiuser VR setups with RDW can be utilized for optimizing transmitter-side beamforming and beamsteering through Line-of-Sight (LoS) "tracking" in the users' directions. At the same time, short-term prediction of orientational movements can be used for receiver-side beamforming for coverage flexibility enhancements. We target two open problems in predicting these two context information instances: i) lateral movement prediction in multiuser VR settings with RDW and ii) generation of synthetic head rotation datasets to be utilized in the training of existing orientational movements predictors. We follow by experimentally showing that Long Short-Term Memory (LSTM) networks feature promising accuracy in predicting lateral movements, as well as that context-awareness stemming from VEs further benefits this accuracy. Second, we show that a TimeGAN-based approach for orientational data generation can generate synthetic samples closely matching the experimentally obtained ones.
翻訳日:2023-04-03 14:41:51 公開日:2023-03-31
# 2次元拡散モデルを用いた3次元画像生成

3D-aware Image Generation using 2D Diffusion Models ( http://arxiv.org/abs/2303.17905v1 )

ライセンス: Link先を確認
Jianfeng Xiang, Jiaolong Yang, Binbin Huang, Xin Tong(参考訳) 本稿では,2次元拡散モデルを利用した新しい3次元画像生成手法を提案する。 3次元認識画像生成タスクをマルチビュー2次元画像集合生成として定式化し、さらに逐次無条件マルチビュー画像生成処理を行う。 これにより,2次元拡散モデルを用いて生成的モデリング能力を高めることができる。 さらに,静止画像のみを用いた条件拡散モデルのトレーニングデータを構築するために,単眼深度推定器からの深度情報を組み込んだ。 我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。 従来の方法を大幅に上回る高品質な画像を生成する。 さらに,本手法では,実環境から収集した多彩で非整合性の訓練画像であっても,広い視野角のインスタンスを生成する能力を示した。

In this paper, we introduce a novel 3D-aware image generation method that leverages 2D diffusion models. We formulate the 3D-aware image generation task as multiview 2D image set generation, and further to a sequential unconditional-conditional multiview image generation process. This allows us to utilize 2D diffusion models to boost the generative modeling power of the method. Additionally, we incorporate depth information from monocular depth estimators to construct the training data for the conditional diffusion model using only still images. We train our method on a large-scale dataset, i.e., ImageNet, which is not addressed by previous methods. It produces high-quality images that significantly outperform prior methods. Furthermore, our approach showcases its capability to generate instances with large view angles, even though the training images are diverse and unaligned, gathered from "in-the-wild" real-world environments.
翻訳日:2023-04-03 14:41:20 公開日:2023-03-31
# 自律走行車両試験における複雑なラウンドアラウンドの手続き的生成

Procedural Generation of Complex Roundabouts for Autonomous Vehicle Testing ( http://arxiv.org/abs/2303.17900v1 )

ライセンス: Link先を確認
Zarif Ikram, Golam Md Muktadir, Jim Whitehead(参考訳) 高規格道路は、自動運転車試験のための現実的な運転シナリオシミュレーションの重要な要素である。 ラウンドアバウションは、徹底的に調査されていない主要な道路セグメントの1つである。 本研究は, 近傍の道路構造の幾何学的制約に基づき, 円周を手続き的に構築する新しい手法を提案する。 提案手法は, 完全円形ではなく, 実世界の円形道路に類似した円形道路を任意の角度で結ぶことができる。 自動運転車のシナリオベースのテストでは、hd道路生成プロセスにラウンドアラウンドアラウンドを簡単に組み込むか、スタンドアロンラウンドアラウンドアラウンドアラウンドを使用することができます。

High-definition roads are an essential component of realistic driving scenario simulation for autonomous vehicle testing. Roundabouts are one of the key road segments that have not been thoroughly investigated. Based on the geometric constraints of the nearby road structure, this work presents a novel method for procedurally building roundabouts. The suggested method can result in roundabout lanes that are not perfectly circular and resemble real-world roundabouts by allowing approaching roadways to be connected to a roundabout at any angle. One can easily incorporate the roundabout in their HD road generation process or use the standalone roundabouts in scenario-based testing of autonomous driving.
翻訳日:2023-04-03 14:41:06 公開日:2023-03-31
# CIMI4D:人間とシーンの相互作用による大規模マルチモーダルクライミングモーションデータセット

CIMI4D: A Large Multimodal Climbing Motion Dataset under Human-scene Interactions ( http://arxiv.org/abs/2303.17948v1 )

ライセンス: Link先を確認
Ming Yan, Xin Wang, Yudi Dai, Siqi Shen, Chenglu Wen, Lan Xu, Yuexin Ma, Cheng Wang(参考訳) モーションキャプチャーは長年の研究課題である。 何十年も研究されてきたが、ほとんどの研究は、歩行、座位、踊りなどの地面に基づく運動に焦点を当てている。 登山などのオフグラウンドでの行動はほとんど見過ごされている。 スポーツや消防の分野で重要なアクションとして、登山運動は複雑なバックポーズ、複雑な人間とシーンの相互作用、そして難しいグローバルローカライズのために捕獲するのが困難である。 研究コミュニティは、特定のデータセットが欠如しているため、登山行動を深く理解していない。 この制限に対処するために、13の異なるクライミングウォールを登る12人のデータセットから、大きなロックであるcimi4dを収集します。 データセットは、およそ180,000フレームのポーズ慣性測定、LiDARポイントクラウド、RGBビデオ、高精度な静的ポイントクラウドシーン、再構築されたシーンメッシュで構成されている。 さらに,タッチロックホールドのフレームワイドアノテートにより,人間とシーンのインタラクションを詳細に調査する。 このデータセットの中核はブレンディング最適化プロセスであり、それがドリフトするにつれてポーズを補正し、磁気条件に影響される。 CIMI4Dの利点を評価するために、人間のポーズ推定(シーン制約なし)、ポーズ予測、ポーズ生成を含む4つのタスクを実行する。 実験の結果,CIMI4Dは既存手法に大きな課題を呈し,広範な研究機会が得られた。 私たちはデータセットを研究コミュニティとhttp://www.lidarhumanmotion.net/cimi4d/で共有しています。

Motion capture is a long-standing research problem. Although it has been studied for decades, the majority of research focus on ground-based movements such as walking, sitting, dancing, etc. Off-grounded actions such as climbing are largely overlooked. As an important type of action in sports and firefighting field, the climbing movements is challenging to capture because of its complex back poses, intricate human-scene interactions, and difficult global localization. The research community does not have an in-depth understanding of the climbing action due to the lack of specific datasets. To address this limitation, we collect CIMI4D, a large rock \textbf{C}l\textbf{I}mbing \textbf{M}ot\textbf{I}on dataset from 12 persons climbing 13 different climbing walls. The dataset consists of around 180,000 frames of pose inertial measurements, LiDAR point clouds, RGB videos, high-precision static point cloud scenes, and reconstructed scene meshes. Moreover, we frame-wise annotate touch rock holds to facilitate a detailed exploration of human-scene interaction. The core of this dataset is a blending optimization process, which corrects for the pose as it drifts and is affected by the magnetic conditions. To evaluate the merit of CIMI4D, we perform four tasks which include human pose estimations (with/without scene constraints), pose prediction, and pose generation. The experimental results demonstrate that CIMI4D presents great challenges to existing methods and enables extensive research opportunities. We share the dataset with the research community in http://www.lidarhumanmotion.net/cimi4d/.
翻訳日:2023-04-03 14:34:29 公開日:2023-03-31
# 人のためのソーシャルハニーポット: 自己管理型instagramページを通じて人々を誘う

Social Honeypot for Humans: Luring People through Self-managed Instagram Pages ( http://arxiv.org/abs/2303.17946v1 )

ライセンス: Link先を確認
Sara Bardi, Mauro Conti, Luca Pajola, Pier Paolo Tricomi(参考訳) ソーシャル・ハニーポット(Social Honeypots)は、オンライン・ソーシャル・ネットワーク(OSN)にデプロイされたツールで、スパマーやボットが行う悪意ある活動を引き付ける。 この目的のために、彼らのコンテンツは悪意のあるユーザーにとって最大の関心を持つように設計されている。 しかし、適切なコンテンツトピックを選択することで、悪意のあるアクターを誘惑するだけでなく、この魅力的なメカニズムをOSNユーザーに拡張することができる。 結果として、ハニーポットは、スポーツや趣味から、政治的見解や陰謀のようなより敏感な主題まで、幅広いトピックに関心を持つ個人を惹きつけるのに使える。 これらの個人が一箇所に集まると、ハニーポットの所有者は社会学からマーケティング学まで多くの分析を行うことができる。 そこで本研究では,OSNユーザが汎用的なターゲットトピックに関心を持つようなソーシャル・ハニーポットのコンセプトを紹介した。 完全に自動化されたコンテンツ生成戦略と、Instagramページを模倣するエンゲージメントプランに基づくフレームワークを提案する。 フレームワークを検証するため、Instagram上で21の自己管理型ソーシャルハニーポット(ページ)を作成し、トピック3つ、コンテンツ生成戦略4つ、エンゲージメントプラン3つをカバーしました。 9週間で、私たちの新婚旅行者は753人のフォロワー、5387人のコメント、15739人のいいね! これらの結果から,本手法の有効性を実証し,統計的分析を行い,有効な社会ハニーポットの特性について検討した。

Social Honeypots are tools deployed in Online Social Networks (OSN) to attract malevolent activities performed by spammers and bots. To this end, their content is designed to be of maximum interest to malicious users. However, by choosing an appropriate content topic, this attractive mechanism could be extended to any OSN users, rather than only luring malicious actors. As a result, honeypots can be used to attract individuals interested in a wide range of topics, from sports and hobbies to more sensitive subjects like political views and conspiracies. With all these individuals gathered in one place, honeypot owners can conduct many analyses, from social to marketing studies. In this work, we introduce a novel concept of social honeypot for attracting OSN users interested in a generic target topic. We propose a framework based on fully-automated content generation strategies and engagement plans to mimic legit Instagram pages. To validate our framework, we created 21 self-managed social honeypots (i.e., pages) on Instagram, covering three topics, four content generation strategies, and three engaging plans. In nine weeks, our honeypots gathered a total of 753 followers, 5387 comments, and 15739 likes. These results demonstrate the validity of our approach, and through statistical analysis, we examine the characteristics of effective social honeypots.
翻訳日:2023-04-03 14:34:04 公開日:2023-03-31
# 画像分類タスクのためのFedAvgとFedCurvのベンチマーク

Benchmarking FedAvg and FedCurv for Image Classification Tasks ( http://arxiv.org/abs/2303.17942v1 )

ライセンス: Link先を確認
Bruno Casella, Roberto Esposito, Carlo Cavazzoni, Marco Aldinucci(参考訳) 古典的な機械学習技術は、単一のデータレイクで利用可能なデータのトレーニングを必要とする。 しかし、異なる所有者からのデータ集約は、セキュリティやプライバシ、機密性など、さまざまな理由で必ずしも便利ではない。 データの共有を避けることは、セキュリティとプライバシが最重要事項である産業アプリケーションを可能にするため、独立して実行できるローカルポリシや、空調されたデータセンタでも実行できるローカルポリシのみを実装することで、グローバルモデルをトレーニングすることが可能になる。 Federated Learning(FL)は、データを分散化しながらローカルAIモデルを共有することで、プライバシー問題に対処する効果的な方法として、分散機械学習アプローチである。 フェデレーション学習の2つの重要な課題は、同一のフェデレーションネットワーク内の異種システムを管理し、実データを扱うことだ。 本稿では,同じフェデレーションネットワークにおけるデータの統計的不均一性の問題である第2の問題に注目する。 この設定では、局所モデルは完全なデータセットの局所的最適から遠く離れており、したがって連合モデルの収束を妨げる可能性がある。 FedAvg、FedProx、Federated Curvature(FedCurv)など、非IID設定に対処するためのフェデレート学習アルゴリズムがすでに提案されている。 この研究は、一般的な非IIDシナリオにおけるFedAvgとFedCurvの振る舞いを実証的に評価する。 その結果, ラウンド毎のエポック数は, 適切な調整を行うと通信コストを低減しつつ, 大幅な性能向上につながることが示唆された。 この研究の副産物として、FLコミュニティからのさらなる比較を容易にするために使用したデータセットの非IIDバージョンをリリースします。

Classic Machine Learning techniques require training on data available in a single data lake. However, aggregating data from different owners is not always convenient for different reasons, including security, privacy and secrecy. Data carry a value that might vanish when shared with others; the ability to avoid sharing the data enables industrial applications where security and privacy are of paramount importance, making it possible to train global models by implementing only local policies which can be run independently and even on air-gapped data centres. Federated Learning (FL) is a distributed machine learning approach which has emerged as an effective way to address privacy concerns by only sharing local AI models while keeping the data decentralized. Two critical challenges of Federated Learning are managing the heterogeneous systems in the same federated network and dealing with real data, which are often not independently and identically distributed (non-IID) among the clients. In this paper, we focus on the second problem, i.e., the problem of statistical heterogeneity of the data in the same federated network. In this setting, local models might be strayed far from the local optimum of the complete dataset, thus possibly hindering the convergence of the federated model. Several Federated Learning algorithms, such as FedAvg, FedProx and Federated Curvature (FedCurv), aiming at tackling the non-IID setting, have already been proposed. This work provides an empirical assessment of the behaviour of FedAvg and FedCurv in common non-IID scenarios. Results show that the number of epochs per round is an important hyper-parameter that, when tuned appropriately, can lead to significant performance gains while reducing the communication cost. As a side product of this work, we release the non-IID version of the datasets we used so to facilitate further comparisons from the FL community.
翻訳日:2023-04-03 14:33:40 公開日:2023-03-31
# CT画像におけるリスクセグメンテーションにおける臓器の対立学習と監視学習の比較

Comparing Adversarial and Supervised Learning for Organs at Risk Segmentation in CT images ( http://arxiv.org/abs/2303.17941v1 )

ライセンス: Link先を確認
Leonardo Crespi, Mattia Portanti, Daniele Loiacono(参考訳) organ at risk (oar) segmentation from ct scansは放射線治療のワークフローの重要な要素である。 近年,ディープラーニング技術は,このプロセスの自動化に大きな可能性を示している。 本稿では,GAN(Generative Adversarial Networks)の性能をCT画像からOARをセグメント化するための教師付き学習手法と比較する。 同一のジェネレータアーキテクチャを持つ3つのGANモデルを提案する。 これらのモデルは、se-resunetやdeeplabv3といった確立されたcnnモデルと比較され、6つのオールの輪郭を含む50の注釈付きctスキャンからなるstructsegデータセットを使用する。 本研究は,OARセグメンテーションの文脈における対人訓練の利点とデメリットに関する知見を提供することを目的としている。 結果は非常に有望であり、提案されたGANベースのアプローチがCNNベースのアプローチと似ているか、あるいは優れていることを示している。

Organ at Risk (OAR) segmentation from CT scans is a key component of the radiotherapy treatment workflow. In recent years, deep learning techniques have shown remarkable potential in automating this process. In this paper, we investigate the performance of Generative Adversarial Networks (GANs) compared to supervised learning approaches for segmenting OARs from CT images. We propose three GAN-based models with identical generator architectures but different discriminator networks. These models are compared with well-established CNN models, such as SE-ResUnet and DeepLabV3, using the StructSeg dataset, which consists of 50 annotated CT scans containing contours of six OARs. Our work aims to provide insight into the advantages and disadvantages of adversarial training in the context of OAR segmentation. The results are very promising and show that the proposed GAN-based approaches are similar or superior to their CNN-based counterparts, particularly when segmenting more challenging target organs.
翻訳日:2023-04-03 14:33:08 公開日:2023-03-31
# 雑音データからの学習信号を改善するサンプルごとの勾配正規化

Per-Example Gradient Regularization Improves Learning Signals from Noisy Data ( http://arxiv.org/abs/2303.17940v1 )

ライセンス: Link先を確認
Xuran Meng, Yuan Cao and Difan Zou(参考訳) グラディエント正規化(Gradient regularization)は、勾配降下時に平坦なミニマを促進させる非常に効果的な手法である。 実験的な証拠は、この正規化技術は、ノイズの多い摂動に対するディープラーニングモデルの堅牢性を著しく向上し、テストエラーを低減できることを示している。 本稿では,PEGR(per-example gradient regularization)について検討し,騒音摂動に対する試験誤差とロバスト性の両方の改善効果を示す理論的解析を行った。 具体的には、信号-雑音データモデルを用いて、pegrがノイズを抑圧しながら効果的に信号を学ぶことができることを示す。 対照的に、標準勾配降下は信号とノイズの区別に苦慮し、最適下界一般化性能をもたらす。 解析の結果,PEGRはパターン学習の分散をペナルティ化し,学習データからの雑音の記憶を効果的に抑制することがわかった。 これらの知見は、ディープラーニングトレーニングにおける分散制御の重要性を強調し、より効果的なトレーニングアプローチを開発する上で有用な洞察を提供する。

Gradient regularization, as described in \citet{barrett2021implicit}, is a highly effective technique for promoting flat minima during gradient descent. Empirical evidence suggests that this regularization technique can significantly enhance the robustness of deep learning models against noisy perturbations, while also reducing test error. In this paper, we explore the per-example gradient regularization (PEGR) and present a theoretical analysis that demonstrates its effectiveness in improving both test error and robustness against noise perturbations. Specifically, we adopt a signal-noise data model from \citet{cao2022benign} and show that PEGR can learn signals effectively while suppressing noise. In contrast, standard gradient descent struggles to distinguish the signal from the noise, leading to suboptimal generalization performance. Our analysis reveals that PEGR penalizes the variance of pattern learning, thus effectively suppressing the memorization of noises from the training data. These findings underscore the importance of variance control in deep learning training and offer useful insights for developing more effective training approaches.
翻訳日:2023-04-03 14:32:54 公開日:2023-03-31
# STFAR: 特徴配向規則化による自己検定によるテスト時の物体検出ロバスト性の向上

STFAR: Improving Object Detection Robustness at Test-Time by Self-Training with Feature Alignment Regularization ( http://arxiv.org/abs/2303.17937v1 )

ライセンス: Link先を確認
Yijin Chen, Xun Xu, Yongyi Su, Kui Jia(参考訳) ドメイン適応は、分散シフトを伴う対象領域データに対するオブジェクト検出モデルを一般化するのに役立つ。 ターゲットドメインデータ全体へのアクセスに適応することで、しばしば達成される。 より現実的なシナリオでは、ターゲット分布は推論段階まで予測できないことが多い。 これは、テスト時、すなわちテスト時適応(TTA)におけるオブジェクト検出モデルの適用を検討する動機となります。 本研究では2つの観点からテスト時間適応オブジェクト検出(TTAOD)を提案する。 まず,指数移動平均モデルを用いて擬似ラベル付きオブジェクトを生成する自己学習パラダイムを採用する。 擬似ラベルはさらに、適応するソースドメインモデルを監視するために使用される。 自己学習は疑似ラベルを誤用しがちであるため,2つの出力レベルの特徴分布を自己学習の正規化として取り入れる。 TTAODの性能を検証するため、3つの標準オブジェクト検出データセットに基づいてベンチマークを作成し、汎用TTAメソッドをオブジェクト検出タスクに適用する。 提案手法は,テスト時間適応オブジェクト検出タスクに最先端を設定できることを示す。

Domain adaptation helps generalizing object detection models to target domain data with distribution shift. It is often achieved by adapting with access to the whole target domain data. In a more realistic scenario, target distribution is often unpredictable until inference stage. This motivates us to explore adapting an object detection model at test-time, a.k.a. test-time adaptation (TTA). In this work, we approach test-time adaptive object detection (TTAOD) from two perspective. First, we adopt a self-training paradigm to generate pseudo labeled objects with an exponential moving average model. The pseudo labels are further used to supervise adapting source domain model. As self-training is prone to incorrect pseudo labels, we further incorporate aligning feature distributions at two output levels as regularizations to self-training. To validate the performance on TTAOD, we create benchmarks based on three standard object detection datasets and adapt generic TTA methods to object detection task. Extensive evaluations suggest our proposed method sets the state-of-the-art on test-time adaptive object detection task.
翻訳日:2023-04-03 14:32:36 公開日:2023-03-31
# オフラインモデルに基づく最適化のためのアンサンブルのコンフリクト逆勾配最適化

Conflict-Averse Gradient Optimization of Ensembles for Effective Offline Model-Based Optimization ( http://arxiv.org/abs/2303.17934v1 )

ライセンス: Link先を確認
Sathvik Kolli(参考訳) データ駆動型オフラインモデルベース最適化(mbo)は、真の目的関数が未知でクエリが高価であるブラックボックス計算設計問題に対して確立された実用的なアプローチである。 しかし、学習した真理目標のプロキシモデルに対して設計を最適化する標準的なアプローチは、分散シフトに悩まされる可能性がある。 特に、有効な設計が狭い多様体上に存在する高次元設計空間において、標準的アプローチは、学習されたプロキシモデルを「供給」して高値を出力する無効な設計を発生させることに影響を受けやすい。 学習されたプロキシとして単一モデルではなくアンサンブルを使用することは分布シフトを緩和するが、最小勾配や平均勾配といったアンサンブルからの勾配情報を結合するためのナイーブな定式化は依然として最適であり、しばしば非収束的な振る舞いによって阻害される。 本研究では,生成した設計の最適性を損なうことなく,分布シフトに頑健なアンサンブルからの勾配情報を組み合わせるための代替手法を検討する。 より具体的には、多重勾配降下アルゴリズム (mgda) とコンフリクト逆勾配降下 (cagrad) の2つの勾配情報を結合するための凸最適化問題として定式化した関数を探索する。 これらのアルゴリズムを5つの計算設計タスクで評価した。 アンサンブルMBOとMGDAとアンサンブルMBOとCAGradとを3つの素数ベースラインアルゴリズムで比較する。 (a)標準シングルモデルmbo (b)平均勾配のアンサンブルMBO、及び (c)最小勾配のアンサンブルMBO。 その結果,mgda と cagrad は保存性と最適性のバランスを保ち,設計の最適性を損なうことなくデータ駆動型オフライン mbo の堅牢化に寄与することが示唆された。

Data-driven offline model-based optimization (MBO) is an established practical approach to black-box computational design problems for which the true objective function is unknown and expensive to query. However, the standard approach which optimizes designs against a learned proxy model of the ground truth objective can suffer from distributional shift. Specifically, in high-dimensional design spaces where valid designs lie on a narrow manifold, the standard approach is susceptible to producing out-of-distribution, invalid designs that "fool" the learned proxy model into outputting a high value. Using an ensemble rather than a single model as the learned proxy can help mitigate distribution shift, but naive formulations for combining gradient information from the ensemble, such as minimum or mean gradient, are still suboptimal and often hampered by non-convergent behavior. In this work, we explore alternate approaches for combining gradient information from the ensemble that are robust to distribution shift without compromising optimality of the produced designs. More specifically, we explore two functions, formulated as convex optimization problems, for combining gradient information: multiple gradient descent algorithm (MGDA) and conflict-averse gradient descent (CAGrad). We evaluate these algorithms on a diverse set of five computational design tasks. We compare performance of ensemble MBO with MGDA and ensemble MBO with CAGrad with three naive baseline algorithms: (a) standard single-model MBO, (b) ensemble MBO with mean gradient, and (c) ensemble MBO with minimum gradient. Our results suggest that MGDA and CAGrad strike a desirable balance between conservatism and optimality and can help robustify data-driven offline MBO without compromising optimality of designs.
翻訳日:2023-04-03 14:32:21 公開日:2023-03-31
# 運動的自転車モデルに基づく学習型オブザーバ

Learning-based Observer Evaluated on the Kinematic Bicycle Model ( http://arxiv.org/abs/2303.17933v1 )

ライセンス: Link先を確認
Agapius Bou Ghosn, Philip Polack and Arnaud de La Fortelle(参考訳) 車両の状態に関する知識は、適切な計画と制御を行うために必要なものである。 これらの量は通常、測定によってアクセス可能である。 制御理論は、直接測定できない量やノイズの測定を扱うために非常に有用な方法 -- オブザーバー -- をもたらす。 古典的観察者は数学的にモデルから導かれる。 カルマンフィルタのような成功にもかかわらず、システムは高い非線形性、モデリングエラー、高い不確実性、環境との難しい相互作用(例えば道路接触)を示す場合の限界を示す。 そこで本研究では,古典的観察手法に勝る学習ベースのオブザーバを構築する手法を提案する。 いくつかのニューラルネットワークアーキテクチャを比較し、トレーニングに使用するデータ生成手順を定義します。 トレーニングやテスト用のデータを容易に生成できるキネマティック自転車モデルを用いて評価する。 このモデルは、学習に基づくオブザーバと芸術モデルに基づくオブザーバの状態を比較するために拡張カルマンフィルタ(EKF)でも使用される。 結果は私たちのアプローチの関心を証明し、この技術の将来的な改善への道を開くものです。

The knowledge of the states of a vehicle is a necessity to perform proper planning and control. These quantities are usually accessible through measurements. Control theory brings extremely useful methods -- observers -- to deal with quantities that cannot be directly measured or with noisy measurements. Classical observers are mathematically derived from models. In spite of their success, such as the Kalman filter, they show their limits when systems display high non-linearities, modeling errors, high uncertainties or difficult interactions with the environment (e.g. road contact). In this work, we present a method to build a learning-based observer able to outperform classical observing methods. We compare several neural network architectures and define the data generation procedure used to train them. The method is evaluated on a kinematic bicycle model which allows to easily generate data for training and testing. This model is also used in an Extended Kalman Filter (EKF) for comparison of the learning-based observer with a state of the art model-based observer. The results prove the interest of our approach and pave the way for future improvements of the technique.
翻訳日:2023-04-03 14:31:51 公開日:2023-03-31
# 音韻アライメントのトリミングによる多言語単語からの音声対応パターンの推測

Trimming Phonetic Alignments Improves the Inference of Sound Correspondence Patterns from Multilingual Wordlists ( http://arxiv.org/abs/2303.17932v1 )

ライセンス: Link先を確認
Frederic Blum and Johann-Mattis List(参考訳) 音の対応パターンは、歴史的言語比較におけるコグネート検出と音韻的再構成の基礎を形成する。 音素的に整列したコグネート集合からの対応パターンの自動推定法が提案されているが、多言語単語リストへの適用には、非常によく注釈付きデータセットが必要である。 アノテーションは退屈で時間がかかるので、協調したコグネイトデータを自動的に改善する方法を見出すのが望ましいでしょう。 問題箇所を除外してアライメントを改善する進化生物学のトリミング技術からインスピレーションを得て,対応パターンの推測に先立って,比較言語学における音声アライメントをトリミングするワークフローを提案する。 これらのテクニックを、異なる言語ファミリーのエキスパートアノテーションを持つ10のデータセットの大規模な標準化されたコレクション上でテストすると、最良のトリミング技術がアライメント全体の一貫性を大幅に改善することがわかった。 その結果,コグネート関係を示す頻繁な対応パターンや単語の割合は明らかに増加した。

Sound correspondence patterns form the basis of cognate detection and phonological reconstruction in historical language comparison. Methods for the automatic inference of correspondence patterns from phonetically aligned cognate sets have been proposed, but their application to multilingual wordlists requires extremely well annotated datasets. Since annotation is tedious and time consuming, it would be desirable to find ways to improve aligned cognate data automatically. Taking inspiration from trimming techniques in evolutionary biology, which improve alignments by excluding problematic sites, we propose a workflow that trims phonetic alignments in comparative linguistics prior to the inference of correspondence patterns. Testing these techniques on a large standardized collection of ten datasets with expert annotations from different language families, we find that the best trimming technique substantially improves the overall consistency of the alignments. The results show a clear increase in the proportion of frequent correspondence patterns and words exhibiting regular cognate relations.
翻訳日:2023-04-03 14:31:34 公開日:2023-03-31
# jobham-placeがsmart recommendジョブオプションと候補フィルタリングオプションを追加

JobHam-place with smart recommend job options and candidate filtering options ( http://arxiv.org/abs/2303.17930v1 )

ライセンス: Link先を確認
Shiyao Wu(参考訳) 卒業生の増加により、多くの応募者が職探しの状況を経験し、雇用主は求職者をフィルタリングするのが難しくなり、その効果に悪影響を及ぼす可能性がある。 しかし、ほとんどの求人サイトはジョブレコメンデーションやCVフィルタリングやランキング機能に欠けており、システムには組み込まれていない。 したがって、上記の機能と組み合わせたスマートなジョブハンターがこのプロジェクトで実施され、ジョブレコメンデーション、CVランキング、さらにはスキルと求職者の機能のためのジョブダッシュボードまで含められる。 ジョブレコメンデーションとCVランキングは自動キーワード抽出から始まり、Job/CVランキングアルゴリズムで終わる。 自動キーワード抽出はJob2SkillとBertに基づくCV2Skillモデルによって実装されている。 Job2SkillはテキストエンコーダとGruベースのレイヤという2つのコンポーネントで構成されており、CV2Skillは主にBertに基づいており、Resume-Entityデータセットによってトレーニング済みのモデルを微調整する。 また、職業・候補者の職業記述・ランクリストとcvのスキルをマッチングするために、tfidfスコアと総スキル数のマッチング比に基づいてスキル語の発生率を算出するジョブ/cvランキングアルゴリズムが提供されている。 さらに、いくつかの高度な機能がWebサイトに統合され、カレンダーや sweetalert2プラグインなどのユーザエクスペリエンスが改善された。 また、ジョブアプリケーショントラッキングやインタビューアレンジメントなど、ジョブアプリケーションプロセスを通過するための基本的な機能も備えています。

Due to the increasing number of graduates, many applicants experience the situation about finding a job, and employers experience difficulty filtering job applicants, which might negatively impact their effectiveness. However, most job-hunting websites lack job recommendation and CV filtering or ranking functionality, which are not integrated into the system. Thus, a smart job hunter combined with the above functionality will be conducted in this project, which contains job recommendations, CV ranking and even a job dashboard for skills and job applicant functionality. Job recommendation and CV ranking starts from the automatic keyword extraction and end with the Job/CV ranking algorithm. Automatic keyword extraction is implemented by Job2Skill and the CV2Skill model based on Bert. Job2Skill consists of two components, text encoder and Gru-based layers, while CV2Skill is mainly based on Bert and fine-tunes the pre-trained model by the Resume- Entity dataset. Besides, to match skills from CV and job description and rank lists of jobs and candidates, job/CV ranking algorithms have been provided to compute the occurrence ratio of skill words based on TFIDF score and match ratio of the total skill numbers. Besides, some advanced features have been integrated into the website to improve user experiences, such as the calendar and sweetalert2 plugin. And some basic features to go through job application processes, such as job application tracking and interview arrangement.
翻訳日:2023-04-03 14:31:18 公開日:2023-03-31
# VDN-NeRF:ビュー依存正規化による形状放射曖昧性の解消

VDN-NeRF: Resolving Shape-Radiance Ambiguity via View-Dependence Normalization ( http://arxiv.org/abs/2303.17968v1 )

ライセンス: Link先を確認
Bingfan Zhu, Yanchao Yang, Xulong Wang, Youyi Zheng, Leonidas Guibas(参考訳) 本稿では,非ランベルト面および動的照明条件下で,異なる角度から見ると点の放射率に大きな変動をもたらす,より優れた形状のために神経放射場(nerfs)を訓練する手法であるvdn-nerfを提案する。 ビュー依存現象の原因となる要因を明示的にモデル化する代わりに、学習されたNeRFに符号化された不変情報を蒸留することにより、ビュー依存を正規化するシンプルで効果的な手法を開発した。 次に、ビュー依存正規化によるビュー合成のためのNeRFを共同でトレーニングし、高品質な幾何を実現する。 本実験は, 形状放射のあいまいさは避けられないが, 提案した正規化は幾何学への影響を最小限に抑えることができることを示す。 本手法は, 移動光源の下でデータを捕捉した場合でも, ボリュームレンダリングパイプラインを変更することなく, 様々なベースラインに適用し, 幾何的に改善する。 コードは、https://github.com/BoifZ/VDN-NeRF.comで入手できる。

We propose VDN-NeRF, a method to train neural radiance fields (NeRFs) for better geometry under non-Lambertian surface and dynamic lighting conditions that cause significant variation in the radiance of a point when viewed from different angles. Instead of explicitly modeling the underlying factors that result in the view-dependent phenomenon, which could be complex yet not inclusive, we develop a simple and effective technique that normalizes the view-dependence by distilling invariant information already encoded in the learned NeRFs. We then jointly train NeRFs for view synthesis with view-dependence normalization to attain quality geometry. Our experiments show that even though shape-radiance ambiguity is inevitable, the proposed normalization can minimize its effect on geometry, which essentially aligns the optimal capacity needed for explaining view-dependent variations. Our method applies to various baselines and significantly improves geometry without changing the volume rendering pipeline, even if the data is captured under a moving light source. Code is available at: https://github.com/BoifZ/VDN-NeRF.
翻訳日:2023-04-03 14:25:09 公開日:2023-03-31
# 医用画像分割のための明示的形状事前学習

Learning with Explicit Shape Priors for Medical Image Segmentation ( http://arxiv.org/abs/2303.17967v1 )

ライセンス: Link先を確認
Xin You, Junjun He, Jie Yang, and Yun Gu(参考訳) 医用画像分割は医用画像解析と外科的介入の基本的なステップであると考えられている。 以前の多くの研究は、より微細なマスクを解剖学的形状情報で得るのに有益であるセグメンテーションモデルを設計するための形状先を組み込もうとした。 本稿では,アトラスモデル,統計モデル,unetモデルからなる3種類のセグメンテーションモデルについて詳細に検討した。 従来の2種類の手法が一般化能力の低さを前提として,近年,UNetベースのモデルが医用画像セグメンテーションの分野を支配している。 しかし、既存のUNetベースのモデルでは、異なる形状の臓器に対して、良好な解釈性や一般化能力を持たない暗黙の形状を優先する傾向にある。 そこで我々は, unetベースのモデルのセグメンテーション性能向上のために, 形状優先を明示的に導入できる新しい形状優先モジュール (spm) を提案する。 SPMの有効性を評価するため、3つの挑戦的な公開データセットで実験を行った。 そして,提案モデルは最先端の性能を実現する。 さらに、SPMは、異なるデータセットのセグメンテーションタスクのプラグアンドプレイ構造として機能する、異なる古典的畳み込みニューラルネットワーク(CNN)と最近のTransformerベースのバックボーンに優れた一般化能力を示す。

Medical image segmentation is considered as the basic step for medical image analysis and surgical intervention. And many previous works attempted to incorporate shape priors for designing segmentation models, which is beneficial to attain finer masks with anatomical shape information. Here in our work, we detailedly discuss three types of segmentation models with shape priors, which consist of atlas-based models, statistical-based models and UNet-based models. On the ground that the former two kinds of methods show a poor generalization ability, UNet-based models have dominated the field of medical image segmentation in recent years. However, existing UNet-based models tend to employ implicit shape priors, which do not have a good interpretability and generalization ability on different organs with distinctive shapes. Thus, we proposed a novel shape prior module (SPM), which could explicitly introduce shape priors to promote the segmentation performance of UNet-based models. To evaluate the effectiveness of SPM, we conduct experiments on three challenging public datasets. And our proposed model achieves state-of-the-art performance. Furthermore, SPM shows an outstanding generalization ability on different classic convolution-neural-networks (CNNs) and recent Transformer-based backbones, which can serve as a plug-and-play structure for the segmentation task of different datasets.
翻訳日:2023-04-03 14:24:48 公開日:2023-03-31
# HD-GCN:ハイブリッド拡散グラフ畳み込みネットワーク

HD-GCN:A Hybrid Diffusion Graph Convolutional Network ( http://arxiv.org/abs/2303.17966v1 )

ライセンス: Link先を確認
Zhi Yang, Kang Li, Haitao Gan, Zhongwei Huang, Ming Shi(参考訳) GCNとその変種モデルの情報拡散性能は、隣接行列によって制限され、その性能は低下する。 そこで本研究では,ハイブリッド拡散型グラフ畳み込みネットワーク(hd-gcn)と呼ばれるグラフ畳み込みネットワークのための新しいフレームワークを提案する。 hd-gcnフレームワークでは、最初に拡散マップを使用して、特徴空間内の隣接ノード間の情報の拡散を容易にする。 これにより、隣接する関係を持たない類似点間の情報の拡散が可能になる。 次に、グラフ畳み込みを利用して、拡散マップの後に隣接するノード間で情報を伝播し、グラフに隣接する類似ノード間で情報の拡散を可能にする。 最後に、拡散写像を用いて得られた拡散距離を用いて、トレーニングノードの予測ラベルを規則化し、制約する。 この正規化法をHD-GCNトレーニングに適用すると、よりスムーズな分類面が得られる。 本論文で提案するモデルは,隣接行列のみによって課される情報拡散の限界を効果的に克服する。 HD-GCNは、特徴空間の近傍ノードと隣接行列の隣接ノード間の情報拡散を組み合わせることでハイブリッド拡散を利用する。 この手法により、ノード間のより包括的な情報伝達が可能となり、モデル性能が向上する。 DM-GCNの性能評価を行った結果,提案手法はグラフに基づく半教師付き学習法よりも有効であることがわかった。

The information diffusion performance of GCN and its variant models is limited by the adjacency matrix, which can lower their performance. Therefore, we introduce a new framework for graph convolutional networks called Hybrid Diffusion-based Graph Convolutional Network (HD-GCN) to address the limitations of information diffusion caused by the adjacency matrix. In the HD-GCN framework, we initially utilize diffusion maps to facilitate the diffusion of information among nodes that are adjacent to each other in the feature space. This allows for the diffusion of information between similar points that may not have an adjacent relationship. Next, we utilize graph convolution to further propagate information among adjacent nodes after the diffusion maps, thereby enabling the spread of information among similar nodes that are adjacent in the graph. Finally, we employ the diffusion distances obtained through the use of diffusion maps to regularize and constrain the predicted labels of training nodes. This regularization method is then applied to the HD-GCN training, resulting in a smoother classification surface. The model proposed in this paper effectively overcomes the limitations of information diffusion imposed only by the adjacency matrix. HD-GCN utilizes hybrid diffusion by combining information diffusion between neighborhood nodes in the feature space and adjacent nodes in the adjacency matrix. This method allows for more comprehensive information propagation among nodes, resulting in improved model performance. We evaluated the performance of DM-GCN on three well-known citation network datasets and the results showed that the proposed framework is more effective than several graph-based semi-supervised learning methods.
翻訳日:2023-04-03 14:24:24 公開日:2023-03-31
# 光トランスポートネットワークにおける測定デバイス非依存連続可変量子鍵分散プロトコル動作

Measurement-device-independent continuous variable quantum key distribution protocol operation in optical transport networks ( http://arxiv.org/abs/2303.17965v1 )

ライセンス: Link先を確認
Irina Vorontsova, Roman Goncharov, Sergey Kynev, Fedor Kiselev, Vladimir Egorov(参考訳) 実測デバイスに依存しない連続変数量子鍵分布系における自然発振ラマン散乱, 4波混合, 線形チャネルクロストークによる騒音影響の理論的解析を行った。 この分析は、C-およびO-バンに位置する量子チャネルに対して、システムパスの対称性と非対称性、およびチャネル割り当てスキームを考える。 MDI CV-QKDシステムの数学的モデルと寄与ノイズ記述を提供する。 セキュアな鍵生成速度は、既存のDWDMシステムと実装の文脈で統合されたプロトコル操作の特徴を通信ネットワークに記述すると推定される。

Numerically, a theoretical analysis of the noise impact caused by spontaneous Raman scattering, four-wave mixing, and linear channel crosstalk on the measurement-device-independent continuous variable quantum key distribution systems is conducted. The analysis considers symmetry and asymmetry of system paths, as well as possible channel allocation schemes, for a quantum channel located in C- and O-bans. Mathematical models for MDI CV-QKD system and the contributing noises description are provided. The secure key generation rate is estimated to state features of protocol operation when integrated with existing DWDM systems in the context of its implementation into telecommunication networks.
翻訳日:2023-04-03 14:24:01 公開日:2023-03-31
# 潜在状態を持つ未知システムに対する性能保証を用いた学習ベース最適制御

Learning-Based Optimal Control with Performance Guarantees for Unknown Systems with Latent States ( http://arxiv.org/abs/2303.17963v1 )

ライセンス: Link先を確認
Robert Lefringhausen, Supitsana Srithasan, Armin Lederer, Sandra Hirche(参考訳) 制御工学の手法がますます複雑なシステムに適用されるにつれて、システム識別のためのデータ駆動アプローチは、物理に基づくモデリングに代わる有望な選択肢として現れる。 これらのアプローチの多くは状態測定の可用性に依存しているが、複雑なシステムの状態は直接測定できないことが多い。 次に、ダイナミクスと潜在状態の両方を共同で見積もる必要があるため、パフォーマンス保証でコントローラを設計することがかなり困難になる。 本稿では,潜在状態を持つ未知非線形系に対する最適入力軌跡の計算法を提案する。 入力軌道に対して確率的性能保証が導出され、任意の制御則の性能を検証するアプローチが提示される。 提案手法の有効性を数値シミュレーションにより検証した。

As control engineering methods are applied to increasingly complex systems, data-driven approaches for system identification appear as a promising alternative to physics-based modeling. While many of these approaches rely on the availability of state measurements, the states of a complex system are often not directly measurable. It may then be necessary to jointly estimate the dynamics and a latent state, making it considerably more challenging to design controllers with performance guarantees. This paper proposes a novel method for the computation of an optimal input trajectory for unknown nonlinear systems with latent states. Probabilistic performance guarantees are derived for the resulting input trajectory, and an approach to validate the performance of arbitrary control laws is presented. The effectiveness of the proposed method is demonstrated in a numerical simulation.
翻訳日:2023-04-03 14:23:51 公開日:2023-03-31
# 拡散動作セグメンテーション

Diffusion Action Segmentation ( http://arxiv.org/abs/2303.17959v1 )

ライセンス: Link先を確認
Daochang Liu, Qiyue Li, AnhDung Dinh, Tingting Jiang, Mubarak Shah, Chang Xu(参考訳) 時間的アクションセグメンテーションは、長い形式のビデオを理解するのに不可欠である。 このタスクの以前の作業では、多段階モデルを用いて反復的リファインメントパラダイムを一般的に採用していた。 本稿では,そのような反復的改良の持つ本質的な精神を共有した拡散モデルを用いて,本質的に異なる枠組みを提案する。 この枠組みでは、入力映像特徴を条件としてランダムノイズから行動予測が徐々に生成される。 人間の行動における3つの印象的特徴のモデル化を, 先行位置, 境界曖昧性, 関係依存性などにより強化するため, 本フレームワークにおける条件付入力の統一マスキング戦略を考案する。 3つのベンチマークデータセット、すなわちgtea、50salads、朝食に関する広範囲な実験を行い、提案手法は最先端の手法に匹敵する結果を得ることができ、アクションセグメンテーションに対する生成的アプローチの有効性を示す。 私たちのコードは利用可能になります。

Temporal action segmentation is crucial for understanding long-form videos. Previous works on this task commonly adopt an iterative refinement paradigm by using multi-stage models. Our paper proposes an essentially different framework via denoising diffusion models, which nonetheless shares the same inherent spirit of such iterative refinement. In this framework, action predictions are progressively generated from random noise with input video features as conditions. To enhance the modeling of three striking characteristics of human actions, including the position prior, the boundary ambiguity, and the relational dependency, we devise a unified masking strategy for the conditioning inputs in our framework. Extensive experiments on three benchmark datasets, i.e., GTEA, 50Salads, and Breakfast, are performed and the proposed method achieves superior or comparable results to state-of-the-art methods, showing the effectiveness of a generative approach for action segmentation. Our codes will be made available.
翻訳日:2023-04-03 14:23:39 公開日:2023-03-31
# ctシリーズにおけるマルチオルガンセグメンテーションのアンサンブル法

Ensemble Methods for Multi-Organ Segmentation in CT Series ( http://arxiv.org/abs/2303.17956v1 )

ライセンス: Link先を確認
Leonardo Crespi, Paolo Roncaglioni, Damiano Dei, Ciro Franzese, Nicola Lambri, Daniele Loiacono, Pietro Mancosu, Marta Scorsetti(参考訳) 医療画像の分野では、セマンティックセグメンテーションは、医師が行う最も重要で、しかし、困難で、時間を要するタスクの1つである。 コンピュータビジョンに関するディープラーニングモデルの最近の進歩のおかげで、この種のタスクを自動化できるという約束はますます現実的になりつつある。 しかし、データの可用性の不足や、高度に専門化されたモデルの効率を一般的なシナリオに拡張することの難しさなど、多くの問題がまだ解決されていない。 放射線治療計画のためのリスクセグメンテーションの臓器は、利用可能な限られたデータが汎用モデルの開発可能性に負の影響を及ぼしているため、このカテゴリに分類される。本研究では、コンポーネントの異なる特殊性を生かしたマルチオルガンマスクを作成可能なシングルオルガンモデルの3種類のアンサンブルを提示することにより、この問題を解決する可能性に焦点を当てる。 得られた結果は有望であり、効率的なマルチ有機セグメンテーション法を見つけるための解決策であることを示す。

In the medical images field, semantic segmentation is one of the most important, yet difficult and time-consuming tasks to be performed by physicians. Thanks to the recent advancement in the Deep Learning models regarding Computer Vision, the promise to automate this kind of task is getting more and more realistic. However, many problems are still to be solved, like the scarce availability of data and the difficulty to extend the efficiency of highly specialised models to general scenarios. Organs at risk segmentation for radiotherapy treatment planning falls in this category, as the limited data available negatively affects the possibility to develop general-purpose models; in this work, we focus on the possibility to solve this problem by presenting three types of ensembles of single-organ models able to produce multi-organ masks exploiting the different specialisations of their components. The results obtained are promising and prove that this is a possible solution to finding efficient multi-organ segmentation methods.
翻訳日:2023-04-03 14:23:23 公開日:2023-03-31
# 変調電子ビームと共振器を用いたスピン量子ビットのキャラクタリゼーションとコヒーレント制御

Characterization and Coherent Control of Spin Qubits with Modulated Electron Beam and Resonator ( http://arxiv.org/abs/2303.17952v1 )

ライセンス: Link先を確認
Soheil Yasini and Zahra Shaterzadeh-Yazdi and Mahmoud Mohammad Taheri(参考訳) スピン量子ビットのコヒーレントダイナミクスと制御は量子技術にとって必須の要件である。 量子ビットの集合におけるスピン量子ビットのコヒーレント制御に対する顕著な挑戦は、その空間拡大による近傍量子ビットのコヒーレントダイナミクスに対する印加磁場の破壊効果である。 本稿では,これらの量子系のコヒーレントダイナミクスを特徴付け,磁場を用いてコヒーレントに制御する新しい手法を提案する。 提案方式は、所望の量子系を含む共振器と、興味のある量子系に近接して共振器を通過する変調電子ビームとから構成される。 システムのダイナミクスは、lindblad master方程式を解いて得られる。 このモデルの信頼性を検証するために、ダイヤモンド中のカリウム原子である$^{41}$kとnv$^-$センターで実験を行った。 その結果、共振器と電子ビームのパラメータを適切に制御することで、これらの量子系のコヒーレンスとデコヒーレンス率を改善することができる。 我々のモデルは、スピンベースの異なる量子システムの特徴付けや量子計算のための量子論理ゲートの実装に使用できる可能性がある。

The coherent dynamics and control of spin qubits are essential requirements for quantum technology. A prominent challenge for coherent control of a spin qubit in a set of qubits is the destructive effect of the applied magnetic field on the coherent dynamics of neighbouring qubits due to its spatial extension. We propose a novel scheme to characterize the coherent dynamics of these quantum systems and to coherently control them using a magnetic field. Our scheme consists of a resonator that encompasses the desired quantum system and a modulated electron beam that passes through the resonator in close proximity to the quantum system of interest. The dynamics of the system is obtained by solving the Lindblad master equation. To verify the reliability of our model, we tested the model on a Potassium atom, $^{41}$K and NV$^-$ centre in Diamond. The results show that by properly controlling the parameters of the resonator and the electron beam, the coherence and decoherence rates of these quantum systems can be improved. Our model has the potential to be used for characterizing different types of spin-based quantum systems, and implementing quantum logic gates for quantum computation.
翻訳日:2023-04-03 14:23:04 公開日:2023-03-31
# 効率的なディープラーニング推論のためのFP8対INT8

FP8 versus INT8 for efficient deep learning inference ( http://arxiv.org/abs/2303.17951v1 )

ライセンス: Link先を確認
Mart van Baalen, Andrey Kuzmin, Suparna S Nair, Yuwei Ren, Eric Mahurin, Chirag Patel, Sundar Subramanian, Sanghyuk Lee, Markus Nagel, Joseph Soriaga, Tijmen Blankevoort(参考訳) 近年、ニューラルネットワークトレーニングの数値形式としてFP8を使用するというアイデアが、ディープラーニングの世界に浮かび上がっている。 現在、ほとんどのトレーニングがFP32のネットワーク全体、あるいは混合精度のFP16で行われていることを考えると、FP8のネットワークの一部に8ビットの重みを持つようにするステップは、ディープラーニングにおける一般的にコストがかかる時間を要するトレーニング手順にとって魅力的なスピードアップである。 この開発がエッジデバイス上での効率的な推論にどのような意味を持つのかという自然問題が発生する。 効率的な推論デバイスの世界では、ワークロードはINT8で頻繁に実行される。 効率が要求されるとき、INT4と同じくらい低い場合もあります。 このホワイトペーパーでは、FP8フォーマットとINTフォーマットの両方のパフォーマンスを比較し、デバイス上の効率的な推論を行う。 理論的には、ニューラルネットワークのINT形式とFP形式の違いを示し、ポストトレーニング量子化と量子化対応学習の結果の多元性を提示し、この理論が実践にどのように変換されるかを示す。 また、FPフォーマットはINTフォーマットよりも専用ハードウェアの計算効率が50~180%低いことを示すハードウェア分析も提供する。 提案したFP8フォーマットは,本研究と研究分野の可読性に基づき,FP8フォーマットがトレーニングに有効であるとしても,推論結果がFP8の専用実装を保証せず,効率の良い推論を行うことができる。 これまでの結果とほぼ一致した結果が得られたが, これまでのところ, フォーマット間の重要な比較は不十分であった。 最後に、FP8をトレーニングしたネットワークがINT8に変換されたときに何が起こるかについて議論し、デバイス上でのデプロイの最も効率的な方法と、多くのモデルに対するINT8結果の広範なスイートについて、簡単な議論で結論づける。

Recently, the idea of using FP8 as a number format for neural network training has been floating around the deep learning world. Given that most training is currently conducted with entire networks in FP32, or sometimes FP16 with mixed-precision, the step to having some parts of a network run in FP8 with 8-bit weights is an appealing potential speed-up for the generally costly and time-intensive training procedures in deep learning. A natural question arises regarding what this development means for efficient inference on edge devices. In the efficient inference device world, workloads are frequently executed in INT8. Sometimes going even as low as INT4 when efficiency calls for it. In this whitepaper, we compare the performance for both the FP8 and INT formats for efficient on-device inference. We theoretically show the difference between the INT and FP formats for neural networks and present a plethora of post-training quantization and quantization-aware-training results to show how this theory translates to practice. We also provide a hardware analysis showing that the FP formats are somewhere between 50-180% less efficient in terms of compute in dedicated hardware than the INT format. Based on our research and a read of the research field, we conclude that although the proposed FP8 format could be good for training, the results for inference do not warrant a dedicated implementation of FP8 in favor of INT8 for efficient inference. We show that our results are mostly consistent with previous findings but that important comparisons between the formats have thus far been lacking. Finally, we discuss what happens when FP8-trained networks are converted to INT8 and conclude with a brief discussion on the most efficient way for on-device deployment and an extensive suite of INT8 results for many models.
翻訳日:2023-04-03 14:22:46 公開日:2023-03-31
# マシンオーディオの教師なし異常検出と位置決め:GANに基づくアプローチ

Unsupervised Anomaly Detection and Localization of Machine Audio: A GAN-based Approach ( http://arxiv.org/abs/2303.17949v1 )

ライセンス: Link先を確認
Anbai Jiang, Wei-Qiang Zhang, Yufeng Deng, Pingyi Fan and Jia Liu(参考訳) 機械学習では、機械異常の自動検出が依然として困難である。 我々は,GAN(Generative Adversarial Network)の能力が機械的オーディオ異常検出の必要性に適合すると考えている。 本稿では,AEGAN-ADを提案する。AEGAN-ADは,ジェネレータ(オートエンコーダ)が入力スペクトログラムを再構成するために訓練される,完全に教師なしのアプローチである。 復元の難易度が低下していることが指摘されている。 これにより、識別器は、訓練段階と検出段階の両方において発電機を支援するように再設計される。 DCASE 2022 Challenge TASK 2のデータセット上でのAEGAN-ADの性能は、5種類のマシン上での最先端の結果を示している。 また,新しい異常局在法についても検討した。 ソースコードは:www.github.com/jianganbai/AEGAN-AD

Automatic detection of machine anomaly remains challenging for machine learning. We believe the capability of generative adversarial network (GAN) suits the need of machine audio anomaly detection, yet rarely has this been investigated by previous work. In this paper, we propose AEGAN-AD, a totally unsupervised approach in which the generator (also an autoencoder) is trained to reconstruct input spectrograms. It is pointed out that the denoising nature of reconstruction deprecates its capacity. Thus, the discriminator is redesigned to aid the generator during both training stage and detection stage. The performance of AEGAN-AD on the dataset of DCASE 2022 Challenge TASK 2 demonstrates the state-of-the-art result on five machine types. A novel anomaly localization method is also investigated. Source code available at: www.github.com/jianganbai/AEGAN-AD
翻訳日:2023-04-03 14:22:14 公開日:2023-03-31
# より良い質問を尋ねる - 予測の芸術と科学--高い質問に対する真の答えのメカニズム

Asking Better Questions -- The Art and Science of Forecasting: A mechanism for truer answers to high-stakes questions ( http://arxiv.org/abs/2303.18006v1 )

ライセンス: Link先を確認
Emily Dardaman (1) and Abhishek Gupta (1, 2, and 3) ((1) BCG Henderson Institute, (2) Montreal AI Ethics Institute, (3) Boston Consulting Group)(参考訳) AI能力の進歩を見積り、ベンチマークする能力がなければ、組織はそれぞれの変更に反応し、中長期的に実行可能な戦略を構築する能力を妨げます。 本稿では,予測精度の向上につながる明示的な仮定と量的推定を用いた政治科学ツールである予測の最近の成長について考察する。 全体的なレベルでは、予測は才能を特定し検証し、リーダーがより良いAI進歩モデルを構築し、デザインポリシーへのインプットを改善することを可能にする。 予測とケーススタディに成功しているアプローチについて検討し、人口の98%を上回り、最も信頼性の高い「スーパーフォアキャスター」のサブクラスを明らかにした。 最後に、フィリップ・テトロックの「十戒」など、成功の裏にある技術の概要が述べられている。 急速に変化するテクノロジーの展望に適応するために、デザイナーや政策立案者は予測を防衛の第一線と見なすべきである。

Without the ability to estimate and benchmark AI capability advancements, organizations are left to respond to each change reactively, impeding their ability to build viable mid and long-term strategies. This paper explores the recent growth of forecasting, a political science tool that uses explicit assumptions and quantitative estimation that leads to improved prediction accuracy. Done at the collective level, forecasting can identify and verify talent, enable leaders to build better models of AI advancements and improve inputs into design policy. Successful approaches to forecasting and case studies are examined, revealing a subclass of "superforecasters" who outperform 98% of the population and whose insights will be most reliable. Finally, techniques behind successful forecasting are outlined, including Phillip Tetlock's "Ten Commandments." To adapt to a quickly changing technology landscape, designers and policymakers should consider forecasting as a first line of defense.
翻訳日:2023-04-03 14:15:43 公開日:2023-03-31
# 卵巣癌病理における人工知能 : 全身的検討

Artificial Intelligence in Ovarian Cancer Histopathology: A Systematic Review ( http://arxiv.org/abs/2303.18005v1 )

ライセンス: Link先を確認
Jack Breen, Katie Allen, Kieran Zucker, Pratik Adusumilli, Andy Scarsbrook, Geoff Hall, Nicolas M. Orsi, Nishant Ravikumar(参考訳) 目的 - 病理組織学的データを用いて卵巣癌診断や予後診断のための人工知能(AI)手法を評価する論文の質を評価・評価すること。 方法 - 5つのソースの検索が01/12/2022まで行われた。 包括的基準では,尿道卵巣癌や腹膜腫瘍を含む卵巣癌における診断・予後推論のための病理画像を用いたAIの評価が必要であった。 レビューと非英語記事は除外された。 PROBASTを用いて各モデルに対してバイアスのリスクを評価した。 結果 - 総計1434件の研究論文が特定され、そのうち36件が包括対象となった。 これらの研究は、35の分類器、14の生存予測モデル、7のセグメンテーションモデル、6の回帰モデルを含む62の興味あるモデルを報告した。 卵巣癌1-664例の1-1375スライドを用いてモデルを構築した。 全身生存率 (9/62), 組織学的サブタイプ (7/62), 染色量 (6/62), 悪性度 (5/62) など, 幅広い結果が予測された。 古い研究は手作りの特徴を持つ伝統的な機械学習(ML)モデルを使い、新しい研究は一般的にディープラーニング(DL)を使って特徴を自動学習し、興味のある結果を予測する。 すべてのモデルは、偏見のリスクが高いか、あるいは不明確であることが判明した。 調査は不十分な報告、小さなサンプルサイズ、不十分な検証によってしばしば制限された。 結論 - 限定的な研究が行われ、関連するモデルはいずれも実世界の実装の準備が整っていないことが示されている。 研究設計の根底にあるバイアスや欠陥に対処する勧告は、高品質の再現可能な将来の研究に役立てられるだろう。 キーとなるのは、より透過的で包括的なレポート、クロスバリデーションと外部検証によるパフォーマンス評価の改善などだ。

Purpose - To characterise and assess the quality of published research evaluating artificial intelligence (AI) methods for ovarian cancer diagnosis or prognosis using histopathology data. Methods - A search of 5 sources was conducted up to 01/12/2022. The inclusion criteria required that research evaluated AI on histopathology images for diagnostic or prognostic inferences in ovarian cancer, including tubo-ovarian and peritoneal tumours. Reviews and non-English language articles were excluded. The risk of bias was assessed for every included model using PROBAST. Results - A total of 1434 research articles were identified, of which 36 were eligible for inclusion. These studies reported 62 models of interest, including 35 classifiers, 14 survival prediction models, 7 segmentation models, and 6 regression models. Models were developed using 1-1375 slides from 1-664 ovarian cancer patients. A wide array of outcomes were predicted, including overall survival (9/62), histological subtypes (7/62), stain quantity (6/62) and malignancy (5/62). Older studies used traditional machine learning (ML) models with hand-crafted features, while newer studies typically employed deep learning (DL) to automatically learn features and predict the outcome(s) of interest. All models were found to be at high or unclear risk of bias overall. Research was frequently limited by insufficient reporting, small sample sizes, and insufficient validation. Conclusion - Limited research has been conducted and none of the associated models have been demonstrated to be ready for real-world implementation. Recommendations are provided addressing underlying biases and flaws in study design, which should help inform higher-quality reproducible future research. Key aspects include more transparent and comprehensive reporting, and improved performance evaluation using cross-validation and external validations.
翻訳日:2023-04-03 14:15:26 公開日:2023-03-31
# 一度だけ訓練する:ハイパースペクトル異常検出のためのランダムマスク付き一般異常改善ネットワーク学習

You Only Train Once: Learning a General Anomaly Enhancement Network with Random Masks for Hyperspectral Anomaly Detection ( http://arxiv.org/abs/2303.18001v1 )

ライセンス: Link先を確認
Zhaoxu Li, Yingqian Wang, Chao Xiao, Qiang Ling, Zaiping Lin, and Wei An(参考訳) 本稿では,高スペクトル異常検出(AD)における一般化の課題に対処する新しいアプローチを提案する。 提案手法は,既存の手法で必要となるパラメータの調整や新しいテストシーンの再学習を不要とする。 画像レベルのトレーニングパラダイムを用いることで、1度しかトレーニングする必要のないハイパースペクトルADのための一般的な異常拡張ネットワークを実現する。 ランダムマスクを用いた一組の異常のないハイパースペクトル画像に基づいて,異常と背景の空間的特徴を教師なしで学習することができる。 さらに,オリジナルデータよりもadタスクに適した空間スペクトル変換ドメインを探索するために,プラグ・アンド・プレイモデル選択モジュールを提案する。 提案手法と既存手法を総合的に評価するための統一ベンチマークを確立するため,多種多様なターゲットを持つ100個の実検シーンを含む大規模ハイパースペクトルADデータセット(HAD100)を開発した。 比較実験では,ネットワークをパラメータフリー検出器と組み合わせ,最先端のad手法における検出精度と推定速度の最適バランスを実現する。 また, 実験結果から, 異なるセンサデバイスでトレーニングセットとテストセットをキャプチャすると, 性能が向上することが示された。 私たちのコードはhttps://github.com/zhaoxuli123/aetnetで利用可能です。

In this paper, we introduce a new approach to address the challenge of generalization in hyperspectral anomaly detection (AD). Our method eliminates the need for adjusting parameters or retraining on new test scenes as required by most existing methods. Employing an image-level training paradigm, we achieve a general anomaly enhancement network for hyperspectral AD that only needs to be trained once. Trained on a set of anomaly-free hyperspectral images with random masks, our network can learn the spatial context characteristics between anomalies and background in an unsupervised way. Additionally, a plug-and-play model selection module is proposed to search for a spatial-spectral transform domain that is more suitable for AD task than the original data. To establish a unified benchmark to comprehensively evaluate our method and existing methods, we develop a large-scale hyperspectral AD dataset (HAD100) that includes 100 real test scenes with diverse anomaly targets. In comparison experiments, we combine our network with a parameter-free detector and achieve the optimal balance between detection accuracy and inference speed among state-of-the-art AD methods. Experimental results also show that our method still achieves competitive performance when the training and test set are captured by different sensor devices. Our code is available at https://github.com/ZhaoxuLi123/AETNet.
翻訳日:2023-04-03 14:15:00 公開日:2023-03-31
# 光共振器回転による高次量子非相互性制御

Controlling higher-order quantum nonreciprocity by spinning an optical resonator ( http://arxiv.org/abs/2303.17997v1 )

ライセンス: Link先を確認
Yonglin Xiang, Yunlan Zuo, Xun-Wei Xu, Ran Huang, Hui Jing(参考訳) 我々は、回転するカー共振器で光の古典的あるいは量子的非相互効果を達成、操作、スイッチする方法を研究する。 特に、古典的非相反性(つまり、時計回りと反時計回りの伝播モードの両方で同じ平均光子数を持つ)がなくても、そのようなデバイスにおける光子の量子相関の非相反性を実現することができることを示す。 また、角速度と光後方散乱強度をチューニングすることにより、平均光子数と第2次相関の両方に非相互性がない場合でも、定性的に異なる第3次光学相関を特徴とする高次量子非相対性が現れる。 古典的アイソレータと純粋に量子指向性システムの間で単一デバイスを切り替える可能性は、非相反性物質により多くの機能を与え、非相反性多光子束、一方向光子束、バックアクション免疫量子通信のような新しい量子効果や応用を実現する新しい機会を与えることができる。

We study how to achieve, manipulate, and switch classical or quantum nonreciprocal effects of light with a spinning Kerr resonator. In particular, we show that even when there is no classical nonreciprocity (i.e., with the same mean number of photons for both clockwise and counterclockwise propagating modes), it is still possible to realize nonreciprocity of quantum correlations of photons in such a device. Also, by tuning the angular velocity and the optical backscattering strength, higher-order quantum nonreciprocity can appear, featuring qualitatively different third-order optical correlations, even in the absence of any nonreciprocity for both the mean photon number and its second-order correlations. The possibility to switch a single device between a classical isolator and a purely quantum directional system can provide more functions for nonreciprocal materials and new opportunities to realize novel quantum effects and applications, such as nonreciprocal multi-photon blockade, one-way photon bundles, and backaction-immune quantum communications.
翻訳日:2023-04-03 14:14:38 公開日:2023-03-31
# ニューラルネットワークエントロピー(NNetEn):エントロピー特徴による脳波信号とカオス時系列分離、NNetEn計算のためのPythonパッケージ

Neural Network Entropy (NNetEn): EEG Signals and Chaotic Time Series Separation by Entropy Features, Python Package for NNetEn Calculation ( http://arxiv.org/abs/2303.17995v1 )

ライセンス: Link先を確認
Andrei Velichko, Maksim Belyaev, Yuriy Izotov, Murugappan Murugappan and Hanif Heidari(参考訳) エントロピー測度は時系列分類問題に有効な特徴である。 シャノンエントロピーのような伝統的なエントロピー測度は確率分布関数を用いる。 しかし, 時系列を効果的に分離するためには, システムのカオス力学を特徴付ける新しいエントロピー推定法が必要となる。 ニューラルネットワークエントロピー(NNetEn)の概念は,LogNNetニューラルネットワークの貯留層に記録された時系列のエントロピーに関連して,特別なデータセット(MNIST-10とSARS-CoV-2-RBV1)の分類に基づいている。 NNetEnは、時系列のカオス力学を元の方法で推定する。 NNetEnアルゴリズムに基づいて、R2効率とピアソン効率の2つの新しい分類指標を提案する。 分散分析 (ANOVA) を用いて2つのカオス時系列の正弦写像を分離し, NNetEnの効率を検証した。 2つの閉ダイナミック時系列 (r = 1.1918 と r = 1.2243) に対して、f-ratio は 124 の値に達し、分類問題における導入法の高い効率を反映している。 健康な人やアルツハイマー病患者の脳波信号分類は、NNetEnの特徴の実用性を示している。 従来のエントロピー測度とNNetEn概念を併用する際の分類精度の向上による相乗効果を示す。 pythonにおけるアルゴリズムの実装について述べる。

Entropy measures are effective features for time series classification problems. Traditional entropy measures, such as Shannon entropy, use probability distribution function. However, for the effective separation of time series, new entropy estimation methods are required to characterize the chaotic dynamic of the system. Our concept of Neural Network Entropy (NNetEn) is based on the classification of special datasets (MNIST-10 and SARS-CoV-2-RBV1) in relation to the entropy of the time series recorded in the reservoir of the LogNNet neural network. NNetEn estimates the chaotic dynamics of time series in an original way. Based on the NNetEn algorithm, we propose two new classification metrics: R2 Efficiency and Pearson Efficiency. The efficiency of NNetEn is verified on separation of two chaotic time series of sine mapping using dispersion analysis (ANOVA). For two close dynamic time series (r = 1.1918 and r = 1.2243), the F-ratio has reached the value of 124 and reflects high efficiency of the introduced method in classification problems. The EEG signal classification for healthy persons and patients with Alzheimer disease illustrates the practical application of the NNetEn features. Our computations demonstrate the synergistic effect of increasing classification accuracy when applying traditional entropy measures and the NNetEn concept conjointly. An implementation of the algorithms in Python is presented.
翻訳日:2023-04-03 14:14:19 公開日:2023-03-31
# 非負行列分解のための高速乗算更新アルゴリズム

A fast Multiplicative Updates algorithm for Non-negative Matrix Factorization ( http://arxiv.org/abs/2303.17992v1 )

ライセンス: Link先を確認
Mai-Quyen Pham, J\'er\'emy Cohen, and Thierry Chonavel(参考訳) 非負の行列因子化は、教師なし機械学習において、しばしば解釈可能な部分の積にデータマトリックスを分解する重要なツールである。 過去30年間に多くのアルゴリズムが提案されてきた。 有名な方法は2002年にLee and Seungによって提案された乗法更新アルゴリズムである。 それらは実装が簡単で、スパース非負行列分解のような一般的な変種に適応でき、最近のベンチマークによると、損失関数がフロベニウスノルムではない多くの問題に対して最先端である。 本稿では,各部分問題に対してヘッセン行列のより強固な上限を定めることにより,交互大化最小化アルゴリズムと見なされる乗法更新アルゴリズムを改善することを提案する。 コンバージェンスはまだ確実であり、実際に合成データと実世界のデータセットの両方において、提案されたfastmuアルゴリズムは通常の乗法更新アルゴリズムよりも数桁高速であり、フロベニウス損失に対する最先端の手法と競合する可能性があることを観測する。

Nonnegative Matrix Factorization is an important tool in unsupervised machine learning to decompose a data matrix into a product of parts that are often interpretable. Many algorithms have been proposed during the last three decades. A well-known method is the Multiplicative Updates algorithm proposed by Lee and Seung in 2002. Multiplicative updates have many interesting features: they are simple to implement and can be adapted to popular variants such as sparse Nonnegative Matrix Factorization, and, according to recent benchmarks, is state-of-the-art for many problems where the loss function is not the Frobenius norm. In this manuscript, we propose to improve the Multiplicative Updates algorithm seen as an alternating majorization minimization algorithm by crafting a tighter upper bound of the Hessian matrix for each alternate subproblem. Convergence is still ensured and we observe in practice on both synthetic and real world dataset that the proposed fastMU algorithm is often several orders of magnitude faster than the regular Multiplicative Updates algorithm, and can even be competitive with state-of-the-art methods for the Frobenius loss.
翻訳日:2023-04-03 14:13:58 公開日:2023-03-31
# 複雑な石材表面の非教師ありき裂検出

Unsupervised crack detection on complex stone masonry surfaces ( http://arxiv.org/abs/2303.17989v1 )

ライセンス: Link先を確認
Panagiotis Agrafiotis, Anastastios Doulamis, Andreas Georgopoulos(参考訳) 建築病理を検出するコンピュータビジョンは、かなり前から研究者に関心を寄せてきた。 視覚に基づくき裂検出は非破壊的な評価手法であり、厳格な規制が適用される文化遺産(CH)では特に有用であり、単純な介入も許されない。 近年,様々な画像に適用される浅層および深層機械学習アーキテクチャが注目されている。 本稿では,石垣壁の亀裂検出法について述べる。 提案手法では, RGB (Red Green Blue) 画像パッチの非教師付き異常検出問題として, き裂検出にアプローチする。 この方向に向かって、art cnn(convolutional neural network)アーキテクチャの最も一般的な状態のいくつかは、テストされた画像の特定のクラスを予測して画像またはイメージパッチをバイナリに分類するためにデプロイされ、修正され、rgbイメージのクラックを高精度に検出およびローカライズする。 実験では,インターネットから検索したランダム画像と各種サイト上で実験を行い,著者らが収集した結果から,学習に必要なエポック数が少なかったことを考えると,他のネットワークに比べて高い性能を示した。 これらの結果は、より複雑で計算的に重いアプローチによって提供される精度を満たし、トレーニングに大量のデータを必要とする。 ソースコードはGitHub https://github.com/pagraf/Crack-detectionで、データセットはZenodo https://doi.org/10.5281/zenodo.6516913で入手できる。

Computer vision for detecting building pathologies has interested researchers for quite some time. Vision-based crack detection is a non-destructive assessment technique, which can be useful especially for Cultural Heritage (CH) where strict regulations apply and, even simple, interventions are not permitted. Recently, shallow and deep machine learning architectures applied on various types of imagery are gaining ground. In this article a crack detection methodology for stone masonry walls is presented. In the proposed approach, crack detection is approached as an unsupervised anomaly detection problem on RGB (Red Green Blue) image patches. Towards this direction, some of the most popular state of the art CNN (Convolutional Neural Network) architectures are deployed and modified to binary classify the images or image patches by predicting a specific class for the tested imagery; 'Crack' or 'No crack', and detect and localize those cracks on the RGB imagery with high accuracy. Testing of the model was performed on various test sites and random images retrieved from the internet and collected by the authors and results suggested the high performance of specific networks compared to the rest, considering also the small numbers of epochs required for training. Those results met the accuracy delivered by more complex and computationally heavy approaches, requiring a large amount of data for training. Source code is available on GitHub https://github.com/pagraf/Crack-detection while datasets are available on Zenodo https://doi.org/10.5281/zenodo.6516913 .
翻訳日:2023-04-03 14:13:39 公開日:2023-03-31
# 水中VSLAMの特徴抽出のための知識蒸留

Knowledge Distillation for Feature Extraction in Underwater VSLAM ( http://arxiv.org/abs/2303.17981v1 )

ライセンス: Link先を確認
Jinghe Yang, Mingming Gong, Girish Nair, Jung Hoon Lee, Jason Monty, Ye Pu(参考訳) 近年では,学習に基づく特徴検出とマッチングが,手作業で設計した手法を上回っている。 しかし,アノテートされた水中データセットがないため,水中シナリオの特徴を知ることは困難である。 本稿では,水中特徴検出・マッチングネットワーク(ufen)を訓練するためのクロスモーダル知識蒸留フレームワークを提案する。 特に、室内RGBDデータを用いて、物理的水中画像形成モデルに基づいて合成水中画像を生成し、それを媒介として、室内画像に基づいて事前訓練された教師モデルSuperPointからの知識を除去する。 ORB-SLAM3 フレームワークに UFEN を組み込んで,追加のバイナライゼーション層を導入することで,ORB 機能を置き換える。 提案手法の有効性を検証するため, 屋内水槽に記録されたEASI (https://github.com/Jinghe-mel/UFEN-SLAM) と題する地中観測データを構築した。 既存のデータセットと新しいデータセットの実験結果から,本手法の有効性が示された。

In recent years, learning-based feature detection and matching have outperformed manually-designed methods in in-air cases. However, it is challenging to learn the features in the underwater scenario due to the absence of annotated underwater datasets. This paper proposes a cross-modal knowledge distillation framework for training an underwater feature detection and matching network (UFEN). In particular, we use in-air RGBD data to generate synthetic underwater images based on a physical underwater imaging formation model and employ these as the medium to distil knowledge from a teacher model SuperPoint pretrained on in-air images. We embed UFEN into the ORB-SLAM3 framework to replace the ORB feature by introducing an additional binarization layer. To test the effectiveness of our method, we built a new underwater dataset with groundtruth measurements named EASI (https://github.com/Jinghe-mel/UFEN-SLAM), recorded in an indoor water tank for different turbidity levels. The experimental results on the existing dataset and our new dataset demonstrate the effectiveness of our method.
翻訳日:2023-04-03 14:13:12 公開日:2023-03-31
# $\mathcal{E}$ K\'U [MASK]: Yor\`ub\'a文化挨拶を機械翻訳に統合する

$\mathcal{E}$ K\'U [MASK]: Integrating Yor\`ub\'a cultural greetings into machine translation ( http://arxiv.org/abs/2303.17972v1 )

ライセンス: Link先を確認
Idris Akinade, Jesujoba Alabi, David Adelani, Clement Odoje and Dietrich Klakow(参考訳) 本稿では,Yor\`ub\'a 言語と文化の重要な部分である Yor\`ub\'a 挨拶 (\mathcal{E}$ k\'u [MASK]) を英語に翻訳する際の多言語ニューラルマシン翻訳 (NMT) システムの性能について検討する。 これらのモデルを評価するために、IkiniYor\`ub\'a, Yor\`ub\'a- English translation data with some Yor\`ub\'a greetings, and sample use caseを示す。 Google や NLLB などの多言語 NMT システムの性能を分析し,これらのモデルがYor\ub\'a の挨拶を正確に英語に翻訳するのに苦労していることを示す。 さらに、既存のnmtモデルをikiniyor\`ub\'aのトレーニング分割に微調整することで、yor\`ub\'a- englishモデルをトレーニングし、大量のデータでトレーニングしたにもかかわらず、事前訓練された多言語nmtモデルと比較して優れた性能を得た。

This paper investigates the performance of massively multilingual neural machine translation (NMT) systems in translating Yor\`ub\'a greetings ($\mathcal{E}$ k\'u [MASK]), which are a big part of Yor\`ub\'a language and culture, into English. To evaluate these models, we present IkiniYor\`ub\'a, a Yor\`ub\'a-English translation dataset containing some Yor\`ub\'a greetings, and sample use cases. We analysed the performance of different multilingual NMT systems including Google and NLLB and show that these models struggle to accurately translate Yor\`ub\'a greetings into English. In addition, we trained a Yor\`ub\'a-English model by finetuning an existing NMT model on the training split of IkiniYor\`ub\'a and this achieved better performance when compared to the pre-trained multilingual NMT models, although they were trained on a large volume of data.
翻訳日:2023-04-03 14:12:53 公開日:2023-03-31
# 注文による非協力の促進

Promoting Non-Cooperation Through Ordering ( http://arxiv.org/abs/2303.17971v1 )

ライセンス: Link先を確認
David Sychrovsky, Sameer Desai, Martin Loebl(参考訳) 大都市の小さな交通犯罪のような現実の多くの状況では、中央の権威は多数の個人に対して定期的に罰を課す。 一般的な慣習は、個人により小さな罰金を科す機会を与え、より大きな刑罰を課す法的手続きを避けることを保証することである。 しかし、多くの犯罪者と中央権力の限られた能力のおかげで、個人のリスクは通常小さく、合理的な個人は罰金を支払うことを選択しない。 ここで、中央機関が犯人を公的な命令で処理した場合、犯人に罰金を科すよう適切にインセンティブを与える。 我々は、我々のメカニズムが非協力と個人が支払うインセンティブを促進するという分析的および現実的な実験を示す。 さらに、任意の連立についても同じことが言える。 我々は、中央機関が受け取る総支払額を定量化し、その額が大幅に増加することを示す。

In many real world situations, like minor traffic offenses in big cities, a central authority is tasked with periodic administering punishments to a large number of individuals. Common practice is to give each individual a chance to suffer a smaller fine and be guaranteed to avoid the legal process with probable considerably larger punishment. However, thanks to the large number of offenders and a limited capacity of the central authority, the individual risk is typically small and a rational individual will not choose to pay the fine. Here we show that if the central authority processes the offenders in a publicly known order, it properly incentives the offenders to pay the fine. We show analytically and on realistic experiments that our mechanism promotes non-cooperation and incentives individuals to pay. Moreover, the same holds for an arbitrary coalition. We quantify the expected total payment the central authority receives, and show it increases considerably.
翻訳日:2023-04-03 14:12:27 公開日:2023-03-31
# シンプルなドメイン一般化法はオープンドメイン一般化の強力なベースラインである

Simple Domain Generalization Methods are Strong Baselines for Open Domain Generalization ( http://arxiv.org/abs/2303.18031v1 )

ライセンス: Link先を確認
Masashi Noguchi, Shinichi Shirakawa(参考訳) 実世界のアプリケーションでは、未知のクラスが推論中に現れるオープンセット認識(OSR)と、トレーニングと推論フェーズ間でデータの分布が異なるドメインシフトを扱うために、機械学習モデルが必要である。 ドメイン一般化(DG)は、モデルトレーニング中に推論フェーズのターゲットドメインにアクセスできないドメインシフト状況を扱うことを目的としている。 オープンドメイン一般化(ODG)はDGとOSRの両方を考慮している。 Domain-Augmented Meta-Learning (DAML)は、ODGをターゲットにした手法であるが、複雑な学習プロセスがある。 一方、様々なDG法が提案されているが、ODGの状況では評価されていない。 本研究は,既存のDG法を包括的に評価し,Correlation ALignment(CORAL)とMaximum Mean Discrepancy(MMD)の2つの単純なDG法がDAMLと競合していることを示す。 さらに,DAMLで使用されるアンサンブル学習やディリクレ混合データ拡張などの手法を導入して,CORALとMDの単純な拡張を提案する。 実験により,拡張された CORAL と MMD は,より少ない計算コストでDAML と同等に動作可能であることが示された。 これは、単純なDG法とその単純な拡張がODGの強いベースラインであることを示唆している。 実験で使用されたコードはhttps://github.com/shiralab/OpenDG-Eval.comで公開されている。

In real-world applications, a machine learning model is required to handle an open-set recognition (OSR), where unknown classes appear during the inference, in addition to a domain shift, where the distribution of data differs between the training and inference phases. Domain generalization (DG) aims to handle the domain shift situation where the target domain of the inference phase is inaccessible during model training. Open domain generalization (ODG) takes into account both DG and OSR. Domain-Augmented Meta-Learning (DAML) is a method targeting ODG but has a complicated learning process. On the other hand, although various DG methods have been proposed, they have not been evaluated in ODG situations. This work comprehensively evaluates existing DG methods in ODG and shows that two simple DG methods, CORrelation ALignment (CORAL) and Maximum Mean Discrepancy (MMD), are competitive with DAML in several cases. In addition, we propose simple extensions of CORAL and MMD by introducing the techniques used in DAML, such as ensemble learning and Dirichlet mixup data augmentation. The experimental evaluation demonstrates that the extended CORAL and MMD can perform comparably to DAML with lower computational costs. This suggests that the simple DG methods and their simple extensions are strong baselines for ODG. The code used in the experiments is available at https://github.com/shiralab/OpenDG-Eval.
翻訳日:2023-04-03 14:06:35 公開日:2023-03-31
# 医療ライセンス試験におけるgpt-4とchatgptの評価

Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations ( http://arxiv.org/abs/2303.18027v1 )

ライセンス: Link先を確認
Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, Dragomir Radev(参考訳) 多様な言語の話者の間で大きな言語モデル(LLM)が普及するにつれて、モデル行動や失敗、英語以外の言語の制限をよりよく理解するために、それらをベンチマークすることが重要であると信じています。 本研究では,過去5年間の全国医療ライセンス試験におけるLCM API(ChatGPT, GPT-3, GPT-4)の評価を行った。 本研究チームは日本語話者のNLP研究者と,日本在住の心臓科医からなる。 実験の結果,gpt-4 は chatgpt と gpt-3 を上回っており,試験の5年すべてに合格していることが明らかとなった。 しかし、我々の評価では、現在のLLM APIの限界も明らかにしている。 第一に、LLMは、日本の医療行為において厳格に避けるべき禁止された選択を選定することがある。 さらに分析の結果,非ラテン語スクリプトがパイプライン内でトークン化されているため,一般的にはAPIコストが高く,最大コンテキストサイズが小さくなっていることがわかった。 ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。 私たちの結果とベンチマークがllmのより多様なアプリケーションの発展を促すことを期待しています。 ベンチマークはhttps://github.com/jungokasai/igakuqaで利用可能です。

As large language models (LLMs) gain popularity among speakers of diverse languages, we believe that it is crucial to benchmark them to better understand model behaviors, failures, and limitations in languages beyond English. In this work, we evaluate LLM APIs (ChatGPT, GPT-3, and GPT-4) on the Japanese national medical licensing examinations from the past five years. Our team comprises native Japanese-speaking NLP researchers and a practicing cardiologist based in Japan. Our experiments show that GPT-4 outperforms ChatGPT and GPT-3 and passes all five years of the exams, highlighting LLMs' potential in a language that is typologically distant from English. However, our evaluation also exposes critical limitations of the current LLM APIs. First, LLMs sometimes select prohibited choices that should be strictly avoided in medical practice in Japan, such as suggesting euthanasia. Further, our analysis shows that the API costs are generally higher and the maximum context size is smaller for Japanese because of the way non-Latin scripts are currently tokenized in the pipeline. We release our benchmark as Igaku QA as well as all model outputs and exam metadata. We hope that our results and benchmark will spur progress on more diverse applications of LLMs. Our benchmark is available at https://github.com/jungokasai/IgakuQA.
翻訳日:2023-04-03 14:06:10 公開日:2023-03-31
# 網膜動静脈セグメンテーションにおけるトポロジー-オーバーラップトレードオフ

The Topology-Overlap Trade-Off in Retinal Arteriole-Venule Segmentation ( http://arxiv.org/abs/2303.18022v1 )

ライセンス: Link先を確認
Angel Victor Juanco Muller, Joao F.C. Mota, Keith A. Goatman, Corne Hoogendoorn(参考訳) 網膜基底画像は、高血圧や糖尿病などの疫病をスクリーニングするための貴重な診断ツールとなり得る。 そして、それらが描かれている動脈や静脈がはっきりと識別され、注釈付けされると、特に有用になる。 しかし、これらの船の手動アノテーションは、自動セグメンテーションを要求する要求と課税に非常に時間を要する。 畳み込みニューラルネットワークは、予測と専門家アノテーションの高い重複を達成することができるが、しばしば管状構造のトポロジ的に正しい予測を作成できない。 この状況は、分類ミスを引き起こす分岐と交差曖昧性によって悪化する。 本稿では, 損失関数の位相保存項を含むことにより, 細管の連続性は向上するが, 動脈静脈の誤分類と全体的な重複度は低下することを示した。 しかし, 異方性片側ケーキウェーブレットに基づく配向スコア誘導畳み込みモジュールを組み込むことにより, このような誤分類を低減し, 結果のトポロジ的正しさをさらに向上させることを示す。 我々は,重なり合いとトポロジの正確性の両方を評価するために,便宜的に選択された指標を用いて公共データセット上でモデルを評価し,重なり合いの観点から最先端の成果を得られることを示すとともに,トポロジ的正確性を高めた。

Retinal fundus images can be an invaluable diagnosis tool for screening epidemic diseases like hypertension or diabetes. And they become especially useful when the arterioles and venules they depict are clearly identified and annotated. However, manual annotation of these vessels is extremely time demanding and taxing, which calls for automatic segmentation. Although convolutional neural networks can achieve high overlap between predictions and expert annotations, they often fail to produce topologically correct predictions of tubular structures. This situation is exacerbated by the bifurcation versus crossing ambiguity which causes classification mistakes. This paper shows that including a topology preserving term in the loss function improves the continuity of the segmented vessels, although at the expense of artery-vein misclassification and overall lower overlap metrics. However, we show that by including an orientation score guided convolutional module, based on the anisotropic single sided cake wavelet, we reduce such misclassification and further increase the topology correctness of the results. We evaluate our model on public datasets with conveniently chosen metrics to assess both overlap and topology correctness, showing that our model is able to produce results on par with state-of-the-art from the point of view of overlap, while increasing topological accuracy.
翻訳日:2023-04-03 14:05:49 公開日:2023-03-31
# 離散対称性破壊平衡状態の一般理論

General theory for discrete symmetry-breaking equilibrium states ( http://arxiv.org/abs/2303.18020v1 )

ライセンス: Link先を確認
\'Angel L. Corps, Armando Rela\~no(参考訳) 相転移における自発的対称性の破れは、ハミルトニアン系がある変換の下で対称であるときに起こるが、自然界で観測される平衡状態はそうではない。 ここでは、離散対称性が自然に量子系で破られるとき、時間進化は対称性に結びついたもの以外に、必然的に2つの追加量と非可換量を保存することを証明する。 これは、マクロな配置の重ね合わせからなる平衡状態の存在を意味する。 そこで本研究では,量子技術における現状と平衡状態の実験的実現を提案する。 数値計算により、熱力学的限界から遠く離れても、超長寿命の予熱状態として存続することを示した。 最後に、ハミルトニアンにおける小さな対称性を破る摂動は2つの前の量の1つを安定させ、対称性を破る平衡状態が小さな量子系においても安定になることを示す。

Spontaneous symmetry-breaking in phase transitions occurs when the system Hamiltonian is symmetric under a certain transformation, but the equilibrium states observed in nature are not. Here, we prove that when a discrete symmetry is spontaneously broken in a quantum system, then the time evolution necessarily conserves two additional and non-commuting quantities, besides the one linked to the symmetry. This implies the existence of equilibrium states consisting in superpositions of macroscopic configurations. Then, we propose an experimental realization of such equilibrium states with the current state-of-the art in quantum technologies. Through numerical calculations, we show that they survive as very long-lived pre-thermal states, even very far away from the thermodynamic limit. Finally, we also show that a small symmetry-breaking perturbation in the Hamiltonian stabilizes the conservation of one of the two former quantities, implying that symmetry-breaking equilibrium states become stable even in small quantum systems.
翻訳日:2023-04-03 14:05:26 公開日:2023-03-31
# 教師なし埋め込みを用いたライブ画像に基づく神経外科的指導とロードマップ生成

Live image-based neurosurgical guidance and roadmap generation using unsupervised embedding ( http://arxiv.org/abs/2303.18019v1 )

ライセンス: Link先を確認
Gary Sarwin, Alessandro Carretta, Victor Staartjes, Matteo Zoli, Diego Mazzatenta, Luca Regli, Carlo Serra, Ender Konukoglu(参考訳) 高度な低侵襲神経外科ナビゲーションは主に磁気共鳴イメージング(MRI)誘導に依存している。 しかしMRIガイドは、ほとんどの症例で術前の情報しか提供していない。 手術が開始されると、手術による解剖学的変化により、この指導の価値はある程度低下する。 内視鏡などの手術器具から直接来るライブイメージフィードバックによるガイダンスは、MRIベースのナビゲーションを補完したり、MRIガイダンスが実現不可能な場合の代替となる。 まず,脳神経外科画像の解剖学的構造を検出するための深層学習に基づく物体検出手法であるYOLOの性能について報告する。 第2に,患者間の正確な解剖学的一致や広範な解剖学的アトラスの存在,同時局在化とマッピングの必要性を想定せずに,教師なし埋め込みを用いた神経外科的ロードマップの作成方法を提案する。 生成されたロードマップは、トレーニングセットの手術で取られる共通解剖学的経路をエンコードする。 推測において、ロードマップは、地図アプリケーションのように、どの構造が前方または後方に現れるかを予測することでガイダンスを提供するために、ライブイメージフィードバックを使用して外科医の現在の位置をマッピングするのに使うことができる。 埋め込みは位置情報によって制御されていないが,脳内および手術経路上の位置と相関していることを示す。 提案法を166例の経sphenoidal adenomectomy法を用いて訓練し,評価した。

Advanced minimally invasive neurosurgery navigation relies mainly on Magnetic Resonance Imaging (MRI) guidance. MRI guidance, however, only provides pre-operative information in the majority of the cases. Once the surgery begins, the value of this guidance diminishes to some extent because of the anatomical changes due to surgery. Guidance with live image feedback coming directly from the surgical device, e.g., endoscope, can complement MRI-based navigation or be an alternative if MRI guidance is not feasible. With this motivation, we present a method for live image-only guidance leveraging a large data set of annotated neurosurgical videos.First, we report the performance of a deep learning-based object detection method, YOLO, on detecting anatomical structures in neurosurgical images. Second, we present a method for generating neurosurgical roadmaps using unsupervised embedding without assuming exact anatomical matches between patients, presence of an extensive anatomical atlas, or the need for simultaneous localization and mapping. A generated roadmap encodes the common anatomical paths taken in surgeries in the training set. At inference, the roadmap can be used to map a surgeon's current location using live image feedback on the path to provide guidance by being able to predict which structures should appear going forward or backward, much like a mapping application. Even though the embedding is not supervised by position information, we show that it is correlated to the location inside the brain and on the surgical path. We trained and evaluated the proposed method with a data set of 166 transsphenoidal adenomectomy procedures.
翻訳日:2023-04-03 14:05:09 公開日:2023-03-31
# 深層学習による実験室組織特性の迅速予測

Rapid prediction of lab-grown tissue properties using deep learning ( http://arxiv.org/abs/2303.18017v1 )

ライセンス: Link先を確認
Allison E. Andrews, Hugh Dickinson and James P. Hague(参考訳) 細胞と細胞外マトリックスの相互作用は組織の自己組織化に不可欠である。 本稿では, テザリング型で培養したセルラーデンハイドロゲルの自己組織化におけるメカノビロジーの役割を予測するために, 機械学習ツールを用いた概念実証を行う。 キー対称性を伴わずにモールド設計を自動生成するプロセスを開発する。 我々は, 収縮性ネットワーク双極子配向(CONDOR)モデルを用いて, 細胞-マトリクス相互作用の詳細な生体物理シミュレーションを行い, このモールド内のセルヒドロゲルの自己組織化を図った。 これらは‘texttt{pix2pix}ディープラーニングモデルの実装をトレーニングするために使用され、トレーニングと検証のためにニューラルネットワークのトレーニングに見えない740ドルのケースを保存する。 機械学習手法の予測と生物物理アルゴリズムの予備予測との比較により,機械学習アルゴリズムが優れた予測を行うことを示す。 機械学習アルゴリズムは、バイオ物理法よりもはるかに高速で、医薬品検査、再生医療、生物学の基礎研究のためのモールドの非常に高いスループットの合理的設計の可能性を開く。 足場と3Dバイオプリンティングのための将来の拡張は、追加のアプリケーションを開く。

The interactions between cells and the extracellular matrix are vital for the self-organisation of tissues. In this paper we present proof-of-concept to use machine learning tools to predict the role of this mechanobiology in the self-organisation of cell-laden hydrogels grown in tethered moulds. We develop a process for the automated generation of mould designs with and without key symmetries. We create a large training set with $N=6500$ cases by running detailed biophysical simulations of cell-matrix interactions using the contractile network dipole orientation (CONDOR) model for the self-organisation of cellular hydrogels within these moulds. These are used to train an implementation of the \texttt{pix2pix} deep learning model, reserving $740$ cases that were unseen in the training of the neural network for training and validation. Comparison between the predictions of the machine learning technique and the reserved predictions from the biophysical algorithm show that the machine learning algorithm makes excellent predictions. The machine learning algorithm is significantly faster than the biophysical method, opening the possibility of very high throughput rational design of moulds for pharmaceutical testing, regenerative medicine and fundamental studies of biology. Future extensions for scaffolds and 3D bioprinting will open additional applications.
翻訳日:2023-04-03 14:04:48 公開日:2023-03-31
# 振動交換相互作用を持つ量子ゲート

Quantum Gates with Oscillating Exchange Interaction ( http://arxiv.org/abs/2303.18015v1 )

ライセンス: Link先を確認
Daniel Q. L. Nguyen, Irina Heinz and Guido Burkard(参考訳) スピン量子ビット間の2量子ビットゲートはしばしば長方形または断熱交換相互作用パルスを使用して行われ、czゲートとなる。 発振交換パルスは、CZゲートを実行するだけでなく、量子アルゴリズムを実行するための柔軟性を提供するiSWAPゲートも可能にする。 共振およびオフ共振交換パルスを用いた2量子ビットゲートの詳細な記述と、各ゲートの実行条件を与え、その性能を最先端の静的ゲートと比較する。 比較的低電荷雑音では、ゲートは依然として確実に動作し、従来のCZゲートよりも優れた性能を発揮する。

Two-qubit gates between spin qubits are often performed using a rectangular or an adiabatic exchange interaction pulse resulting in a CZ gate. An oscillating exchange pulse not only performs a CZ gate, but also enables the iSWAP gate, which offers more flexibility to perform quantum algorithms. We provide a detailed description for two-qubit gates using resonant and off-resonant exchange pulses, give conditions for performing the respective gates, and compare their performance to the state-of-the-art static counterpart. We find that for relatively low charge noise the gates still perform reliably and can outperform the conventional CZ gate.
翻訳日:2023-04-03 14:04:30 公開日:2023-03-31
# LaCViT:ビジョントランスフォーマーのためのラベル対応コントラストトレーニングフレームワーク

LaCViT: A Label-aware Contrastive Training Framework for Vision Transformers ( http://arxiv.org/abs/2303.18013v1 )

ライセンス: Link先を確認
Zijun Long, Zaiqiao Meng, Gerardo Aragon Camarasa, Richard McCreadie(参考訳) ビジョントランスフォーマーは、長い機能依存性をモデル化できるため、コンピュータビジョンタスクに取り組む際に非常に効果的です。 大規模なトレーニングデータと様々な自己監視信号(例えばマスクされたランダムパッチ)を使用することで、vision transformerはimagenet-1kやcifar-10といったいくつかのベンチマークデータセットで最先端のパフォーマンスを提供する。 しかし、一般的な大規模画像コーパスで事前訓練されたこれらの視覚トランスフォーマーは、異方性表現空間しか生成できず、その一般化性と目標下流タスクへの転送性を制限した。 本稿では、視覚変換器の事前学習表現空間の等方性を改善し、幅広い画像分類タスクにおいてより効果的な移動学習を可能にする、単純で効果的なラベル対応コントラスト訓練フレームワークLaCViTを提案する。 5つの標準画像分類データセットを実験することにより、LaCViTトレーニングされたモデルは、元のトレーニング済みベースラインを約9%の絶対精度@1で上回り、LaCViTを3つの評価された視覚変換器に適用した場合、一貫した改善が観察できることを示した。

Vision Transformers have been incredibly effective when tackling computer vision tasks due to their ability to model long feature dependencies. By using large-scale training data and various self-supervised signals (e.g., masked random patches), vision transformers provide state-of-the-art performance on several benchmarking datasets, such as ImageNet-1k and CIFAR-10. However, these vision transformers pretrained over general large-scale image corpora could only produce an anisotropic representation space, limiting their generalizability and transferability to the target downstream tasks. In this paper, we propose a simple and effective Label-aware Contrastive Training framework LaCViT, which improves the isotropy of the pretrained representation space for vision transformers, thereby enabling more effective transfer learning amongst a wide range of image classification tasks. Through experimentation over five standard image classification datasets, we demonstrate that LaCViT-trained models outperform the original pretrained baselines by around 9% absolute Accuracy@1, and consistent improvements can be observed when applying LaCViT to our three evaluated vision transformers.
翻訳日:2023-04-03 14:04:20 公開日:2023-03-31
# 逆学習による低リソースニューラルネットワーク翻訳における多言語化

Exploiting Multilingualism in Low-resource Neural Machine Translation via Adversarial Learning ( http://arxiv.org/abs/2303.18011v1 )

ライセンス: Link先を確認
Amit Kumar, Ajay Pratap and Anil Kumar Singh(参考訳) Generative Adversarial Networks (GAN)はニューラルマシン翻訳(NMT)に有望なアプローチを提供する。 しかし、トレーニング中に複数の形態素言語を単一のモデルに供給することで、nmtの性能が低下する。 GANでは、バイリンガルモデルと同様に、マルチリンガルNTTはモデルトレーニング中に各文の参照翻訳を1つだけ考慮している。 この単一の参照翻訳は、GANモデルがソース文表現に関する十分な情報を学習することを制限する。 そこで本稿では,多言語対のソースとターゲット文の中間潜在表現を学習して文補間を行うDAASI(Denoising Adversarial Auto-Encoder-based Sentence Interpolation)アプローチを提案する。 潜在表現は別として,多言語nmtモデルに対するwasserstein-ganアプローチを用いて,報酬計算のために複数の言語のモデル生成文を組み込む。 この計算報酬は,GANに基づく多言語モデルの性能を効果的に最適化する。 低リソース言語ペアの実験を実証し,従来の多言語nmtにおける最先端のアプローチよりも,最大4 bleu 点の性能向上に優れることを示す。 さらに,ゼロショット言語対で学習したモデルを教師なしのシナリオで使用し,提案手法の頑健性を示す。

Generative Adversarial Networks (GAN) offer a promising approach for Neural Machine Translation (NMT). However, feeding multiple morphologically languages into a single model during training reduces the NMT's performance. In GAN, similar to bilingual models, multilingual NMT only considers one reference translation for each sentence during model training. This single reference translation limits the GAN model from learning sufficient information about the source sentence representation. Thus, in this article, we propose Denoising Adversarial Auto-encoder-based Sentence Interpolation (DAASI) approach to perform sentence interpolation by learning the intermediate latent representation of the source and target sentences of multilingual language pairs. Apart from latent representation, we also use the Wasserstein-GAN approach for the multilingual NMT model by incorporating the model generated sentences of multiple languages for reward computation. This computed reward optimizes the performance of the GAN-based multilingual model in an effective manner. We demonstrate the experiments on low-resource language pairs and find that our approach outperforms the existing state-of-the-art approaches for multilingual NMT with a performance gain of up to 4 BLEU points. Moreover, we use our trained model on zero-shot language pairs under an unsupervised scenario and show the robustness of the proposed approach.
翻訳日:2023-04-03 14:03:59 公開日:2023-03-31
# 協調的思考における集団知能の強化 - Agendaとチャレンジ

Augmented Collective Intelligence in Collaborative Ideation: Agenda and Challenges ( http://arxiv.org/abs/2303.18010v1 )

ライセンス: Link先を確認
Emily Dardaman (1) and Abhishek Gupta (1, 2, and 3) ((1) BCG Henderson Institute, (2) Montreal AI Ethics Institute, and (3) Boston Consulting Group)(参考訳) AIシステムは、ツールよりもピアとして考える方がよいかもしれません。 本稿では,協調的思考に有用な統合集団知能(ACI)の応用について検討する。 設計上の考慮事項は、人間とaiのハイブリッド集団のパフォーマンスを評価する実験のために提供される。 この調査では、人間と大きな言語モデル(LLM)を組み合わせて、ますます複雑なトピックを思い浮かべている。 台湾の市民エンゲージメントプロジェクトやケンタッキー州ボーリンググリーンのケーススタディを含む,ACIを促進するために,Polisと呼ばれる有望なリアルタイム収集ツールが検討されている。 著者らは,ACI実験の設計において考慮すべき課題として,トピックの選択,参加者の選択,結果の評価の3つを論じている。 論文は、ACIの実証的研究を共同で行うためには、これらの課題に対処する必要があると結論付けている。

AI systems may be better thought of as peers than as tools. This paper explores applications of augmented collective intelligence (ACI) beneficial to collaborative ideation. Design considerations are offered for an experiment that evaluates the performance of hybrid human- AI collectives. The investigation described combines humans and large language models (LLMs) to ideate on increasingly complex topics. A promising real-time collection tool called Polis is examined to facilitate ACI, including case studies from citizen engagement projects in Taiwan and Bowling Green, Kentucky. The authors discuss three challenges to consider when designing an ACI experiment: topic selection, participant selection, and evaluation of results. The paper concludes that researchers should address these challenges to conduct empirical studies of ACI in collaborative ideation.
翻訳日:2023-04-03 14:03:39 公開日:2023-03-31
# エンコーダ埋め込みによる相乗グラフ融合

Synergistic Graph Fusion via Encoder Embedding ( http://arxiv.org/abs/2303.18051v1 )

ライセンス: Link先を確認
Cencheng Shen, Carey E. Priebe, Jonathan Larson, Ha Trinh(参考訳) 本稿では,グラフ融合エンコーダ埋め込みと呼ばれるマルチグラフ埋め込みへの新しいアプローチを提案する。 この方法は、共通の頂点集合を共有する複数のグラフを扱うように設計されている。 教師付き学習環境下では、結果として得られる埋め込みは驚くべきが非常に望ましい「シネルジスティック効果」を示し、十分に大きな頂点サイズの場合、頂点分類精度は追加グラフの恩恵を受ける。 確率的ブロックモデルの下でこの効果を数学的に証明し,漸近的完全分類に必要な十分条件を明らかにする。 シミュレーションと実データ実験により提案手法の優位性が確認され,最新のベンチマーク手法よりも常に優れていた。

In this paper, we introduce a novel approach to multi-graph embedding called graph fusion encoder embedding. The method is designed to work with multiple graphs that share a common vertex set. Under the supervised learning setting, we show that the resulting embedding exhibits a surprising yet highly desirable "synergistic effect": for sufficiently large vertex size, the vertex classification accuracy always benefits from additional graphs. We provide a mathematical proof of this effect under the stochastic block model, and identify the necessary and sufficient condition for asymptotically perfect classification. The simulations and real data experiments confirm the superiority of the proposed method, which consistently outperforms recent benchmark methods in classification.
翻訳日:2023-04-03 13:55:35 公開日:2023-03-31
# 隠れる場所がない:データ拡張に基づく偽ニュース検出のためのデュアルディープインタラクションチャネルネットワーク

No Place to Hide: Dual Deep Interaction Channel Network for Fake News Detection based on Data Augmentation ( http://arxiv.org/abs/2303.18049v1 )

ライセンス: Link先を確認
Biwei Cao, Lulu Hua, Jiuxin Cao, Jie Gui, Bo Liu and James Tin-Yau Kwok(参考訳) オンラインソーシャルネットワーク(OSN)は、情報の拡散のコストが低いため、フェイクニュースの温床となっている。 既存の手法では、ニュースコンテンツや伝播構造において多くの試みがなされているが、フェイクニュースの検出には、ユニークな特徴や進化パターンのマイニング方法と、高性能なモデルを構築するための小さなサンプルの問題への対処方法の2つの課題がある。 Different from popular methods which take full advantage of the propagation topology structure, in this paper, we propose a novel framework for fake news detection from perspectives of semantic, emotion and data enhancement, which excavates the emotional evolution patterns of news participants during the propagation process, and a dual deep interaction channel network of semantic and emotion is designed to obtain a more comprehensive and fine-grained news representation with the consideration of comments. 一方、信頼性に基づいてラベル付きデータを高い品質で得るためのデータ拡張モジュールを導入し、分類モデルの性能をさらに向上させる。 実験の結果,提案手法は最先端手法よりも優れていることがわかった。

Online Social Network (OSN) has become a hotbed of fake news due to the low cost of information dissemination. Although the existing methods have made many attempts in news content and propagation structure, the detection of fake news is still facing two challenges: one is how to mine the unique key features and evolution patterns, and the other is how to tackle the problem of small samples to build the high-performance model. Different from popular methods which take full advantage of the propagation topology structure, in this paper, we propose a novel framework for fake news detection from perspectives of semantic, emotion and data enhancement, which excavates the emotional evolution patterns of news participants during the propagation process, and a dual deep interaction channel network of semantic and emotion is designed to obtain a more comprehensive and fine-grained news representation with the consideration of comments. Meanwhile, the framework introduces a data enhancement module to obtain more labeled data with high quality based on confidence which further improves the performance of the classification model. Experiments show that the proposed approach outperforms the state-of-the-art methods.
翻訳日:2023-04-03 13:55:23 公開日:2023-03-31
# 非)ユークリッド空間再訪における微分プライベート確率凸最適化

Differentially Private Stochastic Convex Optimization in (Non)-Euclidean Space Revisited ( http://arxiv.org/abs/2303.18047v1 )

ライセンス: Link先を確認
Jinyan Su and Changhong Zhao and Di Wang(参考訳) 本稿では、ユークリッド空間における微分プライベート確率凸最適化(dp-sco)と一般の$\ell_p^d$空間の問題を再検討する。 具体的には、(1)ユークリッド空間における制約付き(有界)集合上のDP-SCO、(2)$\ell_p^d$空間における非制約付きDP-SCO、(3)$\ell_p^d$空間における制約付きおよび有界な集合上の重み付きデータに対するDP-SCOである。 問題(1)には,凸関数と強凸損失関数の両方について,空間の次元よりも制約集合のガウス幅にのみ依存する過剰な集団リスクをアウトプットが達成できる手法を提案する。 さらに、強凸関数の束縛は対数係数まで最適であることを示した。 問題 (2) と (3) については、いくつかの新しいアルゴリズムを提案し、1<p<2$ と 2\leq p\leq \infty$ の両ケースで最初の理論的結果を提供する。

In this paper, we revisit the problem of Differentially Private Stochastic Convex Optimization (DP-SCO) in Euclidean and general $\ell_p^d$ spaces. Specifically, we focus on three settings that are still far from well understood: (1) DP-SCO over a constrained and bounded (convex) set in Euclidean space; (2) unconstrained DP-SCO in $\ell_p^d$ space; (3) DP-SCO with heavy-tailed data over a constrained and bounded set in $\ell_p^d$ space. For problem (1), for both convex and strongly convex loss functions, we propose methods whose outputs could achieve (expected) excess population risks that are only dependent on the Gaussian width of the constraint set rather than the dimension of the space. Moreover, we also show the bound for strongly convex functions is optimal up to a logarithmic factor. For problems (2) and (3), we propose several novel algorithms and provide the first theoretical results for both cases when $1<p<2$ and $2\leq p\leq \infty$.
翻訳日:2023-04-03 13:55:09 公開日:2023-03-31
# 弱教師付きビデオ異常検出のための長短時間同時学習

Long-Short Temporal Co-Teaching for Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2303.18044v1 )

ライセンス: Link先を確認
Shengyang Sun, Xiaojin Gong(参考訳) 弱教師付きビデオ異常検出(WS-VAD)は,ビデオレベルのアノテーションのみでVADモデルを学習することを目的とした課題である。 本稿では,WS-VAD問題に対処するLong-Short Temporal Co-Teaching (LSTC)法を提案する。 短期ビデオクリップと長期ビデオクリップから学ぶために、2つのチューブレットベースの時空間トランスフォーマーネットワークを構築する。 各ネットワークは、複数のインスタンス学習(MIL)ベースのランキング損失と、クリップレベルの擬似ラベルが利用できる場合のクロスエントロピー損失に関してトレーニングされる。 2つのネットワークをトレーニングするために、共同学習戦略が採用されている。 すなわち、各ネットワークから生成されたクリップレベルの擬似ラベルを使用して、次のトレーニングラウンドで他方を監督し、2つのネットワークを交互かつ反復的に学習する。 提案手法は,持続時間の異なる異常や微妙な異常に対処できる。 3つの公開データセットに対する大規模な実験により、我々の手法は最先端のWS-VAD法より優れていることが示された。

Weakly supervised video anomaly detection (WS-VAD) is a challenging problem that aims to learn VAD models only with video-level annotations. In this work, we propose a Long-Short Temporal Co-teaching (LSTC) method to address the WS-VAD problem. It constructs two tubelet-based spatio-temporal transformer networks to learn from short- and long-term video clips respectively. Each network is trained with respect to a multiple instance learning (MIL)-based ranking loss, together with a cross-entropy loss when clip-level pseudo labels are available. A co-teaching strategy is adopted to train the two networks. That is, clip-level pseudo labels generated from each network are used to supervise the other one at the next training round, and the two networks are learned alternatively and iteratively. Our proposed method is able to better deal with the anomalies with varying durations as well as subtle anomalies. Extensive experiments on three public datasets demonstrate that our method outperforms state-of-the-art WS-VAD methods.
翻訳日:2023-04-03 13:54:41 公開日:2023-03-31
# scardina: 複数密度推定器によるスケーラブル結合濃度推定

Scardina: Scalable Join Cardinality Estimation by Multiple Density Estimators ( http://arxiv.org/abs/2303.18042v1 )

ライセンス: Link先を確認
Ryuichi Ito, Yuya Sasaki, Chuan Xiao, Makoto Onizuka(参考訳) 近年,機械学習に基づく濃度推定手法が従来の手法に置き換わっている。 この変更は、クエリ処理を高速化するために、濃度推定の最も重要なアプリケーションであるクエリオプティマイザに寄与することが期待されている。 しかし、関係スキーマがテーブル/属性間の強い相関を持つ多数のテーブルからなる場合、既存の手法では、基数を正確に見積もることができない。 本稿では,複数の密度推定器を組み合わせることで,強い相関関係を持つ大規模かつ複雑なスキーマを用いたデータの濃度推定を効果的に行うことができることを示す。 スキーマ構造に基づく複数の分割モデルを用いた新しい結合濃度推定法であるscardinaを提案する。

In recent years, machine learning-based cardinality estimation methods are replacing traditional methods. This change is expected to contribute to one of the most important applications of cardinality estimation, the query optimizer, to speed up query processing. However, none of the existing methods do not precisely estimate cardinalities when relational schemas consist of many tables with strong correlations between tables/attributes. This paper describes that multiple density estimators can be combined to effectively target the cardinality estimation of data with large and complex schemas having strong correlations. We propose Scardina, a new join cardinality estimation method using multiple partitioned models based on the schema structure.
翻訳日:2023-04-03 13:54:25 公開日:2023-03-31
# 交通標識認識データセットとデータ拡張

Traffic Sign Recognition Dataset and Data Augmentation ( http://arxiv.org/abs/2303.18037v1 )

ライセンス: Link先を確認
Jingzhan Ge(参考訳) トラヒックサイン分類のためのデータセットは数多く存在するが、トラヒックサイン認識のために収集されたデータセットは少なく、特にディープラーニング法でモデルをトレーニングするための十分なインスタンスが得られていない。 深層学習法は、色や形状などの伝統的な方法と比較して、様々な非常に類似したクラスをカバーする実世界のモデルのトレーニング方法として、ほぼ唯一のものである。 また、いくつかのサインクラスでは、それらのサインの意味はデータセットで十分なインスタンスを取得できない運命にあった。 この問題を解決するために,トラヒックサインの標準を活用し,トラヒックサイン認識データセットのためのユニークなデータ拡張手法を提案する。 私たちはこれをTSRデータセット拡張と呼びました。 ベンチマークtsinghua-tencent 100k(tt100k)データセットに基づいて,ユニークなデータ拡張手法を検証する。 本手法は,tt100kデータセットに基づく4つの反復型データセット上で実施し,本手法の有効性を実験的に示した。 TT100Kに基づく反復版データセット、データ拡張手法のソースコードおよび本論文で紹介したトレーニング結果が公開されている。

Although there are many datasets for traffic sign classification, there are few datasets collected for traffic sign recognition and few of them obtain enough instances especially for training a model with the deep learning method. The deep learning method is almost the only way to train a model for real-world usage that covers various highly similar classes compared with the traditional way such as through color, shape, etc. Also, for some certain sign classes, their sign meanings were destined to can't get enough instances in the dataset. To solve this problem, we purpose a unique data augmentation method for the traffic sign recognition dataset that takes advantage of the standard of the traffic sign. We called it TSR dataset augmentation. We based on the benchmark Tsinghua-Tencent 100K (TT100K) dataset to verify the unique data augmentation method. we performed the method on four main iteration version datasets based on the TT100K dataset and the experimental results showed our method is efficacious. The iteration version datasets based on TT100K, data augmentation method source code and the training results introduced in this paper are publicly available.
翻訳日:2023-04-03 13:54:15 公開日:2023-03-31
# 農業分野における自己監督表現学習のためのインジェクトノイズ判別器

INoD: Injected Noise Discriminator for Self-Supervised Representation Learning in Agricultural Fields ( http://arxiv.org/abs/2303.18101v1 )

ライセンス: Link先を確認
Julia Hindel, Nikhil Gosala, Kevin Bregler, Abhinav Valada(参考訳) 農業の知覚データセットは量と多様性の両方に制限されており、教師付き学習アプローチの効果的な訓練を妨げる。 自己指導型学習技術によりこの問題が緩和されるが、既存の手法は農業領域の密集予測タスクに最適化されていないため、性能が低下する。 本研究では, 自己教師型表現学習における特徴置換とデータセット識別の原理を活かしたインジェクテッドノイズ識別器(INoD)を用いて, この制限に対処する。 inodは、畳み込み符号化中に2つの非結合データセットからフィーチャーマップをインターリーブし、プリテキストタスクとして結果のフィーチャーマップのデータセットアフィリエーションを予測する。 提案手法により、ネットワークは、あるデータセットで見られるオブジェクトの無意味な表現を学習し、解離したデータセットの類似した特徴と合わせて観察することができる。 これによりネットワークは、関連するオブジェクトの高レベルなセマンティクスを判断することができ、様々な下流タスクのパフォーマンスが向上する。 さらに,ポテトフィールドにおける物体検出のための16,800枚以上の画像からなるFraunhofer Potato 2022データセットについても紹介した。 サトウキビ2016とジャガイモデータセットのオブジェクト検出,セマンティクスセグメンテーション,インスタンスセグメンテーションといったタスクにおいて,提案するinodプリトレーニング戦略の広範な評価を行った結果,最先端のパフォーマンスが得られた。

Perception datasets for agriculture are limited both in quantity and diversity which hinders effective training of supervised learning approaches. Self-supervised learning techniques alleviate this problem, however, existing methods are not optimized for dense prediction tasks in agriculture domains which results in degraded performance. In this work, we address this limitation with our proposed Injected Noise Discriminator (INoD) which exploits principles of feature replacement and dataset discrimination for self-supervised representation learning. INoD interleaves feature maps from two disjoint datasets during their convolutional encoding and predicts the dataset affiliation of the resultant feature map as a pretext task. Our approach enables the network to learn unequivocal representations of objects seen in one dataset while observing them in conjunction with similar features from the disjoint dataset. This allows the network to reason about higher-level semantics of the entailed objects, thus improving its performance on various downstream tasks. Additionally, we introduce the novel Fraunhofer Potato 2022 dataset consisting of over 16,800 images for object detection in potato fields. Extensive evaluations of our proposed INoD pretraining strategy for the tasks of object detection, semantic segmentation, and instance segmentation on the Sugar Beets 2016 and our potato dataset demonstrate that it achieves state-of-the-art performance.
翻訳日:2023-04-03 13:48:20 公開日:2023-03-31
# 大規模分子・固体系の電子構造計算に向けたハイブリッドテンソルネットワークを用いた量子計算量子モンテカルロ

Quantum computing quantum Monte Carlo with hybrid tensor network toward electronic structure calculations of large-scale molecular and solid systems ( http://arxiv.org/abs/2303.18095v1 )

ライセンス: Link先を確認
Shu Kanno, Hajime Nakamura, Takao Kobayashi, Shigeki Gocho, Miho Hatanaka, Naoki Yamamoto, Qi Gao(参考訳) 量子コンピュータは、古典的コンピュータよりも高い精度で量子化学と材料科学の問題を解決することが期待されている。 量子コンピューティング量子モンテカルロ(quantum computing quantum monte carlo、qc-qmc)は、変分量子固有ソルバ(vqe)のような量子アルゴリズムと組み合わせて、量子リソースが少なく、vqeやqmc単独よりも精度の高い基底状態を得る手法である。 本研究では,QC-QMCとハイブリッドテンソルネットワーク(HTN)を組み合わせて,単一量子デバイスを超越したシステムに対するQC-QMCの適用性を高めるアルゴリズムを提案し,そのアルゴリズムをHTN+QMCと名付けた。 2層量子量子木テンソルの構造を持つHTNの場合、QMCにおける$O(n^2)$-qubit参照波関数(心房波関数)のアルゴリズムは、アンシラ量子ビットを除く$n$-qubitデバイスのみを用いることで実現できる。 完全構成相互作用QMCはQMCの例として採用され,提案アルゴリズムはハイゼンベルク連鎖モデル,グラファイト系ハバードモデル,水素平面モデル,モノアリルビイミダゾール (MABI) に適用される。 その結果,このアルゴリズムはVQEまたはQMC単独よりも数桁高いエネルギー精度が得られることがわかった。 さらに、HTN+QMCのエネルギー精度は、システムが適切に分解されたときにQC−QMCと同じである。 これらの結果は、現在の量子デバイス上で高精度な大規模システムに対する電子構造計算への道を開く。

Quantum computers are expected to solve the problems for quantum chemistry and materials science with higher accuracy than classical computers. Quantum computing quantum Monte Carlo (QC-QMC) is a method that can be combined with quantum algorithms such as variational quantum eigensolver (VQE) to obtain the ground state with fewer quantum resources and higher accuracy than either VQE or QMC alone. In this study, we propose an algorithm combining QC-QMC with hybrid tensor network (HTN) to extend the applicability of QC-QMC for the system beyond the size of a single quantum device, and we named the algorithm HTN+QMC. For HTN with the structure of a two-layer quantum-quantum tree tensor, the proposed algorithm for an $O(n^2)$-qubit reference wave function (trial wave function) in QMC can be performed by using only a $n$-qubit device excluding ancilla qubits. Full configuration interaction QMC is adopted as an example of QMC, and the proposed algorithm is applied to the Heisenberg chain model, the graphite-based Hubbard model, the hydrogen plane model, and MonoArylBiImidazole (MABI). The results show that the algorithm can achieve energy accuracy several orders of magnitude higher than either VQE or QMC alone. In addition, the energy accuracy of HTN+QMC is as same as QC-QMC when the system is appropriately decomposed. These results pave the way to electronic structure calculation for large systems with high accuracy on current quantum devices.
翻訳日:2023-04-03 13:47:54 公開日:2023-03-31
# 中性子干渉法で観察された3パス量子チェシャイア猫

Three-Path Quantum Cheshire Cat Observed in Neutron Interferometry ( http://arxiv.org/abs/2303.18092v1 )

ライセンス: Link先を確認
Armin Danner, Niels Geerits, Hartmut Lemmel, Richard Wagner, Stephan Sponar and Yuji Hasegawa(参考訳) 量子チェシャー・キャット(qCC)のパラドックス現象は、粒子の異なる性質が干渉計の異なる経路に局在し、したがって空間的に分離しているように見える状況を指す。 この観察は、前及び後の選択手順を実装して得られる。 局所化は弱い相互作用によって引き起こされる顕著な変化を通じて定性的に決定される。 qccの以前の実証では、経路とスピン/偏光度のみを使用していた。 さらに、この実験では中性子エネルギーを3パス干渉計の3番目の特性として用いる。 中性子の3つの性質は干渉計の異なる経路で分離されることが示されているが、詳細な解析により、その性質の出現は、相互作用の弱い前と後の選択の状態ベクトル間の幾何学的関係と強く関係していることが示されている。 経路内の弱い相互作用が他の経路における基準状態に平行な成分を持つ状態ベクトルを局所的に生成すると、顕著な強度振動が期待され観測される。 したがって、観測された強度振動の出現は、弱い相互作用による参照と新たに生成された状態の間の断続的な関係にのみ起因している。

The paradoxical phenomenon of the quantum Cheshire Cat (qCC) refers to situations where different properties of a particle appear to be localised in different paths of an interferometer and therefore spatially separated. This observation is obtained by implementing a pre- and postselection procedure. The localisations are determined qualitatively through conspicuous changes induced by weak interactions. Previous demonstrations of the qCC only used the path and spin/polarisation degrees of freedom. In addition, the present experiment uses the neutron's energy as a third property in a three-path interferometer. It is demonstrated that the three properties of neutrons are found separated in different paths in the interferometer; a detailed analysis suggests that the appearance of a property is strongly related to the geometrical relation between the state vectors of pre- and postselection with weak interactions in between. If a weak interaction in a path locally generates a state vector with a component parallel to the reference state in another path, a conspicuous intensity oscillation is expected and observed. Therefore, the appearance of the observed intensity oscillations is attributed solely to the cross-terms between the reference and the newly generated state via weak interactions.
翻訳日:2023-04-03 13:47:24 公開日:2023-03-31
# クランプおよびサイドバンド分解シリコン光学結晶

Clamped and sideband-resolved silicon optomechanical crystals ( http://arxiv.org/abs/2303.18091v1 )

ライセンス: Link先を確認
Johan Kolvik, Paul Burger, Joey Frey and Rapha\"el Van Laer(参考訳) opto mechanical crystals (omcs) は、機械場と光学場を変換するための有望で多用途なプラットフォームである。 しかし、従来の停止型OMCで用いられる基板からの放出は、熱伝達型ノイズフォノンが急速に漏れるのを防ぐ。 OMCを基板に直接取り付けることで熱アンカーを改善することができる。 それまでの作業、すなわち非持続的なOMCは、相互作用速度の弱さと寿命の不足に悩まされていた。 ここでは、量子トランスダクションに必要な分解側バンド状態における光学的相互作用を初めて実現したクランプ型OCCの新しいクラスを示す。 本手法は, 連続体外における高波ベクトル機械モードを利用する。 記録的なゼロ点オプティメカルカップリングレートが$g_0/(2\pi) \approx 0.50$ MHzであり, クランプ型OMCの単光子協調性は7倍向上した。 デバイスは超伝導量子ビットで一般的に使用される周波数で動作する。 これにより、古典的および量子的通信、センシング、および光に強く結合するスケーラブルなメカニカル・サーキットによる計算において、クラッド OMC を用いた新たな道が開かれる。

Optomechanical crystals (OMCs) are a promising and versatile platform for transduction between mechanical and optical fields. However, the release from the substrate used in conventional suspended OMCs also prevents heat-carrying noise phonons from rapidly leaking away. Thermal anchoring may be improved by attaching the OMCs directly to the substrate. Previous work towards such clamped, i.e. non-suspended, OMCs suffers from weak interaction rates and insufficient lifetimes. Here, we present a new class of clamped OMCs realizing -- for the first time -- optomechanical interactions in the resolved-sideband regime required for quantum transduction. Our approach leverages high-wavevector mechanical modes outside the continuum. We observe a record zero-point optomechanical coupling rate of $g_0/(2\pi) \approx 0.50$ MHz along with a sevenfold improvement in the single-photon cooperativity of clamped OMCs. Our devices operate at frequencies commonly used in superconducting qubits. This opens a new avenue using clamped OMCs in both classical and quantum communications, sensing, and computation through scalable mechanical circuitry that couples strongly to light.
翻訳日:2023-04-03 13:47:04 公開日:2023-03-31
# ハイブリッド光機械空洞における強い量子相関

Strong quantum correlation in a pair hybrid optomechanical cavities ( http://arxiv.org/abs/2303.18090v1 )

ライセンス: Link先を確認
Khadija El Anouz, Abderrahim El Allati, Farhan Saif(参考訳) ガウス量子ディスコードを用いた非古典的相関を定量化することにより、2つの結合型ハイブリッド光機械キャビティ間の量子相関を示す。 これにはハイゼンベルク・ランゲバン方程式の解析と解法が含まれており、この系の(12*12)次元共分散行列が得られる。 実験条件に基づき, グアッシアン量子ディスコルドを用いた2成分定常状態と連続状態の量子相関をシミュレートする。 量子相関の生成とそのロバスト性は、本質的にシステムの物理的パラメータに依存することが分かっている。 本稿では、RuthsHurwitz則を用いて安定性解析を行い、量子不協和力学解析における選択の検証を行う。

We show the quantum correlation between two coupled hybrid optomechanical cavities by quantifying the non-classical correlation using Gaussian quantum discord. This involves analyzing and solving Heisenberg Langevin equations to obtain the (12*12)dimensional covariance matrix of this system. Based on the experimentalist conditions, we simulate quantum correlation of bipartite steady-state with continuous conditions using Guassian quantum discord. We know that the generation of quantum correlation and its robustness essentially depend on the physical parameters of the system. We provide the stability analysis by means of the RuthsHurwitz criterion to confirm the choices made during the analysis of quantum discord dynamics.
翻訳日:2023-04-03 13:46:48 公開日:2023-03-31
# 時間遅延自由度を補助する線形光学に基づくヘラルドおよび高効率絡み合い濃度

Heralded and high-efficient entanglement concentrations based on linear optics assisted by time-delay degree of freedom ( http://arxiv.org/abs/2303.18089v1 )

ライセンス: Link先を確認
Gui-Long Jiang, Wen-Qiang Liu, and Hai-Rui Wei(参考訳) 絡み合い濃度は、長距離量子通信における劣化した忠実度とセキュリティを防止する重要な技術である。 本稿では, 単純な線形光学を用いて, 未知パラメータを持つ低絡み込みベルおよびグリーンベルガー・ホーネ・ザイリンガー状態に対する新しい実用的絡み合い濃度プロトコル(ECP)を提案する。 補助時間自由度を調整してパリティチェック測定を完全に識別するポスト選択原理や光子数分解検出器の必要性を回避し、ecpsの成功は入射量子ビットを壊さずに検出シグネチャによって正確に証明される。 また、残した出射入射光子を最大絡み合い状態または低絡み合い状態とし、後者をリサイクルすることにより成功確率を高めることができる。 現在の技術による実験的研究には,本手法と基本線形光学素子により実用的ECPが利用できるようになる。

Entanglement concentration is a critical technique to prevent degraded fidelity and security in long-distance quantum communication. We propose novel practical entanglement concentration protocols (ECPs) for less-entangled Bell and Greenberger-Horne-Zeilinger states with unknown parameters by solely using simple linear optics. We avoid the need for the post-selection principles or photon-number-resolving detector to identify the parity-check measurement completely by orchestrating auxiliary time degree of freedom, and the success of ECPs is exactly heralded by the detection signatures without destroying the incident qubits. Additionally, the outting incident photons kept are in the maximally entangled or the less-entangled state, and the success probability can be increased by recycling the latter. The heralded and the basic linear optical elements make our practical ECPs are accessible to experimental investigation with current technology.
翻訳日:2023-04-03 13:46:39 公開日:2023-03-31
# 地理空間MLの評価課題

Evaluation Challenges for Geospatial ML ( http://arxiv.org/abs/2303.18087v1 )

ライセンス: Link先を確認
Esther Rolf(参考訳) 地理空間機械学習モデルとそれらの予測から派生した地図は、科学や政策の下流分析にますます利用されているため、その正確性と適用性を評価することが不可欠である。 地理空間機械学習は、他の学習パラダイムとの大きな違いがあり、空間機械学習出力のパフォーマンスを測定する正しい方法が議論の対象となっている。 本稿では,地理空間モデルの性能評価を改善するために,グローバルあるいはリモートセンシングされたデータセットを用いた地理空間機械学習におけるモデル評価のユニークな課題を,具体的テイクアウトで決定する。

As geospatial machine learning models and maps derived from their predictions are increasingly used for downstream analyses in science and policy, it is imperative to evaluate their accuracy and applicability. Geospatial machine learning has key distinctions from other learning paradigms, and as such, the correct way to measure performance of spatial machine learning outputs has been a topic of debate. In this paper, I delineate unique challenges of model evaluation for geospatial machine learning with global or remotely sensed datasets, culminating in concrete takeaways to improve evaluations of geospatial model performance.
翻訳日:2023-04-03 13:46:21 公開日:2023-03-31
# RDMNet: 自律運転のための信頼性の高いDense Matchingベースのポイントクラウド登録

RDMNet: Reliable Dense Matching Based Point Cloud Registration for Autonomous Driving ( http://arxiv.org/abs/2303.18084v1 )

ライセンス: Link先を確認
Chenghao Shi, Xieyuanli Chen, Huimin Lu, Wenbang Deng, Junhao Xiao, Bin Dai(参考訳) ポイントクラウド登録は、ロボットと自動運転において、車両の自走運動を推定する重要なタスクである。 粗大化後の最近の進歩は、点雲の登録に有望な可能性を示している。 しかし、既存の手法は優れたスーパーポイント対応に依存しており、確実かつ効率的に取得することは困難であり、その結果、ロバストで正確なポイントクラウドの登録が少なくなる。 本稿では,RDMNetと呼ばれる新しいネットワークを提案する。このネットワークは,高密度点対応の粗大化を検知し,信頼度の高い対応に基づいて最終ポーズ推定を改善する。 rdmnetは考案した3d-roformer機構を使用して、最初に特徴的なスーパーポイントを抽出し、2つのポイントクラウド間でマッチする信頼性の高いスーパーポイントを生成します。 提案する3d-roformerは3d位置情報をトランスフォーマネットワークに融合し,ポイントクラウドの文脈的および幾何学的情報を効率的に活用し,ロバストなスーパーポイント対応を生成する。 RDMNetは、その周辺情報を正確な点雲登録に用いることで、スパーススーパーポイントマッチを密度の高い点一致に伝播する。 異なる環境から複数のデータセットに対して,提案手法を広範囲に評価した。 実験結果から,本手法は, 高い一般化能力を有する全試験データセットにおいて, 既存の最先端手法よりも優れていることが示された。

Point cloud registration is an important task in robotics and autonomous driving to estimate the ego-motion of the vehicle. Recent advances following the coarse-to-fine manner show promising potential in point cloud registration. However, existing methods rely on good superpoint correspondences, which are hard to be obtained reliably and efficiently, thus resulting in less robust and accurate point cloud registration. In this paper, we propose a novel network, named RDMNet, to find dense point correspondences coarse-to-fine and improve final pose estimation based on such reliable correspondences. Our RDMNet uses a devised 3D-RoFormer mechanism to first extract distinctive superpoints and generates reliable superpoints matches between two point clouds. The proposed 3D-RoFormer fuses 3D position information into the transformer network, efficiently exploiting point clouds' contextual and geometric information to generate robust superpoint correspondences. RDMNet then propagates the sparse superpoints matches to dense point matches using the neighborhood information for accurate point cloud registration. We extensively evaluate our method on multiple datasets from different environments. The experimental results demonstrate that our method outperforms existing state-of-the-art approaches in all tested datasets with a strong generalization ability.
翻訳日:2023-04-03 13:46:11 公開日:2023-03-31
# 深層ニューラルネットワーク学習のための2レベルkfac法の解析と比較

Analysis and Comparison of Two-Level KFAC Methods for Training Deep Neural Networks ( http://arxiv.org/abs/2303.18083v1 )

ライセンス: Link先を確認
Abdoulaye Koroko, Ani Anciaux-Sedrakian, Ibtihel Ben Gharbia, Val\'erie Gar\`es, Mounir Haddou, Quang Huy Tran(参考訳) 2次の方法として、Natural Gradient Descent (NGD)はニューラルネットワークのトレーニングを高速化する能力を持っている。 しかし、計算とFIM(Fiher Information Matrix)の反転の禁止された計算とメモリコストのため、NGDをディープニューラルネットワーク(DNN)にスケーラブルにするには効率的な近似が必要である。 多くの近似が試みられている。 最も洗練されたKFACは、FIMをブロック対角行列として近似し、各ブロックはニューラルネットワークの層に対応する。 これにより、KFACは異なるレイヤ間の相互作用を無視します。 本研究では,二段階法を用いて層間の低周波相互作用を復元する関心について検討する。 領域分解から着想を得て、異なる粗い空間を用いたKFACの2段階補正を提案し、評価した。 その結果, この方法で層間相互作用を組み込むことで, KFACの性能は向上しないことがわかった。 このことは、ブロック対角法が計算時間において十分に堅牢で正確かつ経済的であるため、FIMの対角ブロックを破棄することは安全であることを示している。

As a second-order method, the Natural Gradient Descent (NGD) has the ability to accelerate training of neural networks. However, due to the prohibitive computational and memory costs of computing and inverting the Fisher Information Matrix (FIM), efficient approximations are necessary to make NGD scalable to Deep Neural Networks (DNNs). Many such approximations have been attempted. The most sophisticated of these is KFAC, which approximates the FIM as a block-diagonal matrix, where each block corresponds to a layer of the neural network. By doing so, KFAC ignores the interactions between different layers. In this work, we investigate the interest of restoring some low-frequency interactions between the layers by means of two-level methods. Inspired from domain decomposition, several two-level corrections to KFAC using different coarse spaces are proposed and assessed. The obtained results show that incorporating the layer interactions in this fashion does not really improve the performance of KFAC. This suggests that it is safe to discard the off-diagonal blocks of the FIM, since the block-diagonal approach is sufficiently robust, accurate and economical in computation time.
翻訳日:2023-04-03 13:45:51 公開日:2023-03-31
# 個人化拡散モデルを用いたワンショット非教師付きドメイン適応

One-shot Unsupervised Domain Adaptation with Personalized Diffusion Models ( http://arxiv.org/abs/2303.18080v1 )

ライセンス: Link先を確認
Yasser Benigmim, Subhankar Roy, Slim Essid, Vicky Kalogeiton, St\'ephane Lathuili\`ere(参考訳) ラベル付きソースドメインからターゲットドメインへのセグメンテーションモデルの適用は、単一のラベルなしのdatumが利用可能な場合、ドメイン適応において最も難しい問題のひとつであり、その他はone-shot unsupervised domain adaptation(osuda)として知られている。 以前の作品の多くは、ソースイメージがターゲットドメインの外観を持つようにスタイル化されているスタイル転送技術に頼ってこの問題に対処してきた。 対象の『texture』情報のみを転送するという一般的な概念とは別に、テキストと画像の拡散モデル(例えば、安定拡散)を利用して、対象のドメインのスタイルを忠実に描写するだけでなく、多様な文脈における斬新なシーンによって特徴付けられる写真リアル画像の合成ターゲットデータセットを生成する。 本手法のテキストインタフェースは,DATUM (Data AugmenTation with diffusion Models) により,既存のOSUDA法では不可能な,単一のトレーニング画像の空間的コンテキストを尊重しながら,所望のセマンティック概念に向けて画像の生成を導くことができる。 標準ベンチマークでの大規模な実験により、我々のDATUMは最先端のOSUDAメソッドを最大で7.1%超えた。 実装はhttps://github.com/yasserben/DATUMで公開されている。

Adapting a segmentation model from a labeled source domain to a target domain, where a single unlabeled datum is available, is one the most challenging problems in domain adaptation and is otherwise known as one-shot unsupervised domain adaptation (OSUDA). Most of the prior works have addressed the problem by relying on style transfer techniques, where the source images are stylized to have the appearance of the target domain. Departing from the common notion of transferring only the target ``texture'' information, we leverage text-to-image diffusion models (e.g., Stable Diffusion) to generate a synthetic target dataset with photo-realistic images that not only faithfully depict the style of the target domain, but are also characterized by novel scenes in diverse contexts. The text interface in our method Data AugmenTation with diffUsion Models (DATUM) endows us with the possibility of guiding the generation of images towards desired semantic concepts while respecting the original spatial context of a single training image, which is not possible in existing OSUDA methods. Extensive experiments on standard benchmarks show that our DATUM surpasses the state-of-the-art OSUDA methods by up to +7.1%. The implementation is available at https://github.com/yasserben/DATUM
翻訳日:2023-04-03 13:45:32 公開日:2023-03-31
# 非線形運動認識とオクルージョンローバスト転がりシャッタ補正に向けて

Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter Correction ( http://arxiv.org/abs/2303.18125v1 )

ライセンス: Link先を確認
Delin Qu, Yizhen Lao, Zhigang Wang, Dong Wang, Bin Zhao and Xuelong Li(参考訳) 本稿では, 極端な閉塞を伴う複雑な非線形・動的シーンにおけるシャッター補正の問題に対処する。 既存の手法には2つの大きな欠点がある。 第一に、一様速度仮定による精度の補正場推定の課題に直面し、複雑な動きの下で画像補正誤差が顕著になる。 第2に、ダイナミックシーンにおける劇的な閉塞は、複数のフレームの調整と集約が本質的に困難であるため、現在のソリューションが画質向上を妨げている。 これらの課題に対処するために,画素の曲線軌道を解析的にモデル化し,各画素の高次補正場を正確に推定する2次回転シャッター(qrs)運動ソルバを提案する。 さらに,動的シーンにおける高品質なオクルージョンフレームを再構築するために,マルチフレームコンテキスト,すなわちRSA^2-Netを効果的にアライグし集約する3次元ビデオアーキテクチャを提案する。 提案手法を広範囲のカメラと映像シーケンスで評価し,その優位性を実証した。 具体的には,PSNRがCarla-RS,Fastec-RS,BS-RSCでそれぞれ+4.98,+0.77,+4.33を越えている。

This paper addresses the problem of rolling shutter correction in complex nonlinear and dynamic scenes with extreme occlusion. Existing methods suffer from two main drawbacks. Firstly, they face challenges in estimating the accurate correction field due to the uniform velocity assumption, leading to significant image correction errors under complex motion. Secondly, the drastic occlusion in dynamic scenes prevents current solutions from achieving better image quality because of the inherent difficulties in aligning and aggregating multiple frames. To tackle these challenges, we model the curvilinear trajectory of pixels analytically and propose a geometry-based Quadratic Rolling Shutter (QRS) motion solver, which precisely estimates the high-order correction field of individual pixel. Besides, to reconstruct high-quality occlusion frames in dynamic scenes, we present a 3D video architecture that effectively Aligns and Aggregates multi-frame context, namely, RSA^2-Net. We evaluate our method across a broad range of cameras and video sequences, demonstrating its significant superiority. Specifically, our method surpasses the state-of-the-arts by +4.98, +0.77, and +4.33 of PSNR on Carla-RS, Fastec-RS, and BS-RSC datasets, respectively.
翻訳日:2023-04-03 13:38:28 公開日:2023-03-31
# BERTino:イタリア製のDistilBERTモデル

BERTino: an Italian DistilBERT model ( http://arxiv.org/abs/2303.18121v1 )

ライセンス: Link先を確認
Matteo Muffo, Enrico Bertino(参考訳) 最近のtransformers言語表現モデルの導入は、多くの自然言語処理(nlp)タスクに大きな改善をもたらした。 しかし、このようなアーキテクチャによって達成された性能が驚くべきものであるとすれば、そのユーザビリティはネットワークを構成する多数のパラメータによって制限され、高い計算とメモリ要求をもたらすことになる。 本稿では、イタリア語に特有のbertアーキテクチャの軽量な代替案として初めて提案する、ディチルベルトモデルであるbertinoを提案する。 イタリアisdt,イタリアパルトゥト,イタリアウィキナー,マルチクラス分類タスクにおいてbertinoを評価し,bertbaseで得られたものと同等のf1スコアを得て,トレーニングと推論速度を著しく改善した。

The recent introduction of Transformers language representation models allowed great improvements in many natural language processing (NLP) tasks. However, if on one hand the performances achieved by this kind of architectures are surprising, on the other their usability is limited by the high number of parameters which constitute their network, resulting in high computational and memory demands. In this work we present BERTino, a DistilBERT model which proposes to be the first lightweight alternative to the BERT architecture specific for the Italian language. We evaluated BERTino on the Italian ISDT, Italian ParTUT, Italian WikiNER and multiclass classification tasks, obtaining F1 scores comparable to those obtained by a BERTBASE with a remarkable improvement in training and inference speed.
翻訳日:2023-04-03 13:38:05 公開日:2023-03-31
# UKP-SQuARE v3:マルチエージェントQA研究のためのプラットフォーム

UKP-SQuARE v3: A Platform for Multi-Agent QA Research ( http://arxiv.org/abs/2303.18120v1 )

ライセンス: Link先を確認
Haritz Puerto, Tim Baumg\"artner, Rachneet Sachdeva, Haishuo Fang, Hao Zhang, Sewin Tariverdian, Kexin Wang, Iryna Gurevych(参考訳) 質問応答(qa)データセットの継続的な開発は、研究コミュニティのマルチドメインモデルに対する関心を引き起こした。 一般的なアプローチは、複数のデータセットでトレーニングされたモデルであるマルチデータセットモデルを使用することである。 しかし、GitHubやHugging FaceといったオンラインリポジトリでのQAモデルの普及に伴い、別の選択肢が実現しつつある。 近年の研究では、エキスパートエージェントを組み合わせることで、マルチデータセットモデルよりも大きなパフォーマンス向上が得られることが示されている。 マルチエージェントモデルの研究を容易にするため、QA研究のためのオンラインプラットフォームであるUKP-SQuAREを拡張し、マルチエージェントシステムの3つのファミリーをサポートする。 i) エージェントの選択 二 エージェントの早期融合及び 三 エージェントの後期融合 推論速度の評価実験を行い、マルチデータセットモデルと比較して性能と速度のトレードオフについて議論する。 UKP-SQuAREはオープンソースで、http://square.ukp-lab.deで公開されている。

The continuous development of Question Answering (QA) datasets has drawn the research community's attention toward multi-domain models. A popular approach is to use multi-dataset models, which are models trained on multiple datasets to learn their regularities and prevent overfitting to a single dataset. However, with the proliferation of QA models in online repositories such as GitHub or Hugging Face, an alternative is becoming viable. Recent works have demonstrated that combining expert agents can yield large performance gains over multi-dataset models. To ease research in multi-agent models, we extend UKP-SQuARE, an online platform for QA research, to support three families of multi-agent systems: i) agent selection, ii) early-fusion of agents, and iii) late-fusion of agents. We conduct experiments to evaluate their inference speed and discuss the performance vs. speed trade-off compared to multi-dataset models. UKP-SQuARE is open-source and publicly available at http://square.ukp-lab.de.
翻訳日:2023-04-03 13:37:52 公開日:2023-03-31
# マルチカメラとAIによるマーカレス3Dポーズトラッキング:高精度、堅牢性、リアルタイムパフォーマンスの実現

Markerless 3D human pose tracking through multiple cameras and AI: Enabling high accuracy, robustness, and real-time performance ( http://arxiv.org/abs/2303.18119v1 )

ライセンス: Link先を確認
Luca Fortini (1,2), Mattia Leonori (1), Juan M. Gandarias (1), Elena de Momi (2), Arash Ajoudani (1) ((1) Human-Robot Interfaces and Interaction, Istituto Italiano di Tecnologia, Genoa, Italy (2) Department of Electronics, Information and Bioengineering, Politecnico di Milano, Milan, Italy)(参考訳) リアルタイムに3Dの動きを追跡することは、多くの分野にわたる多くのアプリケーションにとって不可欠である。 従来のアプローチでは、人工的なフィデューシャルオブジェクトやセンサーを体に取り付け、使用性と使いやすさを制限し、アプリケーションフィールドを狭める。 人工知能(AI)の最近の進歩は、マーカーレスソリューションを可能にしている。 しかし、これらの手法のほとんどは2Dで動作し、3Dソリューションは精度とリアルタイムのパフォーマンスを損なう。 この課題に対処し,実世界シナリオにおける視覚的ポーズ推定手法の可能性を解き放つために,マルチカメラビューと2次元aiベースのポーズ推定手法を組み合わせたマーカーレスフレームワークを提案する。 提案手法は,AI駆動型手法によって提供される複数の2次元ポーズ推定から3次元人間の動きを計算する,重み付き最小角(WLS)アルゴリズムを統合する。 この方法は、シミュレーションと実世界の実行を可能にするOpen-VICOフレームワークに統合されている。 いくつかの実験が行われ、高い精度とリアルタイム性能を示し、現実世界の応用への高い準備と人間のモーションキャプチャーに革命をもたらす可能性を実証している。

Tracking 3D human motion in real-time is crucial for numerous applications across many fields. Traditional approaches involve attaching artificial fiducial objects or sensors to the body, limiting their usability and comfort-of-use and consequently narrowing their application fields. Recent advances in Artificial Intelligence (AI) have allowed for markerless solutions. However, most of these methods operate in 2D, while those providing 3D solutions compromise accuracy and real-time performance. To address this challenge and unlock the potential of visual pose estimation methods in real-world scenarios, we propose a markerless framework that combines multi-camera views and 2D AI-based pose estimation methods to track 3D human motion. Our approach integrates a Weighted Least Square (WLS) algorithm that computes 3D human motion from multiple 2D pose estimations provided by an AI-driven method. The method is integrated within the Open-VICO framework allowing simulation and real-world execution. Several experiments have been conducted, which have shown high accuracy and real-time performance, demonstrating the high level of readiness for real-world applications and the potential to revolutionize human motion capture.
翻訳日:2023-04-03 13:37:36 公開日:2023-03-31
# 深部平均k分類のための2頭損失関数

A two-head loss function for deep Average-K classification ( http://arxiv.org/abs/2303.18118v1 )

ライセンス: Link先を確認
Camille Garcin, Maximilien Servajean, Alexis Joly, Joseph Salmon(参考訳) 平均K分類は、入力画像のあいまいさによって返されるラベルの数が変わるトップK分類に代わるものであるが、全てのサンプルに対して平均Kにしなければならない。 この問題を解決する簡単な方法は、クロスエントロピー損失で訓練されたモデルのソフトマックス出力をしきい値にすることである。 このアプローチは理論的に漸近的に一貫性があることが証明されているが、有限個のサンプル集合に対して最適であることは保証されていない。 本稿では,従来のソフトマックスに加えて,マルチラベル分類ヘッドに基づく新たな損失関数を提案する。 この第2のヘッドは、平均でkクラスを返すことを保証しつつ、softmaxヘッドのしきい値化によって生成された擬似ラベルを用いてトレーニングされる。 このアプローチによって、モデルがクラス間のあいまいさをよりよく捉え、結果として、より一貫性のあるクラスのセットを返すことができることを示す。 文献から得られた2つのデータセットに対する実験により、我々のアプローチはソフトマックスベースラインよりも優れており、さらに弱教師付きマルチラベル分類のためにより一般的に設計されたいくつかの損失関数も示している。 特にサンプルが少ないクラスでは、不確実性が高いほど利得は大きくなる。

Average-K classification is an alternative to top-K classification in which the number of labels returned varies with the ambiguity of the input image but must average to K over all the samples. A simple method to solve this task is to threshold the softmax output of a model trained with the cross-entropy loss. This approach is theoretically proven to be asymptotically consistent, but it is not guaranteed to be optimal for a finite set of samples. In this paper, we propose a new loss function based on a multi-label classification head in addition to the classical softmax. This second head is trained using pseudo-labels generated by thresholding the softmax head while guaranteeing that K classes are returned on average. We show that this approach allows the model to better capture ambiguities between classes and, as a result, to return more consistent sets of possible classes. Experiments on two datasets from the literature demonstrate that our approach outperforms the softmax baseline, as well as several other loss functions more generally designed for weakly supervised multi-label classification. The gains are larger the higher the uncertainty, especially for classes with few samples.
翻訳日:2023-04-03 13:37:15 公開日:2023-03-31
# コプラのサンプリングと推定のための大規模言語モデルによるペアプログラミング

Pair Programming with Large Language Models for Sampling and Estimation of Copulas ( http://arxiv.org/abs/2303.18116v1 )

ライセンス: Link先を確認
Jan G\'orecki(参考訳) 人間の1行のコードを記述することなく、例えばモンテカルロシミュレーションに基づくコプラを用いた確率的依存モデリングのアプリケーションを、会話用に微調整された最先端の大規模言語モデル(llm)を用いて開発する。 これには自然言語におけるchatgptとのインタラクションと数学的形式性が含まれており、人間-専門家による注意深く監督の下、与えられたcopulaモデルからサンプリングするためにmatlab、python、rで動作するコードを生成すること、モデルの密度の評価、最大推定の実行、cpuとgpuの並列計算のための最適化、計算結果の可視化に繋がる。 選択された領域のタスクにおけるChatGPTのようなLCMの精度を評価する他の新興研究とは対照的に、この研究は、人間専門家と人工知能(AI)の協力の下で、標準的な統計タスクのソリューションを成功させる方法を研究する。 特に、慎重にプロンプトエンジニアリングを行うことで、ChatGPTが生成したソリューションを失敗したソリューションから切り離し、関連するプロとコンの包括的リストを作成します。 典型的な落とし穴が回避された場合、AIパートナとのコラボレーションから大きなメリットが得られます。 例えば、ChatGPTが知識不足や誤った知識不足のために正しい解を提供できない場合、人間専門家は数学の定理や公式の形で正しい知識を供給でき、得られた知識を正しい解を与えるために適用することができる。 このような能力は、プログラミング技術の知識が限られているユーザにとっても、プログラムされたソリューションを達成するための魅力的な機会を提供する。

Without writing a single line of code by a human, an example Monte Carlo simulation based application for stochastic dependence modeling with copulas is developed using a state-of-the-art large language model (LLM) fine-tuned for conversations. This includes interaction with ChatGPT in natural language and using mathematical formalism, which, under careful supervision by a human-expert, led to producing a working code in MATLAB, Python and R for sampling from a given copula model, evaluation of the model's density, performing maximum likelihood estimation, optimizing the code for parallel computing for CPUs as well as for GPUs, and visualization of the computed results. In contrast to other emerging studies that assess the accuracy of LLMs like ChatGPT on tasks from a selected area, this work rather investigates ways how to achieve a successful solution of a standard statistical task in a collaboration of a human-expert and artificial intelligence (AI). Particularly, through careful prompt engineering, we separate successful solutions generated by ChatGPT from unsuccessful ones, resulting in a comprehensive list of related pros and cons. It is demonstrated that if the typical pitfalls are avoided, we can substantially benefit from collaborating with an AI partner. For example, we show that if ChatGPT is not able to provide a correct solution due to a lack of or incorrect knowledge, the human-expert can feed it with the correct knowledge, e.g., in the form of mathematical theorems and formulas, and make it to apply the gained knowledge in order to provide a solution that is correct. Such ability presents an attractive opportunity to achieve a programmed solution even for users with rather limited knowledge of programming techniques.
翻訳日:2023-04-03 13:36:56 公開日:2023-03-31
# エディンバラ・インターナショナル・アクセント・オブ・イングリッシュ:英語ASRの民主化に向けて

The Edinburgh International Accents of English Corpus: Towards the Democratization of English ASR ( http://arxiv.org/abs/2303.18110v1 )

ライセンス: Link先を確認
Ramon Sanabria, Nikolay Bogoychev, Nina Markl, Andrea Carmantini, Ondrej Klejch, Peter Bell(参考訳) 英語は世界でもっとも広く話されている言語であり、何百万人もの人々が毎日、様々な文脈で第一言語または第二言語として使っている。 その結果、英語には多くの種類がある。 過去数十年にわたる英語自動音声認識(ASR)の進歩は大きいが、その結果は通常、世界中の英語の多様性を表すのに失敗するテストデータセットに基づいて報告される。 The Edinburgh International Accents of English Corpus (EdAcc)の最初のリリースを紹介する。 このデータセットは、友人間の約40時間のダイアドビデオ通話会話を含む、幅広い英語の多様性を表現しようと試みている。 他のデータセットとは異なり、EdAccは英語の第1言語と第2言語の幅広いバリエーションと各話者の言語的背景プロファイルを含んでいる。 最新のパブリックモデルと商用モデルの結果は、EdAccが現在の英語のASRモデルの欠点を強調していることを示している。 680万時間に及ぶ書き起こされたデータに基づいてトレーニングされた最良のパフォーマンスモデルは、平均19.7%の単語誤り率(wer)を得る。米国英語のクリーンリード音声で評価された2.7%のwerとは対照的である。 すべてのモデルを通して、インド、ジャマイカ、ナイジェリアの英語話者のパフォーマンス低下を観察した。 記録、言語背景、データステートメント、評価スクリプトは当社のwebサイト(https://groups.inf.ed.ac.uk/edacc/)でcc-by-saライセンスで公開しています。

English is the most widely spoken language in the world, used daily by millions of people as a first or second language in many different contexts. As a result, there are many varieties of English. Although the great many advances in English automatic speech recognition (ASR) over the past decades, results are usually reported based on test datasets which fail to represent the diversity of English as spoken today around the globe. We present the first release of The Edinburgh International Accents of English Corpus (EdAcc). This dataset attempts to better represent the wide diversity of English, encompassing almost 40 hours of dyadic video call conversations between friends. Unlike other datasets, EdAcc includes a wide range of first and second-language varieties of English and a linguistic background profile of each speaker. Results on latest public, and commercial models show that EdAcc highlights shortcomings of current English ASR models. The best performing model, trained on 680 thousand hours of transcribed data, obtains an average of 19.7% word error rate (WER) -- in contrast to the 2.7% WER obtained when evaluated on US English clean read speech. Across all models, we observe a drop in performance on Indian, Jamaican, and Nigerian English speakers. Recordings, linguistic backgrounds, data statement, and evaluation scripts are released on our website (https://groups.inf.ed.ac.uk/edacc/) under CC-BY-SA license.
翻訳日:2023-04-03 13:36:20 公開日:2023-03-31
# 自己教師型学習と最小ラベルを用いたプライバシー保護のための手術用ビデオの体外フレームの自動検出

Automatic Detection of Out-of-body Frames in Surgical Videos for Privacy Protection Using Self-supervised Learning and Minimal Labels ( http://arxiv.org/abs/2303.18106v1 )

ライセンス: Link先を確認
Ziheng Wang, Conor Perreault, Xi Liu, Anthony Jarc(参考訳) 内視鏡的ビデオ記録は、最小侵襲のロボット補助手術で広く用いられているが、内視鏡が患者の体外にある場合、機密情報を含む可能性のある無関係なセグメントをキャプチャすることができる。 そこで本研究では,最小限のデータラベルを用いたセルフスーパービジョンを利用して,手術ビデオの身体外フレームを正確に検出するフレームワークを提案する。 有意義な表現を自己監督的に学習するために,大量の無ラベルの内視鏡画像を用いる。 da Vinci X と Xi の手術映像において, 補助作業の事前訓練や, 監督の制限による微調整を伴い, 従来の身体外フレームの検出方法よりも優れていた。 f1の平均得点は96.00から98.02である。 注目すべきは、トレーニングラベルの5%しか使用せず、平均的なF1スコアは97以上であり、95%少ないラベルで完全に教師された手法よりも優れています。 これらの結果は,低侵襲手術における手術ビデオ記録の安全な処理とデータのプライバシ保護を促進するための枠組みの可能性を実証するものである。

Endoscopic video recordings are widely used in minimally invasive robot-assisted surgery, but when the endoscope is outside the patient's body, it can capture irrelevant segments that may contain sensitive information. To address this, we propose a framework that accurately detects out-of-body frames in surgical videos by leveraging self-supervision with minimal data labels. We use a massive amount of unlabeled endoscopic images to learn meaningful representations in a self-supervised manner. Our approach, which involves pre-training on an auxiliary task and fine-tuning with limited supervision, outperforms previous methods for detecting out-of-body frames in surgical videos captured from da Vinci X and Xi surgical systems. The average F1 scores range from 96.00 to 98.02. Remarkably, using only 5% of the training labels, our approach still maintains an average F1 score performance above 97, outperforming fully-supervised methods with 95% fewer labels. These results demonstrate the potential of our framework to facilitate the safe handling of surgical video recordings and enhance data privacy protection in minimally invasive surgery.
翻訳日:2023-04-03 13:35:55 公開日:2023-03-31
# 時間・数値表現の多言語抽出と正規化のためのデータセットとベースラインシステム

Dataset and Baseline System for Multi-lingual Extraction and Normalization of Temporal and Numerical Expressions ( http://arxiv.org/abs/2303.18103v1 )

ライセンス: Link先を確認
Sanxing Chen, Yongqiang Chen, B\"orje F. Karlsson(参考訳) ダウンストリーム自然言語処理(nlp)や情報検索(ir)タスクでは,時間的および数値的理解が非常に重要である。 しかしながら、以前の多くの作業は、いくつかのサブタイプのみをカバーし、エンティティ抽出のみに焦点を当てており、特定された参照の使用性が著しく制限されている。 このようなエンティティが下流のシナリオで有用になるためには、サブタイプのカバレッジと粒度が重要です。 さらに、ほとんどの以前の作業は、ほんの一握りの言語しか扱っていない。 ここでは,14言語にまたがる多様な時間的および数値的表現をカバーする多言語評価データセットNTXについて述べる。 データセットとともに、このデータセットで評価される他のモデルと比較するための強力なベースラインとして、堅牢なルールベースのシステムを提供します。 データとコードは \url{https://aka.ms/NTX} で入手できる。

Temporal and numerical expression understanding is of great importance in many downstream Natural Language Processing (NLP) and Information Retrieval (IR) tasks. However, much previous work covers only a few sub-types and focuses only on entity extraction, which severely limits the usability of identified mentions. In order for such entities to be useful in downstream scenarios, coverage and granularity of sub-types are important; and, even more so, providing resolution into concrete values that can be manipulated. Furthermore, most previous work addresses only a handful of languages. Here we describe a multi-lingual evaluation dataset - NTX - covering diverse temporal and numerical expressions across 14 languages and covering extraction, normalization, and resolution. Along with the dataset we provide a robust rule-based system as a strong baseline for comparisons against other models to be evaluated in this dataset. Data and code are available at \url{https://aka.ms/NTX}.
翻訳日:2023-04-03 13:35:33 公開日:2023-03-31
# 多変量ガウシアンによる単一画像深度予測の精度向上

Single Image Depth Prediction Made Better: A Multivariate Gaussian Take ( http://arxiv.org/abs/2303.18164v1 )

ライセンス: Link先を確認
Ce Liu, Suryansh Kumar, Shuhang Gu, Radu Timofte, Luc Van Gool(参考訳) ニューラルネットワークベースの単一画像深度予測(SIDP)は、テスト時にシーン毎の深度を予測することが目的の課題である。 問題は、定義上不適切であるため、基本的な目標は、一連のトレーニング例からシーンの深さを確実にモデル化できるアプローチを考案することだ。 完全深度推定の追求において、既存の最先端学習技術は1ピクセルあたりのスカラー深度値を予測している。 しかし、訓練されたモデルは精度の限界があり、不正確な深さを予測できることはよく知られている。 したがって、SIDPアプローチは、テスト時間におけるモデルの予測における予測深度の変化に注意する必要がある。 そこで我々は,画素ごとの深度と分布の予測と推論が可能な,画素ごとの深度を連続的にモデル化する手法を提案する。 この目的のために,多変量ガウス分布を用いた画素ごとのシーン深度をモデル化する。 さらに,既存の不確実性モデリング手法とは対照的に,ピクセル単位の深さが独立と仮定される同じ精神において,その深さ依存性を符号化する画素単位の共分散モデリングを導入する。 残念なことに、画素ごとの深度共分散モデリングは計算コストのかかる連続損失関数を導いており、これは学習した全共分散行列の低ランク近似を用いて効率よく解決する。 特に、KITTI、NYU、SUN-RGB-Dなどのベンチマークデータセットでテストすると、損失関数を最適化したSIDPモデルは最先端の結果を示す。 提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。

Neural-network-based single image depth prediction (SIDP) is a challenging task where the goal is to predict the scene's per-pixel depth at test time. Since the problem, by definition, is ill-posed, the fundamental goal is to come up with an approach that can reliably model the scene depth from a set of training examples. In the pursuit of perfect depth estimation, most existing state-of-the-art learning techniques predict a single scalar depth value per-pixel. Yet, it is well-known that the trained model has accuracy limits and can predict imprecise depth. Therefore, an SIDP approach must be mindful of the expected depth variations in the model's prediction at test time. Accordingly, we introduce an approach that performs continuous modeling of per-pixel depth, where we can predict and reason about the per-pixel depth and its distribution. To this end, we model per-pixel scene depth using a multivariate Gaussian distribution. Moreover, contrary to the existing uncertainty modeling methods -- in the same spirit, where per-pixel depth is assumed to be independent, we introduce per-pixel covariance modeling that encodes its depth dependency w.r.t all the scene points. Unfortunately, per-pixel depth covariance modeling leads to a computationally expensive continuous loss function, which we solve efficiently using the learned low-rank approximation of the overall covariance matrix. Notably, when tested on benchmark datasets such as KITTI, NYU, and SUN-RGB-D, the SIDP model obtained by optimizing our loss function shows state-of-the-art results. Our method's accuracy (named MG) is among the top on the KITTI depth-prediction benchmark leaderboard.
翻訳日:2023-04-03 13:29:36 公開日:2023-03-31
# ベトナム語教育のための理解コーパスを読む複数の選択

A Multiple Choices Reading Comprehension Corpus for Vietnamese Language Education ( http://arxiv.org/abs/2303.18162v1 )

ライセンス: Link先を確認
Son T. Luu, Khoi Trong Hoang, Tuong Quang Pham, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 近年,テキストから有用な情報を抽出することを目的として,機械読解は興味深い課題となっている。 ベトナムの教科書において、読み書きの理解と関連情報への回答をコンピュータで行うために、第1学年から第12学年までの学生向けの読解記事を含む複数選択読解作業のためのViMMRC 2.0を導入する。 このデータセットには、散文と詩からなる699の読解通路と、5,273の質問がある。 新しいデータセットの質問は、以前のバージョンのように4つのオプションで修正されていない。 さらに、質問の難しさが増し、モデルに正しい選択肢を見つけるよう挑戦する。 コンピュータは、正しい回答を抽出するために、読み出し路のコンテキスト全体、質問、および各選択の内容を理解する必要がある。 そこで本研究では,マルチステップアテンションネットワーク(MAN)と自然言語推論(NLI)タスクを組み合わせた多段階アプローチを提案する。 次に,提案手法と新たなデータセットと ViMMRC 1.0 のベースラインBERTology モデルを比較した。 我々の多段モデルは、テストセットの精度で58.81%に達し、最高のバートロジーモデルよりも5.34%優れている。 誤り解析の結果から,テキスト中の暗黙の文脈を理解し,それらをリンクして正しい回答を見つけることが,読解理解モデルの課題であることがわかった。 最後に、我々の新しいデータセットはベトナム語におけるコンピュータの言語理解能力を高めるためのさらなる研究の動機になることを期待します。

Machine reading comprehension has been an interesting and challenging task in recent years, with the purpose of extracting useful information from texts. To attain the computer ability to understand the reading text and answer relevant information, we introduce ViMMRC 2.0 - an extension of the previous ViMMRC for the task of multiple-choice reading comprehension in Vietnamese Textbooks which contain the reading articles for students from Grade 1 to Grade 12. This dataset has 699 reading passages which are prose and poems, and 5,273 questions. The questions in the new dataset are not fixed with four options as in the previous version. Moreover, the difficulty of questions is increased, which challenges the models to find the correct choice. The computer must understand the whole context of the reading passage, the question, and the content of each choice to extract the right answers. Hence, we propose the multi-stage approach that combines the multi-step attention network (MAN) with the natural language inference (NLI) task to enhance the performance of the reading comprehension model. Then, we compare the proposed methodology with the baseline BERTology models on the new dataset and the ViMMRC 1.0. Our multi-stage models achieved 58.81% by Accuracy on the test set, which is 5.34% better than the highest BERTology models. From the results of the error analysis, we found the challenge of the reading comprehension models is understanding the implicit context in texts and linking them together in order to find the correct answers. Finally, we hope our new dataset will motivate further research in enhancing the language understanding ability of computers in the Vietnamese language.
翻訳日:2023-04-03 13:29:08 公開日:2023-03-31
# 超強結合系における緩和過程の自己一貫性記述

Self-consistent description of relaxation processes in systems with ultra- and deep-strong coupling ( http://arxiv.org/abs/2303.18159v1 )

ライセンス: Link先を確認
T. T. Sergeev, A. A. Zyablovsky, E. S. Andrianov, Yu. E. Lozovik(参考訳) 超強結合状態は、サブシステム間の結合強度がシステムの固有周波数の10分の1を超える場合に起こる。 結合強度が系固有周波数を超えると、深い強結合状態になる。 これらの制度では、環境自由度を明示的に考慮せずに緩和過程を記述することが困難である。 緩和速度を正確に評価するには, 対向回転波および反磁性項を考慮したシステムと環境との相互作用を検討する必要がある。 連成強度が固有周波数の次数である系の緩和率の計算のための自己整合理論を考案する。 カップリング強度の増加は緩和率を著しく低下させる可能性が示唆された。 特に,環境状態の周波数非依存密度では,結合強度の増加に伴って緩和速度が指数関数的に減少することが示された。 この事実は、強度結合と環境状態を調整することで損失を抑制することができる。

An ultra-strong coupling regime takes place in a compound system when a coupling strength between the subsystems exceeds one tenth of the system eigenfrequency. It transforms into a deep-strong coupling regime when the coupling strength exceeds the system eigenfrequency. In these regimes, there are difficulties with description of relaxation processes without explicit considering of environment degrees of freedom. To correctly evaluate the relaxation rates, it is necessary to consider the interaction of the system with its environment taking into account the counter-rotating wave and diamagnetic terms. We develop a self-consistent theory for calculation of the relaxation rates in the systems, in which the coupling strength is of the order of the system eigenfrequency. We demonstrate that the increase in the coupling strength can lead to a significant decrease in the relaxation rates. In particular, we show that for frequency-independent density of states of the environment, the relaxation rates decrease exponentially with the increase in the coupling strength. This fact can be used to suppress losses by tuning the strength coupling and the environment states.
翻訳日:2023-04-03 13:28:43 公開日:2023-03-31
# 指標変数を用いたランクワン関数の制約付き最適化

Constrained Optimization of Rank-One Functions with Indicator Variables ( http://arxiv.org/abs/2303.18158v1 )

ライセンス: Link先を確認
Soroosh Shafieezadeh-Abadeh and Fatma K{\i}l{\i}n\c{c}-Karzan(参考訳) 制約よりもランクワン凸関数の最小化を伴う最適化問題は、さまざまな機械学習アプリケーションにおいて、決定変数のサポートに関する制約が現れる。 これらの問題は、連続変数のサポートを特定するために、しばしばインジケータ変数でモデル化される。 本稿では,このような問題に対するコンパクトな拡張定式化について,視点修正手法を用いて検討する。 凸包体結果を提供するための支援関数引数や非連結プログラミング技術に依存する先行研究のほとんどとは対照的に,視点関数によって引き起こされる隠れた円錐構造を利用する構成的アプローチを提案する。 この目的のために、まず、各円錐制約が独立な連続変数の線型関数とバイナリ変数の集合を含む一般円錐混合二元集合に対する凸包結果を確立する。 次に、階数 1 の凸関数のエピグラフに付随する集合の拡張表現が、制約モデリング指標関係にそのような円錐表現が自然に認められることを示した。 これにより、これらの集合の凸包記述に対して、非線形可分あるいは非可分な目的関数、連続変数の制約、指標変数の組合せ的制約を体系的に与えることができる。 我々は,非負のロジスティック回帰問題に対する結果の有効性を示す。

Optimization problems involving minimization of a rank-one convex function over constraints modeling restrictions on the support of the decision variables emerge in various machine learning applications. These problems are often modeled with indicator variables for identifying the support of the continuous variables. In this paper we investigate compact extended formulations for such problems through perspective reformulation techniques. In contrast to the majority of previous work that relies on support function arguments and disjunctive programming techniques to provide convex hull results, we propose a constructive approach that exploits a hidden conic structure induced by perspective functions. To this end, we first establish a convex hull result for a general conic mixed-binary set in which each conic constraint involves a linear function of independent continuous variables and a set of binary variables. We then demonstrate that extended representations of sets associated with epigraphs of rank-one convex functions over constraints modeling indicator relations naturally admit such a conic representation. This enables us to systematically give perspective formulations for the convex hull descriptions of these sets with nonlinear separable or non-separable objective functions, sign constraints on continuous variables, and combinatorial constraints on indicator variables. We illustrate the efficacy of our results on sparse nonnegative logistic regression problems.
翻訳日:2023-04-03 13:28:29 公開日:2023-03-31
# MAGNNETO: グラフニューラルネットワークを用いた交通工学用マルチエージェントシステム

MAGNNETO: A Graph Neural Network-based Multi-Agent system for Traffic Engineering ( http://arxiv.org/abs/2303.18157v1 )

ライセンス: Link先を確認
Guillermo Bern\'ardez, Jos\'e Su\'arez-Varela, Albert L\'opez, Xiang Shi, Shihan Xiao, Xiangle Cheng, Pere Barlet-Ros, and Albert Cabellos-Aparicio(参考訳) ネットワークの最近のトレンドは、さまざまなネットワーク最適化タスクに機械学習(ml)を使うことを提案する。 そのため、ISPネットワークにおける根本的な問題である交通工学(TE)のためのMLベースのソリューションを作成するために、多くの取り組みがなされている。 現在、最先端のteオプティマイザは、局所探索、制約プログラミング、線形プログラミングといった従来の最適化技術に依存している。 本稿では,分散TE最適化にマルチエージェント強化学習とグラフニューラルネットワークを利用する分散MLベースのフレームワークMAGNNETOを提案する。 MAGNNETOはネットワーク全体に一連のエージェントをデプロイし、近隣エージェント間のメッセージ交換を通じて分散形式で学習し、通信する。 特に,このフレームワークを用いてOSPFのリンク重み付けを最適化し,ネットワークの混雑を最小限に抑える。 本評価では,75以上のトポロジ(最大153ノード,354リンク)において,MAGNNETOと最先端のTEオプティマイザを比較した。 実験の結果,MAGNNETOは分散特性により,実行時間を大幅に短縮した最先端TEオプティマイザに匹敵する性能を示した。 さらに、MLベースのソリューションは、トレーニング中に見えない新しいネットワークでの運用を成功させる強力な一般化能力を示す。

Current trends in networking propose the use of Machine Learning (ML) for a wide variety of network optimization tasks. As such, many efforts have been made to produce ML-based solutions for Traffic Engineering (TE), which is a fundamental problem in ISP networks. Nowadays, state-of-the-art TE optimizers rely on traditional optimization techniques, such as Local search, Constraint Programming, or Linear programming. In this paper, we present MAGNNETO, a distributed ML-based framework that leverages Multi-Agent Reinforcement Learning and Graph Neural Networks for distributed TE optimization. MAGNNETO deploys a set of agents across the network that learn and communicate in a distributed fashion via message exchanges between neighboring agents. Particularly, we apply this framework to optimize link weights in OSPF, with the goal of minimizing network congestion. In our evaluation, we compare MAGNNETO against several state-of-the-art TE optimizers in more than 75 topologies (up to 153 nodes and 354 links), including realistic traffic loads. Our experimental results show that, thanks to its distributed nature, MAGNNETO achieves comparable performance to state-of-the-art TE optimizers with significantly lower execution times. Moreover, our ML-based solution demonstrates a strong generalization capability to successfully operate in new networks unseen during training.
翻訳日:2023-04-03 13:28:09 公開日:2023-03-31
# 大次元独立成分分析:統計的最適性と計算的トラクタビリティ

Large Dimensional Independent Component Analysis: Statistical Optimality and Computational Tractability ( http://arxiv.org/abs/2303.18156v1 )

ライセンス: Link先を確認
Arnab Auddy and Ming Yuan(参考訳) 本稿では,独立成分分析(ICA)における最適統計性能と計算制約の影響について検討する。 私たちの目標は2倍です。 一方,サンプルの複雑さと統計的精度における次元の正確な役割と,それらにどう影響するかを特徴付ける。 特に, 最適標本複雑性は線形な次元であることを示し, 興味深いことに, クルトシスに基づく手法は必ずしも最適ではない。 しかし、最適サンプルの複雑性は、低次多項式アルゴリズムで計算できる推定値に制限された場合の次元において、対数係数まで2次になる。 一方,最適サンプル複雑性と最小収束率の両方を達成する計算可能な推定法を開発した。 提案した推定値の漸近特性について検討し, 統計的推測に容易に利用できる漸近正規性を確立する。 本手法は実装が比較的容易であり,その実用性を示す数値実験を行う。

In this paper, we investigate the optimal statistical performance and the impact of computational constraints for independent component analysis (ICA). Our goal is twofold. On the one hand, we characterize the precise role of dimensionality on sample complexity and statistical accuracy, and how computational consideration may affect them. In particular, we show that the optimal sample complexity is linear in dimensionality, and interestingly, the commonly used sample kurtosis-based approaches are necessarily suboptimal. However, the optimal sample complexity becomes quadratic, up to a logarithmic factor, in the dimension if we restrict ourselves to estimates that can be computed with low-degree polynomial algorithms. On the other hand, we develop computationally tractable estimates that attain both the optimal sample complexity and minimax optimal rates of convergence. We study the asymptotic properties of the proposed estimates and establish their asymptotic normality that can be readily used for statistical inferences. Our method is fairly easy to implement and numerical experiments are presented to further demonstrate its practical merits.
翻訳日:2023-04-03 13:27:45 公開日:2023-03-31
# aiチャットボットは、エンジニアリングの基本(fe)とエンジニアリングの原則と実践(pe)構造試験に合格できるか?

Can AI Chatbots Pass the Fundamentals of Engineering (FE) and Principles and Practice of Engineering (PE) Structural Exams? ( http://arxiv.org/abs/2303.18149v1 )

ライセンス: Link先を確認
M.Z. Naser, Brandon Ross, Jennier Ogle, Venkatesh Kodur, Rami Hawileh, Jamal Abdalla, Huu-Tai Thai(参考訳) エンジニアリングコミュニティは最近、openai chatgpt-4とgoogle bardのリリースでチャットボット技術の出現を目撃した。 これらのチャットボットは、医療や法律の試験を含む様々な標準試験に合格することが報告されているが、このフォーラムの論文は、これらのチャットボットがエンジニアリングの基本(fe)とエンジニアリングの原則と実践(pe)試験にも合格できるかどうかを考察している。 FE試験やPE試験で一般的に見られるように、様々な土木工学や環境工学の質問やシナリオがチャットボットのパフォーマンスを評価するために使用される。 チャットボットの応答は,その関連性,正確性,明確性に基づいて分析し,NCEES(National Council of Examiners for Engineering and Surveying)の勧告と比較した。 調査の結果,ChatGPT-4 と Bard はそれぞれ FE 試験で 70.9% と 39.2%,PE 試験で 46.2% と 41% を獲得した。 現在のChatGPT-4はFE試験に合格する可能性があることは明らかである。 将来の版は両方の試験に合格する可能性が高いが、この研究はチャットボットをアシスタントや指導エンジニアとして使う可能性を強調している。

The engineering community has recently witnessed the emergence of chatbot technology with the release of OpenAI ChatGPT-4 and Google Bard. While these chatbots have been reported to perform well and even pass various standardized tests, including medical and law exams, this forum paper explores whether these chatbots can also pass the Fundamentals of Engineering (FE) and Principles and Practice of Engineering (PE) exams. A diverse range of civil and environmental engineering questions and scenarios are used to evaluate the chatbots' performance, as commonly present in the FE and PE exams. The chatbots' responses were analyzed based on their relevance, accuracy, and clarity and then compared against the recommendations of the National Council of Examiners for Engineering and Surveying (NCEES). Our report shows that ChatGPT-4 and Bard, respectively scored 70.9% and 39.2% in the FE exam and 46.2% and 41% in the PE exam. It is evident that the current version of ChatGPT-4 could potentially pass the FE exam. While future editions are much more likely to pass both exams, this study also highlights the potential of using chatbots as teaching assistants and guiding engineers.
翻訳日:2023-04-03 13:27:30 公開日:2023-03-31
# シームズDeTR

Siamese DETR ( http://arxiv.org/abs/2303.18144v1 )

ライセンス: Link先を確認
Zeren Chen, Gengshi Huang, Wei Li, Jianing Teng, Kun Wang, Jing Shao, Chen Change Loy, Lu Sheng(参考訳) 最近の自己教師型手法は、主にベースモデル(ResNetsやViTsなど)による表現学習のために設計されている。 タスク固有のTransformerモジュールを持つDETRに簡単に転送することはできない。 本稿では,DeTR における Transformer アーキテクチャの自己教師型事前学習手法である Siamese DETR について述べる。 我々は,新しい多視点学習フレームワークにおいて,局所化と識別という2つの相補的なタスクを通じて,視点不変性と検出指向の表現を同時に考える。 2つの自己管理型プレテキストタスクが設計されます。 (i)マルチビュー領域検出は、入力の強化ビューと関心領域のローカライズを学習することを目的とする。 (II)多視点セマンティック識別は各領域のオブジェクトレベルの識別を改善する。 提案したSiamese DETRは,COCOおよびPASCALVOC検出において,すべての設定で異なるDETR変種を用いて最先端の転送性能を実現する。 コードはhttps://github.com/Zx55/SiameseDETRで入手できる。

Recent self-supervised methods are mainly designed for representation learning with the base model, e.g., ResNets or ViTs. They cannot be easily transferred to DETR, with task-specific Transformer modules. In this work, we present Siamese DETR, a Siamese self-supervised pretraining approach for the Transformer architecture in DETR. We consider learning view-invariant and detection-oriented representations simultaneously through two complementary tasks, i.e., localization and discrimination, in a novel multi-view learning framework. Two self-supervised pretext tasks are designed: (i) Multi-View Region Detection aims at learning to localize regions-of-interest between augmented views of the input, and (ii) Multi-View Semantic Discrimination attempts to improve object-level discrimination for each region. The proposed Siamese DETR achieves state-of-the-art transfer performance on COCO and PASCAL VOC detection using different DETR variants in all setups. Code is available at https://github.com/Zx55/SiameseDETR.
翻訳日:2023-04-03 13:27:07 公開日:2023-03-31
# マルチプレーン特徴表現を用いた高能率なビュー合成と3次元マルチフレームデノイジング

Efficient View Synthesis and 3D-based Multi-Frame Denoising with Multiplane Feature Representations ( http://arxiv.org/abs/2303.18139v1 )

ライセンス: Link先を確認
Thomas Tanay and Ale\v{s} Leonardis and Matteo Maggioni(参考訳) 現在のマルチフレーム復元法は2次元アライメント技術を用いて複数の入力画像からの情報を合成するが、新しいビュー合成の最近の進歩はボリューム的なシーン表現に依存する新しいパラダイムへの道を開く。 そこで本研究では,より少ない計算量で2Dベースの性能を著しく上回る3Dベースのマルチフレームデノベーション手法を提案する。 本手法は,多面表現を特徴空間で操作する学習可能なエンコーダ・レンダラペアを導入することで,新たなビュー合成のための多面画像(mpi)フレームワークを拡張する。 エンコーダは、ビューにまたがって情報を融合し、深度的に操作する一方、レンダラは深度にわたって情報を融合し、視野的に操作する。 2つのモジュールはエンドツーエンドで訓練され、教師なしの方法で深度を分離することを学び、MPF(Multiplane Feature)表現を生み出した。 空間と実際の前方データセット、および生のバーストデータに関する実験は、ノイズ条件下でのビュー合成、マルチフレーム・デノイジング、ビュー合成のアプローチを検証する。

While current multi-frame restoration methods combine information from multiple input images using 2D alignment techniques, recent advances in novel view synthesis are paving the way for a new paradigm relying on volumetric scene representations. In this work, we introduce the first 3D-based multi-frame denoising method that significantly outperforms its 2D-based counterparts with lower computational requirements. Our method extends the multiplane image (MPI) framework for novel view synthesis by introducing a learnable encoder-renderer pair manipulating multiplane representations in feature space. The encoder fuses information across views and operates in a depth-wise manner while the renderer fuses information across depths and operates in a view-wise manner. The two modules are trained end-to-end and learn to separate depths in an unsupervised way, giving rise to Multiplane Feature (MPF) representations. Experiments on the Spaces and Real Forward-Facing datasets as well as on raw burst data validate our approach for view synthesis, multi-frame denoising, and view synthesis under noisy conditions.
翻訳日:2023-04-03 13:26:52 公開日:2023-03-31
# 離散時間半古典的量子ウォーク

Discrete-time Semiclassical Szegedy Quantum Walks ( http://arxiv.org/abs/2303.18202v1 )

ライセンス: Link先を確認
Sergio A. Ortega, Miguel A. Martin-Delgado(参考訳) 量子ウォークは古典的なランダムウォークに基づく有望なツールであり、最適化の変種など多くの応用がある。 ここでは,古典力学と量子力学を組み合わせたアルゴリズムである離散時間半古典歩行を紹介する。 具体的には、半古典的なウォークは遷移行列が量子進化を符号化する古典的なウォークとして理解することができる。 我々はこのアルゴリズムを任意の重み付きグラフに適用できるSzegedyの量子ウォークに適用した。 まず, 半古典的歩行の性能を示すために, 正規1次元サイクル上で解析的に解いた。 次に、一般不均質対称グラフでアルゴリズムをシミュレートし、不均質性はグラフ上の対称性の破れを駆動することを示した。 さらに,この現象は,古典的ページランクが失敗する対称グラフにおけるノードのランキング問題に有用であることを示す。 半古典的ウォークがibm量子プラットフォームを用いて実際の量子コンピュータに適用できることを実験的に実証した。

Quantum walks are promising tools based on classical random walks, with plenty of applications such as many variants of optimization. Here we introduce the semiclassical walks in discrete time, which are algorithms that combines classical and quantum dynamics. Specifically, a semiclassical walk can be understood as a classical walk where the transition matrix encodes the quantum evolution. We have applied this algorithm to Szegedy's quantum walk, which can be applied to any arbitrary weighted graph. We first have solved the problem analytically on regular 1D cycles to show the performance of the semiclassical walks. Next, we have simulated our algorithm in a general inhomogeneous symmetric graph, finding that the inhomogeneity drives a symmetry breaking on the graph. Moreover, we show that this phenomenon is useful for the problem of ranking nodes in symmetric graphs, where the classical PageRank fails. We have demonstrated experimentally that the semiclassical walks can be applied on real quantum computers using the platform IBM Quantum.
翻訳日:2023-04-03 13:20:19 公開日:2023-03-31
# gvp: 生成的ボリュームプリミティブ

GVP: Generative Volumetric Primitives ( http://arxiv.org/abs/2303.18193v1 )

ライセンス: Link先を確認
Mallikarjun B R, Xingang Pan, Mohamed Elgharib, Christian Theobalt(参考訳) 3D認識生成モデルの進歩は、明確なカメラ制御による画像合成の境界を押し進めている。 高分解能画像合成を実現するため、3dおよび2dコンポーネントのハイブリッドアーキテクチャなど、効率的なジェネレータの設計が試みられている。 しかし、このような設計はマルチビューの一貫性を損なうため、高解像度の純粋な3Dジェネレータの設計は依然として未解決の問題である。 本稿では,512解像度画像のサンプリングとレンダリングが可能な,最初の純粋3次元生成モデルであるgvp(generative volumetric primitives)を提案する。 gvpは、複数のボリュームプリミティブとその空間情報を共同でモデル化し、2次元畳み込みネットワークを介して効率的に生成することができる。 これらのプリミティブの混合は自然に3次元体積の空間と対応を捉える。 このような自由度の高い発電機の訓練は知識蒸留技術により行うことができる。 いくつかのデータセットの実験は、最先端技術よりも優れた効率性とGVPの3次元一貫性を示す。

Advances in 3D-aware generative models have pushed the boundary of image synthesis with explicit camera control. To achieve high-resolution image synthesis, several attempts have been made to design efficient generators, such as hybrid architectures with both 3D and 2D components. However, such a design compromises multiview consistency, and the design of a pure 3D generator with high resolution is still an open problem. In this work, we present Generative Volumetric Primitives (GVP), the first pure 3D generative model that can sample and render 512-resolution images in real-time. GVP jointly models a number of volumetric primitives and their spatial information, both of which can be efficiently generated via a 2D convolutional network. The mixture of these primitives naturally captures the sparsity and correspondence in the 3D volume. The training of such a generator with a high degree of freedom is made possible through a knowledge distillation technique. Experiments on several datasets demonstrate superior efficiency and 3D consistency of GVP over the state-of-the-art.
翻訳日:2023-04-03 13:18:41 公開日:2023-03-31
# リスクカードによる言語モデルデプロイメントの評価

Assessing Language Model Deployment with Risk Cards ( http://arxiv.org/abs/2303.18190v1 )

ライセンス: Link先を確認
Leon Derczynski, Hannah Rose Kirk, Vidhisha Balachandran, Sachin Kumar, Yulia Tsvetkov, M. R. Leiser, Saif Mohammad(参考訳) 本稿では,言語モデルの適用に関連するリスクの構造化評価と文書化のためのフレームワークであるriskcardsを紹介する。 すべての言語と同様に、言語モデルによって生成されたテキストは有害になり得る。 言語生成の自動化は、スケールの要素と、生成したテキストに対してより微妙で、あるいは好ましくない傾向の両方を追加する。 既存の分類群は、言語モデルによって引き起こされる害のカテゴリを識別する;ベンチマークは、これらの害の自動テストを確立する;そして、モデル、タスク、データセットのドキュメント標準は、透過的な報告を促進する。 しかしながら、いくつかのリスクがモデルやコンテキスト間で共有される環境の複雑さを文書化するためのリスク中心のフレームワークは存在しません。 riskcardsは、与えられたシナリオで与えられた言語モデルの使用を評価するための汎用フレームワークを提供することで、この方法論上のギャップに対処する。 各リスクカードは、リスクを顕示するルート、損害分類の配置、即席アウトプットペアの例を明確化する。 リスクカードはオープンソース,ダイナミック,参加型として設計されているが,我々は,広範な文献調査から得られたリスクカードの「出発セット」を提示する。 言語モデル リスクカードは、特定のモデルやアプリケーションシナリオへのリスクや害のマッピングを可能にするコミュニティの知識ベースを開始し、最終的には、より良く、より安全で共有されたリスクランドスケープの理解に寄与します。

This paper introduces RiskCards, a framework for structured assessment and documentation of risks associated with an application of language models. As with all language, text generated by language models can be harmful, or used to bring about harm. Automating language generation adds both an element of scale and also more subtle or emergent undesirable tendencies to the generated text. Prior work establishes a wide variety of language model harms to many different actors: existing taxonomies identify categories of harms posed by language models; benchmarks establish automated tests of these harms; and documentation standards for models, tasks and datasets encourage transparent reporting. However, there is no risk-centric framework for documenting the complexity of a landscape in which some risks are shared across models and contexts, while others are specific, and where certain conditions may be required for risks to manifest as harms. RiskCards address this methodological gap by providing a generic framework for assessing the use of a given language model in a given scenario. Each RiskCard makes clear the routes for the risk to manifest harm, their placement in harm taxonomies, and example prompt-output pairs. While RiskCards are designed to be open-source, dynamic and participatory, we present a "starter set" of RiskCards taken from a broad literature survey, each of which details a concrete risk presentation. Language model RiskCards initiate a community knowledge base which permits the mapping of risks and harms to a specific model or its application scenario, ultimately contributing to a better, safer and shared understanding of the risk landscape.
翻訳日:2023-04-03 13:18:26 公開日:2023-03-31
# 拡散モデルにおけるパラメータ効率のチューニングについて

A Closer Look at Parameter-Efficient Tuning in Diffusion Models ( http://arxiv.org/abs/2303.18181v1 )

ライセンス: Link先を確認
Chendong Xiang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu(参考訳) 安定拡散のような大規模拡散モデルは強力であり、様々な実世界のアプリケーションを見つける一方で、微調整によるモデルカスタマイズはメモリと時間の両方で非効率である。 近年の自然言語処理の進歩により, 学習可能な小モジュール(終端アダプタ)を挿入することにより, 大規模拡散モデルにおけるパラメータ効率の調整について検討した。 特に,アダプタの設計空間を直交因子(入力位置,出力位置,および関数形式)に分解し,離散(設計オプション)と連続変数(評価指標)の相関を解析するための古典的統計手法であるANOVA(Analytic of Variance)を実行する。 分析の結果,アダプタの入力位置が下流タスクの性能に影響を与える重要な要因であることが示唆された。 そして, 入力位置の選択を慎重に検討し, 追加の可視化分析により, クロスアテンションブロックの後に入力位置を置けば, 最高の性能が得られることを示した。 最後に,完全微調整ベースライン(DreamBoothなど)に匹敵せず,パラメータを0.75 %追加するだけで,様々なカスタマイズタスクに匹敵する拡散モデルのパラメータ効率性チューニングのレシピを提供する。

Large-scale diffusion models like Stable Diffusion are powerful and find various real-world applications while customizing such models by fine-tuning is both memory and time inefficient. Motivated by the recent progress in natural language processing, we investigate parameter-efficient tuning in large diffusion models by inserting small learnable modules (termed adapters). In particular, we decompose the design space of adapters into orthogonal factors -- the input position, the output position as well as the function form, and perform Analysis of Variance (ANOVA), a classical statistical approach for analyzing the correlation between discrete (design options) and continuous variables (evaluation metrics). Our analysis suggests that the input position of adapters is the critical factor influencing the performance of downstream tasks. Then, we carefully study the choice of the input position, and we find that putting the input position after the cross-attention block can lead to the best performance, validated by additional visualization analyses. Finally, we provide a recipe for parameter-efficient tuning in diffusion models, which is comparable if not superior to the fully fine-tuned baseline (e.g., DreamBooth) with only 0.75 \% extra parameters, across various customized tasks.
翻訳日:2023-04-03 13:17:41 公開日:2023-03-31
# STMT:MoCapに基づく行動認識のための空間時間メッシュ変換器

STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition ( http://arxiv.org/abs/2303.18177v1 )

ライセンス: Link先を確認
Xiaoyu Zhu, Po-Yao Huang, Junwei Liang, Celso M. de Melo, Alexander Hauptmann(参考訳) モーションキャプチャ(mocap)シーケンスを用いたヒューマンアクション認識の問題点について検討した。 複数の手動でモデル入力として標準化された骨格表現を導出する既存の手法とは異なり、メッシュシーケンスを直接モデル化する新しい空間時間メッシュ変換器(STMT)を提案する。 このモデルは、フレーム内のオフセットアテンションとフレーム間の自己アテンションを備えた階層トランスフォーマーを使用する。 注意機構により、モデルは2つの頂点パッチの間を自由に参加し、空間時間領域における非局所的関係を学習することができる。 階層変換器における双方向及び自己回帰的注意をフルに活性化するために,マスク付き頂点モデリングと将来のフレーム予測が2つの自己監督タスクとして使用される。 提案手法は,一般的なMoCapベンチマークにおけるスケルトンベースおよびポイントクラウドベースモデルと比較して,最先端性能を実現する。 コードはhttps://github.com/zgzxy001/STMTで入手できる。

We study the problem of human action recognition using motion capture (MoCap) sequences. Unlike existing techniques that take multiple manual steps to derive standardized skeleton representations as model input, we propose a novel Spatial-Temporal Mesh Transformer (STMT) to directly model the mesh sequences. The model uses a hierarchical transformer with intra-frame off-set attention and inter-frame self-attention. The attention mechanism allows the model to freely attend between any two vertex patches to learn non-local relationships in the spatial-temporal domain. Masked vertex modeling and future frame prediction are used as two self-supervised tasks to fully activate the bi-directional and auto-regressive attention in our hierarchical transformer. The proposed method achieves state-of-the-art performance compared to skeleton-based and point-cloud-based models on common MoCap benchmarks. Code is available at https://github.com/zgzxy001/STMT.
翻訳日:2023-04-03 13:17:18 公開日:2023-03-31
# 大規模言語モデルに関する調査

A Survey of Large Language Models ( http://arxiv.org/abs/2303.18223v1 )

ライセンス: Link先を確認
Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie and Ji-Rong Wen(参考訳) 言語は基本的に、文法規則によって支配される人間の表現の複雑な複雑な体系である。 言語を理解・把握するための有能なaiアルゴリズムを開発することは大きな課題となる。 主要なアプローチとして、言語モデリングは過去20年間、言語理解と生成のために広く研究され、統計的言語モデルから神経言語モデルへと進化してきた。 近年,大規模コーパス上でのトランスフォーマモデルによる事前学習言語モデル (plms) が提案されている。 モデルスケーリングがパフォーマンス改善につながることを研究者は発見しているので、モデルサイズをさらに大きくすることで、スケーリング効果をさらに研究している。 興味深いことに、パラメータスケールが一定のレベルを超えると、これらの拡張言語モデルは大幅な性能向上を達成するだけでなく、小規模な言語モデルには存在しない特別な能力を示す。 パラメータスケールの違いを識別するために、研究コミュニティは、大きなサイズのplmに対して、大言語モデル(llm)という用語を生み出した。 近年、LLMの研究は学術と産業の両方で大きく進歩しており、ChatGPTの立ち上げが目覚ましい進歩であり、社会から広く注目を集めている。 LLMの技術的な進化は、AIアルゴリズムの開発と使用方法に革命をもたらすような、AIコミュニティ全体に重要な影響を与えています。 本稿では, LLMの最近の進歩について, 背景, 重要な発見, 主流技術を紹介して概観する。 特に,事前トレーニング,適応チューニング,利用,キャパシティ評価という,llmの主な4つの側面に注目した。 さらに,llm開発のための利用可能なリソースを要約するとともに,今後の課題についても論じる。

Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural language models. Recently, pre-trained language models (PLMs) have been proposed by pre-training Transformer models over large-scale corpora, showing strong capabilities in solving various NLP tasks. Since researchers have found that model scaling can lead to performance improvement, they further study the scaling effect by increasing the model size to an even larger size. Interestingly, when the parameter scale exceeds a certain level, these enlarged language models not only achieve a significant performance improvement but also show some special abilities that are not present in small-scale language models. To discriminate the difference in parameter scale, the research community has coined the term large language models (LLM) for the PLMs of significant size. Recently, the research on LLMs has been largely advanced by both academia and industry, and a remarkable progress is the launch of ChatGPT, which has attracted widespread attention from society. The technical evolution of LLMs has been making an important impact on the entire AI community, which would revolutionize the way how we develop and use AI algorithms. In this survey, we review the recent advances of LLMs by introducing the background, key findings, and mainstream techniques. In particular, we focus on four major aspects of LLMs, namely pre-training, adaptation tuning, utilization, and capacity evaluation. Besides, we also summarize the available resources for developing LLMs and discuss the remaining issues for future directions.
翻訳日:2023-04-03 13:11:40 公開日:2023-03-31
# マイクロカノニカルランジュバンモンテカルロ

Microcanonical Langevin Monte Carlo ( http://arxiv.org/abs/2303.18221v1 )

ライセンス: Link先を確認
Jakob Robnik and Uro\v{s} Seljak(参考訳) 本稿では,エネルギー保存確率微分方程式 (sde) として定式化された,任意の分布 $\exp[-s(\x)]$ から可能な勾配 $\nabla s(\x)$ をサンプリングする方法を提案する。 我々はFokker-Planck方程式を導出し、決定論的ドリフトと確率拡散の両方が定常分布を別々に保存していることを示す。 これは、ドリフト拡散離散化スキームが標準ランゲヴィン力学とは対照的にバイアスフリーであることを意味する。 この手法を $\phi^4$ 格子場理論に適用し, 標準サンプリング法と一致したが, 現状のサンプリング法と比較して有意に高い効率を示した。

We propose a method for sampling from an arbitrary distribution $\exp[-S(\x)]$ with an available gradient $\nabla S(\x)$, formulated as an energy-preserving stochastic differential equation (SDE). We derive the Fokker-Planck equation and show that both the deterministic drift and the stochastic diffusion separately preserve the stationary distribution. This implies that the drift-diffusion discretization schemes are bias-free, in contrast to the standard Langevin dynamics. We apply the method to the $\phi^4$ lattice field theory, showing the results agree with the standard sampling methods but with significantly higher efficiency compared to the current state-of-the-art samplers.
翻訳日:2023-04-03 13:11:11 公開日:2023-03-31
# 誘導エネルギー参加率を用いた超伝導量子チップ特性評価

Using inductive Energy Participation Ratio for Superconducting Quantum Chip Characterization ( http://arxiv.org/abs/2303.18220v1 )

ライセンス: Link先を確認
Ke-Hui Yu, Yuan-Hao Fu, Xiao-Yang Jiao, Li-Jing Jin(参考訳) 我々は,大規模でフォールトトレラントな量子コンピューティングにおいてますます必須となる量子チップレイアウトシミュレーションと検証のためのインダクティブエネルギー参加比(iepr)法と簡潔な手続きを開発した。 レイアウトの特徴パラメータとベアハミルトニアンを効率的に抽出するために利用できる。 理論上、ieprはエネルギー分布と表現変換の深い関係に光を当てている。 かき混ぜるアプリケーションとして、典型的な量子チップレイアウトに適用し、1ステップで重要な特性パラメータをすべて取得し、既存の手法で非常に難しいものにします。 我々の研究はシミュレーションと検証技術を大幅に改善し、量子電子設計の自動化に向けて本質的な一歩を踏み出します。

We have developed an inductive energy participation ratio (iEPR) method and a concise procedure for superconducting quantum chip layout simulation and verification that is increasingly indispensable in large-scale, fault-tolerant quantum computing. It can be utilized to extract the characteristic parameters and the bare Hamiltonian of the layout in an efficient way. In theory, iEPR sheds light on the deep-seated relationship between energy distribution and representation transformation. As a stirring application, we apply it to a typical quantum chip layout, obtaining all the crucial characteristic parameters in one step that would be extremely challenging through the existing methods. Our work is expected to significantly improve the simulation and verification techniques and takes an essential step toward quantum electronic design automation.
翻訳日:2023-04-03 13:10:56 公開日:2023-03-31
# semhint-md: 自己教師付き単眼深度推定のための雑音意味ラベルからの学習

SemHint-MD: Learning from Noisy Semantic Labels for Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2303.18219v1 )

ライセンス: Link先を確認
Shan Lin, Yuheng Zhi, and Michael C. Yip(参考訳) 基底的真理の監督がなければ、測光損失の勾配局所性の問題により、自己教師付き深さ推定は局所的最小値に抑えられる。 本稿では,ネットワークを局所的最小値から切り離すためのガイドとして意味セグメンテーションを活用することで,奥行きを高めるための枠組みを提案する。 以前の作業では、これらの2つのタスク間でエンコーダを共有することや、深度とセグメンテーションマップのエッジ間の整合性などに基づいてそれらを明示的に整合させることが提案されている。 しかし、これらの手法は通常、現実のアプリケーションでは簡単にアクセスできないような、基礎的な真理や高品質の擬似ラベルを必要とする。 対照的に、限定データで事前訓練されたモデルによって提供されるノイズラベルで教師されるセグメンテーションブランチとともに、自己監督深度推定について検討する。 我々は、エンコーダからデコーダへのパラメータ共有を拡張し、異なる数の共有デコーダパラメータがモデル性能に与える影響について検討する。 また,クロスタスク情報を用いて現在の深度とセグメンテーション予測を洗練し,擬似深度とセマンティックラベルを生成することを提案する。 提案手法の利点は,kittiベンチマークと内視鏡的組織変形追跡のための下流課題による広範囲な実験により実証された。

Without ground truth supervision, self-supervised depth estimation can be trapped in a local minimum due to the gradient-locality issue of the photometric loss. In this paper, we present a framework to enhance depth by leveraging semantic segmentation to guide the network to jump out of the local minimum. Prior works have proposed to share encoders between these two tasks or explicitly align them based on priors like the consistency between edges in the depth and segmentation maps. Yet, these methods usually require ground truth or high-quality pseudo labels, which may not be easily accessible in real-world applications. In contrast, we investigate self-supervised depth estimation along with a segmentation branch that is supervised with noisy labels provided by models pre-trained with limited data. We extend parameter sharing from the encoder to the decoder and study the influence of different numbers of shared decoder parameters on model performance. Also, we propose to use cross-task information to refine current depth and segmentation predictions to generate pseudo-depth and semantic labels for training. The advantages of the proposed method are demonstrated through extensive experiments on the KITTI benchmark and a downstream task for endoscopic tissue deformation tracking.
翻訳日:2023-04-03 13:10:43 公開日:2023-03-31
# 超オーミック環境におけるデファスメントと擬似コヒーレント量子ダイナミクス

Dephasing and pseudo-coherent quantum dynamics in super-Ohmic environments ( http://arxiv.org/abs/2303.18213v1 )

ライセンス: Link先を確認
Philipp Nacke, Florian Otterpohl, Michael Thorwart, and Peter Nalbach(参考訳) 量子系における強調は、環境自由度との相互作用の結果である。 スピンボソンモデル内では、超原子環境が量子二状態系の力学に与える影響について検討する。 スーパーオーミック環境は、例えばnv中心のような固体量子システムにおける一般的な外乱である典型的なバルクフォノンをモデル化する。 数値的に厳密な準断熱経路積分法を適用することで、強い系-バスカップリングにおいて、疑似コヒーレントダイナミクスが出現すること、すなわち、量子系のバス力学へのスレーブによる短時間の振動力学が示される。 サブオーミックおよびオーミック環境の位相図をスーパーオーミックレジームに拡張し、発音される非単調な振る舞いを観察する。 超オーミックな純粋なゆらぎは、非常に短い時間でコヒーレント力学の振幅を強く抑制し、後続の崩壊は起こらない。 それにもかかわらず、彼らはダイナミクスを過大評価している。 相分離線は非単調な挙動を示し、擬コヒーレントダイナミクスと非常に似ている。

Dephasing in quantum systems is typically the result of its interaction with environmental degrees of freedom. We investigate within a spin-boson model the influence of a super-Ohmic environment on the dynamics of a quantum two-state system. A super-Ohmic enviroment, thereby, models typical bulk phonons which are a common disturbance for solid state quantum systems as, for example, NV centers. By applying the numerically exact quasi-adiabatic path integral approach we show that for strong system-bath coupling, pseudo-coherent dynamics emerges, i.e., oscillatory dynamics at short times due to slaving of the quantum system to the bath dynamics. We extend the phase diagram known for sub-Ohmic and Ohmic environments into the super-Ohmic regime and observe a pronounced non-monotonous behaviour. Super-Ohmic purely dephasing fluctuations strongly suppress the amplitude of coherent dynamics at very short times with no subsequent further decay at later times. Nevertheless, they render the dynamics overdamped. The according phase separation line shows also a non-monotonous behaviour, very similar to the pseudo-coherent dynamics.
翻訳日:2023-04-03 13:10:23 公開日:2023-03-31
# 簡易ソート基準は付加雑音モデルにおける因果順序を求めるのに役立つ

Simple Sorting Criteria Help Find the Causal Order in Additive Noise Models ( http://arxiv.org/abs/2303.18211v1 )

ライセンス: Link先を確認
Alexander G. Reisach, Myriam Tami, Christof Seiler, Antoine Chambaz, Sebastian Weichwald(参考訳) 付加雑音モデル(ANM)は、観測データから因果構造を学習できる一般的な機能仮定を符号化する。 仮定を満たす実世界のデータがないため、合成ANMデータは因果発見アルゴリズムを評価するためにしばしば使用される。 Reisach et al. (2021) は、一般的なシミュレーションパラメータに対して、分散の増加による変数順序は因果順序と密接に一致し、アライメントを定量化するためにvar-sortabilityを導入することを示した。 ここでは、変数の分散だけでなく、他のすべての変数によって説明される分散の分数も、決定係数$R^2$で表されるように、因果次数に沿って増加する傾向にあることを示す。 単純なベースラインアルゴリズムは、確立されたメソッドのパフォーマンスに合わせて$R^2$-sortabilityを使用することができる。 R^2$-sortabilityはデータ再スケーリングの下で不変であるため、これらのアルゴリズムは標準化されたデータや再スケールされたデータでも同等に機能する。 異なるシミュレーションパラメータに対する$R^2$-sortabilityを特徴付ける。 すべてのシミュレーションパラメータが$R^2$-sortabilityに影響を与える可能性を示し、因果発見タスクの難しさとシミュレーションデータの現実的妥当性を意図的に制御する必要がある。 当社のライブラリCausalDisco(https://github.com/CausalDisco/CausalDisco)にソート可能性尺度とソート可能性に基づくアルゴリズムを実装した。

Additive Noise Models (ANM) encode a popular functional assumption that enables learning causal structure from observational data. Due to a lack of real-world data meeting the assumptions, synthetic ANM data are often used to evaluate causal discovery algorithms. Reisach et al. (2021) show that, for common simulation parameters, a variable ordering by increasing variance is closely aligned with a causal order and introduce var-sortability to quantify the alignment. Here, we show that not only variance, but also the fraction of a variable's variance explained by all others, as captured by the coefficient of determination $R^2$, tends to increase along the causal order. Simple baseline algorithms can use $R^2$-sortability to match the performance of established methods. Since $R^2$-sortability is invariant under data rescaling, these algorithms perform equally well on standardized or rescaled data, addressing a key limitation of algorithms exploiting var-sortability. We characterize and empirically assess $R^2$-sortability for different simulation parameters. We show that all simulation parameters can affect $R^2$-sortability and must be chosen deliberately to control the difficulty of the causal discovery task and the real-world plausibility of the simulated data. We provide an implementation of the sortability measures and sortability-based algorithms in our library CausalDisco (https://github.com/CausalDisco/CausalDisco).
翻訳日:2023-04-03 13:10:04 公開日:2023-03-31
# Few-Shot 3D Point Cloudの分類について

A Closer Look at Few-Shot 3D Point Cloud Classification ( http://arxiv.org/abs/2303.18210v1 )

ライセンス: Link先を確認
Chuangguan Ye, Hongyuan Zhu, Bo Zhang, Tao Chen(参考訳) 近年,ラベル付きトレーニングデータの必要性が低かったり,新しいクラスへの一般化が進んだりして,FSLの研究は2次元画像領域で急速に成長している。 しかし、その3Dポイントクラウドデータへの応用は、比較的未調査である。 未知のクラスを2Dドメインと区別するだけでなく、3D FSLは不規則な構造、微妙なクラス間差、そして低数のデータで訓練された場合の高いクラス内分散の点でより困難である。 さらに、異なるアーキテクチャと学習アルゴリズムは、既存の2D FSLアルゴリズムの有効性を3Dドメインに移行する際に研究することを困難にしている。 本研究では,最近の2d fslワークを3dポイントクラウド関連バックボーンネットワークに直接適用する体系的かつ広範囲な調査を行い,少ない3dポイントクラウド分類のための強固な学習ベースラインを提案する。 さらに、salient-part fusion(spf)モジュール、self-channel interaction plus(sci+)モジュール、cross-instance fusion plus(cif+)モジュールと呼ばれる3つの新しいプラグイン・アンド・プレイコンポーネントを備えた新しいネットワークであるpoint-cloud correlation interaction(pcia)を提案する。 これらのモジュールは、小さな変更を伴ってほとんどのFSLアルゴリズムに挿入でき、性能が大幅に向上する。 3つのベンチマークデータセットであるModelNet40-FS,ShapeNet70-FS,ScanObjectNN-FSの実験結果から,本手法が3次元FSLタスクの最先端性能を実現することを示す。 コードとデータセットはhttps://github.com/cgye96/a_closer_look_at_3dfslで入手できる。

In recent years, research on few-shot learning (FSL) has been fast-growing in the 2D image domain due to the less requirement for labeled training data and greater generalization for novel classes. However, its application in 3D point cloud data is relatively under-explored. Not only need to distinguish unseen classes as in the 2D domain, 3D FSL is more challenging in terms of irregular structures, subtle inter-class differences, and high intra-class variances {when trained on a low number of data.} Moreover, different architectures and learning algorithms make it difficult to study the effectiveness of existing 2D FSL algorithms when migrating to the 3D domain. In this work, for the first time, we perform systematic and extensive investigations of directly applying recent 2D FSL works to 3D point cloud related backbone networks and thus suggest a strong learning baseline for few-shot 3D point cloud classification. Furthermore, we propose a new network, Point-cloud Correlation Interaction (PCIA), with three novel plug-and-play components called Salient-Part Fusion (SPF) module, Self-Channel Interaction Plus (SCI+) module, and Cross-Instance Fusion Plus (CIF+) module to obtain more representative embeddings and improve the feature distinction. These modules can be inserted into most FSL algorithms with minor changes and significantly improve the performance. Experimental results on three benchmark datasets, ModelNet40-FS, ShapeNet70-FS, and ScanObjectNN-FS, demonstrate that our method achieves state-of-the-art performance for the 3D FSL task. Code and datasets are available at https://github.com/cgye96/A_Closer_Look_At_3DFSL.
翻訳日:2023-04-03 13:09:39 公開日:2023-03-31
# ヘテロホモジン受信器による量子照明とシーケンス検出

Quantum Illumination with a Hetero-Homodyne Receiver and Sequential Detection ( http://arxiv.org/abs/2303.18207v1 )

ライセンス: Link先を確認
Maximilian Reichert, Quntao Zhuang, Jeffrey H. Shapiro, Roberto Di Candia(参考訳) 本稿では,量子照度検出のためのヘテロホモジン受信機を提案する。 従来のQI受信機とは異なり、QIの帰還した放射と格納されたアイドラーの間の量子相互作用を必要としないカスケード正の演算子値測定(POVM)を使用する。 逐次検出なしで使用する場合、その性能は、GuhaとErkmenの[Phys. A 80, 052310 (2009)]位相共役およびパラメトリック増幅器が楽しむ最適古典照明(CI)よりも3dB量子優位性に一致する。 シーケンシャル検出QIプロトコルで使用される場合、ヘテロホモジン受信機は、従来のCIレーダよりも9dB量子アドバンテージ、シーケンシャル検出を備えたCIレーダよりも3dB量子アドバンテージを提供する。 我々の研究は、マイクロ波領域の実用的な量子レーダに向けた重要な一歩であり、より一般的には、量子レーダのカスケードされたPOVMがもたらすポテンシャルを強調している。

We propose a hetero-homodyne receiver for quantum illumination (QI) target detection. Unlike prior QI receivers, it uses a cascaded positive operator-valued measurement (POVM) that does not require a quantum interaction between QI's returned radiation and its stored idler. When used without sequential detection its performance matches the 3 dB quantum advantage over optimum classical illumination (CI) that Guha and Erkmen's [Phys. Rev. A 80, 052310 (2009)] phase-conjugate and parametric amplifier receivers enjoy. When used in a sequential detection QI protocol, the hetero-homodyne receiver offers a 9 dB quantum advantage over a conventional CI radar, and a 3 dB advantage over a CI radar with sequential detection. Our work is a significant step forward toward a practical quantum radar for the microwave region, and, more generally, emphasizes the potential offered by cascaded POVMs for quantum radar.
翻訳日:2023-04-03 13:09:04 公開日:2023-03-31
# 相関-変位変換によるマイクロ波量子照明

Microwave quantum illumination with correlation-to-displacement conversion ( http://arxiv.org/abs/2303.18206v1 )

ライセンス: Link先を確認
Jacopo Angeletti, Haowei Shi, Theerthagiri Lakshmanan, David Vitali and Quntao Zhuang(参考訳) 絡み合いはノイズの多いセンシングシナリオの劣化に弱いが、驚くべきことに、量子照明プロトコルは、その利点が生き残ることを示した。 しかし、受信側の雑音に埋め込まれた弱相関に情報が隠されているため、この利点を実現する計測システムの設計は困難である。 相関交換変換モジュールの最近の進歩は、実用的なマイクロ波量子照明のための最適なプロトコルへの経路を提供する。 本研究は,マイクロ波システムにおいてユビキタスな実験的な欠陥に対応するため,変換モジュールを拡張した。 損失を軽減するため、返却信号の増幅を提案する。 理想的な増幅の場合、目標検出誤差における6デシベル誤差指数の優位性を維持できる。 しかし、ノイズ増幅の場合、この利点は3デシベルに縮小される。 最終測定では、ケネディ受信機を用いて異なるシナリオで量子アドバンテージを解析した。 理想的な場合、性能はオンオフ検出だけでかなり広い範囲で最適な結果が得られる。 光子数分解検出器により、さらに性能が向上し、受信機の動作特性曲線も解析される。 本研究は,マイクロ波量子照明システムの実現に向けた道を開くものである。

Entanglement is vulnerable to degradation in a noisy sensing scenario, but surprisingly, the quantum illumination protocol has demonstrated that its advantage can survive. However, designing a measurement system that realizes this advantage is challenging since the information is hidden in the weak correlation embedded in the noise at the receiver side. Recent progress in a correlation-to-displacement conversion module provides a route towards an optimal protocol for practical microwave quantum illumination. In this work, we extend the conversion module to accommodate experimental imperfections that are ubiquitous in microwave systems. To mitigate loss, we propose amplification of the return signals. In the case of ideal amplification, the entire six-decibel error-exponent advantage in target detection error can be maintained. However, in the case of noisy amplification, this advantage is reduced to three-decibel. We analyze the quantum advantage under different scenarios with a Kennedy receiver in the final measurement. In the ideal case, the performance still achieves the optimal one over a fairly large range with only on-off detection. Empowered by photon number resolving detectors, the performance is further improved and also analyzed in terms of receiver operating characteristic curves. Our findings pave the way for the development of practical microwave quantum illumination systems.
翻訳日:2023-04-03 13:08:33 公開日:2023-03-31
# SimTS: 時系列予測のためのコントラスト表現学習の再考

SimTS: Rethinking Contrastive Representation Learning for Time Series Forecasting ( http://arxiv.org/abs/2303.18205v1 )

ライセンス: Link先を確認
Xiaochen Zheng and Xingyu Chen and Manuel Sch\"urch and Amina Mollaysa and Ahmed Allam and Michael Krauthammer(参考訳) 対照的な学習手法は、画像や時系列の分類において意味のある表現を学習する能力を示す。 しかし,これらの手法は時系列予測には有効ではなく,履歴コンテキストから将来の状態を予測するためには,インスタンス識別の最適化が直接適用されない。 さらに、現在の技術における正対と負対の構築は、特定の時系列特性に強く依存し、様々な時系列データにまたがる一般化を制限する。 そこで本研究では,過去の潜在空間から未来を予測することを学ぶことで,時系列予測を改善するための簡易表現学習手法であるsimtsを提案する。 SimTSは、特定の時系列の特徴に関する負のペアや特定の仮定に依存しない。 ベンチマーク時系列予測データセットを用いた広範囲な実験により,既存のコントラスト学習法と比較して,simtsは競争力のある性能が得られることが示された。 さらに,現在時系列予測に使われているコントラスト学習フレームワークの欠点について,詳細なアブレーション研究を通じて述べる。 全体としては、SimTSは時系列予測の他の対照的な学習手法に代わる有望な選択肢であることを示している。

Contrastive learning methods have shown an impressive ability to learn meaningful representations for image or time series classification. However, these methods are less effective for time series forecasting, as optimization of instance discrimination is not directly applicable to predicting the future state from the history context. Moreover, the construction of positive and negative pairs in current technologies strongly relies on specific time series characteristics, restricting their generalization across diverse types of time series data. To address these limitations, we propose SimTS, a simple representation learning approach for improving time series forecasting by learning to predict the future from the past in the latent space. SimTS does not rely on negative pairs or specific assumptions about the characteristics of the particular time series. Our extensive experiments on several benchmark time series forecasting datasets show that SimTS achieves competitive performance compared to existing contrastive learning methods. Furthermore, we show the shortcomings of the current contrastive learning framework used for time series forecasting through a detailed ablation study. Overall, our work suggests that SimTS is a promising alternative to other contrastive learning approaches for time series forecasting.
翻訳日:2023-04-03 13:08:09 公開日:2023-03-31
# 柔軟なマルチモーダル文書モデルに向けて

Towards Flexible Multi-modal Document Models ( http://arxiv.org/abs/2303.18248v1 )

ライセンス: Link先を確認
Naoto Inoue, Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota Yamaguchi(参考訳) グラフィカル文書を生成するための創造的なワークフローには、要素の整列、適切なフォントの選択、美的な調和の取れた色の使用など、複雑な相互関連タスクが含まれる。 本研究では,様々な設計課題を協調的に解決できる総合モデルの構築を試みる。 flexdmで表現したモデルでは、ベクトル図形文書を多様要素の集合として扱い、要素タイプ、位置、スタイル属性、画像、テキストといったマスクされたフィールドを統一アーキテクチャを用いて予測することを学ぶ。 明示的なマルチタスク学習とドメイン内事前学習を用いることで、異なる文書フィールド間のマルチモーダル関係をよりよく捉えることができる。 実験結果は、我々の単一のFlexDMが、タスク固有のコストのかかるベースラインと競合するパフォーマンスを達成しながら、さまざまな設計タスクをうまく解決できることを裏付けます。

Creative workflows for generating graphical documents involve complex inter-related tasks, such as aligning elements, choosing appropriate fonts, or employing aesthetically harmonious colors. In this work, we attempt at building a holistic model that can jointly solve many different design tasks. Our model, which we denote by FlexDM, treats vector graphic documents as a set of multi-modal elements, and learns to predict masked fields such as element type, position, styling attributes, image, or text, using a unified architecture. Through the use of explicit multi-task learning and in-domain pre-training, our model can better capture the multi-modal relationships among the different document fields. Experimental results corroborate that our single FlexDM is able to successfully solve a multitude of different design tasks, while achieving performance that is competitive with task-specific and costly baselines.
翻訳日:2023-04-03 13:01:19 公開日:2023-03-31
# 物体再同定のための適応的スパース損失

Adaptive Sparse Pairwise Loss for Object Re-Identification ( http://arxiv.org/abs/2303.18247v1 )

ライセンス: Link先を確認
Xiao Zhou, Yujie Zhong, Zhen Cheng, Fan Liang, Lin Ma(参考訳) object re-identification(reid)は、大きなギャラリーから与えられたプローブと同じアイデンティティを持つインスタンスを見つけることを目的としている。 適切な損失は、強力なReIDネットワークのトレーニングにおいて重要な役割を果たす。 既存のペアワイズ損失は各インスタンスをアンカーとして利用し、そのトリプルをミニバッチでサンプリングする。 この密集したサンプリング機構は必然的に、視覚的な類似性がほとんどなく、トレーニングに有害な正のペアを導入する。 この問題に対処するために,ミニバッチにおいて各クラスに対して適切なペアがほとんどない,スパースペアワイズ(SP)損失という新しい損失パラダイムを提案し,ReIDタスクに十分であることを示す。 提案する損失枠組みに基づき,多様なクラス内変動に動的に適応可能な適応型ポジティブマイニング戦略を提案する。 大規模な実験により、SP損失とその適応型AdaSP損失は、他のペアワイド損失よりも優れており、いくつかのReIDベンチマークで最先端のパフォーマンスが達成されている。 コードはhttps://github.com/Astaxanthin/AdaSPで入手できる。

Object re-identification (ReID) aims to find instances with the same identity as the given probe from a large gallery. Pairwise losses play an important role in training a strong ReID network. Existing pairwise losses densely exploit each instance as an anchor and sample its triplets in a mini-batch. This dense sampling mechanism inevitably introduces positive pairs that share few visual similarities, which can be harmful to the training. To address this problem, we propose a novel loss paradigm termed Sparse Pairwise (SP) loss that only leverages few appropriate pairs for each class in a mini-batch, and empirically demonstrate that it is sufficient for the ReID tasks. Based on the proposed loss framework, we propose an adaptive positive mining strategy that can dynamically adapt to diverse intra-class variations. Extensive experiments show that SP loss and its adaptive variant AdaSP loss outperform other pairwise losses, and achieve state-of-the-art performance across several ReID benchmarks. Code is available at https://github.com/Astaxanthin/AdaSP.
翻訳日:2023-04-03 13:01:02 公開日:2023-03-31
# 直感的物理による3次元ポーズ推定

3D Human Pose Estimation via Intuitive Physics ( http://arxiv.org/abs/2303.18246v1 )

ライセンス: Link先を確認
Shashank Tripathi, Lea M\"uller, Chun-Hao P. Huang, Omid Taheri, Michael J. Black, Dimitrios Tzionas(参考訳) 画像から3D人間を推定すると、しばしば床に傾いたり、浮いたり、突っ込んだりする不明瞭な体が生まれる。 このような方法は、通常、身体がシーンによって支えられているという事実を無視する。 物理エンジンは物理的実用性を強制するために使用できるが、それらは微分可能ではなく、非現実的なプロキシボディに依存しており、既存の最適化や学習フレームワークへの統合が困難である。 対照的に,我々はシーンと相互作用する3d smpl 体から推測できる新しい直観的物理学(ip)用語を利用する。 生体力学に触発されて、体上の圧力ヒートマップ、熱マップから圧力センター(CoP)、SMPLボディの質量センター(CoM)を推定する。 そこで我々は, カラー画像から3次元体を「安定」な構成で推定するIPMANを開発し, プラウシブルフロアコンタクトの促進とCoPとCoMの重なり合いを図った。 我々のIP用語は直感的で、実装が容易で、高速に計算でき、微分可能で、既存の最適化と回帰手法に統合できます。 我々は、標準データセット上のIPMANと、同期したマルチビュー画像、複雑なポーズ、ボディーフロア接触、CoM、プレッシャーを持つ地上3Dボディを備えた新しいデータセットであるMoYoを評価した。 ipmanは、静的なポーズの精度を改善しながら、ダイナミックなポーズを傷つけることなく、最先端の技術よりも、より説得力のある結果を生み出す。 コードとデータはhttps://ipman.is.tue.mpg.deで研究することができる。

Estimating 3D humans from images often produces implausible bodies that lean, float, or penetrate the floor. Such methods ignore the fact that bodies are typically supported by the scene. A physics engine can be used to enforce physical plausibility, but these are not differentiable, rely on unrealistic proxy bodies, and are difficult to integrate into existing optimization and learning frameworks. In contrast, we exploit novel intuitive-physics (IP) terms that can be inferred from a 3D SMPL body interacting with the scene. Inspired by biomechanics, we infer the pressure heatmap on the body, the Center of Pressure (CoP) from the heatmap, and the SMPL body's Center of Mass (CoM). With these, we develop IPMAN, to estimate a 3D body from a color image in a "stable" configuration by encouraging plausible floor contact and overlapping CoP and CoM. Our IP terms are intuitive, easy to implement, fast to compute, differentiable, and can be integrated into existing optimization and regression methods. We evaluate IPMAN on standard datasets and MoYo, a new dataset with synchronized multi-view images, ground-truth 3D bodies with complex poses, body-floor contact, CoM and pressure. IPMAN produces more plausible results than the state of the art, improving accuracy for static poses, while not hurting dynamic ones. Code and data are available for research at https://ipman.is.tue.mpg.de.
翻訳日:2023-04-03 13:00:44 公開日:2023-03-31
# $\infty$-Diff: Infinite Resolution Diffusion with Subsampled Mollified States

$\infty$-Diff: Infinite Resolution Diffusion with Subsampled Mollified States ( http://arxiv.org/abs/2303.18242v1 )

ライセンス: Link先を確認
Sam Bond-Taylor, Chris G. Willcocks(参考訳) 我々は,無限分解能データを直接操作する生成拡散モデルである$\infty$-diffを導入する。 トレーニング中の座標のサブセットをランダムにサンプリングし、それらの座標の内容を認知することで、任意の解像度でサンプリングできる連続関数が学習される。 最近の無限分解能生成モデルとは対照的に、我々のアプローチは生データに直接依存し、コンテキストの潜在ベクトル圧縮を必要とせず、ハイパーネットワークを使用し、離散的なコンポーネントに依存しない。 その結果,本手法は,FIDスコアが低いほど試料品質が著しく向上し,精度を保ちながら,トレーニングデータよりも高分解能まで効果的にスケールできることがわかった。

We introduce $\infty$-Diff, a generative diffusion model which directly operates on infinite resolution data. By randomly sampling subsets of coordinates during training and learning to denoise the content at those coordinates, a continuous function is learned that allows sampling at arbitrary resolutions. In contrast to other recent infinite resolution generative models, our approach operates directly on the raw data, not requiring latent vector compression for context, using hypernetworks, nor relying on discrete components. As such, our approach achieves significantly higher sample quality, as evidenced by lower FID scores, as well as being able to effectively scale to higher resolutions than the training data while retaining detail.
翻訳日:2023-04-03 13:00:19 公開日:2023-03-31
# 身体的な知性のための人工視覚野を 探している場所は?

Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence? ( http://arxiv.org/abs/2303.18240v1 )

ライセンス: Link先を確認
Arjun Majumdar and Karmesh Yadav and Sergio Arnaud and Yecheng Jason Ma and Claire Chen and Sneha Silwal and Aryan Jain and Vincent-Pierre Berges and Pieter Abbeel and Jitendra Malik and Dhruv Batra and Yixin Lin and Oleksandr Maksymets and Aravind Rajeswaran and Franziska Meier(参考訳) Embodied AIのための、事前訓練された視覚表現(PVR)や視覚的「基礎モデル」に関する、最大かつ最も包括的な実証研究を示す。 まずcortexbenchをキュレートし、locomotion、navigation、dexterous、mobile manipulationの17のタスクからなる。 次に、既存のpvrを体系的に評価し、誰も普遍的に支配していないことを発見する。 データスケールと多様性の事前学習の影響を調べるために,7つの異なるソース(5.6m以上の画像)のエゴセントリックビデオ4000時間以上とimagenetを組み合わせることで,マスキングオートエンコーディング(mae)を用いて異なるサイズの視覚トランスフォーマーをトレーニングする。 以前の作業からの推測とは対照的に、データセットのサイズと多様性のスケーリングは、パフォーマンスを普遍的に改善しない(平均ではそうする)。 当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。 最後に、vc-1のタスクやドメイン固有の適応は実質的な利益をもたらし、vc-1(適応)はcortexbenchのベンチマークで最もよく知られた結果よりも競争力や優れたパフォーマンスを達成している。 これらのモデルはトレーニングに1万時間以上のGPU時間が必要で、研究コミュニティの利益のために、私たちのWebサイトで見つけることができます。

We present the largest and most comprehensive empirical study of pre-trained visual representations (PVRs) or visual 'foundation models' for Embodied AI. First, we curate CortexBench, consisting of 17 different tasks spanning locomotion, navigation, dexterous, and mobile manipulation. Next, we systematically evaluate existing PVRs and find that none are universally dominant. To study the effect of pre-training data scale and diversity, we combine over 4,000 hours of egocentric videos from 7 different sources (over 5.6M images) and ImageNet to train different-sized vision transformers using Masked Auto-Encoding (MAE) on slices of this data. Contrary to inferences from prior work, we find that scaling dataset size and diversity does not improve performance universally (but does so on average). Our largest model, named VC-1, outperforms all prior PVRs on average but does not universally dominate either. Finally, we show that task or domain-specific adaptation of VC-1 leads to substantial gains, with VC-1 (adapted) achieving competitive or superior performance than the best known results on all of the benchmarks in CortexBench. These models required over 10,000 GPU-hours to train and can be found on our website for the benefit of the research community.
翻訳日:2023-04-03 13:00:06 公開日:2023-03-31
# 非対称行列の固有ベクトルの推論

Inference on eigenvectors of non-symmetric matrices ( http://arxiv.org/abs/2303.18233v1 )

ライセンス: Link先を確認
Jerome R. Simons(参考訳) 本稿では、固有ベクトルの漸近推論手順を確立するためには、タイラー(1981)の対称性条件は必要ないと論じる。 フルベクターおよび個別係数仮説に対するウォルドとt-テストの分布理論をそれぞれ確立する。 テスト統計は非対称行列の固有射影に由来する。 基底行列からスペクトルデータへの写像として射影を表現することで、解析摂動理論を通じて微分を見つける。 これらの結果は、太陽(1991)の分析摂動理論が多変量統計学において有用なツールであり、独立した興味を持つことを示す。 応用として、有向グラフによって誘導される隣接行列から推定されるボナシック中心性に対する信頼集合を定義する。

This paper argues that the symmetrisability condition in Tyler(1981) is not necessary to establish asymptotic inference procedures for eigenvectors. We establish distribution theory for a Wald and t-test for full-vector and individual coefficient hypotheses, respectively. Our test statistics originate from eigenprojections of non-symmetric matrices. Representing projections as a mapping from the underlying matrix to its spectral data, we find derivatives through analytic perturbation theory. These results demonstrate how the analytic perturbation theory of Sun(1991) is a useful tool in multivariate statistics and are of independent interest. As an application, we define confidence sets for Bonacich centralities estimated from adjacency matrices induced by directed graphs.
翻訳日:2023-04-03 12:59:17 公開日:2023-03-31
# DIME-FM: マルチモーダルおよび効率的な基礎モデルの蒸留

DIME-FM: DIstilling Multimodal and Efficient Foundation Models ( http://arxiv.org/abs/2303.18232v1 )

ライセンス: Link先を確認
Ximeng Sun, Pengchuan Zhang, Peizhao Zhang, Hardik Shah, Kate Saenko, Xide Xia(参考訳) clip,aligned,florenceといった大規模な視覚言語基盤モデル(vlfm)は,イメージキャプチャペアの大規模データセットでトレーニングされ,ダウンストリームタスクの転送性と堅牢性が向上するが,大規模で高レイテンシ,アーキテクチャが固定されているため,実用的なアプリケーションでは使用が困難である。 残念なことに、リソース制限されたアプリケーションのための小さなカスタムVLFMのトレーニングは、現在、パブリックデータと小規模データを使用して非常に難しい。 本稿では,大容量VLFMに含まれる知識を,比較的少量の安価な未使用画像と文を用いて,より小型でカスタマイズされた基礎モデルに転送できる新しい蒸留機構(DIME-FM)を提案する。 プリトレーニングされたclip-vitl/14モデルからvit-b/32モデルに知識を転送した。 結果として得られたモデル "Distill-ViT-B/32" は、プライベートWiTデータセット(400Mイメージテキストペア)で事前トレーニングされたCLIP-ViT-B/32モデルと競合する。 また、ImageNetから自然な分散シフトを持つ5つのデータセットで評価した場合、同等の堅牢性を示す。

Large Vision-Language Foundation Models (VLFM), such as CLIP, ALIGN and Florence, are trained on large-scale datasets of image-caption pairs and achieve superior transferability and robustness on downstream tasks, but they are difficult to use in many practical applications due to their large size, high latency and fixed architectures. Unfortunately, recent work shows training a small custom VLFM for resource-limited applications is currently very difficult using public and smaller-scale data. In this paper, we introduce a new distillation mechanism (DIME-FM) that allows us to transfer the knowledge contained in large VLFMs to smaller, customized foundation models using a relatively small amount of inexpensive, unpaired images and sentences. We transfer the knowledge from the pre-trained CLIP-ViTL/14 model to a ViT-B/32 model, with only 40M public images and 28.4M unpaired public sentences. The resulting model "Distill-ViT-B/32" rivals the CLIP-ViT-B/32 model pre-trained on its private WiT dataset (400M image-text pairs): Distill-ViT-B/32 achieves similar results in terms of zero-shot and linear-probing performance on both ImageNet and the ELEVATER (20 image classification tasks) benchmarks. It also displays comparable robustness when evaluated on five datasets with natural distribution shifts from ImageNet.
翻訳日:2023-04-03 12:59:07 公開日:2023-03-31
# インストラクショナルビデオ理解のためのプロシージャ・アウェア事前学習

Procedure-Aware Pretraining for Instructional Video Understanding ( http://arxiv.org/abs/2303.18230v1 )

ライセンス: Link先を確認
Honglu Zhou, Roberto Mart\'in-Mart\'in, Mubbasir Kapadia, Silvio Savarese, Juan Carlos Niebles(参考訳) 我々のゴールは、教育ビデオの下流手順理解タスクに有用な映像表現を学習することである。 利用可能なアノテーションの量が少なかったため、手続き理解の重要な課題は、タスクの同一性(例:「make latte」)、そのステップ(例:「pour milk」)、実行時に部分的に進歩する可能性のある次のステップなどの手続き的知識をラベル付けされていないビデオから抽出できることである。 私たちの主な洞察は、インストラクショナルビデオが同一または異なるタスクのインスタンス間を繰り返すステップのシーケンスを描写し、この構造を手続き的知識グラフ(pkg)で表現し、ノードが離散的なステップであり、エッジがインストラクショナルアクティビティで順次発生するステップを接続できるということです。 このグラフは擬似ラベルを生成して、手続きの知識をよりアクセスしやすい形でエンコードしたビデオ表現をトレーニングすることで、複数の手続き理解タスクに一般化することができる。 テキストベースの手続き知識データベースとラベルなしの教示ビデオコーパスの情報を組み合わせてpkgを構築し,それを用いて4つの新しい事前学習目的を持つ訓練擬似ラベルを生成する。 我々はこのPKGベースの事前学習手順と、結果のモデルであるPaprika, procedure-Aware PRE-training for Instructional Knowledge Acquisitionと呼ぶ。 タスク認識,ステップ認識,ステップ予測などの手順理解タスクに対して,COINとCrossTask上のPaprikaを評価する。 パプリカは、12の評価設定で最大11.23%の精度で、芸術の状態を改善したビデオ表現を提供する。 実装はhttps://github.com/salesforce/paprikaで利用可能である。

Our goal is to learn a video representation that is useful for downstream procedure understanding tasks in instructional videos. Due to the small amount of available annotations, a key challenge in procedure understanding is to be able to extract from unlabeled videos the procedural knowledge such as the identity of the task (e.g., 'make latte'), its steps (e.g., 'pour milk'), or the potential next steps given partial progress in its execution. Our main insight is that instructional videos depict sequences of steps that repeat between instances of the same or different tasks, and that this structure can be well represented by a Procedural Knowledge Graph (PKG), where nodes are discrete steps and edges connect steps that occur sequentially in the instructional activities. This graph can then be used to generate pseudo labels to train a video representation that encodes the procedural knowledge in a more accessible form to generalize to multiple procedure understanding tasks. We build a PKG by combining information from a text-based procedural knowledge database and an unlabeled instructional video corpus and then use it to generate training pseudo labels with four novel pre-training objectives. We call this PKG-based pre-training procedure and the resulting model Paprika, Procedure-Aware PRe-training for Instructional Knowledge Acquisition. We evaluate Paprika on COIN and CrossTask for procedure understanding tasks such as task recognition, step recognition, and step forecasting. Paprika yields a video representation that improves over the state of the art: up to 11.23% gains in accuracy in 12 evaluation settings. Implementation is available at https://github.com/salesforce/paprika.
翻訳日:2023-04-03 12:58:37 公開日:2023-03-31
# 量子熱状態の調製

Quantum Thermal State Preparation ( http://arxiv.org/abs/2303.18224v1 )

ライセンス: Link先を確認
Chi-Fang (Anthony) Chen, Michael J. Kastoryano, Fernando G.S.L. Brand\~ao, and Andr\'as Gily\'en(参考訳) 基底状態と熱状態の準備は、量子コンピュータ上の量子システムをシミュレートする上で重要である。 量子シミュレーションにおける実用的な量子優位性の期待にもかかわらず、変分回路や断熱アルゴリズムのような一般的なアプローチは深刻な困難に直面しているように見える。 モンテカルロ型量子ギブスサンプリング器が代替として登場したが、エネルギー時間不確実性に関連する技術的障害のため、以前の提案は不満足であった。 演算子フーリエ変換を用いて、自然に着想を得た量子マスター方程式 (Liouvillians) を効率的にシミュレートすることにより、これらの障害を克服する単純な連続時間量子ギブズサンプリングを導入する。 さらに, 高速熱処理システムの特定の純化ギブズ状態(高エネルギー物理学では熱場二重状態と呼ばれる)を調製するための, 確確かつ効率的な最初のアルゴリズムを構築し, 混合時間に関して, セゲディ型二次改良の恩恵を受ける。 我々のアルゴリズムのコストは、関係するユビリアンの温度、精度、混合時間(またはスペクトルギャップ)に好意的に依存する。 非漸近的世俗近似と近似的詳細なバランスを通じてエネルギーの不確実性を扱う一般的な解析フレームワークを開発し、近似保証を確立し、物理的に導かれるリウビリアンに対する有限時間熱化の最初の厳密な証明を与える副産物として熱化理論に寄与する。 古典的メトロポリスアルゴリズムの成功と熱力学のユビキティを考えると、量子ギブスサンプリングは量子コンピューティングにおいて欠かせないツールになると予想される。

Preparing ground states and thermal states is of key importance to simulating quantum systems on a quantum computer. Despite the hope for practical quantum advantage in quantum simulation, popular approaches like variational circuits or adiabatic algorithms appear to face serious difficulties. Monte-Carlo style quantum Gibbs samplers have emerged as an alternative, but prior proposals have been unsatisfactory due to technical obstacles related to energy-time uncertainty. We introduce simple continuous-time quantum Gibbs samplers that overcome these obstacles by efficiently simulating Nature-inspired quantum Master Equations (Liouvillians) utilizing the operator Fourier transform. In addition, we construct the first provably accurate and efficient algorithm for preparing certain purified Gibbs states (called thermal field double states in high-energy physics) of rapidly thermalizing systems; this algorithm also benefits from a Szegedy-type quadratic improvement with respect to the mixing time. Our algorithms' cost has a favorable dependence on temperature, accuracy, and the mixing time (or spectral gap) of the relevant Liouvillians. We contribute to the theory of thermalization by developing a general analytic framework that handles energy uncertainty through non-asymptotic secular approximation and approximate detailed balance, establishing our approximation guarantees and, as a byproduct yielding the first rigorous proof of finite-time thermalization for physically derived Liouvillians. Given the success of the classical Metropolis algorithm and the ubiquity of thermodynamics, we anticipate that quantum Gibbs sampling will become an indispensable tool in quantum computing.
翻訳日:2023-04-03 12:58:07 公開日:2023-03-31
# トランスモンカプラによるKerr-cat量子ビット間のZZ$結合の制御

Control of the $ZZ$ coupling between Kerr-cat qubits via transmon couplers ( http://arxiv.org/abs/2303.16622v2 )

ライセンス: Link先を確認
Takaaki Aoki, Taro Kanao, Hayato Goto, Shiro Kawabata, and Shumpei Masuda(参考訳) kerr-cat 量子ビットは誤りの偏りがあるため、フォールトトレラント量子コンピュータの有望な候補である。 キュービット間の$zz$結合は、2キュービットのエンタングゲートで使用できるが、残差結合は不要な常時オンゲートとクロストークを引き起こす。 この問題を解決するために、2つのトランスモンカプラを用いた$ZZ$-couplingスキームを提案する。 2つのカプラーのデチューニングを反対の値に設定することで、2つのカプラーによる残りの$zz$カップリングが互いにキャンセルされる。 また、我々のスキームを2量子エンタングルゲートの1つである$R_{zz}(\Theta)$ gate(ZZ$ rotation with angle $\Theta$)に適用する。 r_{zz}(-\pi/2)$ゲートの忠実度は、16nsのゲート時間の場合で99.9%以上であり、デコヒーレンスがないことを数値的に示す。

Kerr-cat qubits are a promising candidate for fault-tolerant quantum computers owing to the biased nature of errors. The $ZZ$ coupling between the qubits can be utilized for a two-qubit entangling gate, but the residual coupling causes unnecessary always-on gates and crosstalk. In order to resolve this problem, we propose a tunable $ZZ$-coupling scheme using two transmon couplers. By setting the detunings of the two couplers at opposite values, the residual $ZZ$ couplings via the two couplers cancel each other out. We also apply our scheme to the $R_{zz}(\Theta)$ gate ($ZZ$ rotation with angle $\Theta$), one of the two-qubit entangling gates. We numerically show that the fidelity of the $R_{zz}(-\pi/2)$ gate is higher than 99.9% in a case of 16 ns gate time and without decoherence.
翻訳日:2023-04-03 10:40:12 公開日:2023-03-31
# 開放スピンペア系における準平衡と量子相関

Quasi-equilibrium and quantum correlation in an open spin-pair system ( http://arxiv.org/abs/2303.16451v2 )

ライセンス: Link先を確認
J.A. Taboada, H.H. Segnorile, C.E. Gonz\'alez, and R.C. Zamar(参考訳) 核磁気共鳴(NMR)技術により固体中で調製できる準平衡状態は、格子と熱力学的平衡に向かって緩やかに緩和される平衡状態である。 この研究では、量子ディスコードダイナミクスを、この種の状態における量子相関の証人として用いる。 実験系は, nmrジェナー・ブロエカートパルス配列を用いて初期状態が作製された双極子相互作用スピン対であり, 高温・高外部磁場における平衡から開始される。 次に、2つの異なる動的シナリオの中で開量子系として進化し、ペアの共通フォノン場へのカップリングによって駆動される断熱デコヒーレンスと、マルコフのマスター方程式で表されるスピン格子緩和と熱ゆらぎによって駆動されるスピン格子緩和である。 このようにして、研究モデルには現実的な固体試料の力学が与えられた。 量子不協和は初期状態の準備中に急速に増加し、室温の熱平衡と比較して数桁のエスカレートする。 デコヒーレンス中にコヒーレンスが消失したにもかかわらず、量子ディスコードはこの高い値の周りに振動し、小さな減衰を受け、初期状態と同じ等級を持つ。 最後に、量子分散はスピン格子緩和に匹敵するよりも短い時間スケールで散逸する。

Quasi-equilibrium states that can be prepared in solids through Nuclear Magnetic Resonance (NMR) techniques are out-of-equilibrium states that slowly relax towards thermodynamic equilibrium with the lattice. In this work, we use the quantum discord dynamics as a witness of the quantum correlation in this kind of state. The studied system is a dipole interacting spin pair whose initial state is prepared with the NMR Jeener-Broekaert pulse sequence, starting from equilibrium at high temperature and high external magnetic field. It then evolves as an open quantum system within two different dynamic scenarios: adiabatic decoherence driven by the coupling of the pairs to a common phonon field, described within a non-markovian approach; and spin-lattice relaxation represented by a markovian master equation, and driven by thermal fluctuations. In this way, the studied model is endowed with the dynamics of a realistic solid sample. The quantum discord rapidly increases during the preparation of the initial state, escalating several orders of magnitude compared with thermal equilibrium at room temperature. Despite the vanishing of coherences during decoherence, the quantum discord oscillates around this high value and undergoes a minor attenuation, holding the same order of magnitude as the initial state. Finally, the quantum discord dissipates within a time scale shorter than but comparable to spin-lattice relaxation.
翻訳日:2023-04-03 10:39:54 公開日:2023-03-31
# 再現性は正確さなしでは何もない - NLPにおけるテストコードの重要性

Reproducibility is Nothing without Correctness: The Importance of Testing Code in NLP ( http://arxiv.org/abs/2303.16166v3 )

ライセンス: Link先を確認
Sara Papi, Marco Gaido, Andrea Pilzer, Matteo Negri(参考訳) 実験において重要な役割を担っているにもかかわらず、コードの正確性は結果の認識された品質に基づいてのみ推測されることが多い。 これは誤った結果と潜在的に誤解を招く結果のリスクを伴う。 この問題に対処するため、私たちは、結果の再現性に現在焦点を合わせ、ベストプラクティスのコーディングに重点を置くべきであると仮定します。 我々は,最先端のコンフォーメータアーキテクチャのオープンソース実装で広く使用されている3つのバグを識別(かつ正しい)するケーススタディを提供することで,nlpコミュニティへの呼びかけを強化した。 各種言語における自動音声認識と翻訳の比較実験を通じて,バグの存在は善良かつ再現可能な結果の達成を妨げず,将来研究を誤った結果に導く可能性があることを実証する。 これに対応するため,本研究は,開発ソフトウェアの品質向上と正確性向上を目的としたコーディングベストプラクティスの採用に向けた取り組みである。

Despite its pivotal role in research experiments, code correctness is often presumed only on the basis of the perceived quality of the results. This comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on result reproducibility should go hand in hand with the emphasis on coding best practices. We bolster our call to the NLP community by presenting a case study, in which we identify (and correct) three bugs in widely used open-source implementations of the state-of-the-art Conformer architecture. Through comparative experiments on automatic speech recognition and translation in various language settings, we demonstrate that the existence of bugs does not prevent the achievement of good and reproducible results and can lead to incorrect conclusions that potentially misguide future research. In response to this, this study is a call to action toward the adoption of coding best practices aimed at fostering correctness and improving the quality of the developed software.
翻訳日:2023-04-03 10:39:29 公開日:2023-03-31
# 半教師付き回帰深層学習モデルを用いた古絵画の平織りにおけるスレッドカウント

Thread Counting in Plain Weave for Old Paintings Using Semi-Supervised Regression Deep Learning Models ( http://arxiv.org/abs/2303.15999v3 )

ライセンス: Link先を確認
A. D. Bejarano, Juan J. Murillo-Fuentes, and Laura Alba-Carcelen(参考訳) 本研究では, 深層学習に基づく回帰手法を開発し, 平織りキャンバス解析のためのスレッド密度推定を行う。 以前のアプローチは、いくつかのシナリオでは非常に堅牢なFourier分析に基づくものだったが、他のいくつかのシナリオでは失敗している。例えば、手前の絵を事前にラベル付けする機械学習ツールや、事前にラベル付けする必要のないすべてのシナリオで優れた見積もりを提供するスレッド交差ポイントのセグメンテーションなどだ。 交差点を同定した後、密度の推定を行うため、セグメンテーションアプローチは時間を要する。 本稿では、回帰ディープラーニングモデルを用いて、画像から直接スレッドの密度を計算することにより、このステップを回避する。 また、入力画像の初期前処理にいくつかの改善を加え、最終的なエラーに影響を及ぼす。 いくつかのモデルが提案され、最良のモデルを維持するために分析されます。 さらに,半教師付きアプローチを導入することで,密度推定誤差をさらに低減する。 提案アルゴリズムの性能は,Ribera,Vel\azquez,Poussinの3つの手法を用いて解析し,従来の手法と比較した。 最後に、この手法は、プラド美術館の著者や傑作の変更を支援するために実践されている。

In this work, the authors develop regression approaches based on deep learning to perform thread density estimation for plain weave canvas analysis. Previous approaches were based on Fourier analysis, which is quite robust for some scenarios but fails in some others, in machine learning tools, that involve pre-labeling of the painting at hand, or the segmentation of thread crossing points, that provides good estimations in all scenarios with no need of pre-labeling. The segmentation approach is time-consuming as the estimation of the densities is performed after locating the crossing points. In this novel proposal, we avoid this step by computing the density of threads directly from the image with a regression deep learning model. We also incorporate some improvements in the initial preprocessing of the input image with an impact on the final error. Several models are proposed and analyzed to retain the best one. Furthermore, we further reduce the density estimation error by introducing a semi-supervised approach. The performance of our novel algorithm is analyzed with works by Ribera, Vel\'azquez, and Poussin where we compare our results to the ones of previous approaches. Finally, the method is put into practice to support the change of authorship or a masterpiece at the Museo del Prado.
翻訳日:2023-04-03 10:39:13 公開日:2023-03-31
# 連続学習における補助ネットワークによる安定性・塑性トレードオフの達成

Achieving a Better Stability-Plasticity Trade-off via Auxiliary Networks in Continual Learning ( http://arxiv.org/abs/2303.09483v3 )

ライセンス: Link先を確認
Sanghwan Kim, Lorenzo Noci, Antonio Orvieto and Thomas Hofmann(参考訳) 新しいタスクをシーケンシャルに学習する人間の自然な能力とは対照的に、ニューラルネットワークは壊滅的な忘れに苦しむことが知られており、古いタスクにおけるモデルのパフォーマンスは、新しいタスクに最適化された後に劇的に低下する。 それ以来、継続学習(CL)コミュニティは、ニューラルネットワークに現在のタスク(塑性)を学習する能力を持たせつつ、以前のタスク(安定性)を高い精度で達成することを目的とした、いくつかのソリューションを提案してきた。 顕著な改善にもかかわらず、可塑性-安定性のトレードオフはまだ解決には程遠い。 本研究では,主に安定性を重視した連続学習モデルに可塑性を促進させる補助的ネットワークを新たに導入する,補助的ネットワーク継続学習(ANCL)を提案する。 より具体的には、提案したフレームワークは、可塑性と安定性を自然に補間し、タスクインクリメンタルとクラスインクリメンタルシナリオの強いベースラインを超えたレギュレータとして実現されている。 ancl溶液の広範な分析を通じて,安定性・可塑性トレードオフ下での重要な原理を明らかにした。

In contrast to the natural capabilities of humans to learn new tasks in a sequential fashion, neural networks are known to suffer from catastrophic forgetting, where the model's performances on old tasks drop dramatically after being optimized for a new task. Since then, the continual learning (CL) community has proposed several solutions aiming to equip the neural network with the ability to learn the current task (plasticity) while still achieving high accuracy on the previous tasks (stability). Despite remarkable improvements, the plasticity-stability trade-off is still far from being solved and its underlying mechanism is poorly understood. In this work, we propose Auxiliary Network Continual Learning (ANCL), a novel method that applies an additional auxiliary network which promotes plasticity to the continually learned model which mainly focuses on stability. More concretely, the proposed framework materializes in a regularizer that naturally interpolates between plasticity and stability, surpassing strong baselines on task incremental and class incremental scenarios. Through extensive analyses on ANCL solutions, we identify some essential principles beneath the stability-plasticity trade-off.
翻訳日:2023-04-03 10:38:31 公開日:2023-03-31
# Frank-Wolfe 最適化による効率的なオンライン学習:動的レギュレット境界付きアルゴリズムと制御への応用

Efficient Online Learning with Memory via Frank-Wolfe Optimization: Algorithms with Bounded Dynamic Regret and Applications to Control ( http://arxiv.org/abs/2301.00497v3 )

ライセンス: Link先を確認
Hongyu Zhou, Zirui Xu, Vasileios Tzoumas(参考訳) 投影操作はオンライン学習における典型的な計算ボトルネックである。 本稿では,OCO-M(Online Convex Optimization with Memory)のフレームワーク内でのプロジェクションフリーなオンライン学習を可能にする。OCO-Mは,オンライン学習損失関数が現在および過去の意思決定に依存することを許すことで,意思決定履歴が現在の結果にどのように影響するかをキャプチャする。 特に,動的後悔を最小化するメモリを持つ最初のプロジェクションフリーメタベース学習アルゴリズムを導入する。 私たちは、自律エージェントがリアルタイムに時間変動環境に適応する必要がある人工知能アプリケーションによって動機付けられています。 そのような応用例としては、動的システムのオンライン制御、統計仲裁、時系列予測などがある。 このアルゴリズムは、Online Frank-Wolfe(OFW)とHedgeアルゴリズムに基づいている。 本稿では,予測不能なプロセスノイズの存在下で,線形時間変化システムのオンライン制御にアルゴリズムを適用する方法を示す。 そこで我々は,任意の時間変動線形フィードバック制御ポリシーに対して,メモリと有界な動的後悔を伴うコントローラを開発した。 線形時間不変システムのオンライン制御をシミュレートしたシナリオでアルゴリズムを検証する。

Projection operations are a typical computation bottleneck in online learning. In this paper, we enable projection-free online learning within the framework of Online Convex Optimization with Memory (OCO-M) -- OCO-M captures how the history of decisions affects the current outcome by allowing the online learning loss functions to depend on both current and past decisions. Particularly, we introduce the first projection-free meta-base learning algorithm with memory that minimizes dynamic regret, i.e., that minimizes the suboptimality against any sequence of time-varying decisions. We are motivated by artificial intelligence applications where autonomous agents need to adapt to time-varying environments in real-time, accounting for how past decisions affect the present. Examples of such applications are: online control of dynamical systems; statistical arbitrage; and time series prediction. The algorithm builds on the Online Frank-Wolfe (OFW) and Hedge algorithms. We demonstrate how our algorithm can be applied to the online control of linear time-varying systems in the presence of unpredictable process noise. To this end, we develop a controller with memory and bounded dynamic regret against any optimal time-varying linear feedback control policy. We validate our algorithm in simulated scenarios of online control of linear time-invariant systems.
翻訳日:2023-04-03 10:38:09 公開日:2023-03-31
# タスク演算によるモデル編集

Editing Models with Task Arithmetic ( http://arxiv.org/abs/2212.04089v3 )

ライセンス: Link先を確認
Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Suchin Gururangan, Ludwig Schmidt, Hannaneh Hajishirzi, Ali Farhadi(参考訳) トレーニング済みモデル – ダウンストリームタスクのパフォーマンス向上や事前トレーニング中に学んだバイアス緩和など – の振る舞いを変えることは、マシンラーニングシステムの開発において一般的なプラクティスだ。 本研究では,ニューラルネットワークの動作を制御するための新しいパラダイムを提案する。 タスクベクトルは、事前訓練されたモデルの重量空間における方向を指定し、その方向の動きがタスクの性能を向上させる。 タスクを微調整した後、事前学習したモデルの重みを同じモデルの重みから減算してタスクベクトルを構築する。 これらのタスクベクトルをネゲーションや加算などの算術演算によって修正・結合することができ、結果として得られるモデルの振る舞いがそれに応じて制御されることを示す。 タスクベクトルのネゴシエーションは、制御タスクにおけるモデル動作の変化が少なく、ターゲットタスクのパフォーマンスを低下させる。 さらに、タスクベクトルを同時に追加することで、複数のタスクのパフォーマンスが向上する。 最後に、タスクが ``A is to B is to C is to D" 形式の類似関係でリンクされると、3つのタスクのタスクベクトルを組み合わせることで、トレーニングに第4タスクのデータを使用しなくても、第4タスクのパフォーマンスを改善することができる。 全体として、いくつかのモデル、モダリティ、タスクを用いた実験は、タスク演算がモデル編集の単純で効率的かつ効果的な方法であることを示している。

Changing how pre-trained models behave -- e.g., improving their performance on a downstream task or mitigating biases learned during pre-training -- is a common practice when developing machine learning systems. In this work, we propose a new paradigm for steering the behavior of neural networks, centered around \textit{task vectors}. A task vector specifies a direction in the weight space of a pre-trained model, such that movement in that direction improves performance on the task. We build task vectors by subtracting the weights of a pre-trained model from the weights of the same model after fine-tuning on a task. We show that these task vectors can be modified and combined together through arithmetic operations such as negation and addition, and the behavior of the resulting model is steered accordingly. Negating a task vector decreases performance on the target task, with little change in model behavior on control tasks. Moreover, adding task vectors together can improve performance on multiple tasks at once. Finally, when tasks are linked by an analogy relationship of the form ``A is to B as C is to D", combining task vectors from three of the tasks can improve performance on the fourth, even when no data from the fourth task is used for training. Overall, our experiments with several models, modalities and tasks show that task arithmetic is a simple, efficient and effective way of editing models.
翻訳日:2023-04-03 10:37:49 公開日:2023-03-31
# Calibrated Interpretation:Semantic Parsingにおける信頼度推定

Calibrated Interpretation: Confidence Estimation in Semantic Parsing ( http://arxiv.org/abs/2211.07443v5 )

ライセンス: Link先を確認
Elias Stengel-Eskin and Benjamin Van Durme(参考訳) シーケンス生成モデルは、言語を実行可能なプログラムに変換するために、すなわち実行可能なセマンティック解析を実行するために、ますます使われている。 セマンティック解析が現実の世界でアクションを実行することを目的としているという事実は、安全なシステムを開発する動機となっている。 一般的な4つのセマンティックパーシングデータセット間の共通生成モデルの校正について検討し、モデルやデータセットによって異なることを明らかにする。 次に、キャリブレーションエラーに関連する要因を分析し、2つの解析データセットの新しい信頼度に基づく課題分割をリリースする。 セマンティック解析評価にキャリブレーションを組み込むことを容易にするため,キャリブレーションメトリクスを計算するためのライブラリをリリースする。

Sequence generation models are increasingly being used to translate language into executable programs, i.e. to perform executable semantic parsing. The fact that semantic parsing aims to execute actions in the real world motivates developing safe systems, which in turn makes measuring calibration -- a central component to safety -- particularly important. We investigate the calibration of common generation models across four popular semantic parsing datasets, finding that it varies across models and datasets. We then analyze factors associated with calibration error and release new confidence-based challenge splits of two parsing datasets. To facilitate the inclusion of calibration in semantic parsing evaluations, we release a library for computing calibration metrics.
翻訳日:2023-04-03 10:37:25 公開日:2023-03-31
# インタラクション・レプリカ:人間と物体の相互作用とシーンの変化を追跡する

Interaction Replica: Tracking human-object interaction and scene changes from human motion ( http://arxiv.org/abs/2205.02830v3 )

ライセンス: Link先を確認
Vladimir Guzov, Julian Chibane, Riccardo Marin, Yannan He, Torsten Sattler, Gerard Pons-Moll(参考訳) 人間は、例えばドアを開いたり家具を動かしたりすることで、対話を通じて自然に環境を変える。 このような相互作用を仮想空間(メタバースなど)で再現するには、シーン形状の変化を含む、理想的には自我中心の入力(ヘッドカメラとボディウーンの慣性センサー)をキャプチャしてモデル化する必要がある。 ヘッドカメラはシーン内の人物をローカライズするのに使えるが、ダイナミックなオブジェクトのポーズを推定するのはずっと難しい。 被写体は、しばしばヘッドカメラから見えないため(例えば、座っている間椅子を見ていない人間)、視覚的な物体のポーズ推定に頼ることはできない。 その代わり、人間の動きがシーンの変化について多くのことを教えてくれます。 そこで本研究では,人間の動きのみに基づく物体やシーンの変化をトラッキングできる,最初の人間と物体の相互作用推論手法iReplicaを提案する。 iReplicaは没入型仮想空間における高度なAR/VRアプリケーションに向けた重要な第一歩であり、マシンが周囲と対話するための人間中心のトレーニングデータを提供する。 私たちのコード、データ、モデルはプロジェクトのページ http://virtual humans.mpi-inf.mpg.de/ireplica/で公開されます。

Humans naturally change their environment through interactions, e.g., by opening doors or moving furniture. To reproduce such interactions in virtual spaces (e.g., metaverse), we need to capture and model them, including changes in the scene geometry, ideally from egocentric input alone (head camera and body-worn inertial sensors). While the head camera can be used to localize the person in the scene, estimating dynamic object pose is much more challenging. As the object is often not visible from the head camera (e.g., a human not looking at a chair while sitting down), we can not rely on visual object pose estimation. Instead, our key observation is that human motion tells us a lot about scene changes. Motivated by this, we present iReplica, the first human-object interaction reasoning method which can track objects and scene changes based solely on human motion. iReplica is an essential first step towards advanced AR/VR applications in immersive virtual universes and can provide human-centric training data to teach machines to interact with their surroundings. Our code, data and model will be available on our project page at http://virtualhumans.mpi-inf.mpg.de/ireplica/
翻訳日:2023-04-03 10:37:13 公開日:2023-03-31
# Robo3D: 破壊に対するロバストで信頼性の高い3D認識を目指す

Robo3D: Towards Robust and Reliable 3D Perception against Corruptions ( http://arxiv.org/abs/2303.17597v2 )

ライセンス: Link先を確認
Lingdong Kong and Youquan Liu and Xin Li and Runnan Chen and Wenwei Zhang and Jiawei Ren and Liang Pan and Kai Chen and Ziwei Liu(参考訳) 環境やセンサーからの自然汚染下での3D認識システムの堅牢性は、安全に重要な応用にとって重要な要素である。 既存の大規模3D認識データセットは、しばしば注意深く掃除されたデータを含んでいる。 しかし、そのような構成は、デプロイメント段階での知覚モデルの信頼性を反映することはできない。 本研究では,実環境において発生する自然腐敗に対して,分散シナリオ下で3次元検出器とセグメンタのロバスト性を調べる最初の総合ベンチマークであるrobo3dを提案する。 具体的には,敵対的な気象条件,外乱,内部センサーの故障から生じる8種類の汚職について考察する。 有望な結果は標準ベンチマークで徐々に達成されているが、最先端の3D認識モデルは腐敗に弱いリスクがある。 モデルの性能に重大な影響を及ぼす可能性のあるデータ表現、拡張スキーム、トレーニング戦略の使用に関する重要な観察を行う。 頑健性を高めるために,モデルレジリエンスを高めるための単純な柔軟なボクセル化戦略とともに,密度非感受性トレーニングフレームワークを提案する。 われわれのベンチマークとアプローチが、より堅牢で信頼性の高い3D知覚モデルの設計に将来の研究を刺激することを期待している。 私たちの堅牢性ベンチマークスイートが公開されています。

The robustness of 3D perception systems under natural corruptions from environments and sensors is pivotal for safety-critical applications. Existing large-scale 3D perception datasets often contain data that are meticulously cleaned. Such configurations, however, cannot reflect the reliability of perception models during the deployment stage. In this work, we present Robo3D, the first comprehensive benchmark heading toward probing the robustness of 3D detectors and segmentors under out-of-distribution scenarios against natural corruptions that occur in real-world environments. Specifically, we consider eight corruption types stemming from adversarial weather conditions, external disturbances, and internal sensor failure. We uncover that, although promising results have been progressively achieved on standard benchmarks, state-of-the-art 3D perception models are at risk of being vulnerable to corruptions. We draw key observations on the use of data representations, augmentation schemes, and training strategies, that could severely affect the model's performance. To pursue better robustness, we propose a density-insensitive training framework along with a simple flexible voxelization strategy to enhance the model resiliency. We hope our benchmark and approach could inspire future research in designing more robust and reliable 3D perception models. Our robustness benchmark suite is publicly available.
翻訳日:2023-04-03 10:29:53 公開日:2023-03-31
# チャットGPTとヒューマンソシエティの文化的アライメントの評価 : 実証的研究

Assessing Cross-Cultural Alignment between ChatGPT and Human Societies: An Empirical Study ( http://arxiv.org/abs/2303.17466v2 )

ライセンス: Link先を確認
Yong Cao, Li Zhou, Seolhwa Lee, Laura Cabello, Min Chen, Daniel Hershcovich(参考訳) ChatGPTの最近のリリースは、対話で人間のような反応を生成できることが広く認識されている。 多様な文化規範と社会規範を組み込んだ多言語コーパスにおける多様な国からの利用者の利用とトレーニングを考えると、文化適応におけるその効果を評価することが重要である。 本稿では,ChatGPTの文化的背景について,人間の文化的差異を定量化するための質問に対する応答を分析して検討する。 以上の結果から,ChatGPTはアメリカの文化と強く結びついているが,他の文化の文脈には適応していないことが示唆された。 さらに,モデルを調査するために異なるプロンプトを用いることにより,モデル応答のばらつきを減少させ,文化的な差異を平滑化させ,アメリカ文化に偏りを与える。 本研究は,ChatGPTの文化的意義に関する貴重な知見を提供し,言語技術における多様性と文化意識の向上の必要性を強調する。

The recent release of ChatGPT has garnered widespread recognition for its exceptional ability to generate human-like responses in dialogue. Given its usage by users from various nations and its training on a vast multilingual corpus that incorporates diverse cultural and societal norms, it is crucial to evaluate its effectiveness in cultural adaptation. In this paper, we investigate the underlying cultural background of ChatGPT by analyzing its responses to questions designed to quantify human cultural differences. Our findings suggest that, when prompted with American context, ChatGPT exhibits a strong alignment with American culture, but it adapts less effectively to other cultural contexts. Furthermore, by using different prompts to probe the model, we show that English prompts reduce the variance in model responses, flattening out cultural differences and biasing them towards American culture. This study provides valuable insights into the cultural implications of ChatGPT and highlights the necessity of greater diversity and cultural awareness in language technologies.
翻訳日:2023-04-03 10:29:33 公開日:2023-03-31
# k=2 Bernstein-Vaziraniアルゴリズムの同型暗号化

Homomorphic Encryption of the k=2 Bernstein-Vazirani Algorithm ( http://arxiv.org/abs/2303.17426v2 )

ライセンス: Link先を確認
Pablo Fern\'andez, Miguel A. Martin-Delgado(参考訳) 非帰納的ベルンシュタイン・ヴァジランニアルゴリズムは、対応する最良の古典的アルゴリズムに対して超多項的改善を示す最初の量子アルゴリズムである。 ここでは、この問題を第二レベルの再帰に対して解決する回路のクラスを定義する。 この回路のクラスは、問題のキュービット数と線形に成長させることで、オラクルを構成するのに必要なゲートの数$T$を単純化する。 代入量子計算に有用な重要な暗号技術である量子同相暗号(QHE)へのこの方式の適用を見出した。 これにより、リモートサーバは暗号化された量子データ上で量子計算を実行でき、サーバはクライアントのデータについて何も知ることができない。 リーアンは完全なセキュリティを持つQHEスキームを開発し、$\mathcal{F}$-ホモモルフィズム、サーバとクライアント間の相互作用がなく、準コンパクト性は$O(M)$で制限され、Mは回路内のゲートの数$T$である。 これらのスキームは、多項式数のゲート数$T/T^{\dagger}$の回路に適している。 これらのスキームに従い、我々が構築した単純化された回路は、効率的な方法で準同型に評価することができる。

The nonrecursive Bernstein-Vazirani algorithm was the first quantum algorithm to show a superpolynomial improvement over the corresponding best classical algorithm. Here we define a class of circuits that solve a particular case of this problem for second-level recursion. This class of circuits simplifies the number of gates $T$ required to construct the oracle by making it grow linearly with the number of qubits in the problem. We find an application of this scheme to quantum homomorphic encryption (QHE) which is an important cryptographic technology useful for delegated quantum computation. It allows a remote server to perform quantum computations on encrypted quantum data, so that the server cannot know anything about the client's data. Liang developed QHE schemes with perfect security, $\mathcal{F}$-homomorphism, no interaction between server and client, and quasi-compactness bounded by $O(M)$ where M is the number of gates $T$ in the circuit. Precisely these schemes are suitable for circuits with a polynomial number of gates $T/T^{\dagger}$. Following these schemes, the simplified circuits we have constructed can be evaluated homomorphically in an efficient way.
翻訳日:2023-04-03 10:29:14 公開日:2023-03-31
# アーキテクチャを考慮したZX多項式合成と最適化への再帰的分割アプローチ

A recursively partitioned approach to architecture-aware ZX Polynomial synthesis and optimization ( http://arxiv.org/abs/2303.17366v2 )

ライセンス: Link先を確認
David Winderl, Qunsheng Huang, Christian B. Mendl(参考訳) zx計算における位相ガジェットからの量子回路の合成は量子回路最適化を促進する。 本研究は,PauliOptの確率的アプローチをヒューリスティックベースサーチに置き換え,ZX多項式から最適化回路を合成するための分割・征服手法を用いて,アーキテクチャを考慮したPauliOpt合成アルゴリズムの代替式を提供する。 本アルゴリズムとpaulioptおよび他の最先端最適化ライブラリとの比較を行った。 高度に構造化された回路の性能は劣っているが、Max-CutのQAOAの定式化のように、アーキテクチャを意識した手法を用いることの利点を浮き彫りにしている。

The synthesis of quantum circuits from phase gadgets in the ZX-calculus facilitates quantum circuit optimization. Our work provides an alternative formulation for the architecture-aware synthesis algorithm of PauliOpt by replacing the stochastic approach of PauliOpt with a heuristic based search and utilizes a divide and conquer method to synthesize an optimized circuit from a ZX polynomial. We provide a comparison of our algorithm with PauliOpt and other state-of-the-art optimization libraries. While we note poorer performance for highly structured circuits, as in the QAOA formulation for Max-Cut, we demonstrate a significant advantage for randomized circuits, which highlights the advantages of utilizing an architecture-aware methodology.
翻訳日:2023-04-03 10:28:54 公開日:2023-03-31
# 最大公約数に対するマルチパーティ量子計算に基づくプライベートセット交差点プロトコル

A private set intersection protocol based on multi-party quantum computation for greatest common divisor ( http://arxiv.org/abs/2303.17196v2 )

ライセンス: Link先を確認
Muhammad Imran(参考訳) プライベート・セット・交差点(英: Private Set intersection、PSI)は、2つ以上のパーティが入力セットの交差点を学べる暗号プリミティブである。 本稿では,最大公約数(GCD)のための新しいセキュアなマルチパーティ量子プロトコルをベースとした,プライベートな集合交差プロトコルを提案する。 このプロトコルは、li、yang、liuの最小共通倍数に基づく最近のquantum private set union protocolに着想を得ている。 性能分析は正しさを保証し、提案プロトコルが半正則モデルにおいて完全に安全であることを示す。 さらに、複雑性は入力セットのサイズにおいて効率的であることが証明されている。

Private set intersection (PSI) is a cryptographic primitive that allows two or more parties to learn the intersection of their input sets and nothing else. In this paper, we present a private set intersection protocol based on a new secure multi-party quantum protocol for greatest common divisor (GCD). The protocol is mainly inspired by the recent quantum private set union protocol based on least common multiple by Li, Yang, and Liu. Performance analysis guarantees the correctness and it also shows that the proposed protocols are completely secure in semi-honest model. Moreover, the complexity is proven to be efficient in the size of the input sets.
翻訳日:2023-04-03 10:28:41 公開日:2023-03-31
# 自律運転のためのオンラインカメラと地上の校正

Online Camera-to-ground Calibration for Autonomous Driving ( http://arxiv.org/abs/2303.17137v2 )

ライセンス: Link先を確認
Binbin Li, Xinyu Du, Yao Hu, Hao Yu, Wende Zhang(参考訳) オンラインカメラから地上へのキャリブレーションは、カメラと路面の間の非剛体変換をリアルタイムで生成する。 既存のソリューションは静的キャリブレーションを利用しており、タイヤ圧力の変化、車両の積載量の変化、路面の多様性といった環境変化に悩まされている。 他のオンラインソリューションでは、道路要素の使用や、画像に重なり合ったビュー間の測光一貫性を利用して、道路上の特定のターゲットの連続検出や、キャリブレーションを容易にする複数のカメラによる支援を必要とする。 本研究では,運転中に特定の目標を利用できないオンライン単眼カメラ・地上キャリブレーションソリューションを提案する。 本研究では,車輪オドメトリーによる地盤特徴抽出のための粗視的アプローチを行い,スライディングウィンドウに基づく因子グラフ最適化によるカメラから地上へのキャリブレーションパラメータを推定する。 運転中のカメラから地面への非剛性変換を考慮し,キャリブレーション性能を定量化し,キャリブレーション結果の報告/提示のための基準を提示する。 実世界データを用いた広範囲な実験により,本アルゴリズムが実世界の手法を上回っていることを示す。

Online camera-to-ground calibration is to generate a non-rigid body transformation between the camera and the road surface in a real-time manner. Existing solutions utilize static calibration, suffering from environmental variations such as tire pressure changes, vehicle loading volume variations, and road surface diversity. Other online solutions exploit the usage of road elements or photometric consistency between overlapping views across images, which require continuous detection of specific targets on the road or assistance with multiple cameras to facilitate calibration. In our work, we propose an online monocular camera-to-ground calibration solution that does not utilize any specific targets while driving. We perform a coarse-to-fine approach for ground feature extraction through wheel odometry and estimate the camera-to-ground calibration parameters through a sliding-window-based factor graph optimization. Considering the non-rigid transformation of camera-to-ground while driving, we provide metrics to quantify calibration performance and stopping criteria to report/broadcast our satisfying calibration results. Extensive experiments using real-world data demonstrate that our algorithm is effective and outperforms state-of-the-art techniques.
翻訳日:2023-04-03 10:28:30 公開日:2023-03-31
# G-不変グラフラプラシアン

The G-invariant graph Laplacian ( http://arxiv.org/abs/2303.17001v2 )

ライセンス: Link先を確認
Eitan Rosen, Xiuyuan Cheng and Yoel Shkolnisky(参考訳) グラフラプラシアンに基づく多様体上のデータに対するアルゴリズムは、次元減少、クラスタリング、デノナイジングといったタスクに有効であることが証明されている。 本研究では,データポイントが多様体上に存在するだけでなく,連続群の作用下でも閉であるようなデータセットを考える。 そのようなデータセットの例は、各体積を三次元空間で回転させることができる低次元多様体上の体積である。 G-不変グラフ Laplacian を導入し、グラフ Laplacian はデータセット上の群の作用を考慮し、グラフ Laplacian を一般化する。 標準グラフ Laplacian と同様に、G-不変グラフ Laplacian はデータ多様体上の Laplace-Beltrami 作用素に収束するが、収束速度は大幅に改善される。 さらに、G-不変グラフラプラシアンの固有函数は群要素とある種の行列の固有ベクトルの間のテンソル積の形式を認め、FFT型アルゴリズムを用いて効率的に計算できることを示す。 特殊ユニタリ群 SU(2) の作用の下で閉じたノイジー多様体上のデータをフィルタリングする問題に対する我々の構成とその利点を実証する。

Graph Laplacian based algorithms for data lying on a manifold have been proven effective for tasks such as dimensionality reduction, clustering, and denoising. In this work, we consider data sets whose data point not only lie on a manifold, but are also closed under the action of a continuous group. An example of such data set is volumes that line on a low dimensional manifold, where each volume may be rotated in three-dimensional space. We introduce the G-invariant graph Laplacian that generalizes the graph Laplacian by accounting for the action of the group on the data set. We show that like the standard graph Laplacian, the G-invariant graph Laplacian converges to the Laplace-Beltrami operator on the data manifold, but with a significantly improved convergence rate. Furthermore, we show that the eigenfunctions of the G-invariant graph Laplacian admit the form of tensor products between the group elements and eigenvectors of certain matrices, which can be computed efficiently using FFT-type algorithms. We demonstrate our construction and its advantages on the problem of filtering data on a noisy manifold closed under the action of the special unitary group SU(2).
翻訳日:2023-04-03 10:28:11 公開日:2023-03-31
# nora:高連結ハミルトニアンの体積則エンタングル平衡状態に対するテンソルネットワーク ansatz

NoRA: A Tensor Network Ansatz for Volume-Law Entangled Equilibrium States of Highly Connected Hamiltonians ( http://arxiv.org/abs/2303.16946v2 )

ライセンス: Link先を確認
Val\'erie Bettaque, Brian Swingle(参考訳) 平均場量子スピングラスモデルやSachdev-Ye-Kitaev(SYK)モデルのような全対全相互作用を持つ量子モデルの基底状態構造により、体積法則の絡み合いと大きな基底状態の縮退を緩和できるテンソルネットワークアーキテクチャを提案する。 このアーキテクチャを非局所再正規化 ansatz (nora) と呼ぶのは、mera、dmera、分岐 meraネットワークの一般化であり、空間的局所性の制約を取り除いているからである。 アーキテクチャはSYKモデルの接地空間の絡み合いや複雑さを捉えるのに十分な表現性を持っているため、適切な変分アンザッツとなるが、SYKの詳細な研究は今後の研究に任せる。 さらに、テンソルがランダムクリフォードゲートである特別な場合のアーキテクチャについても検討する。 ここで、アーキテクチャはランダム安定化コードのエンコーディングマップと見なすことができる。 我々はSYKモデルにインスパイアされた一連の符号を導入し、高重量安定器のコストで一定速度と線形距離を選択できることを示した。 また、この符号族とSYK基底空間から形成される近似符号との潜在的な類似点についてもコメントする。

Motivated by the ground state structure of quantum models with all-to-all interactions such as mean-field quantum spin glass models and the Sachdev-Ye-Kitaev (SYK) model, we propose a tensor network architecture which can accomodate volume law entanglement and a large ground state degeneracy. We call this architecture the non-local renormalization ansatz (NoRA) because it can be viewed as a generalization of MERA, DMERA, and branching MERA networks with the constraints of spatial locality removed. We argue that the architecture is potentially expressive enough to capture the entanglement and complexity of the ground space of the SYK model, thus making it a suitable variational ansatz, but we leave a detailed study of SYK to future work. We further explore the architecture in the special case in which the tensors are random Clifford gates. Here the architecture can be viewed as the encoding map of a random stabilizer code. We introduce a family of codes inspired by the SYK model which can be chosen to have constant rate and linear distance at the cost of some high weight stabilizers. We also comment on potential similarities between this code family and the approximate code formed from the SYK ground space.
翻訳日:2023-04-03 10:27:51 公開日:2023-03-31
# あなたは...? セマンティックパーシングにおける信頼に基づくトレードオフ

Did You Mean...? Confidence-based Trade-offs in Semantic Parsing ( http://arxiv.org/abs/2303.16857v2 )

ライセンス: Link先を確認
Elias Stengel-Eskin and Benjamin Van Durme(参考訳) 調整されたモデルがタスク指向構文解析における共通のトレードオフのバランスにどのように役立つかを説明します。 シミュレート・アノテータ・イン・ザ・ループ実験において,信頼度スコアが十分に調整されたことにより,アノテータ負荷とコストのバランスが取れ,少数のインタラクションで精度が向上することを示した。 次に,信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上でどのように役立つかを検討する。 信頼性に基づくしきい値設定は, 不正な低信頼プログラムの実行回数を大幅に削減できることを示すが, ユーザビリティにはコストがかかる。 ユーザビリティと安全性のバランスを良くする DidYouMean システムを提案する。

We illustrate how a calibrated model can help balance common trade-offs in task-oriented parsing. In a simulated annotator-in-the-loop experiment, we show that well-calibrated confidence scores allow us to balance cost with annotator load, improving accuracy with a small number of interactions. We then examine how confidence scores can help optimize the trade-off between usability and safety. We show that confidence-based thresholding can substantially reduce the number of incorrect low-confidence programs executed; however, this comes at a cost to usability. We propose the DidYouMean system which better balances usability and safety.
翻訳日:2023-04-03 10:27:29 公開日:2023-03-31
# 協調システムにおけるループとのオブジェクトインタラクションのための未音プロセスモデルのオブジェクト指向発見防止:拡張バージョン

Preventing Object-centric Discovery of Unsound Process Models for Object Interactions with Loops in Collaborative Systems: Extended Version ( http://arxiv.org/abs/2303.16680v2 )

ライセンス: Link先を確認
Janik-Vasily Benzin, Gyunam Park, Stefanie Rinderle-Ma(参考訳) オブジェクト指向プロセス発見(OCPD)はプロセスマイニングにおけるパラダイムシフトを構成する。 イベントログに存在する単一のケース概念を仮定するのではなく、ocpdは単一のケース概念を使わずにイベントを処理することができる。 オブジェクト型は複数の相互作用するケース概念を構成する。 OCPDの出力は、オブジェクト中心のペトリネット、すなわち、オブジェクトタイプに対応する複数の実行フローの並列実行を表すオブジェクト型のあるペトリネットである。 古典的なプロセス発見と同様、OCPDでは行動論的なプロセスモデルを目指しており、結果のオブジェクト中心のペトリネットの健全性を目指しています。 しかし、既存のOCPDアプローチは音質に反する可能性がある。 以下に示すように、協調システムで発生するループと複数の相互作用するオブジェクトタイプに対して、1つの違反が発生する。 本稿では, 拡張したocpdアプローチを提案し, 結果として生じる対象中心ペトリネットの健全性に支障を来さないことを証明した。 また、発見対象中心のペトリネットにおいて、OCPDアプローチが突発的な相互作用をもたらすのを防ぐ方法を示す。 提案するフレームワークはプロトタイプで実装されている。

Object-centric process discovery (OCPD) constitutes a paradigm shift in process mining. Instead of assuming a single case notion present in the event log, OCPD can handle events without a single case notion, but that are instead related to a collection of objects each having a certain type. The object types constitute multiple, interacting case notions. The output of OCPD is an object-centric Petri net, i.e. a Petri net with object-typed places, that represents the parallel execution of multiple execution flows corresponding to object types. Similar to classical process discovery, where we aim for behaviorally sound process models as a result, in OCPD, we aim for soundness of the resulting object-centric Petri nets. However, the existing OCPD approach can result in violations of soundness. As we will show, one violation arises for multiple interacting object types with loops that arise in collaborative systems. This paper proposes an extended OCPD approach and proves that it does not suffer from this violation of soundness of the resulting object-centric Petri nets. We also show how we prevent the OCPD approach from introducing spurious interactions in the discovered object-centric Petri net. The proposed framework is prototypically implemented.
翻訳日:2023-04-03 10:27:16 公開日:2023-03-31