このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230619となっている論文です。

PDF登録状況(公開日: 20230619)

TitleAuthorsAbstract論文公表日・翻訳日
# Stack OverflowにおけるJavaとJavaScriptの回答の許容性を予測する機能

Features that Predict the Acceptability of Java and JavaScript Answers on Stack Overflow ( http://arxiv.org/abs/2101.02830v2 )

ライセンス: Link先を確認
Osayande P. Omondiagbe, Sherlock A. Licorish and Stephen G. MacDonell(参考訳) コンテキスト: stack overflowは、ソフトウェア開発中の問題を解決するために、実践者が使用するコミュニティの質問と回答のポータルです。 開発者は、受け入れられた回答や、メンバーが助けを求めるときに良い答えを判断する際に高い投票を記録した回答に注意を向けることができる。 しかし、後者のメカニズム (votes) は信頼できない可能性があり、現在、受理されそうな答えと、解の特徴を見て受理されないものとを区別する方法は存在しない。 目的: 受理回答を識別するメカニズムを潜在的に提供する上で, 受理回答と受理回答を区別する特徴について検討する。 方法:最も人気のある2つのタグ(javaとjavascript)の質問と回答を分析してstack overflowデータセットを調査した。 2014年から2016年にかけてのデータセットは249,588件であった。 我々はランダムな森林モデルとニューラルネットワークモデルを用いて、受け入れられた答えを予測し、これらの2つのモデルで最も高い予測力で特徴を研究する。 結果: 回答中のコードの長さ, ユーザの評判, 質問と回答間のテキストの類似性, 質問と回答間の時間ラグは, 受け入れられない回答と受け入れられない回答を区別する最も高い予測力を有することがわかった。 結論: ツールはこれらの発見を活用して開発者を支援し、Stack Overflowで適切な回答を探す努力を削減できる。

Context: Stack Overflow is a popular community question and answer portal used by practitioners to solve problems during software development. Developers can focus their attention on answers that have been accepted or where members have recorded high votes in judging good answers when searching for help. However, the latter mechanism (votes) can be unreliable, and there is currently no way to differentiate between an answer that is likely to be accepted and those that will not be accepted by looking at the answer's characteristics. Objective: In potentially providing a mechanism to identify acceptable answers, this study examines the features that distinguish an accepted answer from an unaccepted answer. Methods: We studied the Stack Overflow dataset by analyzing questions and answers for the two most popular tags (Java and JavaScript). Our dataset comprised 249,588 posts drawn from 2014-2016. We use random forest and neural network models to predict accepted answers, and study the features with the highest predictive power in those two models. Results: Our findings reveal that the length of code in answers, reputation of users, similarity of the text between questions and answers, and the time lag between questions and answers have the highest predictive power for differentiating accepted and unaccepted answers. Conclusion: Tools may leverage these findings in supporting developers and reducing the effort they must dedicate to searching for suitable answers on Stack Overflow.
翻訳日:2023-10-24 16:00:01 公開日:2023-06-19
# コードレビューがopendev開発者に役に立つのは何か? 実証的な調査

What Makes a Code Review Useful to OpenDev Developers? An Empirical Investigation ( http://arxiv.org/abs/2302.11686v2 )

ライセンス: Link先を確認
Asif Kamal Turzo and Amiangshu Bosu(参考訳) コンテキスト: 大きな取り組みの結びつきから、コードレビュー(CR)の有効性がわずかに改善しても、ソフトウェア開発組織にとって大幅な節約が得られます。 目的:本研究は,oss開発者にコードレビューコメントが有用である理由,コードレビューコメントがどの程度有用であると考えられるか,文脈的および参加者的要因がその有用性に与える影響について,より細かく理解することを目的とする。 方法: この目的について, 3段階混合手法の研究を行った。 OpenDev Novaプロジェクトから2500のCRコメントをランダムに選択し、手動でコメントを分類しました。 私たちは、有用なCRに対する彼らの見解をよりよく理解するために、OpenDev開発者の調査を設計しました。 調査対象のスコアと手動ラベル付きデータセットを組み合わせることで,crコメントの有用性に影響を与える要因を識別し,他に対する‘機能的’欠陥識別の確率を改善する要因を識別する,という2つの回帰モデルをトレーニングした。 要点:本研究の結果から,CRコメントの有用性は,欠陥発見や品質改善ヒントなどの技術的貢献だけでなく,理解性や丁寧さといった言語的特徴によっても評価されていることが示唆された。 レビュー者のコーディング体験はCRの有用性、相互レビュー数、ファイル内のコメントボリューム、追加/修正された行の総数、CR間隔などと正の相関関係を持つ。 レビュー中のファイルのオーサシップとレビュアシップの経験は,レビュアレコメンデーションシステムにおいて最も一般的な属性であるが,これらの属性とCRの有用性との有意な関連は見つからない。

Context: Due to the association of significant efforts, even a minor improvement in the effectiveness of Code Reviews(CR) can incur significant savings for a software development organization. Aim: This study aims to develop a finer grain understanding of what makes a code review comment useful to OSS developers, to what extent a code review comment is considered useful to them, and how various contextual and participant-related factors influence its usefulness level. Method: On this goal, we have conducted a three-stage mixed-method study. We randomly selected 2,500 CR comments from the OpenDev Nova project and manually categorized the comments. We designed a survey of OpenDev developers to better understand their perspectives on useful CRs. Combining our survey-obtained scores with our manually labeled dataset, we trained two regression models - one to identify factors that influence the usefulness of CR comments and the other to identify factors that improve the odds of `Functional' defect identification over the others. Key findings: The results of our study suggest that a CR comment's usefulness is dictated not only by its technical contributions such as defect findings or quality improvement tips but also by its linguistic characteristics such as comprehensibility and politeness. While a reviewer's coding experience positively associates with CR usefulness, the number of mutual reviews, comment volume in a file, the total number of lines added /modified, and CR interval has the opposite associations. While authorship and reviewership experiences for the files under review have been the most popular attributes for reviewer recommendation systems, we do not find any significant association of those attributes with CR usefulness.
翻訳日:2023-10-24 13:05:28 公開日:2023-06-19
# 恐怖症を読み取るプライバシー政策の危機に向けて:プライバシー政策からプライバシー栄養ラベルの自動生成

Toward the Cure of Privacy Policy Reading Phobia: Automated Generation of Privacy Nutrition Labels From Privacy Policies ( http://arxiv.org/abs/2306.10923v1 )

ライセンス: Link先を確認
Shidong Pan, Thong Hoang, Dawen Zhang, Zhenchang Xing, Xiwei Xu, Qinghua Lu, and Mark Staples(参考訳) ソフトウェアアプリケーションは現代社会のあらゆる部分を占めている。 これらのアプリケーションの一連のプライバシーポリシーは、顧客の個人情報の収集、保存、使用方法を伝える上で重要な役割を果たす。 しかし、顧客は‘privacy policy reading phobia’(pprp)のため、めったに読まれず、しばしばプライバシーポリシーを理解することができない。 この課題に対処するために、プライバシーポリシーからプライバシー栄養ラベルを自動的に生成できる最初のフレームワークを提案する。 当社のフレームワークは,Google Play App StoreのData Safety Reportに関する私たちの真実のアプリケーションに基づいて,サードパーティのデータ収集プラクティスの生成に関する0.75F1スコア,一般的なセキュリティプラクティスに関する平均0.93F1スコアを達成しています。 また、市場における地平の真実と保護されたプライバシー栄養ラベルの矛盾を分析し、我々のフレームワークは90.1%の未解決の問題を検出することができる。 当社のフレームワークは,GoogleのData Safety ReportやAppleのApp Privacy detailsなど,さまざまなプライバシ栄養ラベルフォーマットに対して,適切な汎用性を示している。

Software applications have become an omnipresent part of modern society. The consequent privacy policies of these applications play a significant role in informing customers how their personal information is collected, stored, and used. However, customers rarely read and often fail to understand privacy policies because of the ``Privacy Policy Reading Phobia'' (PPRP). To tackle this emerging challenge, we propose the first framework that can automatically generate privacy nutrition labels from privacy policies. Based on our ground truth applications about the Data Safety Report from the Google Play app store, our framework achieves a 0.75 F1-score on generating first-party data collection practices and an average of 0.93 F1-score on general security practices. We also analyse the inconsistencies between ground truth and curated privacy nutrition labels on the market, and our framework can detect 90.1% under-claim issues. Our framework demonstrates decent generalizability across different privacy nutrition label formats, such as Google's Data Safety Report and Apple's App Privacy Details.
翻訳日:2023-10-23 19:27:24 公開日:2023-06-19
# ライブトレーサビリティソリューションの展開の課題を理解する

Understanding the Challenges of Deploying Live-Traceability Solutions ( http://arxiv.org/abs/2306.10972v1 )

ライセンス: Link先を確認
Alberto D. Rodriguez, Katherine R. Dearstyne, Jane Cleland-Huang(参考訳) ソフトウェアトレーサビリティは、ソフトウェアシステム内のアーティファクト間の関係を確立し維持するプロセスである。 このプロセスは多くのエンジニアリングプロセス、特に安全クリティカルなプロジェクトにとって重要であるが、労働集約的でエラーを起こしやすい。 自動トレーサビリティは、これらのシステムのプロジェクトマネージャにとって長い間待ち望まれていたツールであり、リンクされたアーティファクト間のセマンティックな類似性のため、トランスフォーマーモデルのようなNLP技術がこのタスクを達成するために利用することができる。 SAFA.aiは、ほぼリアルタイムな環境で自動トレーサビリティを提供する、プロジェクト固有モデルを微調整するスタートアップである。 以下の論文は、ソフトウェアトレーサビリティの商用化を特徴付ける課題を説明し、今後の方向性を強調する。

Software traceability is the process of establishing and maintaining relationships between artifacts in a software system. This process is crucial to many engineering processes, particularly for safety critical projects; however, it is labor-intensive and error-prone. Automated traceability has been a long awaited tool for project managers of these systems, and due to the semantic similarities between linked artifacts, NLP techniques, such as transformer models, may be leveraged to accomplish this task. SAFA.ai is a startup focusing on fine-tuning project-specific models that deliver automated traceability in a near real-time environment. The following paper describes the challenges that characterize commercializing software traceability and highlights possible future directions.
翻訳日:2023-10-23 19:13:16 公開日:2023-06-19
# SynerGPT:パーソナライズドドラッグのシナジー予測と薬物設計のためのインコンテキストラーニング

SynerGPT: In-Context Learning for Personalized Drug Synergy Prediction and Drug Design ( http://arxiv.org/abs/2307.11694v1 )

ライセンス: Link先を確認
Carl Edwards and Aakanksha Naik and Tushar Khot and Martin Burke and Heng Ji and Tom Hope(参考訳) 相乗的な薬物の組み合わせを予測することは、がん治療、特に生検細胞を介して患者の特定の腫瘍にパーソナライズされた治療の発見を加速するのに役立つ。 本稿では,文脈内薬物シナジー学習のための新しい設定とモデルを提案する。 特定のがん細胞標的の文脈における10~20の薬物相乗関係の「個人化データセット」を作成した。 私たちの目標は、そのコンテキストで追加の薬物シナジー関係を予測することです。 gpt言語モデル(lm)を"in-context learn"共通関数クラスに事前トレーニングする最近の作業に触発されて、gptモデルが"drug synergy function"を学習できるようにする新しい事前学習スキームを考案する。 我々のモデルは -- テキストコーパス、分子指紋、タンパク質相互作用、その他のドメイン固有の知識を使用しない -- は、競争的な結果を達成することができる。 さらに, モデルプロンプトを最適化する遺伝的アルゴリズムと文脈内アプローチを統合し, 患者生検を行った後, テスト対象のシナジー候補を選定する。 最後に、特定の患者の「パーソナライズされたデータセット」をターゲットとした、特に相乗効果のある薬物の設計を可能にする逆薬物設計の新たなタスクについて検討する。 我々の発見は、精密がん医学に重要な影響を与える可能性があり、またlmsの非テキスト事前トレーニングに関する興味深い疑問も提起できる。

Predicting synergistic drug combinations can help accelerate discovery of cancer treatments, particularly therapies personalized to a patient's specific tumor via biopsied cells. In this paper, we propose a novel setting and models for in-context drug synergy learning. We are given a small "personalized dataset" of 10-20 drug synergy relationships in the context of specific cancer cell targets. Our goal is to predict additional drug synergy relationships in that context. Inspired by recent work that pre-trains a GPT language model (LM) to "in-context learn" common function classes, we devise novel pre-training schemes that enable a GPT model to in-context learn "drug synergy functions". Our model -- which does not use any textual corpora, molecular fingerprints, protein interaction or any other domain-specific knowledge -- is able to achieve competitive results. We further integrate our in-context approach with a genetic algorithm to optimize model prompts and select synergy candidates to test after conducting a patient biopsy. Finally, we explore a novel task of inverse drug design which can potentially enable the design of drugs that synergize specifically to target a given patient's "personalized dataset". Our findings can potentially have an important impact on precision cancer medicine, and also raise intriguing questions on non-textual pre-training for LMs.
翻訳日:2023-10-23 16:43:29 公開日:2023-06-19
# ESG金融ポートフォリオ管理のための深層強化学習

Deep Reinforcement Learning for ESG financial portfolio management ( http://arxiv.org/abs/2307.09631v1 )

ライセンス: Link先を確認
Eduardo C. Garrido-Merch\'an, Sol Mora-Figueroa-Cruz-Guzm\'an, Mar\'ia Coronado-Vaca(参考訳) 本稿では,環境・社会・ガバナンス(esg)金融ポートフォリオ管理への深層強化学習(drl)の適用について検討し,esgスコアに基づく市場規制の潜在的利益を特に重視する。 我々はAdvantage Actor-Critic (A2C) エージェントを活用し、FinRLプラットフォームから適応したOpenAI Gymで符号化された環境を用いて実験を行った。 本研究は、標準的なダウ・ジョーンズ工業平均値(DJIA)市場条件下でのDRLエージェント性能の比較分析と、企業ESGスコアに従ってリターンが規制されるシナリオを含む。 ESG規制市場において、補助金は彼らのリターンとESGスコアに基づいてポートフォリオに比例的に割り当てられ、一方、税は指標のESGスコアよりも低いポートフォリオに割り当てられた。 その結果、ESG規制市場におけるDRLエージェントが標準DJIA市場設定を上回っていることが興味深い。 さらに,エージェントの状態空間にesg変数を含めることを検討し,これらのデータを除外したシナリオと比較した。 この比較は、ポートフォリオ管理意思決定におけるESG要因の役割の理解を深める。 IBEX 35およびNASDAQ-100指数におけるDRLエージェントの挙動を解析した。 A2CアルゴリズムとPPOアルゴリズムの両方をこれらの追加市場に適用し、我々の発見の一般化についてより広い視点で考察した。 この研究は、ESG投資の進化に寄与し、ESGスコアに基づく市場規制がDRLベースのポートフォリオ管理を改善する可能性を示唆し、持続的な投資戦略に大きな影響を与える。

This paper investigates the application of Deep Reinforcement Learning (DRL) for Environment, Social, and Governance (ESG) financial portfolio management, with a specific focus on the potential benefits of ESG score-based market regulation. We leveraged an Advantage Actor-Critic (A2C) agent and conducted our experiments using environments encoded within the OpenAI Gym, adapted from the FinRL platform. The study includes a comparative analysis of DRL agent performance under standard Dow Jones Industrial Average (DJIA) market conditions and a scenario where returns are regulated in line with company ESG scores. In the ESG-regulated market, grants were proportionally allotted to portfolios based on their returns and ESG scores, while taxes were assigned to portfolios below the mean ESG score of the index. The results intriguingly reveal that the DRL agent within the ESG-regulated market outperforms the standard DJIA market setup. Furthermore, we considered the inclusion of ESG variables in the agent state space, and compared this with scenarios where such data were excluded. This comparison adds to the understanding of the role of ESG factors in portfolio management decision-making. We also analyze the behaviour of the DRL agent in IBEX 35 and NASDAQ-100 indexes. Both the A2C and Proximal Policy Optimization (PPO) algorithms were applied to these additional markets, providing a broader perspective on the generalization of our findings. This work contributes to the evolving field of ESG investing, suggesting that market regulation based on ESG scoring can potentially improve DRL-based portfolio management, with significant implications for sustainable investing strategies.
翻訳日:2023-07-23 11:48:15 公開日:2023-06-19
# 機械学習による力学系の未知外乱の抑制

Suppressing unknown disturbances to dynamical systems using machine learning ( http://arxiv.org/abs/2307.03690v1 )

ライセンス: Link先を確認
Juan G. Restrepo, Per Sebastian Skardal(参考訳) 力学系に対する未知の障害の特定と抑制は多くの異なる分野の応用において問題となる。 本報告では,未知のシステムに対する未知の障害を,既知の強制関数の影響下での先行観測のみに基づいて同定・抑制するモデルフリー手法を提案する。 訓練関数の極めて軽度な制限の下では,未知の障害の大きなクラスをロバストに識別し,抑制することが可能であることが判明した。 本稿では,ロレンツ系に対するカオス的乱れを同定し,抑制する例を示す。

Identifying and suppressing unknown disturbances to dynamical systems is a problem with applications in many different fields. In this Letter, we present a model-free method to identify and suppress an unknown disturbance to an unknown system based only on previous observations of the system under the influence of a known forcing function. We find that, under very mild restrictions on the training function, our method is able to robustly identify and suppress a large class of unknown disturbances. We illustrate our scheme with an example where a chaotic disturbance to the Lorenz system is identified and suppressed.
翻訳日:2023-07-16 04:02:38 公開日:2023-06-19
# ChatGPTによる書記作業完了に向けた中学生のプロンプト・エンジニアリング・パスの事例

Cases of EFL Secondary Students' Prompt Engineering Pathways to Complete a Writing Task with ChatGPT ( http://arxiv.org/abs/2307.05493v1 )

ライセンス: Link先を確認
David James Woo, Kai Guo and Hengky Susanto(参考訳) ChatGPTは最先端(SOTA)チャットボットである。 英語を外国語(EFL)の学生の文章としてサポートする能力はあるが、効果的に協力するためには、学生はプロンプト、すなわちChatGPTが望ましいアウトプットを生成するための適切な指示を作る技術を学ぶ必要がある。 しかし、chatgptに適切なプロンプトを書くことは、試行錯誤のプロセスに苦しむ非技術ユーザにとっては簡単ではない。 本稿では,EFL学生のChatGPTプロンプトの内容について検討し,プロンプトの質と量に関するパターンを探索する。 データは、ChatGPTや他のSOTAチャットボットを使った中学生のiPad画面記録から得られたものだ。 本論文は, 試行錯誤過程を示す4つの異なる経路のケーススタディとして, 即時内容と量の異なる組み合わせを示す。 この事例は、eflライティング教室の文脈において、学生が個別の試行錯誤プロセスを超越し、より多種多様なプロンプトコンテンツを学び、執筆を支援するためのより洗練されたプロンプトを身につける必要があることの証拠となっている。

ChatGPT is a state-of-the-art (SOTA) chatbot. Although it has potential to support English as a foreign language (EFL) students' writing, to effectively collaborate with it, a student must learn to engineer prompts, that is, the skill of crafting appropriate instructions so that ChatGPT produces desired outputs. However, writing an appropriate prompt for ChatGPT is not straightforward for non-technical users who suffer a trial-and-error process. This paper examines the content of EFL students' ChatGPT prompts when completing a writing task and explores patterns in the quality and quantity of the prompts. The data come from iPad screen recordings of secondary school EFL students who used ChatGPT and other SOTA chatbots for the first time to complete the same writing task. The paper presents a case study of four distinct pathways that illustrate the trial-and-error process and show different combinations of prompt content and quantity. The cases contribute evidence for the need to provide prompt engineering education in the context of the EFL writing classroom, if students are to move beyond an individual trial-and-error process, learning a greater variety of prompt content and more sophisticated prompts to support their writing.
翻訳日:2023-07-16 03:34:21 公開日:2023-06-19
# 色と深度画像を用いた顔のマイクロ表現解析入門:マットラブ符号化手法(第2版,2023年)

Introduction to Facial Micro Expressions Analysis Using Color and Depth Images: A Matlab Coding Approach (Second Edition, 2023) ( http://arxiv.org/abs/2307.06396v1 )

ライセンス: Link先を確認
Seyed Muhammad Hossein Mousavi(参考訳) この本は、MATLABプログラミング環境の助けを借りて、Color and Depth画像を用いたFMER(Facial Micro Expressions Recognition)分野の穏やかな紹介を試みている。 FMERは画像処理のサブセットであり、解析のための多分野のトピックである。 そのため、機械学習、デジタル画像処理、心理学など、Artifactual Intelligence(AI)の他のトピックに精通する必要がある。 ですから、AIの分野でも、AIのバックグラウンドを持っていなくても、初心者からプロの読者まで、これらすべてのトピックをカバーする本を書く素晴らしい機会です。 我々のゴールは、MFER分析の分野において、再現可能なMatelabの実践例による画像処理の背景を持たない読者のための理論記述の形で、スタンドアロンで導入することである。 また,テキスト中のfmer解析やmatlabライブラリの基本的な定義を記述し,実世界のアプリケーションにおける実験の適用を支援する。 本書は,本分野の基本的な理解とともに,実践的なスキルを身につける必要がある学生,研究者,専門家にも適していると考えている。 この本を読むと、色と深度の画像処理、色と深度の画像表現、分類、機械学習、顔のマイクロ表現認識、特徴抽出、次元減少といった、さまざまな重要なステージに慣れていると期待する。 この本は、MATLABプログラミング環境の助けを借りて、Color and Depth画像を用いたFMER(Facial Micro Expressions Recognition)分野の穏やかな紹介を試みている。

The book attempts to introduce a gentle introduction to the field of Facial Micro Expressions Recognition (FMER) using Color and Depth images, with the aid of MATLAB programming environment. FMER is a subset of image processing and it is a multidisciplinary topic to analysis. So, it requires familiarity with other topics of Artifactual Intelligence (AI) such as machine learning, digital image processing, psychology and more. So, it is a great opportunity to write a book which covers all of these topics for beginner to professional readers in the field of AI and even without having background of AI. Our goal is to provide a standalone introduction in the field of MFER analysis in the form of theorical descriptions for readers with no background in image processing with reproducible Matlab practical examples. Also, we describe any basic definitions for FMER analysis and MATLAB library which is used in the text, that helps final reader to apply the experiments in the real-world applications. We believe that this book is suitable for students, researchers, and professionals alike, who need to develop practical skills, along with a basic understanding of the field. We expect that, after reading this book, the reader feels comfortable with different key stages such as color and depth image processing, color and depth image representation, classification, machine learning, facial micro-expressions recognition, feature extraction and dimensionality reduction. The book attempts to introduce a gentle introduction to the field of Facial Micro Expressions Recognition (FMER) using Color and Depth images, with the aid of MATLAB programming environment.
翻訳日:2023-07-16 03:15:08 公開日:2023-06-19
# 生成逆ネットワークを用いたテキスト合成のための教師なしテキスト埋め込み空間生成

Unsupervised Text Embedding Space Generation Using Generative Adversarial Networks for Text Synthesis ( http://arxiv.org/abs/2306.17181v1 )

ライセンス: Link先を確認
Jun-Min Lee, Tae-Bin Ha(参考訳) GAN(Generative Adversarial Networks)は、データ合成のモデルであり、ジェネレータと識別器の競合を通じて可塑性データを生成する。 画像合成へのGANの適用は広く研究されているが、自然言語生成には固有の制限がある。 自然言語は離散トークンで構成されているため、生成元はバックプロパゲーションによる勾配の更新が困難であるため、ほとんどのテキストGAN研究は報酬システムに基づいてランダムトークンから始まる文を生成する。 このように、先行研究のジェネレータは、逆行訓練の前に自己回帰的に事前訓練され、合成文がトレーニングデータを再生するデータを記憶させる。 本稿では,従来のGANに類似したフレームワークを用いて文を合成する。 より具体的には、勾配バックプロパゲーション問題を解決するために、離散トークンの代わりに連続的なテキスト埋め込み空間を生成するtext embedded space generative adversarial networks (tesgan)を提案する。 さらに、テッガンは、データ記憶問題を克服するために、トレーニングデータのテキストを直接参照しない教師なし学習を行う。 この方法を採用することで、テッガンは新しい文を合成し、教師なし学習によるテキスト合成の可能性を示すことができる。 大規模言語モデルと,テキストを連続的な空間として見る新たな視点を組み合わせた,広範な研究が期待できる。

Generative Adversarial Networks (GAN) is a model for data synthesis, which creates plausible data through the competition of generator and discriminator. Although GAN application to image synthesis is extensively studied, it has inherent limitations to natural language generation. Because natural language is composed of discrete tokens, a generator has difficulty updating its gradient through backpropagation; therefore, most text-GAN studies generate sentences starting with a random token based on a reward system. Thus, the generators of previous studies are pre-trained in an autoregressive way before adversarial training, causing data memorization that synthesized sentences reproduce the training data. In this paper, we synthesize sentences using a framework similar to the original GAN. More specifically, we propose Text Embedding Space Generative Adversarial Networks (TESGAN) which generate continuous text embedding spaces instead of discrete tokens to solve the gradient backpropagation problem. Furthermore, TESGAN conducts unsupervised learning which does not directly refer to the text of the training data to overcome the data memorization issue. By adopting this novel method, TESGAN can synthesize new sentences, showing the potential of unsupervised learning for text synthesis. We expect to see extended research combining Large Language Models with a new perspective of viewing text as an continuous space.
翻訳日:2023-07-09 14:09:28 公開日:2023-06-19
# 代替・報告:NLP支援放射線学報告

Replace and Report: NLP Assisted Radiology Report Generation ( http://arxiv.org/abs/2306.17180v1 )

ライセンス: Link先を確認
Kaveri Kale, pushpak Bhattacharyya and Kshitij Jadhav(参考訳) 臨床は診断と治療にしばしば医療画像を使用する。 自動放射線学レポート生成における重要な課題は、放射線学レポートが、異常所見と正常所見の両方のための複数の文からなる長い物語であることである。 したがって, 従来の画像キャプション手法によるレポート全体の生成は, 短い文で画像を簡潔に記述するように設計されているため, 不十分であることが証明された。 無線画像から放射線学レポートを生成するためのテンプレートベースの手法を提案する。 私たちのアプローチは以下の通りです。 一 複数ラベル画像分類器を用いて、入力ラジオグラフのタグを作成すること。 二 変圧器モデルを用いて、ステップで発生したタグから病理的記述(放射線写真に見る異常所見の記述)を作成すること。 (i) 三 BERTベースのマルチラベルテキスト分類器を使用して、正常なレポートテンプレート内のスパンを見つけて、生成された病理学的記述に置き換える。 四 規則に基づくシステムを用いて、特定されたスパンを発生した病理的記述に置き換える。 iu胸部x線とmuse-cxrの2種類のx線データを用いて実験を行い, bleu-1, rouge-l, meteor, ciderのスコアは, それぞれ25%, 36%, 44%, 48%の精度を示した。 私たちの知る限りでは、まず異常な発見のために小さな文章を作成し、それから通常のレポートテンプレートで置き換えることで、胸部x線x線画像を生成する最初の試みです。

Clinical practice frequently uses medical imaging for diagnosis and treatment. A significant challenge for automatic radiology report generation is that the radiology reports are long narratives consisting of multiple sentences for both abnormal and normal findings. Therefore, applying conventional image captioning approaches to generate the whole report proves to be insufficient, as these are designed to briefly describe images with short sentences. We propose a template-based approach to generate radiology reports from radiographs. Our approach involves the following: i) using a multilabel image classifier, produce the tags for the input radiograph; ii) using a transformer-based model, generate pathological descriptions (a description of abnormal findings seen on radiographs) from the tags generated in step (i); iii) using a BERT-based multi-label text classifier, find the spans in the normal report template to replace with the generated pathological descriptions; and iv) using a rule-based system, replace the identified span with the generated pathological description. We performed experiments with the two most popular radiology report datasets, IU Chest X-ray and MIMIC-CXR and demonstrated that the BLEU-1, ROUGE-L, METEOR, and CIDEr scores are better than the State-of-the-Art models by 25%, 36%, 44% and 48% respectively, on the IU X-RAY dataset. To the best of our knowledge, this is the first attempt to generate chest X-ray radiology reports by first creating small sentences for abnormal findings and then replacing them in the normal report template.
翻訳日:2023-07-09 14:09:08 公開日:2023-06-19
# 高周波市場形成のためのtickレベルデータと周期信号の統合

Integrating Tick-level Data and Periodical Signal for High-frequency Market Making ( http://arxiv.org/abs/2306.17179v1 )

ライセンス: Link先を確認
Jiafa He, Cong Zheng and Can Yang(参考訳) 高周波取引における市場形成の問題に焦点を当てる。 市場は資産の売買によって流動性を提供する金融市場において重要な機能である。 しかし、金融市場の複雑さが増し、ダニレベルのトレーディングが生み出すデータ量が増加しているため、効果的な市場作り戦略の開発は困難である。 そこで本研究では,ダニレベルのデータを周期的予測信号と融合して,より正確かつ堅牢な市場形成戦略を展開する深層強化学習手法を提案する。 シミュレーションシナリオに基づく異なる深層強化学習アルゴリズムに基づく市場構築戦略と暗号通貨市場における実データ実験の結果,提案手法が既存手法よりも利益率とリスク管理の面で優れていることが示された。

We focus on the problem of market making in high-frequency trading. Market making is a critical function in financial markets that involves providing liquidity by buying and selling assets. However, the increasing complexity of financial markets and the high volume of data generated by tick-level trading makes it challenging to develop effective market making strategies. To address this challenge, we propose a deep reinforcement learning approach that fuses tick-level data with periodic prediction signals to develop a more accurate and robust market making strategy. Our results of market making strategies based on different deep reinforcement learning algorithms under the simulation scenarios and real data experiments in the cryptocurrency markets show that the proposed framework outperforms existing methods in terms of profitability and risk management.
翻訳日:2023-07-09 14:08:37 公開日:2023-06-19
# 強化学習を用いた最適実行

Optimal Execution Using Reinforcement Learning ( http://arxiv.org/abs/2306.17178v1 )

ライセンス: Link先を確認
Cong Zheng and Jiafa He and Can Yang(参考訳) この作業は最適な順序実行に関するもので、大規模な順序をいくつかの小さな順序に分割して実装不足を最大化する。 暗号通貨取引所の多様性に基づき、複数の取引所からデータを初めて整列することにより、相互交換信号を抽出する。 単一交換情報の利用に焦点を当てた従来の研究とは異なり、最適な実行問題におけるエージェントの意思決定に対するクロス交換信号の影響について論じる。 実験結果から, 相互交換信号は, 暗号通貨の最適実行のための追加情報を提供し, 最適実行プロセスを容易にすることがわかった。

This work is about optimal order execution, where a large order is split into several small orders to maximize the implementation shortfall. Based on the diversity of cryptocurrency exchanges, we attempt to extract cross-exchange signals by aligning data from multiple exchanges for the first time. Unlike most previous studies that focused on using single-exchange information, we discuss the impact of cross-exchange signals on the agent's decision-making in the optimal execution problem. Experimental results show that cross-exchange signals can provide additional information for the optimal execution of cryptocurrency to facilitate the optimal execution process.
翻訳日:2023-07-09 14:08:25 公開日:2023-06-19
# KD-Treesを用いた個人差分合成データ

Differentially Private Synthetic Data Using KD-Trees ( http://arxiv.org/abs/2306.13211v1 )

ライセンス: Link先を確認
Eleonora Krea\v{c}i\'c, Navid Nouri, Vamsi K. Potluru, Tucker Balch, Manuela Veloso(参考訳) データの分散を忠実に表現し、同時にプライバシを保存する合成データセットの作成は、大きな研究課題である。 空間分割に基づくアプローチは近年、統計的にプライベートな方法で答える手法が数多く登場している。 しかし, 合成データ生成問題においては, 主に深部生成モデルに焦点が当てられている。 対照的に,空間分割法と雑音摂動法を併用することにより,直感的かつ透明なアルゴリズムを実現する。 我々は,カーネル密度が実データセットに類似した$\epsilon$-differentially private synthetic data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。 さらに、ユーティリティとプライバシのトレードオフに関する理論的結果を提供し、我々のデータ依存アプローチが次元の呪いを克服し、スケーラブルなアルゴリズムにつながることを示す。 我々は,先行研究よりも実証的な実用性の向上を示し,実際のデータセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。

Creation of a synthetic dataset that faithfully represents the data distribution and simultaneously preserves privacy is a major research challenge. Many space partitioning based approaches have emerged in recent years for answering statistical queries in a differentially private manner. However, for synthetic data generation problem, recent research has been mainly focused on deep generative models. In contrast, we exploit space partitioning techniques together with noise perturbation and thus achieve intuitive and transparent algorithms. We propose both data independent and data dependent algorithms for $\epsilon$-differentially private synthetic data generation whose kernel density resembles that of the real dataset. Additionally, we provide theoretical results on the utility-privacy trade-offs and show how our data dependent approach overcomes the curse of dimensionality and leads to a scalable algorithm. We show empirical utility improvements over the prior work, and discuss performance of our algorithm on a downstream classification task on a real dataset.
翻訳日:2023-07-02 13:56:35 公開日:2023-06-19
# レーダ信号特徴化のためのマルチタスク学習

Multi-task Learning for Radar Signal Characterisation ( http://arxiv.org/abs/2306.13105v1 )

ライセンス: Link先を確認
Zi Huang, Akila Pemasiri, Simon Denman, Clinton Fookes, Terrence Martin(参考訳) 無線信号の認識は民間と軍の両方で重要な任務であり、未知の信号の正確かつタイムリーな識別はスペクトル管理と電子戦の重要な部分である。 この分野でのほとんどの研究は、変調分類に深層学習を適用することに集中しており、信号特性化のタスクは未調査領域として残されている。 本稿では,マルチタスク学習(MTL)問題として,レーダ信号の分類と特徴化に取り組むアプローチを提案する。 本稿では,複数のレグレッションタスクと分類タスクを同時に最適化できるリファレンスアーキテクチャとして,iq信号トランスフォーマ(iqst)を提案する。 合成レーダデータセット上で提案したMTLモデルの性能を示すとともに,レーダ信号の特徴付けのための一級ベンチマークも提供する。

Radio signal recognition is a crucial task in both civilian and military applications, as accurate and timely identification of unknown signals is an essential part of spectrum management and electronic warfare. The majority of research in this field has focused on applying deep learning for modulation classification, leaving the task of signal characterisation as an understudied area. This paper addresses this gap by presenting an approach for tackling radar signal classification and characterisation as a multi-task learning (MTL) problem. We propose the IQ Signal Transformer (IQST) among several reference architectures that allow for simultaneous optimisation of multiple regression and classification tasks. We demonstrate the performance of our proposed MTL model on a synthetic radar dataset, while also providing a first-of-its-kind benchmark for radar signal characterisation.
翻訳日:2023-07-02 13:55:53 公開日:2023-06-19
# 指数関数的アクションセットの改ざん:オンライン混雑ゲームにおけるサブリニアな後悔とナッシュ均衡への高速収束

Taming the Exponential Action Set: Sublinear Regret and Fast Convergence to Nash Equilibrium in Online Congestion Games ( http://arxiv.org/abs/2306.13673v1 )

ライセンス: Link先を確認
Jing Dong, Jingyu Wu, Siwei Wang, Baoxiang Wang, Wei Chen(参考訳) 渋滞ゲームは、トラフィックネットワークやリソース割り当てといった幅広いエンジニアリングシステムを含む強力なモデルである。 これは、$F$施設の共通セットを共有し、$k$施設のサブセットとしてアクションを行うエージェントのグループの振る舞いを記述する。 そこで本研究では,エージェントが繰り返しゲームに参加し,ランダムにフィードバックを観察する,混雑ゲームのオンライン定式化について検討する。 古典的指数重み法を適用した分散アルゴリズムであるcongestexpを提案する。 施設レベルでの重みを維持することで、コンジェストEXPの後悔境界は、可能な施設集合、すなわち$\binom{F}{k} \approx F^k$への指数的依存を回避し、$F$でのみ線形にスケールする。 具体的には、CongestEXPが各プレイヤーに対して$O(kF\sqrt{T})$という後悔の上限に達していることを示す。 一方、重みの指数的成長を利用すると、congestexpは高速な収束率を達成できる。 厳密なナッシュ均衡が存在するなら、CongestEXP が $O(F\exp(-t^{1-\alpha})$ においてほぼ指数関数的に高速なナッシュポリシーに収束できることを示し、$t$ は反復数であり、$\alpha \in (1/2, 1)$ である。

The congestion game is a powerful model that encompasses a range of engineering systems such as traffic networks and resource allocation. It describes the behavior of a group of agents who share a common set of $F$ facilities and take actions as subsets with $k$ facilities. In this work, we study the online formulation of congestion games, where agents participate in the game repeatedly and observe feedback with randomness. We propose CongestEXP, a decentralized algorithm that applies the classic exponential weights method. By maintaining weights on the facility level, the regret bound of CongestEXP avoids the exponential dependence on the size of possible facility sets, i.e., $\binom{F}{k} \approx F^k$, and scales only linearly with $F$. Specifically, we show that CongestEXP attains a regret upper bound of $O(kF\sqrt{T})$ for every individual player, where $T$ is the time horizon. On the other hand, exploiting the exponential growth of weights enables CongestEXP to achieve a fast convergence rate. If a strict Nash equilibrium exists, we show that CongestEXP can converge to the strict Nash policy almost exponentially fast in $O(F\exp(-t^{1-\alpha}))$, where $t$ is the number of iterations and $\alpha \in (1/2, 1)$.
翻訳日:2023-07-02 13:47:30 公開日:2023-06-19
# MeciFace: 顔・食活動のエッジリアルタイム認識のためのメカノノグラフィと慣性核融合ガラス

MeciFace: Mechanomyography and Inertial Fusion based Glasses for Edge Real-Time Recognition of Facial and Eating Activities ( http://arxiv.org/abs/2306.13674v1 )

ライセンス: Link先を確認
Hymalai Bello, Sungho Suh, Bo Zhou and Paul Lukowicz(参考訳) 低消費電力(0.55ワット)のmeciface,プライバシを意識したリアルタイム・オンザエッジ(rte)ウェアラブルソリューションで,メモリフットプリント(11-19kb)が小さく,表情や食行動を監視するように設計されている。 顔と食のシナリオのバックボーンモデルとして,軽量畳み込みニューラルネットワークを採用している。 このシステムでは, 表情症例のrte評価において, f1-scoreが86%であった。 また,未使用者のrteに対する飲食監視のためのf1スコアを90%取得した。

We present MeciFace, a low-power (0.55 Watts), privacy-conscious, real-time on-the-edge (RTE) wearable solution with a tiny memory footprint (11-19 KB), designed to monitor facial expressions and eating activities. We employ lightweight convolutional neural networks as the backbone models for both facial and eating scenarios. The system yielded an F1-score of 86% for the RTE evaluation in the facial expression case. In addition, we obtained an F1-score of 90% for eating/drinking monitoring for the RTE of an unseen user.
翻訳日:2023-07-02 13:34:46 公開日:2023-06-19
# fsuie:ユニバーサル情報抽出のための新しいファジィスパン機構

FSUIE: A Novel Fuzzy Span Mechanism for Universal Information Extraction ( http://arxiv.org/abs/2306.14913v1 )

ライセンス: Link先を確認
Tianshuo Peng, Zuchao Li, Lefei Zhang, Bo Du, Hai Zhao(参考訳) ユニバーサル情報抽出(UIE)は、様々な情報抽出(IE)タスクの統一フレームワークとして導入され、広く成功している。 それにもかかわらず、uieモデルには制限がある。 例えば、トレーニング中のデータのスパンバウンダリに大きく依存しているため、スパンアノテーションの課題の現実を反映していない。 位置の調整も要求を満たすことができる。 さらに、UIEモデルはIEの制限された長さ機能に注意を払わない。 これらの欠陥に対処するために,ファジィスパンユニバーサル情報抽出(FSUIE)フレームワークを提案する。 具体的には、私たちの貢献はファジィスパンロスとファジィスパンアテンションという2つのコンセプトで構成されています。 一連のメインIEタスクに関する実験結果は,特にデータ量の少ない高速収束と強靭な性能の点において,ベースラインに比べて顕著な改善が見られた。 これらの結果は、異なるタスク、設定、シナリオにおけるFSUIEの有効性と一般化を示す。

Universal Information Extraction (UIE) has been introduced as a unified framework for various Information Extraction (IE) tasks and has achieved widespread success. Despite this, UIE models have limitations. For example, they rely heavily on span boundaries in the data during training, which does not reflect the reality of span annotation challenges. Slight adjustments to positions can also meet requirements. Additionally, UIE models lack attention to the limited span length feature in IE. To address these deficiencies, we propose the Fuzzy Span Universal Information Extraction (FSUIE) framework. Specifically, our contribution consists of two concepts: fuzzy span loss and fuzzy span attention. Our experimental results on a series of main IE tasks show significant improvement compared to the baseline, especially in terms of fast convergence and strong performance with small amounts of data and training epochs. These results demonstrate the effectiveness and generalization of FSUIE in different tasks, settings, and scenarios.
翻訳日:2023-07-02 13:27:41 公開日:2023-06-19
# 自然言語記述からのパラメトリックBRDFの生成

Generating Parametric BRDFs from Natural Language Descriptions ( http://arxiv.org/abs/2306.15679v1 )

ライセンス: Link先を確認
Sean Memery, Osmar Cedron, Kartic Subr(参考訳) 3d環境の芸術的オーサリングは、熟練したコンテンツ制作者も必要である。 メッシュの生成、幾何学の配置、テクスチャの合成など、3Dコンテンツ生成のさまざまな側面に機械学習を使用することで、大幅に改善されている。 本稿では,記述的テキストプロンプトから双方向反射分布関数(BRDF)を生成するモデルを開発する。 BRDFは、光と表面物質との相互作用を特徴付ける4次元の確率分布である。 それらはパラメトリック的に表されるか、または入射角と出射角のペアごとに関連する確率密度を集計することによって表される。 前者は芸術的な編集に力を貸し、後者は実物の外観を測定するのに使われる。 多くの研究がBRDFモデルを材料画像から仮定することに重点を置いている。 我々は,資料のテキスト記述からパラメトリックbrdfへのマッピングを学ぶ。 我々のモデルは、教師なしスキームでチューニングする前に、まず半教師なしアプローチを用いて訓練される。 本論文では, NVIDIA の Omniverse プラットフォーム内で, 自然言語記述を前提とした MDL 資料のパラメータを特に生成する。 これにより、リアルタイムテキストのようなユースケースでは、"dull plastic"や"shiny iron"といった3D環境のオブジェクトの素材を変更することができる。 本モデルの出力は材料の画像ではなくパラメトリックbrdfであるため、任意の表示や照明条件下で任意の形状の材料をレンダリングするのに使用できる。

Artistic authoring of 3D environments is a laborious enterprise that also requires skilled content creators. There have been impressive improvements in using machine learning to address different aspects of generating 3D content, such as generating meshes, arranging geometry, synthesizing textures, etc. In this paper we develop a model to generate Bidirectional Reflectance Distribution Functions (BRDFs) from descriptive textual prompts. BRDFs are four dimensional probability distributions that characterize the interaction of light with surface materials. They are either represented parametrically, or by tabulating the probability density associated with every pair of incident and outgoing angles. The former lends itself to artistic editing while the latter is used when measuring the appearance of real materials. Numerous works have focused on hypothesizing BRDF models from images of materials. We learn a mapping from textual descriptions of materials to parametric BRDFs. Our model is first trained using a semi-supervised approach before being tuned via an unsupervised scheme. Although our model is general, in this paper we specifically generate parameters for MDL materials, conditioned on natural language descriptions, within NVIDIA's Omniverse platform. This enables use cases such as real-time text prompts to change materials of objects in 3D environments such as "dull plastic" or "shiny iron". Since the output of our model is a parametric BRDF, rather than an image of the material, it may be used to render materials using any shape under arbitrarily specified viewing and lighting conditions.
翻訳日:2023-07-02 13:16:35 公開日:2023-06-19
# ニューラルネットワークはモデルなし静的仲裁戦略を検出できる

Neural networks can detect model-free static arbitrage strategies ( http://arxiv.org/abs/2306.16422v1 )

ライセンス: Link先を確認
Ariel Neufeld, Julian Sester(参考訳) 本稿では,モデルのない静的仲裁の機会をニューラルネットワークが検出できることを理論的にも数値的にも示す。 ニューラルネットワークを利用することにより、取引証券の多い金融市場にこの手法を適用することができ、対応する取引戦略のほぼ即時実行が保証される。 トラクタビリティ,有効性,堅牢性を実証するために,実際の財務データを用いて実例を示す。 技術的観点からは、単一ニューラルネットワークが半無限の凸プログラムのクラスを大まかに解決できることが証明され、金融市場がそのような機会を認めると、ニューラルネットワークがモデルフリーな静的仲裁戦略を検出できるという理論的な結果を得るための鍵となる結果である。

In this paper we demonstrate both theoretically as well as numerically that neural networks can detect model-free static arbitrage opportunities whenever the market admits some. Due to the use of neural networks, our method can be applied to financial markets with a high number of traded securities and ensures almost immediate execution of the corresponding trading strategies. To demonstrate its tractability, effectiveness, and robustness we provide examples using real financial data. From a technical point of view, we prove that a single neural network can approximately solve a class of convex semi-infinite programs, which is the key result in order to derive our theoretical results that neural networks can detect model-free static arbitrage strategies whenever the financial market admits such opportunities.
翻訳日:2023-07-02 13:05:49 公開日:2023-06-19
# グラディエントノルム認識の最小化は1次平坦性を追求し、一般化を改善する

Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves Generalization ( http://arxiv.org/abs/2303.03108v2 )

ライセンス: Link先を確認
Xingxuan Zhang and Renzhe Xu and Han Yu and Hao Zou and Peng Cui(参考訳) 近年、フラットミニマは一般化とシャープネス認識最小化(sam)の改善に効果的であることが証明されている。 しかし、SAMで議論されている平坦性の現在の定義とそのフォローアップはゼロ階平坦性(摂動半径内の最悪の損失)に限定されている。 摂動半径内に1つの最小または複数のミニマが存在する場合, 一般化誤差の低いミニマを高い一般化誤差で判別するには, ゼロ階平坦性が不十分であることを示す。 そこで我々は,局所的最小点におけるヘッシアンの最大固有値とsamの正規化関数の両方を境界とする摂動半径内の最大勾配ノルムに着目した,一階平坦性を示す。 また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。 実験結果から,GAMは様々なデータセットやネットワーク上で,SGDやAdamWといった現在の最適化アルゴリズムで訓練されたモデルの一般化を改善することが示された。 さらに、GAMはSAMがより平坦なミニマムを見つけ、より良い一般化を実現するのに役立つことを示す。

Recently, flat minima are proven to be effective for improving generalization and sharpness-aware minimization (SAM) achieves state-of-the-art performance. Yet the current definition of flatness discussed in SAM and its follow-ups are limited to the zeroth-order flatness (i.e., the worst-case loss within a perturbation radius). We show that the zeroth-order flatness can be insufficient to discriminate minima with low generalization error from those with high generalization error both when there is a single minimum or multiple minima within the given perturbation radius. Thus we present first-order flatness, a stronger measure of flatness focusing on the maximal gradient norm within a perturbation radius which bounds both the maximal eigenvalue of Hessian at local minima and the regularization function of SAM. We also present a novel training procedure named Gradient norm Aware Minimization (GAM) to seek minima with uniformly small curvature across all directions. Experimental results show that GAM improves the generalization of models trained with current optimizers such as SGD and AdamW on various datasets and networks. Furthermore, we show that GAM can help SAM find flatter minima and achieve better generalization.
翻訳日:2023-06-22 17:34:04 公開日:2023-06-19
# ヒト3次元能動振動空間問題解決の心理物理学

The Psychophysics of Human Three-Dimensional Active Visuospatial Problem-Solving ( http://arxiv.org/abs/2306.11756v1 )

ライセンス: Link先を確認
Markus D. Solbach, John K. Tsotsos(参考訳) 視覚システムが視覚刺激をどのように検出し、分析し、解釈するかの理解は、大きく進歩した。 しかし、全ての動物の視覚系はより多く、視覚的行動を可能にする。 視覚システムが視覚環境と相互作用しながらどのように機能するか、現実世界で視覚がどのように使われているかは、特に人間ではよく研究されていない。 比較は精神物理学的なタスクの最も原始的であることが示唆されている。 したがって、これらのアクティブな視覚行動を調べるために、我々は同じ異なるタスクを使う:2つの物理的3Dオブジェクトは視覚的に同じか? このタスクは基本的な認知能力のようです。 この質問は、自由に動き回ったり、実際の3d空間で2つの実際の物体を調べることができる被験者に当てはまる。 過去の研究は、この問題の2D静的バージョンのみに対処してきた。 何百もの実験で、人間の視覚活動に関する詳細なデータを集めました。 興味深いことに、人間はトレーニングなしでこの仕事を非常に得意とし、平均精度は93.82%である。 多くの治験後, 学習効果は認められなかったが, 応答時間, 固定数, 頭部運動量に何らかの効果が認められた。 被験者は、様々な動きと眼球固定の変化を含む様々な複雑な戦略を示し、解は動的に開発され、特定のタスクに合わせて調整されたことを示唆した。

Our understanding of how visual systems detect, analyze and interpret visual stimuli has advanced greatly. However, the visual systems of all animals do much more; they enable visual behaviours. How well the visual system performs while interacting with the visual environment and how vision is used in the real world have not been well studied, especially in humans. It has been suggested that comparison is the most primitive of psychophysical tasks. Thus, as a probe into these active visual behaviours, we use a same-different task: are two physical 3D objects visually the same? This task seems to be a fundamental cognitive ability. We pose this question to human subjects who are free to move about and examine two real objects in an actual 3D space. Past work has dealt solely with a 2D static version of this problem. We have collected detailed, first-of-its-kind data of humans performing a visuospatial task in hundreds of trials. Strikingly, humans are remarkably good at this task without any training, with a mean accuracy of 93.82%. No learning effect was observed on accuracy after many trials, but some effect was seen for response time, number of fixations and extent of head movement. Subjects demonstrated a variety of complex strategies involving a range of movement and eye fixation changes, suggesting that solutions were developed dynamically and tailored to the specific task.
翻訳日:2023-06-22 16:37:31 公開日:2023-06-19
# 条件因果効果の識別可能性について

On Identifiability of Conditional Causal Effects ( http://arxiv.org/abs/2306.11755v1 )

ライセンス: Link先を確認
Yaroslav Kivva, Jalal Etesami, Negar Kiyavash(参考訳) 因果グラフと任意の観察的および/または介入的分布のセットの両方が与えられた任意の条件付き因果効果の同一性の問題に対して、$q[s]:=p(s|do(v\setminus s))$, ここで$v$はすべての観測変数の集合と$s\subseteq v$を表す。 この問題を条件付き一般化識別可能性(c-gID、略してc-gID)と呼び、c-gID問題に対する音響および完全アルゴリズムを提供することで、Pearlの$do$-calculusの完全性を証明する。 この研究はLeeらによるc-gID問題を再考した。 [2020], Correa et al. [2021] 識別可能性に不可欠な肯定的な仮定を明示的に加えることにより。 これは[lee et al., 2019, kivva et al., 2022] on general identifiability (gid) の結果を拡張し、[kivva et al., 2022] と [shpitser and pearl, 2006b] で提案されたアルゴリズムを一般化しているように、観測分布 $p(\mathbf{v})$ が与えられただけで条件付き因果効果の識別可能性について、無条件因果効果の問題と[spitser and pearl, 2006b] について研究した。

We address the problem of identifiability of an arbitrary conditional causal effect given both the causal graph and a set of any observational and/or interventional distributions of the form $Q[S]:=P(S|do(V\setminus S))$, where $V$ denotes the set of all observed variables and $S\subseteq V$. We call this problem conditional generalized identifiability (c-gID in short) and prove the completeness of Pearl's $do$-calculus for the c-gID problem by providing sound and complete algorithm for the c-gID problem. This work revisited the c-gID problem in Lee et al. [2020], Correa et al. [2021] by adding explicitly the positivity assumption which is crucial for identifiability. It extends the results of [Lee et al., 2019, Kivva et al., 2022] on general identifiability (gID) which studied the problem for unconditional causal effects and Shpitser and Pearl [2006b] on identifiability of conditional causal effects given merely the observational distribution $P(\mathbf{V})$ as our algorithm generalizes the algorithms proposed in [Kivva et al., 2022] and [Shpitser and Pearl, 2006b].
翻訳日:2023-06-22 16:36:56 公開日:2023-06-19
# 画像の差分分類を改良したプレプニングとグラディエントドローピング

Pre-Pruning and Gradient-Dropping Improve Differentially Private Image Classification ( http://arxiv.org/abs/2306.11754v1 )

ライセンス: Link先を確認
Kamil Adamczewski, Yingchen He, Mijung Park(参考訳) ディープニューラルネットワークのトレーニングに差分プライバシを適用するという点では、スケーラビリティは大きな課題です。 一般的に使用されるDP-SGDアルゴリズムは、中程度のモデルでも高い精度を達成しつつ、高いレベルのプライバシ保護を維持するのに苦労する。 この課題に対処するために、ニューラルネットワークが過度にパラメータ化されているという事実を活用して、差分プライバシーによるニューラルネットワークトレーニングを改善することができる。 具体的には,パラメータ空間の削減とスケーラビリティ向上のために,‘textit{pre-pruning} と \textit{gradient-dropping} を用いた新たなトレーニングパラダイムを導入する。 プロセスは、元のネットワークのパラメータを事前解析して、DP-SGDでトレーニングされた小さなモデルを得ることから始まります。 トレーニング中、重要度は低下し、選択した勾配のみが更新される。 トレーニングパラダイムでは,プレプニング率と勾配ドロップ率,プライバシ損失,分類精度の間に緊張関係が生じる。 事前プルングと勾配ドロップが多すぎると、モデルのキャパシティが低下し、精度が低下する一方、より小さなモデルのトレーニングでは、適切な精度を達成するために、プライバシー予算の削減が要求される。 我々はこれらの要因間の相互作用を評価し、複数のベンチマーク画像分類データセット上で、スクラッチと微調整済みネットワークのトレーニングにおけるトレーニングパラダイムの有効性を示す。 このツールは、既存のトレーニングパラダイムにも簡単に組み込める。

Scalability is a significant challenge when it comes to applying differential privacy to training deep neural networks. The commonly used DP-SGD algorithm struggles to maintain a high level of privacy protection while achieving high accuracy on even moderately sized models. To tackle this challenge, we take advantage of the fact that neural networks are overparameterized, which allows us to improve neural network training with differential privacy. Specifically, we introduce a new training paradigm that uses \textit{pre-pruning} and \textit{gradient-dropping} to reduce the parameter space and improve scalability. The process starts with pre-pruning the parameters of the original network to obtain a smaller model that is then trained with DP-SGD. During training, less important gradients are dropped, and only selected gradients are updated. Our training paradigm introduces a tension between the rates of pre-pruning and gradient-dropping, privacy loss, and classification accuracy. Too much pre-pruning and gradient-dropping reduces the model's capacity and worsens accuracy, while training a smaller model requires less privacy budget for achieving good accuracy. We evaluate the interplay between these factors and demonstrate the effectiveness of our training paradigm for both training from scratch and fine-tuning pre-trained networks on several benchmark image classification datasets. The tools can also be readily incorporated into existing training paradigms.
翻訳日:2023-06-22 16:36:03 公開日:2023-06-19
# 熱2次元混合スピン1/2系の幾何学的位相

Geometric phases for a thermal two-dimensional mixed spin 1/2 system ( http://arxiv.org/abs/2306.11752v1 )

ライセンス: Link先を確認
Y. Ben-Aryeh(参考訳) 混合状態に対する幾何位相を得るための量子力学的手法を解析する。 純粋状態に対する並列輸送方程式は、動的位相を排除した混合状態に一般化される。 混合状態の幾何学的位相はパンチャラトナム相として得られ、これは開サイクルにも有効である。 幾何相は、NMRや中性子干渉実験で用いられるものと異なる混合熱状態のSU(2)変換によって引き起こされる。 ゼロ次ハミルトニアンは、z方向における磁気モーメントと定磁場の相互作用によって与えられるが、本論文で想定される高次摂動は同じz方向の2つの振動磁場からなる。 これらの仮定は、幾何相および干渉強度に関する結果が導出される混合熱状態のSU(2)ユニタリ変換の特別な形式をもたらす。

Quantum mechanical methods for getting geometric phases for mixed states are analyzed. Parallel transport equations for pure states are generalized to mixed states by which dynamical phases are eliminated. The geometric phases of mixed states are obtained as Pancharatnam phases which are valid also for open cycles. The geometric phases are derived here by SU(2) transformations of mixed thermal states which are different from those used in NMR and neutron interference experiments. While the zeroth order Hamiltonian is given by the interaction of a magnetic moment and constant magnetic field in the z direction, the high order perturbations assumed in the present article are composed of two oscillating magnetic fields in the same z direction. These assumptions lead to a special form of the SU(2) unitary transformation of the mixed thermal states by which results for geometric phase and for interference intensity are derived.
翻訳日:2023-06-22 16:35:19 公開日:2023-06-19
# ブロックハンケライズと低ランクテンソルネットワーク近似による光コヒーレンストモグラフィ画像の強調

Optical Coherence Tomography Image Enhancement via Block Hankelization and Low Rank Tensor Network Approximation ( http://arxiv.org/abs/2306.11750v1 )

ライセンス: Link先を確認
Farnaz Sedighin, Andrzej Cichocki, Hossein Rabbani(参考訳) 本稿では,光コヒーレンス・トモグラフィ(OCT)における画像超解像の問題点について述べる。 モーションアーティファクトのため、OCTイメージングは通常、サンプリングレートが低く、結果として得られる画像はノイズが多く、解像度も低い。 したがって,高分解能CT画像の低分解能版からの再構成は,OCTによる診断の改善に不可欠である。 本稿では,埋め込み空間におけるテンソルリング分解を用いた新しいOCT超解像法を提案する。 重なりパッチを持つブロックハンケライズ法に基づく新しいテンソル化法として、重なりパッチハンケライズと呼ばれるテンソルリング分解法が提案されている。 ハンケライズ法により,画素間の接続をよりよく利用し,画像の超解像性を向上させることができる。 低解像度画像は最初はハンケル化され、次にテンソルリング分解の階数インクリメンタル化が計算された。 シミュレーションにより,提案手法がoct超解像に有効であることを確認した。

In this paper, the problem of image super-resolution for Optical Coherence Tomography (OCT) has been addressed. Due to the motion artifacts, OCT imaging is usually done with a low sampling rate and the resulting images are often noisy and have low resolution. Therefore, reconstruction of high resolution OCT images from the low resolution versions is an essential step for better OCT based diagnosis. In this paper, we propose a novel OCT super-resolution technique using Tensor Ring decomposition in the embedded space. A new tensorization method based on a block Hankelization approach with overlapped patches, called overlapped patch Hankelization, has been proposed which allows us to employ Tensor Ring decomposition. The Hankelization method enables us to better exploit the inter connection of pixels and consequently achieve better super-resolution of images. The low resolution image was first patch Hankelized and then its Tensor Ring decomposition with rank incremental has been computed. Simulation results confirm that the proposed approach is effective in OCT super-resolution.
翻訳日:2023-06-22 16:35:06 公開日:2023-06-19
# マニピュレーション問題:疫病の脅威としての会話型AI

The Manipulation Problem: Conversational AI as a Threat to Epistemic Agency ( http://arxiv.org/abs/2306.11748v1 )

ライセンス: Link先を確認
Louis Rosenberg(参考訳) 会話型AIの技術は、過去18ヶ月で大きな進歩を遂げてきた。 その結果、会話エージェントは近い将来デプロイされ、ターゲットとなる影響対象を追求するように設計されている。 時に「ai操作問題」と呼ばれるリスクは、消費者が不意に、特定の製品を購入するよう巧みに説得したり、特定の情報を信じたり、センシティブな個人情報を明かすように騙したりできる捕食的なaiエージェントとリアルタイムの対話を行うことである。 多くのユーザーにとって、chatgptやlamdaのような現在のシステムは、主にテキストベースなので安全だが、業界はすでにリアルタイム音声やフォトリアリスティックなデジタルペルソナにシフトしている。 これにより、アジェンダ駆動の仮想スポークスパーソン(vsps)が、リアルタイムの適応的な影響によって、非常に説得力のある配置が可能になる。 本稿では、会話型AIエージェントを通じて展開される可能性が高い操作的戦術、そのようなエージェントがヒトのてんかんに作用するユニークな脅威、そして最も起こりそうな捕食行為から保護する政策立案者の必要性について検討する。

The technology of Conversational AI has made significant advancements over the last eighteen months. As a consequence, conversational agents are likely to be deployed in the near future that are designed to pursue targeted influence objectives. Sometimes referred to as the "AI Manipulation Problem," the emerging risk is that consumers will unwittingly engage in real-time dialog with predatory AI agents that can skillfully persuade them to buy particular products, believe particular pieces of misinformation, or fool them into revealing sensitive personal data. For many users, current systems like ChatGPT and LaMDA feel safe because they are primarily text-based, but the industry is already shifting towards real-time voice and photorealistic digital personas that look, move, and express like real people. This will enable the deployment of agenda-driven Virtual Spokespeople (VSPs) that will be highly persuasive through real-time adaptive influence. This paper explores the manipulative tactics that are likely to be deployed through conversational AI agents, the unique threats such agents pose to the epistemic agency of human users, and the emerging need for policymakers to protect against the most likely predatory practices.
翻訳日:2023-06-22 16:34:51 公開日:2023-06-19
# Duffin-Kemmer-Petiau粒子はボソンである

Duffin-Kemmer-Petiau particles are bosons ( http://arxiv.org/abs/2306.11757v1 )

ライセンス: Link先を確認
A. F. Bennett(参考訳) パラメタライズドフィン・ケマー・ペティオー波動方程式は、スピン0またはスピン1の多くの相対論的粒子に対してここで定式化される。 スピン統計接続の従来の第二量子化あるいはフォック空間証明は、生成および消滅作用素の場が因果条件を満たす可換関係を満たすことを要求する。 この条件は、コンプトン波長の次数の空間的分離に対する絡み合いを制限している。 相対論的量子力学は、ジャブの非相対論的議論(Phys. 2010, v40, 776--792)に従って、同一粒子に対する波動関数の対称性を証明するために用いられる。 第一量子化は因果的可換関係を必要としないので、絡み合いは制限されない。

The parametrized Duffin-Kemmer-Petiau wave equation is formulated here for many relativistic particles of spin-0 or spin-1. The conventional second-quantized or Fock-space proof of the spin-statistics connection requires that the fields of creation and annihilation operators satisfy commutation relations subject to causality conditions. The conditions restrict entanglement to spacelike separations of the order of the Compton wavelength $\hbar/mc$. Relativistic quantum mechanics is used here to prove the symmetry of the wavefunctions for identical particles, following the nonrelativistic argument of Jabs (Found. Phys. 2010, v40, 776--792). First quantization does not require causal commutation relations, and so entanglement is unrestricted.
翻訳日:2023-06-22 16:23:17 公開日:2023-06-19
# Subset Sumsによるセキュアなサミネーション - 分散機械学習のプライバシ保護のための新しいプリミティブ

Secure Summation via Subset Sums: A New Primitive for Privacy-Preserving Distributed Machine Learning ( http://arxiv.org/abs/1906.11993v2 )

ライセンス: Link先を確認
Valentin Hartmann, Robert West(参考訳) 集団研究や複雑な機械学習モデルの訓練のためには、しばしば異なるアクターからのデータを収集する必要がある。 これらのアプリケーションでは、集計は重要なプリミティブである: 計算手段では、カウントまたはミニバッチ勾配である。 多くの場合、データはプライバシーに敏感であり、中央のサーバで収集することはできない。 したがって、総和は分散およびプライバシ保護の方法で実行する必要がある。 計算プライバシを保証した分散要約ソリューションは、信頼や接続の仮定(信頼されたサーバの存在やクライアント間のピアツーピア接続など)を現実の環境では実現できない。 これらの課題に動機づけられて,我々は,悪意のあるサーバと2つの正直なクライアントの存在下で動作し,クライアント間のピアツーピア接続を必要とせず,分散要約を行う手法であるs5によるセキュアな要約を提案する。 S5はクライアントのメッセージにゼロサムノイズを追加し、集約サーバに送信する前にシャッフルする。 我々の主な貢献は、このスキームが多次元部分集合和問題に基づく計算プライバシ保証をもたらすことの証明である。 この問題に対する我々の分析は、他のプライバシーおよび暗号アプリケーションに対して独立した関心を持つかもしれない。

For population studies or for the training of complex machine learning models, it is often required to gather data from different actors. In these applications, summation is an important primitive: for computing means, counts or mini-batch gradients. In many cases, the data is privacy-sensitive and therefore cannot be collected on a central server. Hence the summation needs to be performed in a distributed and privacy-preserving way. Existing solutions for distributed summation with computational privacy guarantees make trust or connection assumptions - e.g., the existence of a trusted server or peer-to-peer connections between clients - that might not be fulfilled in real world settings. Motivated by these challenges, we propose Secure Summation via Subset Sums (S5), a method for distributed summation that works in the presence of a malicious server and only two honest clients, and without the need for peer-to-peer connections between clients. S5 adds zero-sum noise to clients' messages and shuffles them before sending them to the aggregating server. Our main contribution is a proof that this scheme yields a computational privacy guarantee based on the multidimensional subset sum problem. Our analysis of this problem may be of independent interest for other privacy and cryptography applications.
翻訳日:2023-06-22 08:33:16 公開日:2023-06-19
# Quantikzパッケージのチュートリアル

Tutorial on the Quantikz Package ( http://arxiv.org/abs/1809.03842v7 )

ライセンス: Link先を確認
Alastair Kay(参考訳) このチュートリアルでは、量子回路図のタイプセットのためのQuantikz LaTeXパッケージを紹介(およびドキュメントソース経由で提供)する。 これによりtikzを活用することで、回路オプションの制御性が向上する。 優れたqcircuitパッケージに慣れている人は、記法の多くを認識するだろうが、少し進化している(願わくばシンプルだ!

This tutorial introduces (and provides, via the document source) the Quantikz LaTeX package for typesetting quantum circuit diagrams. This takes advantage of tikz to give greater control over the circuit options. Those familiar with the excellent QCircuit package will recognise much of the notation, although it has evolved a bit (hopefully simplified!).
翻訳日:2023-06-22 08:32:44 公開日:2023-06-19
# 因果順序の古典的対量子制御をもつ量子回路

Quantum circuits with classical versus quantum control of causal order ( http://arxiv.org/abs/2101.08796v3 )

ライセンス: Link先を確認
Julian Wechs, Hippolyte Dourdent, Alastair A. Abbott, Cyril Branciard(参考訳) 量子スーパーマップは、量子演算を量子演算にマッピングする変換である。 入力操作間の明確な因果順序を尊重する量子スーパーマップは、固定階量子回路に対応することが知られている。 より一般的な量子スーパーマップの物理的解釈の体系的な理解(特に、明確な因果構造に相容れないもの)は欠如している。 ここでは、固定順序の場合を自然に一般化し、同様に量子スーパーマップの異なるクラスに対応する2つの新しいタイプの回路を同定する。 まず「因果順序を古典的に制御した量子回路」を導入し、操作順序はいまだよく定義されているが、必ずしも事前に固定されていない:特に、回路が使われているように、古典的に制御された方法で動的に確立することができる。 次に、「因果順序の量子制御をもつ量子回路」について考察し、操作順序を整合的に制御する。 これらの回路のクラスによって記述されるスーパーマップは物理的に実現可能であり、後者は「量子スイッチ」を含む不定因果順序を持つ物理的に実現可能なプロセスのすべての既知の例を含んでいる。 興味深いことに、それはまた、因果順序の動的およびコヒーレント制御の組み合わせから生じる新しい例を含み、これらのプロセスを明示的に詳述する。 それでも、因果順序の量子制御を持つ量子回路は、明確に定義された因果順序と互換性のある「因果相関」しか生成できないことを示す。 さらに、古典的な結果をもたらす確率回路への考察をさらに拡張し、我々の特性化によって、実際に実証できる量子情報処理タスクの新たな利点をいかに特定できるかを例に示します。

Quantum supermaps are transformations that map quantum operations to quantum operations. It is known that quantum supermaps which respect a definite, predefined causal order between their input operations correspond to fixed-order quantum circuits. A systematic understanding of the physical interpretation of more general types of quantum supermaps--in particular, those incompatible with a definite causal structure--is however lacking. Here we identify two new types of circuits that naturally generalise the fixed-order case and that likewise correspond to distinct classes of quantum supermaps, which we fully characterise. We first introduce "quantum circuits with classical control of causal order", in which the order of operations is still well-defined, but not necessarily fixed in advance: it can in particular be established dynamically, in a classically-controlled manner, as the circuit is being used. We then consider "quantum circuits with quantum control of causal order", in which the order of operations is controlled coherently. The supermaps described by these classes of circuits are physically realisable, and the latter encompasses all known examples of physically realisable processes with indefinite causal order, including the celebrated "quantum switch". Interestingly, it also contains new examples arising from the combination of dynamical and coherent control of causal order, and we detail explicitly one such process. Nevertheless, we show that quantum circuits with quantum control of causal order can only generate "causal" correlations, compatible with a well-defined causal order. We furthermore extend our considerations to probabilistic circuits that produce also classical outcomes, and we demonstrate by an example how our characterisations allow us to identify new advantages for quantum information processing tasks that could be demonstrated in practice.
翻訳日:2023-06-22 08:29:48 公開日:2023-06-19
# 確率的変分不等式に対する単純かつ最適手法 I:演算子外挿法

Simple and optimal methods for stochastic variational inequalities, I: operator extrapolation ( http://arxiv.org/abs/2011.02987v5 )

ライセンス: Link先を確認
Georgios Kotsalis, Guanghui Lan, Tianjiao Li(参考訳) 本稿ではまず,決定論的変分不等式(VI)問題を解決するための演算子外挿法を提案する。 勾配(オペレーター)投影法と同様に、oeは各イテレーションで単一のプロジェクションサブプロジェクションを解決し、1つの検索シーケンスを更新する。 oeは既存の手法よりもずっと簡単な方法で様々なvi問題を解決するために最適な収束率を達成できることを示す。 次に,確率作用素外挿法(soe)法を導入し,その最適収束挙動を定式化し,異なる確率 vi 問題を解く。 特に、soeは、文献の中で初めて、確率的滑らかかつ強い単調viという基本的な問題を解決するための最適な複雑さを達成する。 また,確率的ブロック演算子外挿法(SBOE)を提案し,あるブロック構造を持つ大規模決定論的 VI に適用した OE 法の繰り返しコストをさらに削減する。 提案アルゴリズムの潜在的な利点を示すための数値実験が実施されている。 実際、これらのアルゴリズムはすべて、作用素が必ずしも単調でない一般化単調変分不等式(GMVI)問題を解決するために適用される。 また,強化学習のためのoe に基づく最適政策評価手法について,コンパニオン・ペーパーで検討する。

In this paper we first present a novel operator extrapolation (OE) method for solving deterministic variational inequality (VI) problems. Similar to the gradient (operator) projection method, OE updates one single search sequence by solving a single projection subproblem in each iteration. We show that OE can achieve the optimal rate of convergence for solving a variety of VI problems in a much simpler way than existing approaches. We then introduce the stochastic operator extrapolation (SOE) method and establish its optimal convergence behavior for solving different stochastic VI problems. In particular, SOE achieves the optimal complexity for solving a fundamental problem, i.e., stochastic smooth and strongly monotone VI, for the first time in the literature. We also present a stochastic block operator extrapolations (SBOE) method to further reduce the iteration cost for the OE method applied to large-scale deterministic VIs with a certain block structure. Numerical experiments have been conducted to demonstrate the potential advantages of the proposed algorithms. In fact, all these algorithms are applied to solve generalized monotone variational inequality (GMVI) problems whose operator is not necessarily monotone. We will also discuss optimal OE-based policy evaluation methods for reinforcement learning in a companion paper.
翻訳日:2023-06-22 08:28:34 公開日:2023-06-19
# LEAD:Min-Max最適化のためのLast-Action Dynamics

LEAD: Least-Action Dynamics for Min-Max Optimization ( http://arxiv.org/abs/2010.13846v3 )

ライセンス: Link先を確認
Reyhane Askari Hemmat, Amartya Mitra, Guillaume Lajoie, Ioannis Mitliagkas(参考訳) generative adversarial networks (gans) のような敵対的定式化は、2人プレイのmin-maxゲームへの関心を再び高めた。 このようなゲームの最適化における中心的な障害は、その収束を妨げる回転動力学である。 本稿では,ゲーム最適化が複数の力を持つ粒子システムと動的特性を共有することを示し,物理のツールを活用すれば,最適化のダイナミクスを向上できることを示す。 物理フレームワークにヒントを得て,ミニマックスゲームのための最適化ツールLEADを提案する。 次に、リアプノフ安定理論とスペクトル解析を用いて、二次ミニマックスゲームの連続時間および離散時間設定におけるリードの収束特性を調べ、ナッシュ平衡への線形収束を示す。 最後に, 合成装置とCIFAR-10画像生成の手法を実証的に評価し, GANトレーニングの改善を実証した。

Adversarial formulations such as generative adversarial networks (GANs) have rekindled interest in two-player min-max games. A central obstacle in the optimization of such games is the rotational dynamics that hinder their convergence. In this paper, we show that game optimization shares dynamic properties with particle systems subject to multiple forces, and one can leverage tools from physics to improve optimization dynamics. Inspired by the physical framework, we propose LEAD, an optimizer for min-max games. Next, using Lyapunov stability theory and spectral analysis, we study LEAD's convergence properties in continuous and discrete time settings for a class of quadratic min-max games to demonstrate linear convergence to the Nash equilibrium. Finally, we empirically evaluate our method on synthetic setups and CIFAR-10 image generation to demonstrate improvements in GAN training.
翻訳日:2023-06-22 08:28:18 公開日:2023-06-19
# 半定値プログラムを解くためのリーマンランジュバンアルゴリズム

Riemannian Langevin Algorithm for Solving Semidefinite Programs ( http://arxiv.org/abs/2010.11176v6 )

ライセンス: Link先を確認
Mufan Bill Li, Murat A. Erdogdu(参考訳) 球面積多様体上での非凸最適化とサンプリングのためのランゲヴィン拡散に基づくアルゴリズムを提案する。 Under a logarithmic Sobolev inequality, we establish a guarantee for finite iteration convergence to the Gibbs distribution in terms of Kullback--Leibler divergence. We show that with an appropriate temperature choice, the suboptimality gap to the global minimum is guaranteed to be arbitrarily small with high probability. As an application, we consider the Burer--Monteiro approach for solving a semidefinite program (SDP) with diagonal constraints, and analyze the proposed Langevin algorithm for optimizing the non-convex objective. 特に、緩やかな局所ミニマが存在しないが、サドル点の存在下では、ブルア-モンテイロ問題に対する対数的ソボレフ不等式を確立する。 結果を組み合わせることで、SDPとMax-Cut問題に対するグローバルな最適性を保証する。 より正確には、Langevin アルゴリズムは $\epsilon$ accuracy を $\widetilde{\Omega}( \epsilon^{-5} )$ iterations で高い確率で達成することを示した。

We propose a Langevin diffusion-based algorithm for non-convex optimization and sampling on a product manifold of spheres. Under a logarithmic Sobolev inequality, we establish a guarantee for finite iteration convergence to the Gibbs distribution in terms of Kullback--Leibler divergence. We show that with an appropriate temperature choice, the suboptimality gap to the global minimum is guaranteed to be arbitrarily small with high probability. As an application, we consider the Burer--Monteiro approach for solving a semidefinite program (SDP) with diagonal constraints, and analyze the proposed Langevin algorithm for optimizing the non-convex objective. In particular, we establish a logarithmic Sobolev inequality for the Burer--Monteiro problem when there are no spurious local minima, but under the presence saddle points. Combining the results, we then provide a global optimality guarantee for the SDP and the Max-Cut problem. More precisely, we show that the Langevin algorithm achieves $\epsilon$ accuracy with high probability in $\widetilde{\Omega}( \epsilon^{-5} )$ iterations.
翻訳日:2023-06-22 08:28:04 公開日:2023-06-19
# IRX-1D:リモートセンシング分類のための簡易ディープラーニングアーキテクチャ

IRX-1D: A Simple Deep Learning Architecture for Remote Sensing Classifications ( http://arxiv.org/abs/2010.03902v2 )

ライセンス: Link先を確認
Mahesh Pal, Akshay, B. Charan Teja(参考訳) 本稿では,インセプション,ResNet,Xceptionネットワークの各要素を組み合わせたシンプルなディープラーニングアーキテクチャを提案する。 4つの新しいデータセットが、小規模および大規模トレーニングサンプルの分類に使用された。 分類精度はベイジアン最適化2D-CNNに比較して,提案手法による性能向上が示唆された。 インディ・パインズ・ハイパースペクトルデータセットを用いた小さなトレーニングサンプルによる結果の比較では、異なるディープラーニングアーキテクチャを用いた9つの報告結果よりも、提案されたアーキテクチャによる同等か良いパフォーマンスが示唆されている。 限られた訓練サンプルを用いた分類精度は高いが, 分類画像との比較では, 全データセットを用いた大規模トレーニングサンプルを用いた訓練モデルによる分類画像と比較すると, 異なる土地被覆クラスが同一領域に割り当てられていることが示唆された。

We proposes a simple deep learning architecture combining elements of Inception, ResNet and Xception networks. Four new datasets were used for classification with both small and large training samples. Results in terms of classification accuracy suggests improved performance by proposed architecture in comparison to Bayesian optimised 2D-CNN with small training samples. Comparison of results using small training sample with Indiana Pines hyperspectral dataset suggests comparable or better performance by proposed architecture than nine reported works using different deep learning architectures. In spite of achieving high classification accuracy with limited training samples, comparison of classified image suggests different land cover classes are assigned to same area when compared with the classified image provided by the model trained using large training samples with all datasets.
翻訳日:2023-06-22 08:27:46 公開日:2023-06-19
# 非商業的ピアツーピアライドシェアリングの効率性、公正性、安定性

Efficiency, Fairness, and Stability in Non-Commercial Peer-to-Peer Ridesharing ( http://arxiv.org/abs/2110.01152v2 )

ライセンス: Link先を確認
Hoon Oh, Yanhan Tang, Zong Zhang, Alexandre Jacquillat, Fei Fang(参考訳) 商業的ライドシェアリングとは異なり、非商業的ピアツーピア(p2p)ライドシェアリングは限定的な研究の対象となっている。 本稿は、P2Pライドシェアリングにおける中核的な問題である、ライダーとドライバーのマッチングに焦点を当てる。 我々は,P2Pライドシェアリングにおける利用者の嗜好を優先的に高め,公平性と安定性という新たな概念を導入する。 ユーザの好む出発時間,公平性,安定性など,ユーザ中心の要因を考慮した効率的なマッチングアルゴリズムを提案する。 その結果, 妥当かつ安定な解は妥当な計算時間で得られることが示唆され, システム全体の効率性に基づくベースライン結果の改善が期待できる。

Unlike commercial ridesharing, non-commercial peer-to-peer (P2P) ridesharing has been subject to limited research -- although it can promote viable solutions in non-urban communities. This paper focuses on the core problem in P2P ridesharing: the matching of riders and drivers. We elevate users' preferences as a first-order concern and introduce novel notions of fairness and stability in P2P ridesharing. We propose algorithms for efficient matching while considering user-centric factors, including users' preferred departure time, fairness, and stability. Results suggest that fair and stable solutions can be obtained in reasonable computational times and can improve baseline outcomes based on system-wide efficiency exclusively.
翻訳日:2023-06-22 06:47:22 公開日:2023-06-19
# 0D-2D エクソンのイテナントボース-アインシュタイン凝縮を用いた超大型量子レジスタ構築のためのヘテロ構造

0D-2D Heterostructure for making very Large Quantum Registers using itinerant Bose-Einstein Condensate of Excitons ( http://arxiv.org/abs/2107.13518v3 )

ライセンス: Link先を確認
Amit Bhunia, Mohit Kumar Singh, Maryam Al Huwayz, Mohamed Henini and Shouvik Datta(参考訳) 量子ドット(ゼロ次元)量子井戸(2次元)ヘテロ構造におけるコヒーレント共鳴トンネルの存在は、巨視的に広い領域における励起双極子の平均電気分極の集団振動を説明するために必要である。 これは印加電圧バイアスの関数として光励起容量を用いて測定した。 このヘテロ構造における共鳴トンネルは、量子井戸内の荷電担体の運動量空間と関連する間接励起子の運動量空間を必要とする。 間接的双極子励起子の長距離空間秩序を媒介とする面内クーロン相関に対する負の量子容量点の周期的変動の観測 白色光の下でも励起子偏波の量子干渉ビートと、巨視的に広い領域で観測されたラビ振動とのコントラストは、長い距離秩序を持つ密度駆動励起子凝縮の存在を支持する。 フォトキャパシタンススペクトルにおける励起ピークの分裂の周期的存在(存在)は、量子井戸のエネルギーレベルと応用バイアスを持つ量子ドットの間の集団的結合(疎結合)を証明し、量子ゲート演算に使用することができる。 これらの観測はすべて、この量子ドットの励起子の2成分ボース=アインシュタイン凝縮体のマクロ的に大きく、量子状態の実験的制御を示している。 したがって、原理的には、数百万の2段階の励起量子ビットは、局所的な電場を制御したり、重なり合う光スポットの様々な光励起強度によって、そのようなハイブリッドなヘテロ構造を用いて大きな量子レジスタを作ることができる。

Presence of coherent resonant tunneling in quantum dot (zero-dimensional) - quantum well (two-dimensional) heterostructure is necessary to explain the collective oscillations of average electrical polarization of excitonic dipoles over a macroscopically large area. This was measured using photo excited capacitance as a function of applied voltage bias. Resonant tunneling in this heterostructure definitely requires momentum space narrowing of charge carriers inside the quantum well and that of associated indirect excitons, which indicates bias dependent itinerant Bose-Einstein condensation of excitons. Observation of periodic variations in negative quantum capacitance points to in-plane coulomb correlations mediated by long range spatial ordering of indirect, dipolar excitons. Enhanced contrast of quantum interference beats of excitonic polarization waves even under white light and observed Rabi oscillations over a macroscopically large area also support the presence of density driven excitonic condensation having long range order. Periodic presence (absence) of splitting of excitonic peaks in photocapacitance spectra even demonstrate collective coupling (decoupling) between energy levels of the quantum well and quantum dots with applied biases, which can potentially be used for quantum gate operations. All these observations point to experimental control of macroscopically large, quantum state of a two-component Bose-Einstein condensate of excitons in this quantum dot - quantum well heterostructure. Therefore, in principle, millions of two-level excitonic qubits can be intertwined to fabricate large quantum registers using such hybrid heterostructure by controlling the local electric fields and also by varying photoexcitation intensities of overlapping light spots.
翻訳日:2023-06-22 06:47:09 公開日:2023-06-19
# 差分プライバシーを用いた深層学習の収束と校正について

On the Convergence and Calibration of Deep Learning with Differential Privacy ( http://arxiv.org/abs/2106.07830v6 )

ライセンス: Link先を確認
Zhiqi Bu, Hua Wang, Zongyu Dai, Qi Long(参考訳) 差分プライベート(DP)トレーニングは、データプライバシを通常、収束を遅くする(従って精度を低下させる)コストで保持すると同時に、非プライベートなものよりも深刻な誤校正を行う。 DPトレーニングの収束を解析するために、任意のネットワークアーキテクチャと損失関数に対して、サンプルごとの勾配クリッピングとDPトレーニングにおける雑音付加を特徴付ける、ニューラルタンジェントカーネル(NTK)のレンズを通して連続時間解析を定式化する。 興味深いことに,ノイズ付加はプライバシのリスクにのみ影響し,コンバージェンスやキャリブレーションには影響しない。 さらに,小さなクリッピング規範で訓練されたdpモデルは,通常,最も正確な精度が得られるが,校正が不十分で信頼できないことも観察した。 対照的に、大きなクリッピング規範で訓練されたDPモデルは、同じプライバシー保証と類似の精度を享受するが、よりはるかに高めのtextit{calibrated} である。 我々のコードは \url{https://github.com/woodyx218/opacus_global_clipping} にある。

Differentially private (DP) training preserves the data privacy usually at the cost of slower convergence (and thus lower accuracy), as well as more severe mis-calibration than its non-private counterpart. To analyze the convergence of DP training, we formulate a continuous time analysis through the lens of neural tangent kernel (NTK), which characterizes the per-sample gradient clipping and the noise addition in DP training, for arbitrary network architectures and loss functions. Interestingly, we show that the noise addition only affects the privacy risk but not the convergence or calibration, whereas the per-sample gradient clipping (under both flat and layerwise clipping styles) only affects the convergence and calibration. Furthermore, we observe that while DP models trained with small clipping norm usually achieve the best accurate, but are poorly calibrated and thus unreliable. In sharp contrast, DP models trained with large clipping norm enjoy the same privacy guarantee and similar accuracy, but are significantly more \textit{calibrated}. Our code can be found at \url{https://github.com/woodyx218/opacus_global_clipping}.
翻訳日:2023-06-22 06:46:36 公開日:2023-06-19
# グローバーウォークのための快適なグラフ構造

A comfortable graph structure for Grover walk ( http://arxiv.org/abs/2201.01926v2 )

ライセンス: Link先を確認
Yusuke Higuchi, Mohamed Sabri and Etsuo Segawa(参考訳) 有限内部グラフ上のグロバーウォークモデルを考えると、有限個の半無限長経路に連結され、各ステップでこれらの経路に沿った代替の流入を受ける。 長い時間スケールの後、このようなグロバーウォークの挙動は安定している、すなわち、このモデルが定常状態を持つことが分かっている。 本稿では, 内部グラフの表面における定常状態の散乱と, 内部におけるこの状態のエネルギーについて, キャラクタリゼーションを行う。 散乱に対しては、内部グラフが二成分であるか否かによって形状が変化する散乱行列を具体的に与える。 一方,量子ウォークのためのグラフの快適性関数を導入し,内部に何人の量子ウォーカーが留まるかを示し,内部グラフの組合せ特性の観点からウォーカーの快適性を示すことに成功している。

We consider a Grover walk model on a finite internal graph, which is connected with a finite number of semi-infinite length paths and receives the alternative inflows along these paths at each time step. After the long time scale, we know that the behavior of such a Grover walk should be stable, that is, this model has a stationary state. In this paper our objectives are to give some characterization upon the scattering of the stationary state on the surface of the internal graph and upon the energy of this state in the interior. For the scattering, we concretely give a scattering matrix, whose form is changed depending on whether the internal graph is bipartite or not. On the other hand, we introduce a comfortability function of a graph for the quantum walk, which shows how many quantum walkers can stay in the interior, and we succeed in showing the comfortability of the walker in terms of combinatorial properties of the internal graph.
翻訳日:2023-06-22 06:38:24 公開日:2023-06-19
# 公開量子コンピュータにおける量子ビット回転の精度検証

Testing accuracy of qubit rotations on a public quantum computer ( http://arxiv.org/abs/2112.07567v4 )

ライセンス: Link先を確認
Tomasz Bia{\l}ecki, Tomasz Rybotycki, Jakub Tworzyd{\l}o, Adam Bednorz(参考訳) 我々はIBMが提供する公開量子コンピュータ上での$\pi/2$ qubit回転のテスト結果を分析する。 1つの量子ビットをランダム軸約$\pi/2$で回転させ、結果の膨大な統計を蓄積する。 異なるデバイスで行ったテストは、理論的な予測から体系的な逸脱を示し、それは10^{-3}$で表される。 5つの標準偏差を超える差のいくつかは、パルス生成の非線形性による単純な補正では説明できない。 偏差の大きさは、ゲートのランダム化ベンチマークに匹敵するが、同時に発音されたパラメトリック依存性も観察する。 単一量子空間以外の状態を含む、偏差の可能性のある他の理由について論じる。 偏差は異なるタイミングで使用される様々なデバイスに類似した構造を持つため、不完全なゲート実装や関連する物理システムの忠実な記述を排除する診断ツールとしても機能する。

We analyze the results of the test of $\pi/2$ qubit rotations on the public quantum computer provided by IBM. We measure a single qubit rotated by $\pi/2$ about a random axis, and we accumulate vast statistics of the results. The test performed on different devices shows systematic deviations from the theoretical predictions, which appear at the level $10^{-3}$. Some of the differences, beyond 5 standard deviations, cannot be explained by simple corrections due to nonlinearities of pulse generations. The magnitude of the deviation is comparable with the randomized benchmarking of the gate, but we additionally observe a pronounced parametric dependence. We discuss other possible reasons of the deviations, including states beyond the single-qubit space. The deviations have a similar structure for various devices used at different times, and so they can also serve as a diagnostic tool to eliminate imperfect gate implementations, and faithful description of the involved physical systems.
翻訳日:2023-06-22 06:37:48 公開日:2023-06-19
# ウィップラッシュ勾配降下ダイナミクス

Whiplash Gradient Descent Dynamics ( http://arxiv.org/abs/2203.02140v4 )

ライセンス: Link先を確認
Subhransu S. Bhattacharjee and Ian R. Petersen(参考訳) 本稿では,有限次元環境におけるコスト関数の最小値を求めるために,勾配情報を利用する閉ループ最適化手法であるwhiplash inertial gradient dynamicsを提案する。 本稿では,凸関数に対するウィップラッシュ系のシンプレクティック漸近収束解析について述べる。 また,アルゴリズムの非古典的性質を説明するために緩和シーケンスを導入し,ウィップラッシュアルゴリズムのヒューリスティックな変種を探索し,サドルポイントから決定論的に逃れる。 アルゴリズムの性能を様々なコストで検討し、積分制約境界と新しいリアプノフ率法を用いて収束率を解析するための実践的方法論を提供する。 この結果は二次コスト関数に対する多項式および指数収束率を示す。

In this paper, we propose the Whiplash Inertial Gradient dynamics, a closed-loop optimization method that utilises gradient information, to find the minima of a cost function in finite-dimensional settings. We introduce the symplectic asymptotic convergence analysis for the Whiplash system for convex functions. We also introduce relaxation sequences to explain the non-classical nature of the algorithm and an exploring heuristic variant of the Whiplash algorithm to escape saddle points, deterministically. We study the algorithm's performance for various costs and provide a practical methodology for analyzing convergence rates using integral constraint bounds and a novel Lyapunov rate method. Our results demonstrate polynomial and exponential rates of convergence for quadratic cost functions.
翻訳日:2023-06-22 06:26:10 公開日:2023-06-19
# SAITS: 自己注意に基づく時系列計算

SAITS: Self-Attention-based Imputation for Time Series ( http://arxiv.org/abs/2202.08516v4 )

ライセンス: Link先を確認
Wenjie Du, David Cote, Yan Liu(参考訳) 時系列データの欠落は、高度な分析方法に障害を課す広範囲な問題である。 一般的な解決策はインプテーションであり、どの値を埋めるべきかを決めることが基本的な課題である。 本稿では,多変量時系列における値計算の欠落に対する自己注意機構に基づくSAITSを提案する。 SAITSは共同最適化アプローチによって訓練され、2つの対角行列自己注意ブロック(DMSA)の重み付け組み合わせから欠落値を学ぶ。 dmsaは、時間ステップ間の時間依存性と特徴相関の両方を明示的に捉え、インプテーション精度とトレーニング速度を改善する。 一方、重み付け合成設計では、注意マップと不足情報に基づいて、2つのDMSAブロックから学習した表現に重みを動的に割り当てることができる。 広範かつ質的な実験により,SAITSは時系列計算タスクにおける最先端手法を効率よく上回り,実世界の不完全時系列データに基づくパターン認識モデルの学習性能を向上させるためのSAITSの可能性を明らかにする。

Missing data in time series is a pervasive problem that puts obstacles in the way of advanced analysis. A popular solution is imputation, where the fundamental challenge is to determine what values should be filled in. This paper proposes SAITS, a novel method based on the self-attention mechanism for missing value imputation in multivariate time series. Trained by a joint-optimization approach, SAITS learns missing values from a weighted combination of two diagonally-masked self-attention (DMSA) blocks. DMSA explicitly captures both the temporal dependencies and feature correlations between time steps, which improves imputation accuracy and training speed. Meanwhile, the weighted-combination design enables SAITS to dynamically assign weights to the learned representations from two DMSA blocks according to the attention map and the missingness information. Extensive experiments quantitatively and qualitatively demonstrate that SAITS outperforms the state-of-the-art methods on the time-series imputation task efficiently and reveal SAITS' potential to improve the learning performance of pattern recognition models on incomplete time-series data from the real world.
翻訳日:2023-06-22 06:25:32 公開日:2023-06-19
# OLIVE: スパシフィケーションのリスクに対する信頼された実行環境に関するオープンなフェデレーションラーニング

OLIVE: Oblivious Federated Learning on Trusted Execution Environment against the risk of sparsification ( http://arxiv.org/abs/2202.07165v5 )

ライセンス: Link先を確認
Fumiyuki Kato, Yang Cao, Masatoshi Yoshikawa(参考訳) FL(Federated Learning)とTrusted Execution Environment(TEE)を組み合わせることは、近年大きな学術的注目を集めているプライバシー保護FLを実現するための有望なアプローチである。 サーバ側でTEEを実装することで、クライアントの勾配情報を信頼できないサーバに公開することなく、FLの各ラウンドを進行させることができる。 これにより、既存のセキュアアグリゲーションスキームにおけるユーザビリティギャップと、差分プライベートflにおけるユーティリティギャップが解決される。 しかし、TEEを使ってこの問題に対処するには、サーバーサイドのTEEの脆弱性を考慮する必要がある。 本研究の主な技術的貢献は、FLおよび防衛におけるTEEの脆弱性の分析である。 まず,メモリアクセスパターンの漏洩を理論的に解析し,通信効率とモデル精度を高めるためにFLで一般的に使用されるスカラー化勾配のリスクを明らかにする。 第2に,トレーニングデータセット内のセンシティブな情報にメモリアクセスパターンをリンクする推論攻撃を考案する。 最後に,メモリアクセスパターンの漏洩を防止し,かつ効率的なアグリゲーションアルゴリズムを提案する。 実世界データを用いた実験により,提案手法が実用的なスケールで効率的に機能することを示す。

Combining Federated Learning (FL) with a Trusted Execution Environment (TEE) is a promising approach for realizing privacy-preserving FL, which has garnered significant academic attention in recent years. Implementing the TEE on the server side enables each round of FL to proceed without exposing the client's gradient information to untrusted servers. This addresses usability gaps in existing secure aggregation schemes as well as utility gaps in differentially private FL. However, to address the issue using a TEE, the vulnerabilities of server-side TEEs need to be considered -- this has not been sufficiently investigated in the context of FL. The main technical contribution of this study is the analysis of the vulnerabilities of TEE in FL and the defense. First, we theoretically analyze the leakage of memory access patterns, revealing the risk of sparsified gradients, which are commonly used in FL to enhance communication efficiency and model accuracy. Second, we devise an inference attack to link memory access patterns to sensitive information in the training dataset. Finally, we propose an oblivious yet efficient aggregation algorithm to prevent memory access pattern leakage. Our experiments on real-world data demonstrate that the proposed method functions efficiently in practical scales.
翻訳日:2023-06-22 06:25:11 公開日:2023-06-19
# 代替入力を用いたクラスター状態量子回路の効率的古典シミュレーション

Efficient classical simulation of cluster state quantum circuits with alternative inputs ( http://arxiv.org/abs/2201.07655v2 )

ライセンス: Link先を確認
Sahar Atallah, Michael Garn, Sania Jevtic, Yukuan Tao, Shashank Virmani(参考訳) 本稿では,クラスター状態量子計算に関連する純粋に絡み合ったシステムの新しい例を示し,古典的シミュレーションを効率的に行う。 クラスタ状態の量子計算入力キュービットはブロッホ球の「赤道」で初期化され、$CZ$ゲートが適用され、最終的に$Z$測定または$\cos(\theta)X + \sin(\theta)Y$演算子を用いて適応的に測定される。 初期化ステップが修正されたときに何が起こるかを考えると、有限次$D$の格子に対して定数$\lambda \approx 2.06$が存在し、もし量子ビットが計算ベースで対角的な状態のトレース距離において$\lambda^{-D}$内にある状態に準備されているなら、所望の総変分距離における出力分布からのサンプリングを古典的に効率的にシミュレートできる。 例えば、$D=4$の正方格子では、$\lambda^{-D} \approx 0.056$である。 古典的効率のよい領域のサイズを増加させる,粗粒度バージョンの引数を開発した。 量子ビットの平方格子の場合、古典的にシミュラタブルな領域のサイズは少なくとも$\approx 0.070$に増加し、実際は$\approx 0.1$に増加する。 結果は、相互作用が計算ベースで対角的であり、測定が計算ベースで、あるいはそれに対してバイアスのない、より広範なシステムのファミリーに一般化される。 短いバージョンだけを欲しがる読者は、図1から図3までの直感を多く得ることができる。

We provide new examples of pure entangled systems related to cluster state quantum computation that can be efficiently simulated classically. In cluster state quantum computation input qubits are initialised in the `equator' of the Bloch sphere, $CZ$ gates are applied, and finally the qubits are measured adaptively using $Z$ measurements or measurements of $\cos(\theta)X + \sin(\theta)Y$ operators. We consider what happens when the initialisation step is modified, and show that for lattices of finite degree $D$, there is a constant $\lambda \approx 2.06$ such that if the qubits are prepared in a state that is within $\lambda^{-D}$ in trace distance of a state that is diagonal in the computational basis, then the system can be efficiently simulated classically in the sense of sampling from the output distribution within a desired total variation distance. In the square lattice with $D=4$ for instance, $\lambda^{-D} \approx 0.056$. We develop a coarse grained version of the argument which increases the size of the classically efficient region. In the case of the square lattice of qubits, the size of the classically simulatable region increases in size to at least around $\approx 0.070$, and in fact probably increases to around $\approx 0.1$. The results generalise to a broader family of systems, including qudit systems where the interaction is diagonal in the computational basis and the measurements are either in the computational basis or unbiased to it. Potential readers who only want the short version can get much of the intuition from figures 1 to 3.
翻訳日:2023-06-22 06:24:51 公開日:2023-06-19
# 非パラメトリック分類におけるミニマックス最適ロバストネス介入のアンダーサンプリング

Undersampling is a Minimax Optimal Robustness Intervention in Nonparametric Classification ( http://arxiv.org/abs/2205.13094v4 )

ライセンス: Link先を確認
Niladri S. Chatterji, Saminul Haque, Tatsunori Hashimoto(参考訳) 分散シフトに取り組むために、幅広いテクニックが提案されているが、$\textit{undersampled}$ balancedデータセットのトレーニングの単純なベースラインは、しばしばいくつかの人気のあるベンチマークで最先端に近い精度を達成している。 アルゴリズムのアンサンプは、過剰な多数派データを排除している。 この現象を理解するために、学習が少数群のサンプル不足によって根本的に制約されているかどうかを問う。 これは実際には、非パラメトリック二項分類の設定におけるものであることを証明している。 以上の結果から,列車とテスト分布の重複度が高い場合(実世界のデータセットではありそうにない)や,アルゴリズムが分布シフトに関する付加的な構造を利用する場合,アンダーサンプリングをアルゴリズムが上回らないことが示唆された。 特にラベルシフトの場合、常にミニマックス最適であるアンダーサンプリングアルゴリズムが存在することを示す。 群共変量シフトの場合、群分布間の重なりが小さい場合に最小最適となるアンダーサンプリングアルゴリズムが存在することを示す。 また,ラベルシフトデータセットに関する実験ケーススタディを実施し,ロバストニューラルネットワーク分類器のテスト精度はマイノリティサンプル数によって制限されていることを確認した。

While a broad range of techniques have been proposed to tackle distribution shift, the simple baseline of training on an $\textit{undersampled}$ balanced dataset often achieves close to state-of-the-art-accuracy across several popular benchmarks. This is rather surprising, since undersampling algorithms discard excess majority group data. To understand this phenomenon, we ask if learning is fundamentally constrained by a lack of minority group samples. We prove that this is indeed the case in the setting of nonparametric binary classification. Our results show that in the worst case, an algorithm cannot outperform undersampling unless there is a high degree of overlap between the train and test distributions (which is unlikely to be the case in real-world datasets), or if the algorithm leverages additional structure about the distribution shift. In particular, in the case of label shift we show that there is always an undersampling algorithm that is minimax optimal. In the case of group-covariate shift we show that there is an undersampling algorithm that is minimax optimal when the overlap between the group distributions is small. We also perform an experimental case study on a label shift dataset and find that in line with our theory, the test accuracy of robust neural network classifiers is constrained by the number of minority samples.
翻訳日:2023-06-22 06:18:12 公開日:2023-06-19
# ウェーブレット散乱スペクトルを用いたスケール依存性と自己相似モデル

Scale Dependencies and Self-Similar Models with Wavelet Scattering Spectra ( http://arxiv.org/abs/2204.10177v2 )

ライセンス: Link先を確認
Rudy Morel, Gaspar Rochette, Roberto Leonarduzzi, Jean-Philippe Bouchaud, St\'ephane Mallat(参考訳) 定常増分を持つ時系列の非ガウスモデルを提供するウェーブレット散乱スペクトルを導入する。 複素ウェーブレット変換は、各スケールの信号変動を計算する。 スケール間の依存性は、ウェーブレット係数とその係数の時間とスケールのジョイント相関によって捉えられる。 この相関行列は散乱スペクトルを定義する第2ウェーブレット変換によってほぼ対角化される。 このモーメントのベクトルは多スケールプロセスのガウス的でない幅広い性質を特徴付けることを示す。 自己相似過程がスケール不変な散乱スペクトルを持つことを示す。 この性質は単一の実現上で統計的にテストでき、広義の自己相似プロセスのクラスを定義することができる。 散乱スペクトル係数を条件とした最大エントロピーモデルを構築し,マイクロカノニカルサンプリングアルゴリズムを用いて新しい時系列を生成する。 非常に非ゲージ的な金融と乱流の時系列に対する応用が示されている。

We introduce the wavelet scattering spectra which provide non-Gaussian models of time-series having stationary increments. A complex wavelet transform computes signal variations at each scale. Dependencies across scales are captured by the joint correlation across time and scales of wavelet coefficients and their modulus. This correlation matrix is nearly diagonalized by a second wavelet transform, which defines the scattering spectra. We show that this vector of moments characterizes a wide range of non-Gaussian properties of multi-scale processes. We prove that self-similar processes have scattering spectra which are scale invariant. This property can be tested statistically on a single realization and defines a class of wide-sense self-similar processes. We build maximum entropy models conditioned by scattering spectra coefficients, and generate new time-series with a microcanonical sampling algorithm. Applications are shown for highly non-Gaussian financial and turbulence time-series.
翻訳日:2023-06-22 06:16:15 公開日:2023-06-19
# 医学における因果木法による最適動的治療規則の学習

Learning Optimal Dynamic Treatment Regimes Using Causal Tree Methods in Medicine ( http://arxiv.org/abs/2204.07124v2 )

ライセンス: Link先を確認
Theresa Bl\"umlein, Joel Persson, Stefan Feuerriegel(参考訳) 動的治療レジーム(DTR)は、患者の不均一性を考慮して患者に対して順次治療決定を調整するために医療で使用される。 しかし、最適なdtrを学習するための一般的な方法は、典型的には結果予測に基づいており、治療効果の推定ではなく、現代の電子健康記録から患者データに制限のある線形モデルを使う。 これらの欠点に対処するために、複雑な患者データを効果的に扱う最適なDTRを学習するための2つの新しい方法を開発した。 DTR-CTとDTR-CFと呼ぶ。 本手法は,非線形関係を学習し,時間的変化の制御を行う因果樹法,特に因果樹法および因果樹法を用いて,不均一な処理効果をデータ駆動で推定し,両立し,説明可能である。 我々の知る限りでは、最適なDTRの学習に因果木法を適用した最初の論文である。 提案手法を合成データを用いて評価し,それらを集中治療室からの実世界データに適用する。 本手法は,累積的後悔と最適決定率という観点で,最先端のベースラインをかなり上回っている。 本研究は,電子カルテからの治療法の推奨を改善し,パーソナライズされた医療に直接的な関連性をもたらす。

Dynamic treatment regimes (DTRs) are used in medicine to tailor sequential treatment decisions to patients by considering patient heterogeneity. Common methods for learning optimal DTRs, however, have shortcomings: they are typically based on outcome prediction and not treatment effect estimation, or they use linear models that are restrictive for patient data from modern electronic health records. To address these shortcomings, we develop two novel methods for learning optimal DTRs that effectively handle complex patient data. We call our methods DTR-CT and DTR-CF. Our methods are based on a data-driven estimation of heterogeneous treatment effects using causal tree methods, specifically causal trees and causal forests, that learn non-linear relationships, control for time-varying confounding, are doubly robust, and explainable. To the best of our knowledge, our paper is the first that adapts causal tree methods for learning optimal DTRs. We evaluate our proposed methods using synthetic data and then apply them to real-world data from intensive care units. Our methods outperform state-of-the-art baselines in terms of cumulative regret and percentage of optimal decisions by a considerable margin. Our work improves treatment recommendations from electronic health record and is thus of direct relevance for personalized medicine.
翻訳日:2023-06-22 06:16:04 公開日:2023-06-19
# 言語横断型AMR Aligner:注意をクロスアテンションに支払う

Cross-lingual AMR Aligner: Paying Attention to Cross-Attention ( http://arxiv.org/abs/2206.07587v2 )

ライセンス: Link先を確認
Abelardo Carlos Mart\'inez Lorenzo, Pere-Llu\'is Huguet Cabot, Roberto Navigli(参考訳) 本稿では,言語横断的拡張が可能な抽象的意味表現(amr)グラフのための新しいアライナーを提案する。 提案手法は,アライメント情報をクロスアライメント重みにエンコードする現代的なトランスフォーマティブベースのパーサを活用しており,解析中にその情報を抽出することができる。 これにより、以前のアプローチで使われた英語固有のルールや期待最大化(em)アルゴリズムの必要性がなくなる。 また,調整器の性能をさらに高めるためにアライメントを用いた教師付き指導手法を提案する。 AMRアライメントのベンチマークで最先端の結果が得られ、複数の言語にまたがってアライメントを行う能力を示す。 私たちのコードは、 \href{https://www.github.com/Babelscape/AMR-alignment}{github.com/Babelscape/AMR-alignment}で利用可能です。

This paper introduces a novel aligner for Abstract Meaning Representation (AMR) graphs that can scale cross-lingually, and is thus capable of aligning units and spans in sentences of different languages. Our approach leverages modern Transformer-based parsers, which inherently encode alignment information in their cross-attention weights, allowing us to extract this information during parsing. This eliminates the need for English-specific rules or the Expectation Maximization (EM) algorithm that have been used in previous approaches. In addition, we propose a guided supervised method using alignment to further enhance the performance of our aligner. We achieve state-of-the-art results in the benchmarks for AMR alignment and demonstrate our aligner's ability to obtain them across multiple languages. Our code will be available at \href{https://www.github.com/Babelscape/AMR-alignment}{github.com/Babelscape/AMR-alignment}.
翻訳日:2023-06-22 06:08:47 公開日:2023-06-19
# ピラミッド型ニューラルネットワークに基づくヒステリック行動シミュレーション:原理,ネットワークアーキテクチャ,ケーススタディ,説明

Hysteretic Behavior Simulation Based on Pyramid Neural Network:Principle, Network Architecture, Case Study and Explanation ( http://arxiv.org/abs/2206.03990v2 )

ライセンス: Link先を確認
Yongjia Xu, Xinzheng Lu, Yifan Fei, Yuli Huang(参考訳) 構造解析には材料・成分の履歴挙動の高精度かつ効率的なシミュレーションが不可欠である。 ニューラルネットワークに基づくサーロゲートモデルは、効率と精度のバランスをとる可能性を示す。 しかし、そのシリアル情報の流れとシングルレベル特徴に基づく予測はネットワーク性能に悪影響を及ぼす。 したがって、重み付けされたピラミッドニューラルネットワークアーキテクチャを提案する。 このネットワークは、出力モジュールに機能を直接統合するマルチレベルショートカットを導入することで、ピラミッドアーキテクチャを確立する。 さらに,従来の特徴融合法を強化するため,重み付き積み重ね戦略を提案する。 その後、再設計されたアーキテクチャは他の一般的なネットワークアーキテクチャと比較される。 結果は再設計されたアーキテクチャが87.5%のケースで代替案を上回ることを示している。 一方、異なる基本ネットワークアーキテクチャの長期および短期記憶能力は、特別に設計された実験を通して分析され、ネットワーク選択に有用な提案を与える。

An accurate and efficient simulation of the hysteretic behavior of materials and components is essential for structural analysis. The surrogate model based on neural networks shows significant potential in balancing efficiency and accuracy. However, its serial information flow and prediction based on single-level features adversely affect the network performance. Therefore, a weighted stacked pyramid neural network architecture is proposed herein. This network establishes a pyramid architecture by introducing multi-level shortcuts to integrate features directly in the output module. In addition, a weighted stacked strategy is proposed to enhance the conventional feature fusion method. Subsequently, the redesigned architectures are compared with other commonly used network architectures. Results show that the redesigned architectures outperform the alternatives in 87.5% of cases. Meanwhile, the long and short-term memory abilities of different basic network architectures are analyzed through a specially designed experiment, which could provide valuable suggestions for network selection.
翻訳日:2023-06-22 06:07:49 公開日:2023-06-19
# マルコフ決定過程のロバストな時間学習

Robust Anytime Learning of Markov Decision Processes ( http://arxiv.org/abs/2205.15827v4 )

ライセンス: Link先を確認
Marnix Suilen, Thiago D. Sim\~ao, David Parker, Nils Jansen(参考訳) マルコフ決定プロセス(MDPs)は、シーケンシャルな意思決定で一般的に使用される形式モデルである。 MDPは、例えば遷移関数の確率を通じて不正確なアクチュエータから生じる確率をキャプチャする。 しかし、データ駆動のアプリケーションでは、(限られた)データから正確な確率を導き出すと、予期しない結果や望ましくない結果につながる統計的エラーが生じる。 不確実なMDP (uMDPs) は正確な確率を必要としないが、そのような制限されたデータを考慮して、遷移においていわゆる不確実性セットを使用する。 形式検証コミュニティのツールは、不確実性セットの最悪の例の下で、安全制約のような形式的仕様に確実に準拠する堅牢なポリシーを効率的に計算します。 我々は、ベイズ推論スキームとロバストポリシーの計算を組み合わせた頑健な任意の時間学習アプローチで、MDPの遷移確率を継続的に学習する。 特に,(1)間隔として確率を近似し,(2)中間モデルと矛盾する可能性のある新しいデータに適応し,(3)データを忠実にキャプチャするumdp上の強固なポリシーを計算するためにいつでも停止することができる。 さらに,本手法は環境の変化に適応することができる。 本手法の有効性をucrl2強化学習アルゴリズムで学習したumdpsに基づく強固なポリシーと比較し,いくつかのベンチマークにおける実験評価を行った。

Markov decision processes (MDPs) are formal models commonly used in sequential decision-making. MDPs capture the stochasticity that may arise, for instance, from imprecise actuators via probabilities in the transition function. However, in data-driven applications, deriving precise probabilities from (limited) data introduces statistical errors that may lead to unexpected or undesirable outcomes. Uncertain MDPs (uMDPs) do not require precise probabilities but instead use so-called uncertainty sets in the transitions, accounting for such limited data. Tools from the formal verification community efficiently compute robust policies that provably adhere to formal specifications, like safety constraints, under the worst-case instance in the uncertainty set. We continuously learn the transition probabilities of an MDP in a robust anytime-learning approach that combines a dedicated Bayesian inference scheme with the computation of robust policies. In particular, our method (1) approximates probabilities as intervals, (2) adapts to new data that may be inconsistent with an intermediate model, and (3) may be stopped at any time to compute a robust policy on the uMDP that faithfully captures the data so far. Furthermore, our method is capable of adapting to changes in the environment. We show the effectiveness of our approach and compare it to robust policies computed on uMDPs learned by the UCRL2 reinforcement learning algorithm in an experimental evaluation on several benchmarks.
翻訳日:2023-06-22 06:05:45 公開日:2023-06-19
# ViP3D:3Dエージェントクエリによるエンドツーエンドの視覚軌道予測

ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries ( http://arxiv.org/abs/2208.01582v3 )

ライセンス: Link先を確認
Junru Gu, Chenxu Hu, Tianyuan Zhang, Xuanyao Chen, Yilun Wang, Yue Wang, Hang Zhao(参考訳) 知覚と予測は、既存の自律運転システムでは2つの別々のモジュールである。 エージェントバウンディングボックスやトラジェクタなどの手動で選択した機能を通じて相互に対話する。 この分離のため、下流モジュールとしての予測は知覚モジュールから限られた情報しか受信しない。 さらに悪いことに、知覚モジュールからのエラーは伝播し蓄積することができ、予測結果に悪影響を及ぼす。 本研究では,生映像からの豊富な情報を活用し,シーン内のエージェントの将来の軌跡を直接予測する,クエリベースのビジュアル軌跡予測パイプラインvip3dを提案する。 ViP3Dはスパースエージェントクエリを使用してパイプライン全体を検出し、追跡し、予測する。 過去の特徴マップやトラジェクトリを使う代わりに、過去のタイムスタンプからの有用な情報をエージェントクエリにエンコードすることで、ViP3Dを簡潔なストリーミング予測手法にする。 さらに、nuScenesデータセットの広範な実験結果から、従来のパイプラインや従来のエンドツーエンドモデルよりも強力なビジョンベースのViP3D予測性能が示されている。

Perception and prediction are two separate modules in the existing autonomous driving systems. They interact with each other via hand-picked features such as agent bounding boxes and trajectories. Due to this separation, prediction, as a downstream module, only receives limited information from the perception module. To make matters worse, errors from the perception modules can propagate and accumulate, adversely affecting the prediction results. In this work, we propose ViP3D, a query-based visual trajectory prediction pipeline that exploits rich information from raw videos to directly predict future trajectories of agents in a scene. ViP3D employs sparse agent queries to detect, track, and predict throughout the pipeline, making it the first fully differentiable vision-based trajectory prediction approach. Instead of using historical feature maps and trajectories, useful information from previous timestamps is encoded in agent queries, which makes ViP3D a concise streaming prediction method. Furthermore, extensive experimental results on the nuScenes dataset show the strong vision-based prediction performance of ViP3D over traditional pipelines and previous end-to-end models.
翻訳日:2023-06-22 05:58:41 公開日:2023-06-19
# クープマンスペクトルによる安定不変モデル

Stable Invariant Models via Koopman Spectra ( http://arxiv.org/abs/2207.07475v2 )

ライセンス: Link先を確認
Takuya Konishi, Yoshinobu Kawahara(参考訳) 重み付きモデルが現代のニューラルネットワークの発展に注目を集めている。 ディープ均衡モデル(DEQ)は、重み付けを伴う無限に深いニューラルネットワークを表現し、最近の研究ではこの種のアプローチの可能性を示している。 deqは、トレーニングにおけるルート探索の問題を反復的に解くために必要であり、モデルによって決定される基盤となるダイナミクスが不動点に収束するという仮定に基づいている。 本稿では,安定性の下でdeqsを近似し,不変集合(不動点に制限されない)に収束するより一般的なモデルにダイナミクスを拡張できる新しいディープモデルのクラスであるstable invariant model(sim)を提案する。 SIMを導出する鍵となる要素は、クープマンとペロン-フロベニウス作用素のスペクトルを持つ力学の表現である。 この視点はdeqsの安定なダイナミクスを概ね示し、simsの2つの変種を導出する。 また,フィードフォワードモデルと同じ方法で学習可能なSIMの実装を提案する。 実験によりSIMの実証的な性能を実証し,複数の学習課題において,SIMがDECに対して比較あるいは優れた性能を達成することを示す。

Weight-tied models have attracted attention in the modern development of neural networks. The deep equilibrium model (DEQ) represents infinitely deep neural networks with weight-tying, and recent studies have shown the potential of this type of approach. DEQs are needed to iteratively solve root-finding problems in training and are built on the assumption that the underlying dynamics determined by the models converge to a fixed point. In this paper, we present the stable invariant model (SIM), a new class of deep models that in principle approximates DEQs under stability and extends the dynamics to more general ones converging to an invariant set (not restricted in a fixed point). The key ingredient in deriving SIMs is a representation of the dynamics with the spectra of the Koopman and Perron--Frobenius operators. This perspective approximately reveals stable dynamics with DEQs and then derives two variants of SIMs. We also propose an implementation of SIMs that can be learned in the same way as feedforward models. We illustrate the empirical performance of SIMs with experiments and demonstrate that SIMs achieve comparative or superior performance against DEQs in several learning tasks.
翻訳日:2023-06-22 05:57:07 公開日:2023-06-19
# 探索型分類器は概念除去と検出には信頼性がない

Probing Classifiers are Unreliable for Concept Removal and Detection ( http://arxiv.org/abs/2207.04153v3 )

ライセンス: Link先を確認
Abhinav Kumar, Chenhao Tan, Amit Sharma(参考訳) テキストデータに基づいてトレーニングされたニューラルネットワークモデルは、その表現において望ましくない言語的あるいは敏感な概念を符号化する。 このような概念の除去は、概念、テキスト入力、学習表現の間の複雑な関係のため、非自明である。 最近の研究は、モデル表現からそのような望ましくない概念を取り除くためのポストホックおよび逆法を提案している。 理論的および経験的分析を通じて、これらの手法は非生産的であり、概念を完全に取り除くことができず、最悪の場合、すべてのタスク関連特徴を破壊することになる。 その理由は、メソッドが概念のプロキシとして探索分類子に依存するためである。 表現空間における概念の関連する特徴が100%の精度で得られる場合に、探索分類器を学習するのに最も有利な条件の下でも、探索分類器が非概念的特徴を用いることがあり、したがってポストホック法や逆法が正しく概念を除去できないことが証明される。 これらの理論的含意は、合成、マルチNLI、Twitterデータセットでトレーニングされたモデルの実験によって確認される。 フェアネスのような概念除去のセンシティブな応用には、これらの手法の使用を推奨し、最終分類器の品質を測定するためのスプリアスネスメトリックを提案する。

Neural network models trained on text data have been found to encode undesirable linguistic or sensitive concepts in their representation. Removing such concepts is non-trivial because of a complex relationship between the concept, text input, and the learnt representation. Recent work has proposed post-hoc and adversarial methods to remove such unwanted concepts from a model's representation. Through an extensive theoretical and empirical analysis, we show that these methods can be counter-productive: they are unable to remove the concepts entirely, and in the worst case may end up destroying all task-relevant features. The reason is the methods' reliance on a probing classifier as a proxy for the concept. Even under the most favorable conditions for learning a probing classifier when a concept's relevant features in representation space alone can provide 100% accuracy, we prove that a probing classifier is likely to use non-concept features and thus post-hoc or adversarial methods will fail to remove the concept correctly. These theoretical implications are confirmed by experiments on models trained on synthetic, Multi-NLI, and Twitter datasets. For sensitive applications of concept removal such as fairness, we recommend caution against using these methods and propose a spuriousness metric to gauge the quality of the final classifier.
翻訳日:2023-06-22 05:56:48 公開日:2023-06-19
# TFN:知的故障診断のための時間周波数変換を組み込んだ解釈可能なニューラルネットワーク

TFN: An Interpretable Neural Network with Time-Frequency Transform Embedded for Intelligent Fault Diagnosis ( http://arxiv.org/abs/2209.01992v2 )

ライセンス: Link先を確認
Qian Chen, Xingjian Dong, Guowei Tu, Dong Wang, Baoxuan Zhao and Zhike Peng(参考訳) 畳み込みニューラルネットワーク(CNN)はその強力な特徴抽出と分類能力のため、機械系の故障診断に広く用いられている。 しかし、CNNは典型的なブラックボックスモデルであり、CNNの意思決定のメカニズムは明確ではない。 そこで本研究では,時間周波数ネットワーク(TFN, Time-Frequency Network)と呼ばれる新しい解釈可能なニューラルネットワークを提案し,物理的に意味のある時間周波数変換(TFT)法を適応前処理層として従来の畳み込み層に組み込む。 時間周波数畳み込み(tfconv)層と呼ばれるこの前処理層は、よく設計されたカーネル関数によって制約され、故障に関連する時間周波数情報を抽出する。 診断性能を向上するだけでなく、周波数領域におけるCNN予測の論理的基礎を明らかにする。 TFT法はTFconv層の異なるカーネル関数に対応している。 本研究では, TFNを定式化する4つの典型的なTFT法について検討し, 3つの機械的故障診断実験によりその妥当性と解釈性を示した。 実験の結果、tfconv層は深さが異なる他のcnnに容易に一般化できることがわかった。 TFNのコードはhttps://github.com/ChenQian0618/TFNで公開されている。

Convolutional Neural Networks (CNNs) are widely used in fault diagnosis of mechanical systems due to their powerful feature extraction and classification capabilities. However, the CNN is a typical black-box model, and the mechanism of CNN's decision-making are not clear, which limits its application in high-reliability-required fault diagnosis scenarios. To tackle this issue, we propose a novel interpretable neural network termed as Time-Frequency Network (TFN), where the physically meaningful time-frequency transform (TFT) method is embedded into the traditional convolutional layer as an adaptive preprocessing layer. This preprocessing layer named as time-frequency convolutional (TFconv) layer, is constrained by a well-designed kernel function to extract fault-related time-frequency information. It not only improves the diagnostic performance but also reveals the logical foundation of the CNN prediction in the frequency domain. Different TFT methods correspond to different kernel functions of the TFconv layer. In this study, four typical TFT methods are considered to formulate the TFNs and their effectiveness and interpretability are proved through three mechanical fault diagnosis experiments. Experimental results also show that the proposed TFconv layer can be easily generalized to other CNNs with different depths. The code of TFN is available on https://github.com/ChenQian0618/TFN.
翻訳日:2023-06-22 05:49:04 公開日:2023-06-19
# Prompting as Probing:知識ベース構築のための言語モデルの利用

Prompting as Probing: Using Language Models for Knowledge Base Construction ( http://arxiv.org/abs/2208.11057v3 )

ライセンス: Link先を確認
Dimitrios Alivanistos, Selene B\'aez Santamar\'ia, Michael Cochez, Jan-Christoph Kalo, Emile van Krieken, Thiviyan Thanapalasingam(参考訳) 言語モデル(LM)は、要約、翻訳、質問応答、テキスト分類など、様々な下流アプリケーションで有用であることが証明されている。 LMは、膨大な量の情報を保存できるため、人工知能においてますます重要なツールになりつつある。 本稿では,OpenAIが2020年に提案した大規模言語モデルであるGPT-3を用いて,知識ベース構築(KBC)のタスクを実行するProP(Prompting as Probing)を提案する。 ProPは、様々なプロンプト技術を組み合わせてこれを実現するマルチステップアプローチを実装している。 本研究の結果から,手動によるプロンプトキュレーションが不可欠であること,特に空の回答セットを含む可変長の解答セットが推奨されること,真/偽の質問がLMが生成する提案の精度向上に役立つこと,LMのサイズが重要な要因であること,エンティティエイリアスの辞書がLMスコアを改善すること,などが示唆された。 ProPはLM-KBCコンペティションのトラック2に勝利し,ベースラインを36.4ポイント上回った。 私たちの実装はhttps://github.com/hemile/iswc-challengeで利用可能です。

Language Models (LMs) have proven to be useful in various downstream applications, such as summarisation, translation, question answering and text classification. LMs are becoming increasingly important tools in Artificial Intelligence, because of the vast quantity of information they can store. In this work, we present ProP (Prompting as Probing), which utilizes GPT-3, a large Language Model originally proposed by OpenAI in 2020, to perform the task of Knowledge Base Construction (KBC). ProP implements a multi-step approach that combines a variety of prompting techniques to achieve this. Our results show that manual prompt curation is essential, that the LM must be encouraged to give answer sets of variable lengths, in particular including empty answer sets, that true/false questions are a useful device to increase precision on suggestions generated by the LM, that the size of the LM is a crucial factor, and that a dictionary of entity aliases improves the LM score. Our evaluation study indicates that these proposed techniques can substantially enhance the quality of the final predictions: ProP won track 2 of the LM-KBC competition, outperforming the baseline by 36.4 percentage points. Our implementation is available on https://github.com/HEmile/iswc-challenge.
翻訳日:2023-06-22 05:47:02 公開日:2023-06-19
# グラフ上のノード注入攻撃のための逆カモフラージュ

Adversarial Camouflage for Node Injection Attack on Graphs ( http://arxiv.org/abs/2208.01819v3 )

ライセンス: Link先を確認
Shuchang Tao, Qi Cao, Huawei Shen, Yunfan Wu, Liang Hou, Fei Sun, Xueqi Cheng(参考訳) グラフニューラルネットワーク(GNN)に対するノードインジェクション攻撃は、高い攻撃成功率でGNNのパフォーマンスを著しく低下させる可能性があるため、注目されている。 しかし,本研究は,侵入したノードを容易に識別し除去できるため,実際のシナリオではこれらの攻撃が失敗することが多いことを示唆する。 これを解決するため,我々はカモフラージュノードインジェクション攻撃(camouflage node Injection attack)に取り組んだ。 残念ながら、グラフデータの非ユークリッド的性質と直感的な事前の欠如は、カモフラージュの形式化、実装、評価に大きな課題をもたらす。 本稿ではまず,注入ノードと正規ノードのエゴネットワーク間の分布類似性としてカモフラージュを提案し,定義する。 そこで,本研究では,ノードインジェクション攻撃のための逆カモフラージュフレームワーク cana を提案する。 新たなカモフラージュ計量はさらに分布類似性のガイドの下で設計されている。 広範囲な実験により、カナは高いカモフラージュまたは非感受性で防御/検出法の下で攻撃性能を著しく向上できることが示されている。 本研究は,実用アプリケーションにおけるGNNのセキュリティ脆弱性の認識を高めることを促す。 CANAの実装はhttps://github.com/TaoShuchang/CANAで公開されている。

Node injection attacks on Graph Neural Networks (GNNs) have received emerging attention due to their potential to significantly degrade GNN performance with high attack success rates. However, our study indicates these attacks often fail in practical scenarios, since defense/detection methods can easily identify and remove the injected nodes. To address this, we devote to camouflage node injection attack, making injected nodes appear normal and imperceptible to defense/detection methods. Unfortunately, the non-Euclidean nature of graph data and lack of intuitive prior present great challenges to the formalization, implementation, and evaluation of camouflage. In this paper, we first propose and define camouflage as distribution similarity between ego networks of injected nodes and normal nodes. Then for implementation, we propose an adversarial CAmouflage framework for Node injection Attack, namely CANA, to improve attack performance under defense/detection methods in practical scenarios. A novel camouflage metric is further designed under the guide of distribution similarity. Extensive experiments demonstrate that CANA can significantly improve the attack performance under defense/detection methods with higher camouflage or imperceptibility. This work urges us to raise awareness of the security vulnerabilities of GNNs in practical applications. The implementation of CANA is available at https://github.com/TaoShuchang/CANA.
翻訳日:2023-06-22 05:45:57 公開日:2023-06-19
# 公正な表記と関係張力に関する調査

Survey on Fairness Notions and Related Tensions ( http://arxiv.org/abs/2209.13012v2 )

ライセンス: Link先を確認
Guilherme Alves, Fabien Bernier, Miguel Couceiro, Karima Makhlouf, Catuscia Palamidessi, Sami Zhioua(参考訳) 自動決定システムは、主観的な人的決定を客観的機械学習(ML)アルゴリズムに置き換えることを願って、雇用や融資といった問題において、連続的な決定を下すためにますます使われています。 しかし、MLベースの意思決定システムはバイアスを起こしやすいため、不公平な判断につながる。 公平性のいくつかの概念は、この倫理的・社会的概念の異なる微妙さ(例えば、統計的平等、平等機会など)を捉えるために文献で定義されている。 学習モデルにおいて満足すべき公平性要件は、公正性の概念と、プライバシーや分類精度といったその他の望ましい特性の間に、いくつかのタイプの緊張を生み出した。 本稿では,一般的なフェアネス概念を調査し,プライバシと正確性で両者の緊張関係を考察する。 フェアネス・正確性トレードオフ(前処理、内処理、後処理、ハイブリッドという4つのアプローチに分類される)に対処するさまざまな手法を概観する。 この調査は、フェアネスベンチマークデータセットで実施した実験分析と統合され、実世界のシナリオにおけるフェアネス測定と精度の関係を説明する。

Automated decision systems are increasingly used to take consequential decisions in problems such as job hiring and loan granting with the hope of replacing subjective human decisions with objective machine learning (ML) algorithms. However, ML-based decision systems are prone to bias, which results in yet unfair decisions. Several notions of fairness have been defined in the literature to capture the different subtleties of this ethical and social concept (e.g., statistical parity, equal opportunity, etc.). Fairness requirements to be satisfied while learning models created several types of tensions among the different notions of fairness and other desirable properties such as privacy and classification accuracy. This paper surveys the commonly used fairness notions and discusses the tensions among them with privacy and accuracy. Different methods to address the fairness-accuracy trade-off (classified into four approaches, namely, pre-processing, in-processing, post-processing, and hybrid) are reviewed. The survey is consolidated with experimental analysis carried out on fairness benchmark datasets to illustrate the relationship between fairness measures and accuracy in real-world scenarios.
翻訳日:2023-06-22 05:39:30 公開日:2023-06-19
# GATraj: グラフと注意に基づくマルチエージェント軌道予測モデル

GATraj: A Graph- and Attention-based Multi-Agent Trajectory Prediction Model ( http://arxiv.org/abs/2209.07857v2 )

ライセンス: Link先を確認
Hao Cheng, Mengmeng Liu, Lin Chen, Hellward Broszio, Monika Sester, Michael Ying Yang(参考訳) 軌道予測は、自動運転やロボットナビゲーションといったインテリジェントなシステムでは長年にわたって問題となっている。 大規模ベンチマークでトレーニングされたモデルでは、予測精度が大幅に向上した。 しかし、リアルタイムアプリケーションの効率性の重要性は強調されていない。 本稿では,予測精度と推定速度のバランスが良好であるgatrajと呼ばれる注意に基づくグラフモデルを提案する。 注意機構を用いて,歩行者や車両などのエージェントの空間・時間動態をモデル化し,その相互作用をグラフ畳み込みネットワークでモデル化する。 さらに、モード崩壊を緩和し、各エージェントに対して多様なマルチモーダル予測を生成するためにラプラシアン混合デコーダが実装されている。 GATrajは、歩行者軌跡のETH/UCYデータセットでテストした場合、最先端の予測性能をはるかに高速に達成し、自動運転のためのnuScenesデータセットでテストした場合、およそ100Hzの推論速度でパフォーマンスを向上する。 本研究では,ラプラシアン混合デコーダの確率推定を解析し,ガウス混合デコーダと比較し,異なるマルチモーダリティを推定する。 さらに, 包括的アブレーション研究によりgatrajの各モジュールの有効性が示された。 コードはhttps://github.com/mengmengliu1998/gatrajでリリースされる。

Trajectory prediction has been a long-standing problem in intelligent systems like autonomous driving and robot navigation. Models trained on large-scale benchmarks have made significant progress in improving prediction accuracy. However, the importance on efficiency for real-time applications has been less emphasized. This paper proposes an attention-based graph model, named GATraj, which achieves a good balance of prediction accuracy and inference speed. We use attention mechanisms to model the spatial-temporal dynamics of agents, such as pedestrians or vehicles, and a graph convolutional network to model their interactions. Additionally, a Laplacian mixture decoder is implemented to mitigate mode collapse and generate diverse multimodal predictions for each agent. GATraj achieves state-of-the-art prediction performance at a much higher speed when tested on the ETH/UCY datasets for pedestrian trajectories, and good performance at about 100 Hz inference speed when tested on the nuScenes dataset for autonomous driving. We conduct extensive experiments to analyze the probability estimation of the Laplacian mixture decoder and compare it with a Gaussian mixture decoder for predicting different multimodalities. Furthermore, comprehensive ablation studies demonstrate the effectiveness of each proposed module in GATraj. The code is released at https://github.com/mengmengliu1998/GATraj.
翻訳日:2023-06-22 05:37:56 公開日:2023-06-19
# 経験的テキスト表現からの意味的特徴を用いたテキスト包含認識

Textual Entailment Recognition with Semantic Features from Empirical Text Representation ( http://arxiv.org/abs/2210.09723v4 )

ライセンス: Link先を確認
Md Shajalal, Md Atabuzzaman, Maksuda Bilkis Baby, Md Rezaul Karim and Alexander Boden(参考訳) テキスト内包認識は、自然言語理解(NLU)タスクの1つである。 文の意味を理解することは、自然言語処理(NLP)技術を適用する前に必須条件である。 テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。 古典的アプローチは一般的に、単語埋め込みから各単語の特徴値を使って文を表現する。 本稿では,テキストと仮説のテクスト関係を識別する新しい手法を提案し,経験的閾値に基づく意味的テキスト表現に着目した新しい意味的特徴を導入する。 文-韻律ペア間の意味的包含関係を識別できる,要素方向のマンハッタン距離ベクトルに基づく特徴を用いる。 ベンチマークエンテーメント分類(SICK-RTE)データセットについていくつかの実験を行った。 我々は、意味的特徴と語彙的特徴の両方を適用した機械学習(ML)アルゴリズムをトレーニングし、テキストと仮説のペアをエンテーメント、中立、矛盾として分類する。 我々の経験的文章表現技術は、古典的テキストよりも効率的であることが判明したテキストや仮説の意味情報を豊かにする。 最後に,本手法は,文章の係り受け分類タスクにおける文の意味を理解する上で,既知の手法を大幅に上回っている。

Textual entailment recognition is one of the basic natural language understanding(NLU) tasks. Understanding the meaning of sentences is a prerequisite before applying any natural language processing(NLP) techniques to automatically recognize the textual entailment. A text entails a hypothesis if and only if the true value of the hypothesis follows the text. Classical approaches generally utilize the feature value of each word from word embedding to represent the sentences. In this paper, we propose a novel approach to identifying the textual entailment relationship between text and hypothesis, thereby introducing a new semantic feature focusing on empirical threshold-based semantic text representation. We employ an element-wise Manhattan distance vector-based feature that can identify the semantic entailment relationship between the text-hypothesis pair. We carried out several experiments on a benchmark entailment classification(SICK-RTE) dataset. We train several machine learning(ML) algorithms applying both semantic and lexical features to classify the text-hypothesis pair as entailment, neutral, or contradiction. Our empirical sentence representation technique enriches the semantic information of the texts and hypotheses found to be more efficient than the classical ones. In the end, our approach significantly outperforms known methods in understanding the meaning of the sentences for the textual entailment classification task.
翻訳日:2023-06-22 05:28:41 公開日:2023-06-19
# 抗体配列インフィルディングのための訓練済み言語モデルの再プログラミング

Reprogramming Pretrained Language Models for Antibody Sequence Infilling ( http://arxiv.org/abs/2210.07144v2 )

ライセンス: Link先を確認
Igor Melnyk, Vijil Chenthamarakshan, Pin-Yu Chen, Payel Das, Amit Dhurandhar, Inkit Padhi, Devleena Das(参考訳) 抗体は最も汎用的な結合分子であり、バイオメディシンに多くの応用がある。 抗体の計算設計は、構造的一貫性を維持しながら、新しく多様な配列を生成することを伴う。 抗原結合親和性と特異性を決定する相補性決定領域(CDR)を設計する抗体は、独自の課題を生み出す。 近年のディープラーニングモデルは印象的な結果を示しているが、既知の抗体配列/構造ペアの数が限られているため、性能が劣化し、特に生成された配列の多様性が欠如している。 私たちの研究では、ソース言語で事前学習されたモデルを再利用して、異なる言語に属するタスクに適応し、少ないデータを持つモデル再プログラミング(MR)を活用して、この課題に対処しています。 具体的には、プレトレーニングされた英語モデルをタンパク質配列の埋め込みのために再利用するReprogBertを導入し、少ないデータを用いたクロスランゲージ適応を考察する。 抗体設計ベンチマークの結果,低リソース抗体配列データセットのモデルが,構造的完全性と自然性を失うことなく,ベースライン上の多様性を最大2倍に増やす,高度に多様なcdr配列を提供することが示された。 生成された配列はまた、抗原結合特異性とウイルス中和能の増強を示す。 コードはhttps://github.com/IBM/ReprogBERTで入手できる。

Antibodies comprise the most versatile class of binding molecules, with numerous applications in biomedicine. Computational design of antibodies involves generating novel and diverse sequences, while maintaining structural consistency. Unique to antibodies, designing the complementarity-determining region (CDR), which determines the antigen binding affinity and specificity, creates its own unique challenges. Recent deep learning models have shown impressive results, however the limited number of known antibody sequence/structure pairs frequently leads to degraded performance, particularly lacking diversity in the generated sequences. In our work we address this challenge by leveraging Model Reprogramming (MR), which repurposes pretrained models on a source language to adapt to the tasks that are in a different language and have scarce data - where it may be difficult to train a high-performing model from scratch or effectively fine-tune an existing pre-trained model on the specific task. Specifically, we introduce ReprogBert in which a pretrained English language model is repurposed for protein sequence infilling - thus considers cross-language adaptation using less data. Results on antibody design benchmarks show that our model on low-resourced antibody sequence dataset provides highly diverse CDR sequences, up to more than a two-fold increase of diversity over the baselines, without losing structural integrity and naturalness. The generated sequences also demonstrate enhanced antigen binding specificity and virus neutralization ability. Code is available at https://github.com/IBM/ReprogBERT
翻訳日:2023-06-22 05:28:01 公開日:2023-06-19
# 損失非直交準モードにおけるねじれ状態の非線形光学的生成:解析解

Nonlinear optical generation of entangled squeezed states in lossy nonorthogonal quasimodes: an analytic solution ( http://arxiv.org/abs/2210.06521v2 )

ライセンス: Link先を確認
Colin Vendromin and Marc M. Dignam(参考訳) ナノキャビティ系の損失非直交準同相系における光の非線形生成量子状態に対する密度演算子は、スキーズと熱光子パラメータの時間依存性が3M$結合微分方程式の集合によって与えられる多重モード圧縮熱状態の解析形式を有することを証明した。 本手法を2つの非直交準モードを持つシステムに適用し,fock状態に基づくシミュレーションと良好な一致を得る。 このアプローチは、混合ガウスクラスター状態の生成をモデル化し最適化する効率的な方法を提供する。

We prove that the density operator for the nonlinearly-generated quantum state of light in the $M$ lossy nonorthogonal quasimodes of a nanocavity system has the analytic form of a multimode squeezed thermal state, where the time-dependence of the squeezing and thermal photon parameters are given by a set of $3M$ coupled differential equations. We apply our approach to a system with two highly nonorthogonal quasimodes and obtain good agreement with simulations using a basis of Fock states. Our approach provides an efficient way to model and optimize the generation of mixed Gaussian cluster states.
翻訳日:2023-06-22 05:27:37 公開日:2023-06-19
# BSMS-GNNを用いたメッシュ型物理シミュレーションの効率的学習

Efficient Learning of Mesh-Based Physical Simulation with BSMS-GNN ( http://arxiv.org/abs/2210.02573v4 )

ライセンス: Link先を確認
Yadi Cao, Menglei Chai, Minchen Li, Chenfanfu Jiang(参考訳) フラットなグラフニューラルネットワーク(GNN)とスタックングメッセージパッシング(MP)による大規模メッシュ上での物理シミュレーションの学習は,ノード数や過度なスムース化といったスケーリングの複雑さのために難しい。 物理シミュレーションのための GNN に \textit{multi-scale} 構造を導入することに対するコミュニティの関心が高まっている。 しかしながら、現在の最先端の手法は、粗いメッシュの労働集約的な描画に依存するか、空間的近接に基づいて粗いレベルを構築するかによって制限される。 2成分グラフ決定に触発されて,上記の制限に取り組むために,新たなプーリング戦略である \textit{bi-stride} を提案する。 バイストライドは、粗いメッシュの手動描画を必要とせず、空間的近接により間違ったエッジを避けることなく、ブロードスファーストサーチ(BFS)の他のフロンティアにノードをプールする。 さらに、レベル毎の1MPスキームと非パラメトリズドプールと補間によるアンプールを可能にし、計算コストを大幅に削減するU-Netsに似ている。 実験の結果,提案するフレームワークである‘textit{BSMS-GNN} は,物理シミュレーションの精度と計算効率の両面で,既存の手法よりも優れていた。

Learning the physical simulation on large-scale meshes with flat Graph Neural Networks (GNNs) and stacking Message Passings (MPs) is challenging due to the scaling complexity w.r.t. the number of nodes and over-smoothing. There has been growing interest in the community to introduce \textit{multi-scale} structures to GNNs for physical simulation. However, current state-of-the-art methods are limited by their reliance on the labor-intensive drawing of coarser meshes or building coarser levels based on spatial proximity, which can introduce wrong edges across geometry boundaries. Inspired by the bipartite graph determination, we propose a novel pooling strategy, \textit{bi-stride} to tackle the aforementioned limitations. Bi-stride pools nodes on every other frontier of the breadth-first search (BFS), without the need for the manual drawing of coarser meshes and avoiding the wrong edges by spatial proximity. Additionally, it enables a one-MP scheme per level and non-parametrized pooling and unpooling by interpolations, resembling U-Nets, which significantly reduces computational costs. Experiments show that the proposed framework, \textit{BSMS-GNN}, significantly outperforms existing methods in terms of both accuracy and computational efficiency in representative physical simulations.
翻訳日:2023-06-22 05:27:11 公開日:2023-06-19
# 道路障害物検出の展望

Perspective Aware Road Obstacle Detection ( http://arxiv.org/abs/2210.01779v2 )

ライセンス: Link先を確認
Krzysztof Lis, Sina Honari, Pascal Fua, Mathieu Salzmann(参考訳) 道路障害物検出技術はますます有効になっているが、実際には、車両への距離が増加するにつれて障害物の見かけの大きさが減少するという事実を無視するのが一般的である。 本稿では,画像位置毎に仮想物体の見かけの大きさをエンコードするスケールマップを計算し,その特徴を説明する。 次に、この視点マップを活用する。 (i)遠近法に対応する大きさの道路合成物に注入して訓練データを生成し、 (ii)検出ネットワークの復号部に遠近情報を取り込んで障害物検出を誘導する。 標準ベンチマークの結果から,これらの2つの手法により障害物検出性能が大幅に向上し,インスタンスレベルの障害物検出の手法を一貫して上回ることを示す。

While road obstacle detection techniques have become increasingly effective, they typically ignore the fact that, in practice, the apparent size of the obstacles decreases as their distance to the vehicle increases. In this paper, we account for this by computing a scale map encoding the apparent size of a hypothetical object at every image location. We then leverage this perspective map to (i) generate training data by injecting onto the road synthetic objects whose size corresponds to the perspective foreshortening; and (ii) incorporate perspective information in the decoding part of the detection network to guide the obstacle detector. Our results on standard benchmarks show that, together, these two strategies significantly boost the obstacle detection performance, allowing our approach to consistently outperform state-of-the-art methods in terms of instance-level obstacle detection.
翻訳日:2023-06-22 05:26:46 公開日:2023-06-19
# スピン圧縮GKP符号による原子アンサンブルの量子誤差補正

Spin squeezed GKP codes for quantum error correction in atomic ensembles ( http://arxiv.org/abs/2211.05181v2 )

ライセンス: Link先を確認
Sivaprasad Omanakuttan and T.J. Volkoff(参考訳) gkp符号は、連続変数(cv)量子システムの変位位相空間コム内の量子ビットを符号化し、様々な重み付きフォトニックエラーの修正に有用である。 本稿では, 量子中心極限定理を用いて, cv系の位相空間構造を量子スピン系のコンパクト位相空間に引き戻すために, 単一モードcv gkp符号の原子アンサンブルアナログを提案する。 確率緩和法と等方的弾道復号法によって記述された誤差チャネルの最適回復性能について,多様性結合法を用いて検討した。 スピンGKP符号は、猫符号や二項符号など、他のスピン系符号よりも優れていることがわかった。 2軸対向相互作用に基づくスピンgkp符号とsu(2)コヒーレント状態の重ね合わせは有限エネルギーcv gkp符号の直接スピンアナログであるが、一方1軸ねじれに基づく我々の符号はよく研究されたcvアナログを持っていない。 CVとスピンGKP設定の両方に適用可能なユニタリ法を線形に組み合わせたスピンGKP符号の実装を提案する。 最後に,量子中心極限定理を用いてcv gkp設定からゲートを変換したスピンgkpエンコード量子ビットを用いた,量子計算のためのフォールトトレラント近似ゲートセットについて考察する。

GKP codes encode a qubit in displaced phase space combs of a continuous-variable (CV) quantum system and are useful for correcting a variety of high-weight photonic errors. Here we propose atomic ensemble analogues of the single-mode CV GKP code by using the quantum central limit theorem to pull back the phase space structure of a CV system to the compact phase space of a quantum spin system. We study the optimal recovery performance of these codes under error channels described by stochastic relaxation and isotropic ballistic dephasing processes using the diversity combining approach for calculating channel fidelity. We find that the spin GKP codes outperform other spin system codes such as cat codes or binomial codes. Our spin GKP codes based on the two-axis countertwisting interaction and superpositions of SU(2) coherent states are direct spin analogues of the finite-energy CV GKP codes, whereas our codes based on one-axis twisting do not yet have well-studied CV analogues. An implementation of the spin GKP codes is proposed which uses the linear combination of unitaries method, applicable to both the CV and spin GKP settings. Finally, we discuss a fault-tolerant approximate gate set for quantum computing with spin GKP-encoded qubits, obtained by translating gates from the CV GKP setting using quantum central limit theorem.
翻訳日:2023-06-22 05:20:23 公開日:2023-06-19
# ガウス過程による安全な探査における単調性の効果

Benefits of Monotonicity in Safe Exploration with Gaussian Processes ( http://arxiv.org/abs/2211.01561v2 )

ライセンス: Link先を確認
Arpan Losalka and Jonathan Scarlett(参考訳) 我々は,各サンプル点が所定の安全閾値以下の関数値を持つことを保証しながら,一連の動作に対して未知の関数を逐次最大化する問題を考察する。 関数はカーネルベースのガウス過程法とガウス過程法を用いてモデル化するが、関数が単調に増大しているという仮定では以前の手法と異なる。 この仮定は、適応的な臨床試験設計やロボティクスといった様々な応用によって動機付けられている。 我々は,このタスクのために, \textsc{\sffamily gp-ucb} と \textsc{\sffamily safeopt} のアルゴリズムから着想を得て monotone safe {\sffamily ucb} (\textsc{\sffamily m-safeucb}) というアルゴリズムを提案する。 我々は, 安全性, 適切に定義された後悔の概念, 安全境界全体の発見に関する理論的保証を享受していることを示す。 さらに, 単調性仮定は, アルゴリズムの単純さと効率性だけでなく, 得られる保証の観点からも有意な利益をもたらすことを示す。 本研究は, 模擬臨床試験を含む様々な機能について実験評価を行うことにより, 理論的な知見を裏付ける。

We consider the problem of sequentially maximising an unknown function over a set of actions while ensuring that every sampled point has a function value below a given safety threshold. We model the function using kernel-based and Gaussian process methods, while differing from previous works in our assumption that the function is monotonically increasing with respect to a \emph{safety variable}. This assumption is motivated by various practical applications such as adaptive clinical trial design and robotics. Taking inspiration from the \textsc{\sffamily GP-UCB} and \textsc{\sffamily SafeOpt} algorithms, we propose an algorithm, monotone safe {\sffamily UCB} (\textsc{\sffamily M-SafeUCB}) for this task. We show that \textsc{\sffamily M-SafeUCB} enjoys theoretical guarantees in terms of safety, a suitably-defined regret notion, and approximately finding the entire safe boundary. In addition, we illustrate that the monotonicity assumption yields significant benefits in terms of the guarantees obtained, as well as algorithmic simplicity and efficiency. We support our theoretical findings by performing empirical evaluations on a variety of functions, including a simulated clinical trial experiment.
翻訳日:2023-06-22 05:19:43 公開日:2023-06-19
# 部分モジュラ最大化におけるバランシングユーティリティと公正性(技術報告)

Balancing Utility and Fairness in Submodular Maximization (Technical Report) ( http://arxiv.org/abs/2211.00980v4 )

ライセンス: Link先を確認
Yanhao Wang and Yuchen Li and Francesco Bonchi and Ying Wang(参考訳) サブモジュラー関数最大化(submodular function maximization)は、データ要約、影響最大化、レコメンデーションなど、多くのアプリケーションにおいて基本的な組合せ最適化問題である。 これらの問題の多くにおいて、目的は、各ユーティリティが単調な部分モジュラ関数によって定義されるすべてのユーザに対して平均的なユーティリティを最大化するソリューションを見つけることである。 しかし、ユーザ人口が複数の人口集団で構成されている場合、別の重要な問題は、ユーティリティが複数のグループに分散しているかどうかである。 emph{utility} と \emph{fairness} の目標はどちらも望ましいが、両者は矛盾する可能性がある。 このギャップを埋めるために、実用性と公正性のバランスをとるために、 \emph{Bicriteria Submodular Maximization} (BSM) と呼ばれる新しい問題を提案する。 具体的には、しきい値以下でないフェアネス関数の値に従えば、ユーティリティ関数を最大化するために固定サイズの解を見つける必要がある。 BSMは任意の定数係数で近似できないため、効率的なインスタンス依存近似スキームの設計に焦点を当てる。 提案アルゴリズムは,BSMインスタンスを他のサブモジュール最適化問題インスタンスに変換することによって得られる近似係数の異なる2つの手法からなる。 実世界および合成データセットを用いて,提案手法を最大カバレッジ,影響最大化,施設配置という3つのサブモジュラー最大化問題に適用する。

Submodular function maximization is a fundamental combinatorial optimization problem with plenty of applications -- including data summarization, influence maximization, and recommendation. In many of these problems, the goal is to find a solution that maximizes the average utility over all users, for each of whom the utility is defined by a monotone submodular function. However, when the population of users is composed of several demographic groups, another critical problem is whether the utility is fairly distributed across different groups. Although the \emph{utility} and \emph{fairness} objectives are both desirable, they might contradict each other, and, to the best of our knowledge, little attention has been paid to optimizing them jointly. To fill this gap, we propose a new problem called \emph{Bicriteria Submodular Maximization} (BSM) to balance utility and fairness. Specifically, it requires finding a fixed-size solution to maximize the utility function, subject to the value of the fairness function not being below a threshold. Since BSM is inapproximable within any constant factor, we focus on designing efficient instance-dependent approximation schemes. Our algorithmic proposal comprises two methods, with different approximation factors, obtained by converting a BSM instance into other submodular optimization problem instances. Using real-world and synthetic datasets, we showcase applications of our proposed methods in three submodular maximization problems: maximum coverage, influence maximization, and facility location.
翻訳日:2023-06-22 05:19:20 公開日:2023-06-19
# データセット推論のロバスト性について

On the Robustness of Dataset Inference ( http://arxiv.org/abs/2210.13631v3 )

ライセンス: Link先を確認
Sebastian Szyller, Rui Zhang, Jian Liu, N. Asokan(参考訳) 機械学習(ML)モデルは、大量のデータ、計算リソース、技術的専門知識を必要とするため、トレーニングにコストがかかる。 そのため、敵からの保護を必要とする貴重な知的財産を構成している。 所有者認証技術により、モデル盗難事件の被害者は、容疑者モデルが実際に彼らから盗まれたことを実証することができる。 透かしや指紋認証に基づくいくつかの所有権検証技術が提案されているが、そのほとんどはセキュリティ保証(十分に装備された敵は検証を回避できる)や計算コストの面で不足している。 フィンガープリント技術であるデータセット推論(DI)は,従来の手法よりも堅牢性や効率性がよいことを示した。 DIの著者は線形(スペクトル)モデルに対する正当性証明を提供した。 しかし、同じ設定のサブスペースでは、DIが高い偽陽性(FP)に悩まされていることを証明します。 さらに、DIが現実的で非線形な疑似モデルでFPをトリガーすることを示す。 次に、ブラックボックス設定におけるDIがFPにつながることを実証的に確認する。 第二に、diもまた偽陰性(fns)に苦しんでいることを示します -- 敵は、盗んだモデルの判断境界を敵意のトレーニングを用いて規則化することでdiを騙すことができます。 この目的のために、ブラックボックスDIは、盗まれたデータセットから逆行的にトレーニングされたモデルを特定することができないことを実証します。 最後に, 本研究の意義, 指紋認証による所有権確認の実施可能性, 今後の課題の方向性について考察する。

Machine learning (ML) models are costly to train as they can require a significant amount of data, computational resources and technical expertise. Thus, they constitute valuable intellectual property that needs protection from adversaries wanting to steal them. Ownership verification techniques allow the victims of model stealing attacks to demonstrate that a suspect model was in fact stolen from theirs. Although a number of ownership verification techniques based on watermarking or fingerprinting have been proposed, most of them fall short either in terms of security guarantees (well-equipped adversaries can evade verification) or computational cost. A fingerprinting technique, Dataset Inference (DI), has been shown to offer better robustness and efficiency than prior methods. The authors of DI provided a correctness proof for linear (suspect) models. However, in a subspace of the same setting, we prove that DI suffers from high false positives (FPs) -- it can incorrectly identify an independent model trained with non-overlapping data from the same distribution as stolen. We further prove that DI also triggers FPs in realistic, non-linear suspect models. We then confirm empirically that DI in the black-box setting leads to FPs, with high confidence. Second, we show that DI also suffers from false negatives (FNs) -- an adversary can fool DI (at the cost of incurring some accuracy loss) by regularising a stolen model's decision boundaries using adversarial training, thereby leading to an FN. To this end, we demonstrate that black-box DI fails to identify a model adversarially trained from a stolen dataset -- the setting where DI is the hardest to evade. Finally, we discuss the implications of our findings, the viability of fingerprinting-based ownership verification in general, and suggest directions for future work.
翻訳日:2023-06-22 05:18:35 公開日:2023-06-19
# ディープラーニングモデルアーキテクチャはプライバシにどのように影響するか? CNNとトランスフォーマーのプライバシ攻撃に関する総合的研究

How Does a Deep Learning Model Architecture Impact Its Privacy? A Comprehensive Study of Privacy Attacks on CNNs and Transformers ( http://arxiv.org/abs/2210.11049v2 )

ライセンス: Link先を確認
Guangsheng Zhang, Bo Liu, Huan Tian, Tianqing Zhu, Ming Ding, Wanlei Zhou(参考訳) 過去10年間の急成長する研究分野として、ディープラーニング技術は前例のない規模で収集・処理されたビッグデータによって推進されてきた。 しかし、プライバシーの懸念は、トレーニングデータから機密情報が漏洩する可能性があるため生じる。 最近の研究では、深層学習モデルは、メンバシップ推論攻撃、属性推論攻撃、勾配反転攻撃など、さまざまなプライバシ攻撃に対して脆弱であることが示されている。 特に、これらの攻撃の有効性はモデルによって異なる。 モデルアーキテクチャはモデルのプライバシに影響を与えますか? CNNからTransformerへの代表的モデルアーキテクチャの調査により、Transformerは一般的に、CNNと比較してプライバシー攻撃の脆弱性が高いことを示した。 さらに、アクティベーション層、stem層、ln層のマイクロデザインを、cnnのプライバシ攻撃に対する弾力性に寄与する主要な要因として特定し、一方で、アテンションモジュールの存在はトランスフォーマのプライバシ脆弱性を悪化させる主要な要因である。 私たちの発見は、ディープラーニングモデルがプライバシ攻撃を防ぎ、研究コミュニティにプライバシフレンドリーなモデルアーキテクチャの開発を促すための貴重な洞察を明らかにします。

As a booming research area in the past decade, deep learning technologies have been driven by big data collected and processed on an unprecedented scale. However, privacy concerns arise due to the potential leakage of sensitive information from the training data. Recent research has revealed that deep learning models are vulnerable to various privacy attacks, including membership inference attacks, attribute inference attacks, and gradient inversion attacks. Notably, the efficacy of these attacks varies from model to model. In this paper, we answer a fundamental question: Does model architecture affect model privacy? By investigating representative model architectures from CNNs to Transformers, we demonstrate that Transformers generally exhibit higher vulnerability to privacy attacks compared to CNNs. Additionally, We identify the micro design of activation layers, stem layers, and LN layers, as major factors contributing to the resilience of CNNs against privacy attacks, while the presence of attention modules is another main factor that exacerbates the privacy vulnerability of Transformers. Our discovery reveals valuable insights for deep learning models to defend against privacy attacks and inspires the research community to develop privacy-friendly model architectures.
翻訳日:2023-06-22 05:17:36 公開日:2023-06-19
# SinFusion: 単一画像やビデオによる拡散モデルのトレーニング

SinFusion: Training Diffusion Models on a Single Image or Video ( http://arxiv.org/abs/2211.11743v3 )

ライセンス: Link先を確認
Yaniv Nikankin, Niv Haim and Michal Irani(参考訳) 拡散モデルでは画像と映像の生成が著しく進歩し、品質と多様性においてgansを上回った。 しかし、それらは通常、非常に大きなデータセットで訓練され、所定の入力画像やビデオを操作するのに自然に適応していない。 本稿では,単一入力画像やビデオ上で拡散モデルをトレーニングすることで,この問題を解決する方法を示す。 画像/映像特異的拡散モデル(sinfusion)は,拡散モデルのコンディショニング機能を活用しつつ,単一の画像や映像の出現とダイナミクスを学習する。 様々な画像/ビデオ特有の操作タスクを解決できる。 特に,本モデルでは,単一の入力ビデオの動作とダイナミクスを少ないフレームから学習することができる。 そして、同じダイナミックシーンのさまざまな新しいビデオサンプルを生成し、短いビデオを長いもの(前方と後方の両方)に抽出し、ビデオのアップサンプリングを行う。 これらのタスクの多くは、現在のビデオ固有の生成方法では実現できない。

Diffusion models exhibited tremendous progress in image and video generation, exceeding GANs in quality and diversity. However, they are usually trained on very large datasets and are not naturally adapted to manipulate a given input image or video. In this paper we show how this can be resolved by training a diffusion model on a single input image or video. Our image/video-specific diffusion model (SinFusion) learns the appearance and dynamics of the single image or video, while utilizing the conditioning capabilities of diffusion models. It can solve a wide array of image/video-specific manipulation tasks. In particular, our model can learn from few frames the motion and dynamics of a single input video. It can then generate diverse new video samples of the same dynamic scene, extrapolate short videos into long ones (both forward and backward in time) and perform video upsampling. Most of these tasks are not realizable by current video-specific generation methods.
翻訳日:2023-06-22 05:09:06 公開日:2023-06-19
# CRONOS:Wi-Fi CSIを用いたデバイスフリーNLoS人間プレゼンス検出のためのカラー化とコントラスト学習

CRONOS: Colorization and Contrastive Learning for Device-Free NLoS Human Presence Detection using Wi-Fi CSI ( http://arxiv.org/abs/2211.10354v4 )

ライセンス: Link先を確認
Li-Hsiang Shen, Chia-Che Hsieh, An-Hung Hsiao, Kai-Ten Feng(参考訳) 近年、広く普及するスマートサービスやアプリケーションに対する需要は急速に増加している。 センサーやカメラによるデバイスなしの人間検出は広く採用されているが、プライバシーの問題や、動きのない人の誤検知が伴っている。 これらの欠点に対処するため、商用Wi-Fiデバイスから取得したチャネル状態情報(CSI)は、正確な検出のための豊富な信号機能を提供する。 しかしながら、既存のシステムは、非視線(NLoS)の下での不正確な分類と、部屋の隅に立っているときのような固定的なシナリオに悩まされている。 そこで本研究では,動的再帰プロット(rps)とカラーコードcsi比(csi比)を生成するcronos(colorization and contrastive learning enhanced nlos human presence detection)というシステムを提案する。 また、教師付きコントラスト学習を取り入れて実質的な表現を抽出し、コンサルテーション損失を定式化し、動的ケースと定常ケースの代表的な距離を区別する。 さらに,rssとカラーコードcsi比のどちらを利用するかを決定するために,自己切り替え型静的特徴拡張分類器(s3fec)を提案する。 包括的実験の結果,cronosは,機械学習や非学習ベースの手法を応用した既存のシステムよりも優れており,またオープン文学における非csiベースの機能よりも優れていることがわかった。 CRONOSは、空白、移動性、視線(LoS)、NLoSシナリオにおける人間の存在検出精度が最も高い。

In recent years, the demand for pervasive smart services and applications has increased rapidly. Device-free human detection through sensors or cameras has been widely adopted, but it comes with privacy issues as well as misdetection for motionless people. To address these drawbacks, channel state information (CSI) captured from commercialized Wi-Fi devices provides rich signal features for accurate detection. However, existing systems suffer from inaccurate classification under a non-line-of-sight (NLoS) and stationary scenario, such as when a person is standing still in a room corner. In this work, we propose a system called CRONOS (Colorization and Contrastive Learning Enhanced NLoS Human Presence Detection), which generates dynamic recurrence plots (RPs) and color-coded CSI ratios to distinguish mobile and stationary people from vacancy in a room, respectively. We also incorporate supervised contrastive learning to retrieve substantial representations, where consultation loss is formulated to differentiate the representative distances between dynamic and stationary cases. Furthermore, we propose a self-switched static feature enhanced classifier (S3FEC) to determine the utilization of either RPs or color-coded CSI ratios. Our comprehensive experimental results show that CRONOS outperforms existing systems that either apply machine learning or non-learning based methods, as well as non-CSI based features in open literature. CRONOS achieves the highest human presence detection accuracy in vacancy, mobility, line-of-sight (LoS), and NLoS scenarios.
翻訳日:2023-06-22 05:07:40 公開日:2023-06-19
# MoNET: 対話状態追跡のためのノイズ強化トレーニングによるタックル状態モメンタム

MoNET: Tackle State Momentum via Noise-Enhanced Training for Dialogue State Tracking ( http://arxiv.org/abs/2211.05503v3 )

ライセンス: Link先を確認
Haoning Zhang, Junwei Bao, Haipeng Sun, Youzheng Wu, Wenye Li, Shuguang Cui, Xiaodong He(参考訳) 対話状態追跡(DST)は、対話履歴をスロット値ペアからなる対話状態に変換することを目的としている。 全ての履歴情報を記憶する複合構造情報として、dstモデルによる現在の状態を予測する入力として、最後の順番の対話状態が典型的に採用される。 しかし, このモデルでは, 予測されたスロット値が変化せず, 状態モーメントとして定義される傾向がみられた。 具体的には、モデルが変更が必要なスロット値の更新に苦労し、最後のターンで間違った予測スロット値を修正します。 この目的のために,ノイズ強化トレーニングにより状態運動量に対処するMoNETを提案する。 まず、トレーニングデータの各ターンの前の状態は、スロット値の一部を置き換えることでノイズが発生する。 そして、ノイズの多い前の状態を入力として使用して、現在の状態を予測し、モデルがスロット値を更新して修正する能力を改善する。 さらに、コントラスト的コンテキストマッチングフレームワークは、状態とそれに対応する雑音変動との表現距離を狭め、ノイズ状態の影響を低減し、モデルに対話履歴をよりよく理解させるように設計されている。 MultiWOZデータセットの実験結果は、MoNETが従来のDSTメソッドより優れていることを示している。 アブレーションと解析は、状態運動量軽減と反雑音能力向上におけるmonetの有効性を検証する。

Dialogue state tracking (DST) aims to convert the dialogue history into dialogue states which consist of slot-value pairs. As condensed structural information memorizing all history information, the dialogue state in the last turn is typically adopted as the input for predicting the current state by DST models. However, these models tend to keep the predicted slot values unchanged, which is defined as state momentum in this paper. Specifically, the models struggle to update slot values that need to be changed and correct wrongly predicted slot values in the last turn. To this end, we propose MoNET to tackle state momentum via noise-enhanced training. First, the previous state of each turn in the training data is noised via replacing some of its slot values. Then, the noised previous state is used as the input to learn to predict the current state, improving the model's ability to update and correct slot values. Furthermore, a contrastive context matching framework is designed to narrow the representation distance between a state and its corresponding noised variant, which reduces the impact of noised state and makes the model better understand the dialogue history. Experimental results on MultiWOZ datasets show that MoNET outperforms previous DST methods. Ablations and analysis verify the effectiveness of MoNET in alleviating state momentum and improving anti-noise ability.
翻訳日:2023-06-22 05:06:59 公開日:2023-06-19
# PartSLIP: 事前訓練画像言語モデルによる3次元点雲の低ショット部分分割

PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained Image-Language Models ( http://arxiv.org/abs/2212.01558v2 )

ライセンス: Link先を確認
Minghua Liu, Yinhao Zhu, Hong Cai, Shizhong Han, Zhan Ling, Fatih Porikli, Hao Su(参考訳) 汎用的な3d部分セグメンテーションは重要だが、ビジョンとロボティクスでは難しい。 従来の教師あり手法による深層モデルのトレーニングには,粒度の細かい部分アノテーションを備えた大規模3dデータセットが必要となる。 本稿では,事前学習した画像言語モデルであるGLIPを利用して,3次元点群を低ショットで分割する手法を提案する。 我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。 また,マルチビュー3Dプリエントと数発のプロンプトチューニングを利用して性能を著しく向上する。 partnetとpartnet-mobilityデータセットの広範な評価により,ゼロショット3dセグメンテーションが可能となった。 私たちの少数ショットバージョンは、既存の少数ショットアプローチを大きなマージンで上回るだけでなく、完全に監督されたアプローチと比べて非常に競争力のある結果も得られます。 さらに,本手法をiphoneでスキャンしたポイントクラウドに直接適用できることを実証した。

Generalizable 3D part segmentation is important but challenging in vision and robotics. Training deep models via conventional supervised methods requires large-scale 3D datasets with fine-grained part annotations, which are costly to collect. This paper explores an alternative way for low-shot part segmentation of 3D point clouds by leveraging a pretrained image-language model, GLIP, which achieves superior performance on open-vocabulary 2D detection. We transfer the rich knowledge from 2D to 3D through GLIP-based part detection on point cloud rendering and a novel 2D-to-3D label lifting algorithm. We also utilize multi-view 3D priors and few-shot prompt tuning to boost performance significantly. Extensive evaluation on PartNet and PartNet-Mobility datasets shows that our method enables excellent zero-shot 3D part segmentation. Our few-shot version not only outperforms existing few-shot approaches by a large margin but also achieves highly competitive results compared to the fully supervised counterpart. Furthermore, we demonstrate that our method can be directly applied to iPhone-scanned point clouds without significant domain gaps.
翻訳日:2023-06-22 05:00:56 公開日:2023-06-19
# 基礎モデルの力について

On the Power of Foundation Models ( http://arxiv.org/abs/2211.16327v4 )

ライセンス: Link先を確認
Yang Yuan(参考訳) 無限に多くの高品質なデータポイント、無限の計算力、完璧なトレーニングアルゴリズムを備えた無限大の基礎モデル、プレテキストタスクにおけるゼロ一般化誤差を保証することで、モデルはあらゆることに利用できるだろうか? この問題は、それらが主に調査する問題はここでは存在しないと仮定されるため、既存の表現理論、最適化理論、一般化理論によっては答えられない。 本稿では,カテゴリ理論がこの問題に答える強力な機械を提供することを示す。 3つの結果が得られた。 最初の1つは、プロンプトベースの学習のパワーを制限し、そのモデルは、そのタスクが表現可能であれば、プロンプトで下流のタスクを解決できる、と言う。 第二に、ファインチューニングは、必要最小限のパワー(対称性まで)を持つ基礎モデルとして、プリテキストタスクによって定義されたカテゴリの下流タスクを、微調整と十分なリソースで理論的に解くことができるため、この制限を持たないと言う。 我々の最終結果は新たな一般化定理と見なすことができ、基礎モデルが対象のカテゴリ(例えば画像)から、ソースのカテゴリ(例えばテキスト)の構造情報を使って、未発見のオブジェクトを生成できることを示します。 その過程で私たちは,独立した関心を持つ可能性のある,教師付きおよび自己教師型学習のための分類的枠組みを提供する。

With infinitely many high-quality data points, infinite computational power, an infinitely large foundation model with a perfect training algorithm and guaranteed zero generalization error on the pretext task, can the model be used for everything? This question cannot be answered by the existing theory of representation, optimization or generalization, because the issues they mainly investigate are assumed to be nonexistent here. In this paper, we show that category theory provides powerful machinery to answer this question. We have proved three results. The first one limits the power of prompt-based learning, saying that the model can solve a downstream task with prompts if and only if the task is representable. The second one says fine tuning does not have this limit, as a foundation model with the minimum required power (up to symmetry) can theoretically solve downstream tasks for the category defined by pretext task, with fine tuning and enough resources. Our final result can be seen as a new type of generalization theorem, showing that the foundation model can generate unseen objects from the target category (e.g., images) using the structural information from the source category (e.g., texts). Along the way, we provide a categorical framework for supervised and self-supervised learning, which might be of independent interest.
翻訳日:2023-06-22 04:59:50 公開日:2023-06-19
# NSGA-IIのランタイム分析:多くの目的に対する非効率性の証明、定量化、説明

Runtime Analysis for the NSGA-II: Proving, Quantifying, and Explaining the Inefficiency For Many Objectives ( http://arxiv.org/abs/2211.13084v3 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) NSGA-IIは多目的最適化問題を解く最も顕著なアルゴリズムの1つである。 多くの応用が成功したにもかかわらず、NSGA-IIは多数の目的に対して効果が低いことがいくつかの研究で示されている。 本研究では,この現象の厳密な実証と定量化に数学的ランタイム解析を用いる。 すべての解がパレート最適である離散的 oneminmax ベンチマークの単純な $m$-objective 汎化においても、人口規模が大きい nsga-ii では、目的数が少なくとも 3 である場合、全パレートフロント(すべてのパレートオプティマの目的ベクトル)をサブ指数時間で計算することはできない。 この予期せぬ行動の理由は、密集距離の計算において、異なる目的が独立に考慮されるという事実にある。 これは2つの目的に対する問題ではなく、一方の目的に沿ったペアワイズ非可換な解の任意のソートもまた、他方の目的(逆順序)に従ってそのようなソートである。

The NSGA-II is one of the most prominent algorithms to solve multi-objective optimization problems. Despite numerous successful applications, several studies have shown that the NSGA-II is less effective for larger numbers of objectives. In this work, we use mathematical runtime analyses to rigorously demonstrate and quantify this phenomenon. We show that even on the simple $m$-objective generalization of the discrete OneMinMax benchmark, where every solution is Pareto optimal, the NSGA-II also with large population sizes cannot compute the full Pareto front (objective vectors of all Pareto optima) in sub-exponential time when the number of objectives is at least three. The reason for this unexpected behavior lies in the fact that in the computation of the crowding distance, the different objectives are regarded independently. This is not a problem for two objectives, where any sorting of a pair-wise incomparable set of solutions according to one objective is also such a sorting according to the other objective (in the inverse order).
翻訳日:2023-06-22 04:58:18 公開日:2023-06-19
# 散逸キャビティにおける双極子-双極子相互作用を伴う2つのv型原子の絡み合いダイナミクス

Entanglement Dynamics of Two V-type Atoms with Dipole-Dipole Interaction in Dissipative Cavity ( http://arxiv.org/abs/2212.04650v2 )

ライセンス: Link先を確認
Jia Wang and Dan Long and Qilin Wang and Hong-Mei Zou and Chenya Liu and Qianqian Ma(参考訳) 本研究では,2つのV型原子と双極子-双極子相互作用の結合系を,外部環境と結合した散逸性単一モードキャビティで研究する。 我々は、ファノの定理に従って新たな生成と消滅作用素の集合を導入することにより、散逸キャビティのハミルトニアンを対角化した後の時間依存シュロディンガー方程式を解いて、このモデルの解析解を得る。 また, キャビティ-環境結合, 自発的生成干渉 (sgi) パラメータおよび2つの原子間の双極子-双極子相互作用が初期状態の絡み合いダイナミクスに及ぼす影響について詳細に検討した。 その結果、sgiパラメータは、初期状態の異なるエンタングルメントダイナミクスに異なる効果を持つことがわかった。 すなわち、SGIパラメータは、初期最大絡み状態の崩壊率を高め、初期部分絡み状態の崩壊率を減少させる。 初期積状態の場合、より大きなSGIパラメータはより絡み合った状態に対応する。 エンタングルメントは弱いキャビティ-環境結合の下で単調に減少し、一方エンタングルメントの振動は強いキャビティ-環境結合の下で起こる。 双極子-双極子相互作用が大きくなるほど、絡み合いが遅くなり、絡み合いが発生する。 したがって、双極子-双極子相互作用は、エンタングルメントを非常に効果的に保護するだけでなく、エンタングルメントに対するsgiパラメータの制御効果を高めることができる。

In this work, we study a coupled system of two V-type atoms with dipole-dipole interaction in a dissipative single-mode cavity, which couples with an external environment. We obtain the analytical solution of this model by solving the time dependent Schrodinger equation after we diagonalize Hamiltonian of dissipative cavity by introducing a set of new creation and annihilation operators according to Fano theorem. We also detailedly discuss the influences of cavity-environment coupling, spontaneously generated interference (SGI) parameter and dipole-dipole interaction between two atoms on entanglement dynamics under different initial states. The results show that the SGI parameter has different effects on entanglement dynamics under different initial states. Namely, the SGI parameter will increase the decay rate of the initially maximal entangled state and reduce that of the initially partial entangled state. For the initially product state, the larger SGI parameter corresponds to the more entanglement generated. The entanglement monotonically decreases under the weak cavity-environment coupling, while the oscillation of entanglement will occur under the strong cavity-environment coupling. The larger the dipole-dipole interaction is, the slower the entanglement decays and the more the entanglement will be generated. So the dipole-dipole interaction can not only protect and generate entanglement very effectively, but also enhance the regulation effect of the SGI parameter on entanglement.
翻訳日:2023-06-22 04:50:16 公開日:2023-06-19
# multi3nlu++:タスク指向対話における自然言語理解のための多言語マルチインテントマルチドメインデータセット

MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for Natural Language Understanding in Task-Oriented Dialogue ( http://arxiv.org/abs/2212.10455v2 )

ライセンス: Link先を確認
Nikita Moghe, Evgeniia Razumovskaia, Liane Guillou, Ivan Vuli\'c, Anna Korhonen, Alexandra Birch(参考訳) タスク指向対話(TOD)システムは、より効率的な顧客サポートを提供するため、多くの業界に広く展開されている。 これらのシステムは典型的には単一のドメインや言語のために構築され、それ以上の一般化はしない。 複数の言語とドメインをまたいだtodにおける自然言語理解(nlu)作業を支援するため、マルチ言語、マルチインテント、マルチドメインデータセットであるmulti3nlu++を構築した。 Multi3NLU++は、英語のみのNLU++データセットを拡張して、2つのドメイン(BANKINGとHOTELS)で、高、中、低リソース言語(スペイン語、マラティア、トルコ、アムハラ語)に手動で翻訳する。 多言語性のため、Multi3NLU++は複雑で自然なユーザ目標を表すため、世界の様々な言語でTODシステムの現実的な性能を測定することができる。 我々はMulti3NLU++を用いて、多言語設定におけるTODシステムの意図検出とスロットラベリングのNLUタスクの最先端多言語モデルのベンチマークを行う。 結果は、データセット、特に低リソース言語環境での挑戦的な性質を示し、マルチドメイン多言語todセットアップにおける将来の実験のための十分な余地を提供する。

Task-oriented dialogue (TOD) systems have been widely deployed in many industries as they deliver more efficient customer support. These systems are typically constructed for a single domain or language and do not generalise well beyond this. To support work on Natural Language Understanding (NLU) in TOD across multiple languages and domains simultaneously, we constructed MULTI3NLU++, a multilingual, multi-intent, multi-domain dataset. MULTI3NLU++ extends the English only NLU++ dataset to include manual translations into a range of high, medium, and low resource languages (Spanish, Marathi, Turkish and Amharic), in two domains (BANKING and HOTELS). Because of its multi-intent property, MULTI3NLU++ represents complex and natural user goals, and therefore allows us to measure the realistic performance of TOD systems in a varied set of the world's languages. We use MULTI3NLU++ to benchmark state-of-the-art multilingual models for the NLU tasks of intent detection and slot labelling for TOD systems in the multilingual setting. The results demonstrate the challenging nature of the dataset, particularly in the low-resource language setting, offering ample room for future experimentation in multi-domain multilingual TOD setups.
翻訳日:2023-06-22 04:42:16 公開日:2023-06-19
# 機械翻訳指標の極値評価

Extrinsic Evaluation of Machine Translation Metrics ( http://arxiv.org/abs/2212.10297v2 )

ライセンス: Link先を確認
Nikita Moghe and Tom Sherborne and Mark Steedman and Alexandra Birch(参考訳) 自動機械翻訳(MT)メトリクスは比較的大規模なテストセット(システムレベルの評価)間で機械翻訳システムの翻訳品質を区別するために広く用いられている。 しかし、良い翻訳と悪い翻訳を区別するのに、自動的な指標が信頼できるかは定かではない(セグメンテーションレベルの評価)。 本稿では,下流タスクを伴う大規模プラットフォームに配置した場合,機械翻訳コンポーネントの成功を検出する上で,MTメトリクスがいかに有用かを検討する。 我々は,3つの下流言語タスク(対話状態追跡,質問応答,意味解析)において,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。 各タスクに対して、モノリンガルなタスク固有のモデルのみにアクセスできます。 我々は,翻訳テストの最終作業において,良い/悪い翻訳を予測できるメトリックの能力と成功/失敗の相関を計算した。 実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。 また、ニューラルメトリックによって提供されるスコアは、主に未定義の範囲のため解釈できないことも判明した。 我々は、機械翻訳と多言語理解の間のより情報的な相互作用のためのスコアではなく、将来のmtメトリクスの推奨に分析を合成する。

Automatic machine translation (MT) metrics are widely used to distinguish the translation qualities of machine translation systems across relatively large test sets (system-level evaluation). However, it is unclear if automatic metrics are reliable at distinguishing good translations from bad translations at the sentence level (segment-level evaluation). In this paper, we investigate how useful MT metrics are at detecting the success of a machine translation component when placed in a larger platform with a downstream task. We evaluate the segment-level performance of the most widely used MT metrics (chrF, COMET, BERTScore, etc.) on three downstream cross-lingual tasks (dialogue state tracking, question answering, and semantic parsing). For each task, we only have access to a monolingual task-specific model. We calculate the correlation between the metric's ability to predict a good/bad translation with the success/failure on the final task for the Translate-Test setup. Our experiments demonstrate that all metrics exhibit negligible correlation with the extrinsic evaluation of the downstream outcomes. We also find that the scores provided by neural metrics are not interpretable mostly because of undefined ranges. We synthesise our analysis into recommendations for future MT metrics to produce labels rather than scores for more informative interaction between machine translation and multilingual language understanding.
翻訳日:2023-06-22 04:41:52 公開日:2023-06-19
# StyleDomain: ワンショット領域適応のためのStyleGANの効率的および軽量パラメータ化

StyleDomain: Efficient and Lightweight Parameterizations of StyleGAN for One-shot and Few-shot Domain Adaptation ( http://arxiv.org/abs/2212.10229v3 )

ライセンス: Link先を確認
Aibek Alanov, Vadim Titov, Maksim Nakhodnov, Dmitry Vetrov(参考訳) GANのドメイン適応は、大規模なデータセットに事前訓練された最先端のGANモデル(例:StyleGAN)を、サンプルが少ない特定の領域(例:顔、スケッチなど)に微調整する問題である。 この問題に様々な方法で対処するメソッドはたくさんありますが、まだ答えが得られていない重要な質問がたくさんあります。 本稿では,GANのドメイン適応問題について,StyleGANモデルに焦点をあてた,体系的かつ詳細な解析を行う。 まず、ソースドメインとターゲットドメインの類似度に応じて、ジェネレータを新しいドメインに適応させる役割を担っているstyleganの最も重要な部分について詳細な調査を行う。 この詳細な研究の結果、ドメイン適応のためのStyleGANの新しい効率的かつ軽量なパラメータ化を提案する。 特に、StyleSpace(StyleDomain方向)には、類似したドメインに適応するのに十分な方向があり、さらに小さくすることができる。 類似したドメインに対して、我々は、低データレジームで短時間適応する場合に既存のベースラインを上回ることができる、アフィン$+$とアフィンライト$+$パラメータ化を提案する。 最後に、StyleDomain方向を調べ、ドメイン混合やクロスドメイン画像の変形に応用する多くの驚くべき特性を見出す。

Domain adaptation of GANs is a problem of fine-tuning the state-of-the-art GAN models (e.g. StyleGAN) pretrained on a large dataset to a specific domain with few samples (e.g. painting faces, sketches, etc.). While there are a great number of methods that tackle this problem in different ways, there are still many important questions that remain unanswered. In this paper, we provide a systematic and in-depth analysis of the domain adaptation problem of GANs, focusing on the StyleGAN model. First, we perform a detailed exploration of the most important parts of StyleGAN that are responsible for adapting the generator to a new domain depending on the similarity between the source and target domains. As a result of this in-depth study, we propose new efficient and lightweight parameterizations of StyleGAN for domain adaptation. Particularly, we show there exist directions in StyleSpace (StyleDomain directions) that are sufficient for adapting to similar domains and they can be reduced further. For dissimilar domains, we propose Affine$+$ and AffineLight$+$ parameterizations that allows us to outperform existing baselines in few-shot adaptation with low data regime. Finally, we examine StyleDomain directions and discover their many surprising properties that we apply for domain mixing and cross-domain image morphing.
翻訳日:2023-06-22 04:41:29 公開日:2023-06-19
# 不規則スピン対系の緩和ダイナミクス

Relaxation dynamics of an unlike spin pair system ( http://arxiv.org/abs/2212.08747v2 )

ライセンス: Link先を確認
A. Consuelo-Leal, Hugo D. Fern\'andez Sare, R. Auccaise(参考訳) レッドフィールドマスター方程式は、室温で異なるスピンの相互作用するペアのダイナミクスを研究するために応用された。 このスピン量子系は、純粋な双極子-双極子カップリングによって相互作用するヘテロ核二レベルスピン系の緩和ダイナミクスを分析するワークベンチ量子モデルである。 密度行列要素の表現と各コヒーレンス秩序の緩和速度定数を計算した。 さらに, 3つの初期量子状態を考慮した解の評価を行い, 多指数進化や拡張といった理論的予測は, 磁化時間発展に関するこれまでの研究と一致した挙動であることを示した。 さらに、縦磁化のダイナミクスを予測するために計算された解は、I. Solomonの報告した不一致を避ける。

Redfield master equation was applied to study the dynamics of an ensemble of interacting pair of unlike spins at room temperature. This spin quantum system is a workbench quantum model to analyze the relaxation dynamics of a heteronuclear two-level spin system interacting by a pure dipole-dipole coupling. Expressions for the density matrix elements and their relaxation rate constants of each coherence order were computed. In addition, the solutions were evaluated considering three initial quantum states, and the theoretical predictions, such as multi-exponential evolutions and enhancement, are behaviors that the solutions preserve and agree with previous studies performed for magnetization time evolutions. Moreover, the solutions computed to predict the dynamics of the longitudinal magnetization avoid the disagreement reported by I. Solomon.
翻訳日:2023-06-22 04:40:02 公開日:2023-06-19
# MASTER:マルチタスクで事前訓練された自動エンコーダ

MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers ( http://arxiv.org/abs/2212.07841v2 )

ライセンス: Link先を確認
Kun Zhou, Xiao Liu, Yeyun Gong, Wayne Xin Zhao, Daxin Jiang, Nan Duan, Ji-Rong Wen(参考訳) パラメータ初期化のための既存の高密度検索手法では、事前学習型変換器 (\eg BERT) がよく用いられており、近年では高密度ベクトルの品質向上のために、より効果的な事前学習タスクが検討されている。 様々な新規かつ効果的なタスクが提案されているが、それらの異なる入力形式と学習目的により、モデル性能を共同で改善する統合が困難になる。 本研究では,種々の事前学習タスクをボトルネック付きマスク付きオートエンコーダ方式に統合し,マルチタスク事前学習モデルであるMASTERに統合することを目的とする。 具体的には、masterは共有エンコーダマルチデコーダアーキテクチャを使用して、表現ボトルネックを構築し、タスク間の豊富なセマンティック情報を密集したベクトルに圧縮する。 そこで本研究では,3種類の事前学習タスクを統合した。破損した経路の回復,関連する経路の回復,PLMの出力の回復,内部通過情報の特徴付け,パス間関係,PLMの知識。 広範な実験により,本手法は競争的検索手法よりも優れていることが示された。 我々のコードとデータは \url{https://github.com/microsoft/SimXNS} で公開されています。

Pre-trained Transformers (\eg BERT) have been commonly used in existing dense retrieval methods for parameter initialization, and recent studies are exploring more effective pre-training tasks for further improving the quality of dense vectors. Although various novel and effective tasks have been proposed, their different input formats and learning objectives make them hard to be integrated for jointly improving the model performance. In this work, we aim to unify a variety of pre-training tasks into the bottlenecked masked autoencoder manner, and integrate them into a multi-task pre-trained model, namely MASTER. Concretely, MASTER utilizes a shared-encoder multi-decoder architecture that can construct a representation bottleneck to compress the abundant semantic information across tasks into dense vectors. Based on it, we integrate three types of representative pre-training tasks: corrupted passages recovering, related passages recovering and PLMs outputs recovering, to characterize the inner-passage information, inter-passage relations and PLMs knowledge. Extensive experiments have shown that our approach outperforms competitive dense retrieval methods. Our code and data are publicly released in \url{https://github.com/microsoft/SimXNS}.
翻訳日:2023-06-22 04:38:52 公開日:2023-06-19
# lenet:マルチスケール畳み込みを考慮した軽量で効率的なlidarセマンティクスセグメンテーション

LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using Multi-Scale Convolution Attention ( http://arxiv.org/abs/2301.04275v3 )

ライセンス: Link先を確認
Ben Ding(参考訳) lidarに基づくセマンティクスセグメンテーションは、ロボット工学と自動運転の分野において、シーンの包括的理解を提供するため、重要である。 本稿では,lidarに基づく意味セグメンテーションのためのエンコーダ・デコーダ構造を持つ,軽量で効率的なプロジェクションに基づく意味セグメンテーションネットワークlenetを提案する。 エンコーダは、特徴をキャプチャするために、レセプティブフィールドサイズが異なる、新しいマルチスケール畳み込みアテンション(msca)モジュールで構成されている。 このデコーダは、マルチレゾリューション特徴マップのアップサンプリングにバイリニア補間を利用するinterpolation and convolution(iac)機構を採用し、単一の畳み込み層を介して前及び現在の次元特徴を統合する。 このアプローチはネットワークの複雑さを著しく低減し、精度も向上する。 また,ネットワークの精度をさらに高めるため,複数の補助セグメンテーションヘッドを導入する。 SemanticKITTI, SemanticPOSS, nuScenesなどの公開データセットに対する広範囲な評価は, 提案手法が最先端セマンティックセマンティックセマンティクス法と比較して軽量で, 効率的で, 堅牢であることを示している。 完全な実装はhttps://github.com/fengluodb/lenetで利用可能である。

LiDAR-based semantic segmentation is critical in the fields of robotics and autonomous driving as it provides a comprehensive understanding of the scene. This paper proposes a lightweight and efficient projection-based semantic segmentation network called LENet with an encoder-decoder structure for LiDAR-based semantic segmentation. The encoder is composed of a novel multi-scale convolutional attention (MSCA) module with varying receptive field sizes to capture features. The decoder employs an Interpolation And Convolution (IAC) mechanism utilizing bilinear interpolation for upsampling multi-resolution feature maps and integrating previous and current dimensional features through a single convolution layer. This approach significantly reduces the network's complexity while also improving its accuracy. Additionally, we introduce multiple auxiliary segmentation heads to further refine the network's accuracy. Extensive evaluations on publicly available datasets, including SemanticKITTI, SemanticPOSS, and nuScenes, show that our proposed method is lighter, more efficient, and robust compared to state-of-the-art semantic segmentation methods. Full implementation is available at https://github.com/fengluodb/LENet.
翻訳日:2023-06-22 04:30:49 公開日:2023-06-19
# 量子力学と量子場理論。 代数的および幾何学的アプローチ

Quantum mechanics and quantum field theory. Algebraic and geometric approaches ( http://arxiv.org/abs/2301.03804v2 )

ライセンス: Link先を確認
Igor Frolov, Albert Schwarz(参考訳) これは、最近の結果を含む量子力学と量子場理論の主要な概念の非標準表現である。 これは、スタート点がスター代数である代数的アプローチと、スタート点が状態の凸集合である幾何学的アプローチに基づいている。 量子確率の標準公式はデコヒーレンスから導かれる。 この導出により、幾何学的アプローチで量子論を超えることができる。 粒子は基底状態の初等励起として定義される(準粒子は任意の変換不変状態の初等励起として)。 従来の散乱行列は準粒子に対しては機能しない(理論が素粒子解釈を持っていない場合は粒子に対しても)。 これらの場合の散乱の解析は包含的散乱行列の概念に基づいており、包含的断面積と密接に関連している。 従来の散乱行列はグリーン関数(LSZ式)で表すことができ、包含的散乱行列は非平衡統計物理学のケルディシュ形式論に現れる一般化グリーン関数で表すことができることが証明された。 函数積分の観点からの進化作用素やその他の物理量の表現の導出は作用素の記号の概念に基づいており、これらの議論は幾何学的アプローチにも適用することができる。 包括的散乱行列の概念は幾何学的アプローチで理にかなっている(しかし、この状況では従来の散乱行列の定義を与えることはできないようである)。 幾何学的アプローチは、量子力学とその一般化が、我々のデバイスが観測可能量の一部しか測定できない古典理論とみなすことができることを示すために用いられる。

This is a non-standard exposition of the main notions of quantum mechanics and quantum field theory including some recent results. It is based on the algebraic approach where the starting point is a star-algebra and on the geometric approach where the starting point is a convex set of states. Standard formulas for quantum probabilities are derived from decoherence. This derivation allows us to go beyond quantum theory in the geometric approach. Particles are defined as elementary excitations of the ground state (and quasiparticles as elementary excitations of any translation invariant state). The conventional scattering matrix does not work for quasiparticles (and even for particles if the theory does not have particle interpretation). The analysis of scattering in these cases is based on the notion of inclusive scattering matrix, closely related to inclusive cross-sections. It is proven that the conventional scattering matrix can be expressed in terms of Green functions (LSZ formula) and the inclusive scattering matrix can be expressed in terms of generalized Green functions that appear in the Keldysh formalism of non-equilibrium statistical physics. The derivation of the expression of the evolution operator and other physical quantities in terms of functional integrals is based on the notion of the symbol of an operator; these arguments can be applied also in the geometric approach. The notion of inclusive scattering matrix makes sense in the geometric approach (but it seems that one cannot give a definition of the conventional scattering matrix in this situation). The geometric approach is used to show that quantum mechanics and its generalizations can be considered as classical theories where our devices can measure only a part of observables.
翻訳日:2023-06-22 04:30:22 公開日:2023-06-19
# LiDAR強度を用いたリアルタイム同時位置決めとマッピング

Real-Time Simultaneous Localization and Mapping with LiDAR intensity ( http://arxiv.org/abs/2301.09257v2 )

ライセンス: Link先を確認
Wenqiang Du and Giovanni Beltrame(参考訳) 本稿では,非構造環境における幾何縮退問題に対処する,実時間LiDAR強度画像を用いた同時局所化マッピング手法を提案する。 従来のLiDARベースのフロントエンドオドメトリーは、主に点、線、平面などの幾何学的特徴に依存している。 環境におけるこれらの特徴の欠如は、オドメトリーシステム全体の障害につながる可能性がある。 この問題を回避するため,LiDAR 強度画像の特徴と一致する特徴点を,LiDAR 生成点雲から抽出する。 次に抽出した特徴点を用いてスキャン登録を行い,ロボットのエゴ移動を推定する。 バックエンドについては,対応する特徴点間の距離と,地図上で識別された平面間の距離を共同で最適化する。 さらに,インテンシティ画像から抽出した特徴を用いて,前回のスキャンからループクロージャ候補を検出し,ポーズグラフ最適化を行う。 提案手法は,高い精度でリアルタイムに実行でき,照明変化,低テキスト環境,非構造化環境とうまく連携できることを示す。

We propose a novel real-time LiDAR intensity image-based simultaneous localization and mapping method , which addresses the geometry degeneracy problem in unstructured environments. Traditional LiDAR-based front-end odometry mostly relies on geometric features such as points, lines and planes. A lack of these features in the environment can lead to the failure of the entire odometry system. To avoid this problem, we extract feature points from the LiDAR-generated point cloud that match features identified in LiDAR intensity images. We then use the extracted feature points to perform scan registration and estimate the robot ego-movement. For the back-end, we jointly optimize the distance between the corresponding feature points, and the point to plane distance for planes identified in the map. In addition, we use the features extracted from intensity images to detect loop closure candidates from previous scans and perform pose graph optimization. Our experiments show that our method can run in real time with high accuracy and works well with illumination changes, low-texture, and unstructured environments.
翻訳日:2023-06-22 04:21:56 公開日:2023-06-19
# 3ビット状態の真の非局所性の検出

Detection of the genuine non-locality of any three-qubit state ( http://arxiv.org/abs/2301.07955v2 )

ライセンス: Link先を確認
Anuma Garg, Satyabrata Adhikari(参考訳) Svetlichnyの不等式は密度演算子$\rho_{ABC}$によって記述された任意の3ビット状態によって破られ、真の非局所性は$\rho_{ABC}$である。 しかし、3ビット状態の真の非局所性を示す問題は、複雑な最適化問題に還元されるため、これは簡単な作業ではない。 したがって、3ビット状態の真の非局所性の検出は難しい課題であると考えられる。 したがって、我々は異なるアプローチをとっており、この問題を研究するためにスヴェットリニュ作用素の期待値の下限と上限を任意の3量子状態に対して導出した。 得られた境界値の式は、CHSH証人演算子によって2ビットの絡み合った状態が検出されるか否かに依存する。 以下の数量で表すことができる。 一 与えられた三量子状態の積の固有値及び一量子状態の最大混合状態と二量子状態の減少及び複合系の固有値 (ii)還元二量子状態の非局所性。 そして、違反が真の3ビット状態の非局所性を検出できる不等式を達成する。 得られた結果をサポートするために、いくつかの例を挙げる。 最後に,実験室における実装の可能性について論じる。

It is known that the violation of Svetlichny inequality by any three-qubit state described by the density operator $\rho_{ABC}$ witness the genuine non-locality of $\rho_{ABC}$. But it is not an easy task as the problem of showing the genuine non-locality of any three-qubit state reduces to the problem of a complicated optimization problem. Thus, the detection of genuine non-locality of any three-qubit state may be considered a challenging task. Therefore, we have taken a different approach and derived the lower and upper bound of the expectation value of the Svetlichny operator with respect to any three-qubit state to study this problem. The expression of the obtained bounds depends on whether the reduced two-qubit entangled state is detected by the CHSH witness operator or not. It may be expressed in terms of the following quantities such as (i) the eigenvalues of the product of the given three-qubit state and the composite system of single qubit maximally mixed state and reduced two-qubit state and (ii) the non-locality of reduced two-qubit state. We then achieve the inequality whose violation may detect the genuine non-locality of any three-qubit state. A few examples are cited to support our obtained results. Lastly, we discuss its possible implementation in the laboratory.
翻訳日:2023-06-22 04:21:12 公開日:2023-06-19
# FPANet:フレームレベルのポストアライメントを用いた周波数ベースのビデオデモ

FPANet: Frequency-based Video Demoireing using Frame-level Post Alignment ( http://arxiv.org/abs/2301.07330v2 )

ライセンス: Link先を確認
Gyeongrok Oh, Heon Gu, Jinkyu Kim, Sangpil Kim(参考訳) 重なり合うギルドパターン間の干渉はモアレパターンを生成し、通常のデジタルカメラによってデジタルディスプレイ装置の画面をキャプチャする画像の視覚的品質を低下させる。 このようなモアレパターンの除去は、様々なサイズと色歪の複雑なパターンのために困難である。 既存のアプローチは主に空間領域におけるフィルタリングに重点を置いており、大規模なモアレパターンの除去に失敗した。 本稿では、周波数領域と空間領域の両方でフィルタを学習し、モアレパターンの様々なサイズを除去して復元品質を向上させるFPANetと呼ばれる新しいモデルを提案する。 さらに,複数の連続したフレームを学習し,フレーム不変なコンテンツ特徴を抽出し,品質の高い時間整合画像を出力する。 提案手法の有効性を実証し,PSNR, SSIM, LPIPS, FVD, FSIMなどの画像・映像品質指標を用いて, ESDNet, VDmoire, MBCNN, WDNet, UNet, DMCNNといった最先端の手法よりも優れていることを示す。

Interference between overlapping gird patterns creates moire patterns, degrading the visual quality of an image that captures a screen of a digital display device by an ordinary digital camera. Removing such moire patterns is challenging due to their complex patterns of diverse sizes and color distortions. Existing approaches mainly focus on filtering out in the spatial domain, failing to remove a large-scale moire pattern. In this paper, we propose a novel model called FPANet that learns filters in both frequency and spatial domains, improving the restoration quality by removing various sizes of moire patterns. To further enhance, our model takes multiple consecutive frames, learning to extract frame-invariant content features and outputting better quality temporally consistent images. We demonstrate the effectiveness of our proposed method with a publicly available large-scale dataset, observing that ours outperforms the state-of-the-art approaches, including ESDNet, VDmoire, MBCNN, WDNet, UNet, and DMCNN, in terms of the image and video quality metrics, such as PSNR, SSIM, LPIPS, FVD, and FSIM.
翻訳日:2023-06-22 04:20:53 公開日:2023-06-19
# ディープニューラルネットワークにおける安全でない入力をカウントする#DNN検証問題

The #DNN-Verification Problem: Counting Unsafe Inputs for Deep Neural Networks ( http://arxiv.org/abs/2301.07068v4 )

ライセンス: Link先を確認
Luca Marzari, Davide Corsi, Ferdinando Cicalese and Alessandro Farinelli(参考訳) ディープニューラルネットワークは、例えば自動運転のような高いレベルの安全性を必要とする重要なタスクにますます採用されている。 最先端の検証器は、DNNが与えられたプロパティ(少なくとも1つの安全でない入力設定があるかどうか)が安全でないかどうかを確認するのに使えるが、その出力はシールド、モデル選択、トレーニングの改善といった他の目的のために十分な情報を提供していない。 本稿では,特定の安全性に違反する原因となるDNNの入力構成数をカウントする#DNN-Verification問題を提案する。 我々は,この問題の複雑さを分析し,違反の正確な数を返す新しい手法を提案する。 また,この問題の#P完全性から,計算要求を著しく低減しつつ,正しいカウントの証明可能な確率的境界を提供するランダム化近似法を提案する。 提案手法の有効性を実証する一連の安全クリティカルベンチマークについて実験結果を示し,境界の密着性を評価する。

Deep Neural Networks are increasingly adopted in critical tasks that require a high level of safety, e.g., autonomous driving. While state-of-the-art verifiers can be employed to check whether a DNN is unsafe w.r.t. some given property (i.e., whether there is at least one unsafe input configuration), their yes/no output is not informative enough for other purposes, such as shielding, model selection, or training improvements. In this paper, we introduce the #DNN-Verification problem, which involves counting the number of input configurations of a DNN that result in a violation of a particular safety property. We analyze the complexity of this problem and propose a novel approach that returns the exact count of violations. Due to the #P-completeness of the problem, we also propose a randomized, approximate method that provides a provable probabilistic bound of the correct count while significantly reducing computational requirements. We present experimental results on a set of safety-critical benchmarks that demonstrate the effectiveness of our approximate method and evaluate the tightness of the bound.
翻訳日:2023-06-22 04:20:12 公開日:2023-06-19
# 新しい生成型adversarial networkベースのフレームワークによる短命ssvepデータ拡張

Short-length SSVEP data extension by a novel generative adversarial networks based framework ( http://arxiv.org/abs/2301.05599v4 )

ライセンス: Link先を確認
Yudong Pan, Ning Li, Yangsong Zhang, Peng Xu and Dezhong Yao(参考訳) 定常視覚誘発電位(SSVEPs)ベースの脳-コンピュータインタフェース(BCI)は、情報伝達率(ITR)が高く、ターゲットの量が多いことから注目されている。 しかし、周波数同定手法の性能は、ユーザキャリブレーションデータ量とデータ長に大きく左右されるため、実際のアプリケーションへの展開を妨げている。 近年,合成脳波(EEG)データを作成するためにGAN(Generative Adversarial Network)ベースのデータ生成手法が広く採用され,これらの課題に対処することが約束されている。 本稿では,TEGANと呼ばれる時間ウィンドウ長拡張のためのGANベースのエンドツーエンド信号変換ネットワークを提案する。 TEGANは短いSSVEP信号を長い人工SSVEP信号に変換する。 新たなU-Netジェネレータアーキテクチャと補助分類器をネットワークアーキテクチャに組み込むことで、TEGANは合成データに条件付き特徴を生成することができた。 さらに,ネットワーク実装中にganのトレーニングプロセスを規則化する2段階のトレーニング戦略とlecam-divergence正規化用語を導入した。 TEGANは2つの公開SSVEPデータセット(4クラスデータセットと12クラスデータセット)で評価された。 teganの支援により、従来の周波数認識法とディープラーニングに基づく手法の性能は、限られた校正データで大幅に向上した。 また,様々な周波数認識手法の分類性能ギャップを狭めている。 本研究では,高速BCIシステムの開発のために,短時間SSVEP信号に対するデータ長を拡張できる手法の有効性を実証する。 提案手法はキャリブレーション時間を短縮し,様々な実世界のBCIベースのアプリケーションに対する予算を削減できる大きな可能性を秘めている。

Steady-state visual evoked potentials (SSVEPs) based brain-computer interface (BCI) has received considerable attention due to its high information transfer rate (ITR) and available quantity of targets. However, the performance of frequency identification methods heavily hinges on the amount of user calibration data and data length, which hinders the deployment in real-world applications. Recently, generative adversarial networks (GANs)-based data generation methods have been widely adopted to create synthetic electroencephalography (EEG) data, holds promise to address these issues. In this paper, we proposed a GAN-based end-to-end signal transformation network for Time-window length Extension, termed as TEGAN. TEGAN transforms short-length SSVEP signals into long-length artificial SSVEP signals. By incorporating a novel U-Net generator architecture and an auxiliary classifier into the network architecture, the TEGAN could produce conditioned features in the synthetic data. Additionally, we introduced a two-stage training strategy and the LeCam-divergence regularization term to regularize the training process of GAN during the network implementation. The proposed TEGAN was evaluated on two public SSVEP datasets (a 4-class dataset and a 12-class dataset). With the assistance of TEGAN, the performance of traditional frequency recognition methods and deep learning-based methods have been significantly improved under limited calibration data. And the classification performance gap of various frequency recognition methods has been narrowed. This study substantiates the feasibility of the proposed method to extend the data length for short-time SSVEP signals for developing a high-performance BCI system. The proposed GAN-based methods have the great potential of shortening the calibration time and cutting down the budget for various real-world BCI-based applications.
翻訳日:2023-06-22 04:19:22 公開日:2023-06-19
# 時系列から離散イベントシステムを学ぶための永続性に基づく離散化

Persistence-Based Discretization for Learning Discrete Event Systems from Time Series ( http://arxiv.org/abs/2301.05041v2 )

ライセンス: Link先を確認
L\'ena\"ig Cornanguer (LACODAM, IRISA), Christine Largou\"et (LACODAM, IRISA), Laurence Roz\'e (LACODAM, IRISA), Alexandre Termier (LACODAM, IRISA)(参考訳) 力学系をよく理解するためには、解釈可能で汎用的なモデルを持つことが便利である。 時間的な離散イベントシステムは、これらの要求に応答するモデルの一種です。 しかし、そのようなモデルはタイムスタンプされたイベントシーケンスから推測できるが、数値データから直接は推論できない。 この問題を解決するためには、時系列のイベントやシンボルを識別するために、離散化ステップを行なわなければならない。 persistenceは、persistence scoreと呼ばれるスコアを使用して、永続的なシンボルを作成するための離散化メソッドである。 これにより、望ましくないシンボル変更のリスクを軽減することができ、複雑すぎるモデルにつながる。 パーシステンススコアの研究の後、興味深い持続的シンボルを見逃しがちな過剰なケースが好まれる傾向が指摘された。 この振る舞いを正すために、持続スコア、kullback-leiblerダイバージェンスで使われるメトリックをwasserstein距離に置き換える。 実験により、永続性スコアが向上することで、元の時系列の情報をキャプチャする永続性が向上し、離散的なイベントシステム学習に適していることが示されている。

To get a good understanding of a dynamical system, it is convenient to have an interpretable and versatile model of it. Timed discrete event systems are a kind of model that respond to these requirements. However, such models can be inferred from timestamped event sequences but not directly from numerical data. To solve this problem, a discretization step must be done to identify events or symbols in the time series. Persist is a discretization method that intends to create persisting symbols by using a score called persistence score. This allows to mitigate the risk of undesirable symbol changes that would lead to a too complex model. After the study of the persistence score, we point out that it tends to favor excessive cases making it miss interesting persisting symbols. To correct this behavior, we replace the metric used in the persistence score, the Kullback-Leibler divergence, with the Wasserstein distance. Experiments show that the improved persistence score enhances Persist's ability to capture the information of the original time series and that it makes it better suited for discrete event systems learning.
翻訳日:2023-06-22 04:18:52 公開日:2023-06-19
# 繰り返しを伴う授業実践学習

Class-Incremental Learning with Repetition ( http://arxiv.org/abs/2301.11396v2 )

ライセンス: Link先を確認
Hamed Hemati, Andrea Cossu, Antonio Carta, Julio Hurtado, Lorenzo Pellegrini, Davide Bacciu, Vincenzo Lomonaco, Damian Borth(参考訳) 実世界のデータストリームは、自然に以前の概念の繰り返しを含む。 継続学習(CL)の観点からは、反復は環境の特性であり、再生とは異なりエージェントによって制御できない。 現在、クラスインクリメンタル(ci)シナリオはcl戦略の評価と比較のための主要なテストベッドである。 このシナリオタイプは非常に簡単に使えるが、これまで見てきたクラスを再考することは許されず、繰り返しの役割を完全に無視する。 繰り返しがストリームの定義に埋め込まれるCIR(Class-Incremental with Repetition)シナリオのファミリーに焦点を当てる。 本稿では,1つのデータセットといくつかの解釈可能な制御パラメータから,幅広いCIRストリームを生成する2つの確率ストリーム生成器を提案する。 我々は,CIRの異なるストリーム下での既存のCL戦略の挙動を研究することにより,CLにおける繰り返しの包括的評価を行う。 次に,繰り返しを活用し,ストリームに存在する自然な不均衡を相殺する,新たなリプレイ戦略を提案する。 cifar100とtinyimagenetの両方において、当社の戦略は他のリプレイアプローチよりも優れています。

Real-world data streams naturally include the repetition of previous concepts. From a Continual Learning (CL) perspective, repetition is a property of the environment and, unlike replay, cannot be controlled by the agent. Nowadays, the Class-Incremental (CI) scenario represents the leading test-bed for assessing and comparing CL strategies. This scenario type is very easy to use, but it never allows revisiting previously seen classes, thus completely neglecting the role of repetition. We focus on the family of Class-Incremental with Repetition (CIR) scenario, where repetition is embedded in the definition of the stream. We propose two stochastic stream generators that produce a wide range of CIR streams starting from a single dataset and a few interpretable control parameters. We conduct the first comprehensive evaluation of repetition in CL by studying the behavior of existing CL strategies under different CIR streams. We then present a novel replay strategy that exploits repetition and counteracts the natural imbalance present in the stream. On both CIFAR100 and TinyImageNet, our strategy outperforms other replay approaches, which are not designed for environments with repetition.
翻訳日:2023-06-22 04:08:36 公開日:2023-06-19
# 非破壊的読み出しによる2次元原子配列のランダム化ベンチマーク

Randomized Benchmarking using Non-Destructive Readout in a 2D Atom Array ( http://arxiv.org/abs/2301.10510v3 )

ライセンス: Link先を確認
B. Nikolov, E. Diamond-Hitchcock, J. Bass, N. L. R. Spong and J. D. Pritchard(参考訳) 中性原子はスケーラブルな量子コンピューティングの有望なプラットフォームであるが、以前は高忠実性ゲートや低損失読み出し手法の実証には制限された数の量子ビットが使用されている。 マイクロ波駆動単量子ゲートのランダム化ベンチマークを用いて,従来の破壊的読み出しを用いた225サイトアトムアレイ上での平均ゲート誤差7(2)\times10^{-5}$を示す。 さらに,49地点での低損失,非破壊,状態選択的な読み出しによる一次測定誤差の1.7の抑制効果を示すとともに,ゲート誤差が$2(9)\times10^{-4}$である。

Neutral atoms are a promising platform for scalable quantum computing, however prior demonstration of high fidelity gates or low-loss readout methods have employed restricted numbers of qubits. Using randomized benchmarking of microwave-driven single-qubit gates, we demonstrate average gate errors of $7(2)\times10^{-5}$ on a 225 site atom array using conventional, destructive readout. We further demonstrate a factor of 1.7 suppression of the primary measurement errors via low-loss, non-destructive and state-selective readout on 49 sites whilst achieving gate errors of $2(9)\times10^{-4}$.
翻訳日:2023-06-22 04:08:06 公開日:2023-06-19
# LHCbシリコン画素検出器におけるリアルタイムクラスタ検出のためのFPGAアーキテクチャ

A FPGA-based architecture for real-time cluster finding in the LHCb silicon pixel detector ( http://arxiv.org/abs/2302.03972v3 )

ライセンス: Link先を確認
G. Bassi, L. Giambastiani, K. Hennessy, F. Lazzari, M. J. Morello, T. Pajero, A. Fernandez Prieto, G. Punzi(参考訳) 本稿では、LHCb Upgradeの一部である新しい頂点画素検出器(VELO)のヒット位置を再構築するための2次元クラスタファインダーアーキテクチャのカスタムVHDLファームウェアの実装について述べる。 このファームウェアは、DAQシステムのさらなる強化として、VELOの読み出しを行う既存のFPGAカードにデプロイされ、LHC衝突速度でVELOがオンザフライで座標を打つ物理データ取得、再構成の間、リアルタイムに実行される。 この前処理により、第1レベルのソフトウェアトリガーが11%以上のイベントを受信できるようになり、既製のヒット座標がトラックの再構築を加速し、電力消費量が大幅に減少する。 さらに、生のピクセルデータを読み出しレベルに落として、DAQ帯域幅の約14%を節約できる。 詳細なシミュレーション研究により、このリアルタイムクラスタ発見の使用は、本格的なソフトウェア実装と比較してトラッキング性能の劣化を生じさせないことが示されている。 この作業は、HEP実験のリアルタイム処理能力を向上するために、データ取得チェーンの初期段階にデプロイされた専用コンピューティングアクセラレーターに集中的なタスクを委譲することを目的としている。

This article describes a custom VHDL firmware implementation of a two-dimensional cluster-finder architecture for reconstructing hit positions in the new vertex pixel detector (VELO) that is part of the LHCb Upgrade. This firmware has been deployed to the existing FPGA cards that perform the readout of the VELO, as a further enhancement of the DAQ system, and will run in real time during physics data taking, reconstructing VELO hits coordinates on-the-fly at the LHC collision rate. This pre-processing allows the first level of the software trigger to accept a 11% higher rate of events, as the ready-made hits coordinates accelerate the track reconstruction and consumes significantly less electrical power. It additionally allows the raw pixel data to be dropped at the readout level, thus saving approximately 14% of the DAQ bandwidth. Detailed simulation studies have shown that the use of this real-time cluster finding does not introduce any appreciable degradation in the tracking performance in comparison to a full-fledged software implementation. This work is part of a wider effort aimed at boosting the real-time processing capability of HEP experiments by delegating intensive tasks to dedicated computing accelerators deployed at the earliest stages of the data acquisition chain.
翻訳日:2023-06-22 04:02:33 公開日:2023-06-19
# 特徴とラベルシフトを考慮した時系列の領域適応

Domain Adaptation for Time Series Under Feature and Label Shifts ( http://arxiv.org/abs/2302.03133v2 )

ライセンス: Link先を確認
Huan He, Owen Queen, Teddy Koker, Consuelo Cuevas, Theodoros Tsiligkaridis, Marinka Zitnik(参考訳) unsupervised domain adaptation(uda)は、ソースドメインでトレーニングされたモデルをラベルなしのターゲットドメインに転送可能にする。 しかし、複雑な時系列モデルを転送することは、ドメイン間の動的時間構造の変化による課題をもたらす。 これは時間と周波数の表現に特徴的変化をもたらす。 さらに、ソースドメインとターゲットドメインにおけるタスクのラベル分布は著しく異なり、ラベルシフトの対処や、ターゲットドメイン特有のラベルの認識が困難になる。 複雑な時系列モデルを効果的に転送することは恐ろしい問題である。 複素時系列上の閉集合および普遍領域適応のための最初のモデルであるRaincoatを提案する。 raincoatは、時間的特徴と頻度的特徴の両方を考慮し、ドメインをまたいでそれらを調整し、プライベートラベルの検出を容易にするために誤用を訂正することで、特徴とラベルのシフトに対処する。 さらにRaincoatは、ターゲットドメインのラベルシフトを識別することで、転送性を向上させる。 5つのデータセットと13の最先端UDA手法による実験により、Raincoatは最大16.33%の転送学習性能を向上でき、クローズドセットとユニバーサルドメイン適応の両方を処理可能であることが示された。

Unsupervised domain adaptation (UDA) enables the transfer of models trained on source domains to unlabeled target domains. However, transferring complex time series models presents challenges due to the dynamic temporal structure variations across domains. This leads to feature shifts in the time and frequency representations. Additionally, the label distributions of tasks in the source and target domains can differ significantly, posing difficulties in addressing label shifts and recognizing labels unique to the target domain. Effectively transferring complex time series models remains a formidable problem. We present Raincoat, the first model for both closed-set and universal domain adaptation on complex time series. Raincoat addresses feature and label shifts by considering both temporal and frequency features, aligning them across domains, and correcting for misalignments to facilitate the detection of private labels. Additionally, Raincoat improves transferability by identifying label shifts in target domains. Our experiments with 5 datasets and 13 state-of-the-art UDA methods demonstrate that Raincoat can improve transfer learning performance by up to 16.33% and can handle both closed-set and universal domain adaptation.
翻訳日:2023-06-22 04:02:08 公開日:2023-06-19
# 箱内の強相互作用する1次元気体の高運動量振動尾

High-momentum oscillating tails of strongly interacting 1D gases in a box ( http://arxiv.org/abs/2302.02828v2 )

ライセンス: Link先を確認
Gianni Aupetit-Diallo, Silvia Musolino, Mathias Albert and Patrizia Vignolo(参考訳) 箱電位のゼロ温度における粒子の強相互作用1次元混合粒子の運動量分布について検討した。 運動量分布の1/k^4$テールの大きさは、近距離相関によるだけでなく、剛壁の存在によるものであり、この量と相互作用強度の逆のエネルギーの断熱微分との関係を破る。 追加の貢献は、$k$非依存と振動部分を含む有限サイズの効果である。 後者は、驚くべきことに、長距離スピン相関に関する情報を符号化する。

We study the momentum distribution of strongly interacting one-dimensional mixtures of particles at zero temperature in a box potential. We find that the magnitude of the $1/k^4$ tail of the momentum distribution is not only due to short-distance correlations, but also to the presence of the rigid walls, breaking the Tan's relation relating this quantity to the adiabatic derivative of the energy with respect to the inverse of the interaction strength. The additional contribution is a finite-size effect that includes a $k$-independent and an oscillating part. This latter, surprisingly, encodes information on long-range spin correlations.
翻訳日:2023-06-22 04:01:32 公開日:2023-06-19
# ド・ジッター時空における宇宙線による電磁真空応力とエネルギーフラックス

Electromagnetic vacuum stresses and energy fluxes induced by a cosmic string in de Sitter spacetime ( http://arxiv.org/abs/2302.02685v2 )

ライセンス: Link先を確認
A.A. Saharian, V.F. Manukyan, V.Kh. Kotanjyan, A.A. Grigoryan(参考訳) D+1)次元局所デシッター(dS)時空における電磁場について、エネルギー-運動量テンソルの真空期待値に対する一般化宇宙弦型欠陥の影響を解析する。 Bunch-Davies真空状態の場合、トポロジカルな寄与は対角成分と対角成分の両方で明示的に抽出される。 後者は真空状態における放射指向エネルギーフラックスの存在を記述している。 電磁界の共形不変性のために$d=3$で消滅し、$d\geq 4$ で宇宙弦に向かう。 真空応力のトポロジカルな寄与は異方性であり、ミンコフスキー時空における宇宙弦の幾何学とは異なり、弦コアに平行な方向に沿った応力はエネルギー密度と異なる。 平面角の欠陥と宇宙線からの距離によっては、対応する期待値は正または負のいずれかである。 宇宙の弦の近くでは、トポロジカル部分の対角成分に対する重力場の影響は弱い。 時空曲率は本質的に、ds曲率半径よりも大きい宇宙弦から適切な距離における位相項の挙動を変化させる。 この領域では、エネルギー-運動量テンソルの対角成分に対する位相的寄与は、固有距離の4番目のパワーに逆比例し、エネルギーフラックス密度は空間次元$D$のすべての値に対する逆5番目のパワーとして振舞う。 例外は、特別な場合のエネルギー密度$D=4$である。

For the electromagnetic field in (D+1)-dimensional locally de Sitter (dS) spacetime, we analyze the effects of a generalized cosmic string type defect on the vacuum expectation value of the energy-momentum tensor. For the Bunch-Davies vacuum state, the topological contributions are explicitly extracted in both the diagonal and off-diagonal components. The latter describes the presence of radially directed energy flux in the vacuum state. It vanishes for $D=3$ because of the conformal invariance of the electromagnetic field and is directed towards the cosmic string for $D\geq 4$ . The topological contributions in the vacuum stresses are anisotropic and, unlike to the geometry of a cosmic string in the Minkowski spacetime, for $D>3$ the stresses along the directions parallel to the string core differ from the energy density. Depending on the planar angle deficit and the distance from the cosmic string, the corresponding expectation values can be either positive or negative. Near the cosmic string the effect of the gravitational field on the diagonal components of the topological part is weak. The spacetime curvature essentially modifies the behavior of the topological terms at proper distances from the cosmic string larger than the dS curvature radius. In that region, the topological contributions in the diagonal components of the energy-momentum tensor decay in inverse proportion to the fourth power of the proper distance and the energy flux density behaves as inverse-fifth power for all values of the spatial dimension $D$. The exception is the energy density in the special case $D=4$.
翻訳日:2023-06-22 04:01:23 公開日:2023-06-19
# CosPGD : 画素単位の予測タスクに対する一貫したホワイトボックス対向攻撃

CosPGD: a unified white-box adversarial attack for pixel-wise prediction tasks ( http://arxiv.org/abs/2302.02213v2 )

ライセンス: Link先を確認
Shashank Agnihotri and Steffen Jung and Margret Keuper(参考訳) ニューラルネットワークは、多くのタスクで高精度な予測を可能にするが、わずかな入力摂動に対する堅牢性の欠如は、多くの現実世界アプリケーションでのデプロイメントを妨げている。 セナル・プロジェクテッド・グラデーション・降下(pgd)攻撃などのニューラルネットワークのロバスト性を評価する最近の研究は、ネットワークが学習する表現の質に関する効果的な洞察を提供するため、多くの注目を集めている。 しかし,これらの手法は画像分類タスクに重点を置いているのに対して,セマンティックセグメンテーションや光フロー,不均等推定などの画素単位の予測タスクの分析に特に取り組むアプローチはごくわずかである。 したがって、このようなピクセル単位の予測タスクに適用可能な、一貫した対向的堅牢性ベンチマークツール(algorithm)が存在しない。 本研究では,このギャップを埋めてCosPGDを提案する。これは,任意の画素単位の予測タスクに対して,一貫した設定で専用の攻撃を最適化する,新しいホワイトボックス対逆攻撃である。 予測上の分布と基底真理(あるいはターゲット)との間のコサイン類似性を活用して、分類タスクから回帰設定へ直接拡張する。 PASCAL VOC2012とCityScapesのセマンティックセグメンテーション攻撃では,SotAよりも優れています。 さらに,光学フローに対する敵対的攻撃に対する新たなベンチマークを設定し,任意の画素単位の予測タスクに拡張する能力を示す画像復元を行った。

While neural networks allow highly accurate predictions in many tasks, their lack of robustness towards even slight input perturbations hampers their deployment in many real-world applications. Recent research towards evaluating the robustness of neural networks such as the seminal projected gradient descent(PGD) attack and subsequent works have drawn significant attention, as they provide an effective insight into the quality of representations learned by the network. However, these methods predominantly focus on image classification tasks, while only a few approaches specifically address the analysis of pixel-wise prediction tasks such as semantic segmentation, optical flow, disparity estimation, and others, respectively. Thus, there is a lack of a unified adversarial robustness benchmarking tool(algorithm) that is applicable to all such pixel-wise prediction tasks. In this work, we close this gap and propose CosPGD, a novel white-box adversarial attack that allows optimizing dedicated attacks for any pixel-wise prediction task in a unified setting. It leverages the cosine similarity between the distributions over the predictions and ground truth (or target) to extend directly from classification tasks to regression settings. We outperform the SotA on semantic segmentation attacks in our experiments on PASCAL VOC2012 and CityScapes. Further, we set a new benchmark for adversarial attacks on optical flow, and image restoration displaying the ability to extend to any pixel-wise prediction task.
翻訳日:2023-06-22 04:00:44 公開日:2023-06-19
# 分割不変同値表現の自己教師あり学習

Self-supervised learning of Split Invariant Equivariant representations ( http://arxiv.org/abs/2302.10283v2 )

ライセンス: Link先を確認
Quentin Garrido (FAIR, LIGM), Laurent Najman (LIGM), Yann Lecun (FAIR, CIMS)(参考訳) 近年,自己教師付き学習による不変表現や同変表現の学習が進められている。 大規模なデータセットで不変性を評価する一方で、同変性はより小さく、より制御された設定で評価される。 我々は,幅広いタスクに適した,より多様な表現を学習するために,両者のギャップを埋めることを目指している。 まず最初に、3DIEBenchというデータセットを導入し、55のクラスに3Dモデルからレンダリングし、250万以上の画像からオブジェクトに適用される変換を完全にコントロールします。 さらに,ハイパーネットワークに基づく予測器アーキテクチャを導入し,不変性に崩壊することのない同変表現を学習する。 我々は,ハイパーネットワークに基づく予測器と2つの部分に分割された表現を結合した sie (split invariant-equivariant) を導入し,よりリッチな表現を学ぶ。 質的および定量的な観点から,既存の等分散関連課題に対する性能向上効果を示す。 さらに,導入した予測器を解析し,学習した潜在空間の制御方法を示す。 導入したデータセットとアプローチの両方が、より複雑なシナリオを監督することなく、よりリッチな表現を学習可能にすることを願っています。 コードとデータはhttps://github.com/facebookresearch/sieで入手できる。

Recent progress has been made towards learning invariant or equivariant representations with self-supervised learning. While invariant methods are evaluated on large scale datasets, equivariant ones are evaluated in smaller, more controlled, settings. We aim at bridging the gap between the two in order to learn more diverse representations that are suitable for a wide range of tasks. We start by introducing a dataset called 3DIEBench, consisting of renderings from 3D models over 55 classes and more than 2.5 million images where we have full control on the transformations applied to the objects. We further introduce a predictor architecture based on hypernetworks to learn equivariant representations with no possible collapse to invariance. We introduce SIE (Split Invariant-Equivariant) which combines the hypernetwork-based predictor with representations split in two parts, one invariant, the other equivariant, to learn richer representations. We demonstrate significant performance gains over existing methods on equivariance related tasks from both a qualitative and quantitative point of view. We further analyze our introduced predictor and show how it steers the learned latent space. We hope that both our introduced dataset and approach will enable learning richer representations without supervision in more complex scenarios. Code and data are available at https://github.com/facebookresearch/SIE.
翻訳日:2023-06-22 03:41:27 公開日:2023-06-19
# データセットインタフェース:制御可能な偽物生成を用いたモデル障害の診断

Dataset Interfaces: Diagnosing Model Failures Using Controllable Counterfactual Generation ( http://arxiv.org/abs/2302.07865v2 )

ライセンス: Link先を確認
Joshua Vendrow, Saachi Jain, Logan Engstrom, Aleksander Madry(参考訳) 分散シフトは、機械学習モデルの主要な障害源である。 しかし, 分散シフトによるモデル信頼性の評価は, 特に, 特定のシフトを示す反実例の取得が困難であるため, 困難である。 本稿では,入力データセットとユーザが指定したシフトを与えられた場合,所望のシフトを示す入力分布からインスタンスを返却するフレームワークである,データセットインタフェースの概念を紹介する。 このようなインタフェースの自然な実装を数多く検討し、モデル評価を複雑化する共起シフトをしばしば導入することを発見した。 そこで本研究では,テキストインバージョンを利用して入力分布を自動生成するデータセットインタフェースの実装を提案する。 次に、このデータセットインターフェイスをimagenetデータセットに適用することで、オブジェクトの背景、照明、属性など、さまざまな分散シフトを横断してモデルの振る舞いを研究できることを示す。 コードはhttps://github.com/madrylab/dataset-interfaces。

Distribution shift is a major source of failure for machine learning models. However, evaluating model reliability under distribution shift can be challenging, especially since it may be difficult to acquire counterfactual examples that exhibit a specified shift. In this work, we introduce the notion of a dataset interface: a framework that, given an input dataset and a user-specified shift, returns instances from that input distribution that exhibit the desired shift. We study a number of natural implementations for such an interface, and find that they often introduce confounding shifts that complicate model evaluation. Motivated by this, we propose a dataset interface implementation that leverages Textual Inversion to tailor generation to the input distribution. We then demonstrate how applying this dataset interface to the ImageNet dataset enables studying model behavior across a diverse array of distribution shifts, including variations in background, lighting, and attributes of the objects. Code available at https://github.com/MadryLab/dataset-interfaces.
翻訳日:2023-06-22 03:40:22 公開日:2023-06-19
# 2レベル計画のための関係状態抽象化の具体化アクティブラーニング

Embodied Active Learning of Relational State Abstractions for Bilevel Planning ( http://arxiv.org/abs/2303.04912v2 )

ライセンス: Link先を確認
Amber Li, Tom Silver(参考訳) 状態抽象化は、継続的な状態と行動、長いタスクの地平線、スパースフィードバックを持つロボット環境での計画に有効なテクニックである。 オブジェクト指向環境では、述語はシンボリックプランナーとの互換性と関係一般化の能力のために特に有用な状態抽象化形式である。 しかし、述語を計画するには、エージェントはそれらを連続した環境状態(すなわち記号を接地する)で解釈しなくてはならない。 手動で述語解釈をプログラミングするのは難しいため、データから学習したいと考えています。 本稿では,エージェントが専門家とのオンライン対話を通じて述語解釈を学習する,実践型アクティブラーニングパラダイムを提案する。 例えば、ブロックスタック環境でアクションをした後、エージェントは専門家に「Is On(block1, block2) true? この経験から、エージェントは計画を学ぶ:二段階計画に使用できる神経述語解釈、シンボリックプランニング演算子、神経サンプルを学習する。 調査中、エージェントは学習する: 現在のモデルを使用して、情報的な専門家クエリを生成するためのアクションを選択する。 我々はニューラルネットワークのアンサンブルとして述語解釈を学習し、そのエントロピーを用いて潜在的なクエリの情報性を測定する。 私たちはこのアプローチを3つのロボット環境で評価し,6つのベースラインを一貫して上回りながら,2つの重要な指標(環境インタラクションの数,エキスパートへのクエリ数)でサンプル効率を示す。 コード: https://tinyurl.com/active-predicates

State abstraction is an effective technique for planning in robotics environments with continuous states and actions, long task horizons, and sparse feedback. In object-oriented environments, predicates are a particularly useful form of state abstraction because of their compatibility with symbolic planners and their capacity for relational generalization. However, to plan with predicates, the agent must be able to interpret them in continuous environment states (i.e., ground the symbols). Manually programming predicate interpretations can be difficult, so we would instead like to learn them from data. We propose an embodied active learning paradigm where the agent learns predicate interpretations through online interaction with an expert. For example, after taking actions in a block stacking environment, the agent may ask the expert: "Is On(block1, block2) true?" From this experience, the agent learns to plan: it learns neural predicate interpretations, symbolic planning operators, and neural samplers that can be used for bilevel planning. During exploration, the agent plans to learn: it uses its current models to select actions towards generating informative expert queries. We learn predicate interpretations as ensembles of neural networks and use their entropy to measure the informativeness of potential queries. We evaluate this approach in three robotic environments and find that it consistently outperforms six baselines while exhibiting sample efficiency in two key metrics: number of environment interactions, and number of queries to the expert. Code: https://tinyurl.com/active-predicates
翻訳日:2023-06-22 03:31:49 公開日:2023-06-19
# 呼吸異常検出のための多目的損失型インセプション・レジデンシャル・アーキテクチャ

An Inception-Residual-Based Architecture with Multi-Objective Loss for Detecting Respiratory Anomalies ( http://arxiv.org/abs/2303.04104v2 )

ライセンス: Link先を確認
Dat Ngo, Lam Pham, Huy Phan, Minh Tran, Delaram Jarchi, Sefki Kolozali(参考訳) 本稿では,呼吸音記録から異常を検出するための深層学習システムを提案する。 まず,ガンマトーンと連続ウェーブレット変換を用いた音声特徴抽出からシステムを構築する。 このステップは、呼吸音入力をスペクトルと時間の両方の特徴が提示される2次元分光図に変換することを目的としている。 そこで本システムでは,マルチヘッドアテンションと多目的損失を併用して呼吸異常の分類を行う。 様々なスペクトログラムの結果を組み合わせることで、単純な結合アプローチを適用する代わりに、トレーニングプロセスを通して個々のスペクトログラムの貢献を等しく制御できる線形結合を提案する。 この性能評価のために,ieee biocas 2022チャレンジで提案されたsprsound(sjtu paediatric respiratory sound)のベンチマークデータセットについて実験を行った。 平均スコアとハーモニックスコアの間で算出したスコアについて,提案手法は,課題ベースラインシステムと比較して,タスク1-1,タスク1-2,タスク2-1,タスク2-2において,それぞれ9.7%,15.8%,17.8%,16.1%の大幅な改善が得られた。 特に第2-1タスクと第2-2タスクでは,最高スコアが74.5%,第53.9%であった。

This paper presents a deep learning system applied for detecting anomalies from respiratory sound recordings. Initially, our system begins with audio feature extraction using Gammatone and Continuous Wavelet transformation. This step aims to transform the respiratory sound input into a two-dimensional spectrogram where both spectral and temporal features are presented. Then, our proposed system integrates Inception-residual-based backbone models combined with multi-head attention and multi-objective loss to classify respiratory anomalies. Instead of applying a simple concatenation approach by combining results from various spectrograms, we propose a Linear combination, which has the ability to regulate equally the contribution of each individual spectrogram throughout the training process. To evaluate the performance, we conducted experiments over the benchmark dataset of SPRSound (The Open-Source SJTU Paediatric Respiratory Sound) proposed by the IEEE BioCAS 2022 challenge. As regards the Score computed by an average between the average score and harmonic score, our proposed system gained significant improvements of 9.7%, 15.8%, 17.8%, and 16.1% in Task 1-1, Task 1-2, Task 2-1, and Task 2-2, respectively, compared to the challenge baseline system. Notably, we achieved the Top-1 performance in Task 2-1 and Task 2-2 with the highest Score of 74.5% and 53.9%, respectively.
翻訳日:2023-06-22 03:31:21 公開日:2023-06-19
# マルチサイメトリアンサンブル:対向対称性による多様性と一般化の改善

Multi-Symmetry Ensembles: Improving Diversity and Generalization via Opposing Symmetries ( http://arxiv.org/abs/2303.02484v2 )

ライセンス: Link先を確認
Charlotte Loh, Seungwook Han, Shivchander Sudalairaj, Rumen Dangovski, Kai Xu, Florian Wenzel, Marin Soljacic, Akash Srivastava(参考訳) 深層アンサンブル(DE)は,ランダム初期化の確率性を通じて,多様なメンバーを学習することで,モデル性能の向上に成功している。 近年の研究では、超パラメータによるdeのさらなる多様性の促進や損失関数の定式化が試みられているが、これらの手法は主に仮説空間を探索するための確率的アプローチに依存している。 本研究では,モデル重みとハイパーパラメータの確率的摂動を超えた仮説空間を探索し,対称性軸に沿った仮説の多重性を捉え,多様なアンサンブルを構築するためのフレームワークであるマルチサイメトリ・アンサンブル(MSE)を提案する。 コントラスト表現学習の最近の進歩を利用して、不変および同変汎関数クラスの対立仮説を別々に捉えるモデルを作成し、与えられたタスクの適切な仮説を効率的に結合する単純なセンスリングアプローチを提案する。 MSEは、ImageNetのような大規模で多様なデータセットでしばしば必要とされる矛盾する仮説の多重性を効果的に捉えていることを示す。 その固有の多様性の結果、MSEは分類性能、不確実な定量化、一連の伝達タスクの一般化を改善している。

Deep ensembles (DE) have been successful in improving model performance by learning diverse members via the stochasticity of random initialization. While recent works have attempted to promote further diversity in DE via hyperparameters or regularizing loss functions, these methods primarily still rely on a stochastic approach to explore the hypothesis space. In this work, we present Multi-Symmetry Ensembles (MSE), a framework for constructing diverse ensembles by capturing the multiplicity of hypotheses along symmetry axes, which explore the hypothesis space beyond stochastic perturbations of model weights and hyperparameters. We leverage recent advances in contrastive representation learning to create models that separately capture opposing hypotheses of invariant and equivariant functional classes and present a simple ensembling approach to efficiently combine appropriate hypotheses for a given task. We show that MSE effectively captures the multiplicity of conflicting hypotheses that is often required in large, diverse datasets like ImageNet. As a result of their inherent diversity, MSE improves classification performance, uncertainty quantification, and generalization across a series of transfer tasks.
翻訳日:2023-06-22 03:30:41 公開日:2023-06-19
# 共有するもののみを転送する: インターセクション誘起グラフ転送学習によるリンク予測

You Only Transfer What You Share: Intersection-Induced Graph Transfer Learning for Link Prediction ( http://arxiv.org/abs/2302.14189v2 )

ライセンス: Link先を確認
Wenqing Zheng, Edward W Huang, Nikhil Rao, Zhangyang Wang, Karthik Subbian(参考訳) リンク予測は多くの実世界のアプリケーションの中心であるが、関心グラフが疎い場合にはその性能が阻害される可能性がある。 スパーシティによって引き起こされる問題を緩和するために、以前見過ごされていた現象について検討する。多くの場合、元のグラフには密結合した相補グラフが見つかる。 密度の高いグラフは、ノードを元のグラフと共有し、選択的で有意義な知識を伝達するための自然な橋渡しを提供する。 この設定をグラフインターセクション誘導トランスファーラーニング(GITL)とみなし,eコマースや学術共同オーサシップ予測の実践的応用に動機づけられた。 この設定で構造を効果的に活用するためのフレームワークを開発する。 まず,2つのグラフ間の共有ノードを用いて交叉部分グラフを作成し,その交叉部分グラフから全対象グラフへ知識を伝達する。 第2段階では,教師・生徒の指導体制において,ラベル伝搬の修正と多層パーセプトロンモデル(mlp)の2つのアプローチを検討する。 プロプライエタリなeコマースデータセットとオープンソースの引用グラフによる実験結果から,提案したワークフローは,交差点構造を明示的に利用していない既存の移動学習ベースラインよりも優れていることがわかった。

Link prediction is central to many real-world applications, but its performance may be hampered when the graph of interest is sparse. To alleviate issues caused by sparsity, we investigate a previously overlooked phenomenon: in many cases, a densely connected, complementary graph can be found for the original graph. The denser graph may share nodes with the original graph, which offers a natural bridge for transferring selective, meaningful knowledge. We identify this setting as Graph Intersection-induced Transfer Learning (GITL), which is motivated by practical applications in e-commerce or academic co-authorship predictions. We develop a framework to effectively leverage the structural prior in this setting. We first create an intersection subgraph using the shared nodes between the two graphs, then transfer knowledge from the source-enriched intersection subgraph to the full target graph. In the second step, we consider two approaches: a modified label propagation, and a multi-layer perceptron (MLP) model in a teacher-student regime. Experimental results on proprietary e-commerce datasets and open-source citation graphs show that the proposed workflow outperforms existing transfer learning baselines that do not explicitly utilize the intersection structure.
翻訳日:2023-06-22 03:30:03 公開日:2023-06-19
# ltlf合成の前進:dpll at work

Forward LTLf Synthesis: DPLL At Work ( http://arxiv.org/abs/2302.13825v2 )

ライセンス: Link先を確認
Marco Favorito(参考訳) 本稿では,有限トレース(\LTLf)上の線形時間論理を合成するための新しいAND-ORグラフ探索フレームワークを提案する。 そのようなフレームワーク内では、Davis-Putnam-Logemann-Loveland (DPLL)アルゴリズムにインスパイアされたプロシージャを考案し、真に深み第一の方法で次のエージェント環境の動きを生成する。 また,状態公式の構文的等価性に基づく探索ノードの等価性チェックも提案する。 結果の手続きは終了することが保証されていないので、実行を中止し、二分決定ダイアグラム(bdd)に基づいた状態等価チェックで検索を再開するための停止条件を特定します。 実験の結果,提案手法が他の最先端手法よりも優れていることがわかった。 我々の実装であるNikeは、2023年のSynTCOMPでLTLf Realizability Trackに出場し、優勝した。

This paper proposes a new AND-OR graph search framework for synthesis of Linear Temporal Logic on finite traces (\LTLf), that overcomes some limitations of previous approaches. Within such framework, we devise a procedure inspired by the Davis-Putnam-Logemann-Loveland (DPLL) algorithm to generate the next available agent-environment moves in a truly depth-first fashion, possibly avoiding exhaustive enumeration or costly compilations. We also propose a novel equivalence check for search nodes based on syntactic equivalence of state formulas. Since the resulting procedure is not guaranteed to terminate, we identify a stopping condition to abort execution and restart the search with state-equivalence checking based on Binary Decision Diagrams (BDD), which we show to be correct. The experimental results show that in many cases the proposed techniques outperform other state-of-the-art approaches. Our implementation Nike competed in the LTLf Realizability Track in the 2023 edition of SYNTCOMP, and won the competition.
翻訳日:2023-06-22 03:29:41 公開日:2023-06-19
# ランダムな教師は良い教師です

Random Teachers are Good Teachers ( http://arxiv.org/abs/2302.12091v2 )

ライセンス: Link先を確認
Felix Sarnthein, Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann(参考訳) 本研究では,教師-学生の自己蒸留における学習ダイナミクスによる暗黙の正規化について検討する。 その効果を分離するために,教師を訓練教師ではなくランダムに初期化して考える簡単な実験について述べる。 驚くべきことに, 学生をそのような無作為な教師に蒸留する場合, 結果モデルとその表現は, 既に非常に興味深い特性を有しており, 1) 蒸留した生徒は, 調査精度の面では, 教師よりも強い改善が観察されている。 2) 学習した表現はデータに依存し, 異なるタスク間で伝達可能であるが, ランダムな入力で学習した場合, 強く劣化する。 3)学生検問所は,細かなサブネットワーク,いわゆる抽選券を含み,教師付きロスランドスケープにおける線形盆地の境界に位置する。 これらの観察は、機械学習におけるいくつかの重要な領域において興味深い結果をもたらす: 1) 暗黒知識に頼らずに勾配力学に存在する暗黙の正規化にのみ依存して機能し、(2) 自己教師型学習は、データ強化がなくても特徴を学習し、(3) 教師付きトレーニングの初期段階のトレーニングダイナミクスは、必ずしもラベル情報を必要としない。 最後に、損失の風景の興味深い局所的性質に光を当てた: 機能学習のプロセスは、生徒が教師と密接に初期化されると強く増幅されます。 これらの結果は、これまで解明されていない景観の性質に関する興味深い疑問を提起している。 コードはhttps://github.com/safelix/dinoplで入手できる。

In this work, we investigate the implicit regularization induced by teacher-student learning dynamics in self-distillation. To isolate its effect, we describe a simple experiment where we consider teachers at random initialization instead of trained teachers. Surprisingly, when distilling a student into such a random teacher, we observe that the resulting model and its representations already possess very interesting characteristics; (1) we observe a strong improvement of the distilled student over its teacher in terms of probing accuracy. (2) The learned representations are data-dependent and transferable between different tasks but deteriorate strongly if trained on random inputs. (3) The student checkpoint contains sparse subnetworks, so-called lottery tickets, and lies on the border of linear basins in the supervised loss landscape. These observations have interesting consequences for several important areas in machine learning: (1) Self-distillation can work solely based on the implicit regularization present in the gradient dynamics without relying on any dark knowledge, (2) self-supervised learning can learn features even in the absence of data augmentation and (3) training dynamics during the early phase of supervised training do not necessarily require label information. Finally, we shed light on an intriguing local property of the loss landscape: the process of feature learning is strongly amplified if the student is initialized closely to the teacher. These results raise interesting questions about the nature of the landscape that have remained unexplored so far. Code is available at https://github.com/safelix/dinopl.
翻訳日:2023-06-22 03:29:21 公開日:2023-06-19
# 量子イジングモデルにおける仕事の準確率分布

Quasiprobability distribution of work in the quantum Ising model ( http://arxiv.org/abs/2302.11255v3 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna(参考訳) 量子多体系のパラメータをクエンチすることでなされた仕事の統計の完全な理解は、エネルギー基底における初期量子コヒーレンスの存在下ではまだ不足している。 この場合、ワークは準確率分布のクラスで表現できる。 本稿では, 横場におけるIsingモデルの作業準確率を研究することによって, プロセスの真に量子的な特徴を明らかにする。 我々は,熱力学的限界を中心に,グローバルとローカルの両方のクエンチを考える。 大域的クエンチでは、作業のガウス確率分布を持つ対称非コンテキスト表現が存在するのに対し、局所的クエンチでは、作業の負の第4モーメントによって信号される量子的文脈性が得られる。 さらに, 量子相転移に関連する臨界特性と初期量子コヒーレンスの役割を有用資源として検討した。

A complete understanding of the statistics of the work done by quenching a parameter of a quantum many-body system is still lacking in the presence of an initial quantum coherence in the energy basis. In this case, the work can be represented by a class of quasiprobability distributions. Here, we try to clarify the genuinely quantum features of the process by studying the work quasiprobability for an Ising model in a transverse field. We consider both a global and a local quench, by focusing mainly on the thermodynamic limit. We find that, while for a global quench there is a symmetric non-contextual representation with a Gaussian probability distribution of work, for a local quench we can get quantum contextuality as signaled by a negative fourth moment of the work. Furthermore, we examine the critical features related to a quantum phase transition and the role of the initial quantum coherence as useful resource.
翻訳日:2023-06-22 03:28:51 公開日:2023-06-19
# ワッサーシュタイン勾配流による変分ガウスフィルタリング

Variational Gaussian filtering via Wasserstein gradient flows ( http://arxiv.org/abs/2303.06398v2 )

ライセンス: Link先を確認
Adrien Corenflos and Hany Abdulsamad(参考訳) ガウスとガウスの混合フィルタを近似する新しい手法を提案する。 本手法は勾配フロー表現による変分近似に依存する。 勾配流れは、ワッサースタイン計量を備えた確率分布の空間上のクルバック・リーバの判別最小化から導かれる。 ガウス近似が典型的には失敗する2つの状態空間モデル(乗法ノイズとマルチモーダル状態分布を持つ系)において、一般化された手法の概要と、後続表現とパラメータ推定の競合性を示す。

We present a novel approach to approximate Gaussian and mixture-of-Gaussians filtering. Our method relies on a variational approximation via a gradient-flow representation. The gradient flow is derived from a Kullback--Leibler discrepancy minimization on the space of probability distributions equipped with the Wasserstein metric. We outline the general method and show its competitiveness in posterior representation and parameter estimation on two state-space models for which Gaussian approximations typically fail: systems with multiplicative noise and multi-modal state distributions.
翻訳日:2023-06-22 03:22:35 公開日:2023-06-19
# テキスト・画像合成のためのGANのスケールアップ

Scaling up GANs for Text-to-Image Synthesis ( http://arxiv.org/abs/2303.05511v2 )

ライセンス: Link先を確認
Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, Taesung Park(参考訳) テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。 技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。 GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。 dall-e 2では、自動回帰拡散モデルが大規模な生成モデルの新しい標準となった。 LAIONのような大規模なデータセットの恩恵を受けるために、GANをスケールアップできるだろうか? そこで我々は,StyleGAN アーキテクチャのキャパシティの増大が急速に不安定になることを発見した。 我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介し,GANをテキスト・画像合成の実行可能な選択肢として示す。 GigaGANには3つの大きな利点がある。 第一に、512px画像の合成にはわずか0.13秒しかかからない。 第二に、16メガピクセルの高解像度画像を3.66秒で合成できる。 最後に、GigaGANは潜時補間、スタイルミキシング、ベクトル演算などの様々な潜時空間編集アプリケーションをサポートしている。

The recent success of text-to-image synthesis has taken the world by storm and captured the general public's imagination. From a technical standpoint, it also marked a drastic change in the favored architecture to design generative image models. GANs used to be the de facto choice, with techniques like StyleGAN. With DALL-E 2, auto-regressive and diffusion models became the new standard for large-scale generative models overnight. This rapid shift raises a fundamental question: can we scale up GANs to benefit from large datasets like LAION? We find that na\"Ively increasing the capacity of the StyleGAN architecture quickly becomes unstable. We introduce GigaGAN, a new GAN architecture that far exceeds this limit, demonstrating GANs as a viable option for text-to-image synthesis. GigaGAN offers three major advantages. First, it is orders of magnitude faster at inference time, taking only 0.13 seconds to synthesize a 512px image. Second, it can synthesize high-resolution images, for example, 16-megapixel pixels in 3.66 seconds. Finally, GigaGAN supports various latent space editing applications such as latent interpolation, style mixing, and vector arithmetic operations.
翻訳日:2023-06-22 03:20:36 公開日:2023-06-19
# $XXZ$-スピン鎖ダイナミクス下におけるスピンヘリックスの緩和における普遍性

Universality in relaxation of spin helices under the $XXZ$- spin chain dynamics ( http://arxiv.org/abs/2303.16632v2 )

ライセンス: Link先を確認
Vladislav Popkov, Marko \v{Z}nidari\v{c} and Xin Zhang(参考訳) 異方性ハイゼンベルクxxzスピンチェーン進化下での回転磁化を伴う生成状態である横スピンヘリックス状態(shs)のダイナミクスについて述べる。 実験的な関連性から,特に磁化ダイナミクスに注目する。 長い時間に、ハミルトニアンの$U(1)$対称性が復元され、空間調和プロファイルの指数減衰として記述できる横磁化の崩壊へと繋がる。 本研究では, 初期ヘリックスの波動ベクトル, 異方性など, 原理的にすべてのパラメータに依存する短時間および中間時間の減衰時間スケールの依存性を, 単一スケーリング関数でうまく記述できることを述べる。 また、磁化電流の進化についても簡単に論じる。

We describe dynamics of transverse spin-helix state (SHS) -- a product state with spatially rotating magnetization -- under anisotropic Heisenberg XXZ spin chain evolution. Due to experimental relevance we especially focus on magnetization dynamics. At long times the $U(1)$ symmetry of the Hamiltonian is restored, leading to the decay of transverse magnetization, which can be described as an exponential decay of a spatially harmonic profile. We show that the dependence of the short and intermediate-time decay timescale, which in principle depends on all different parameters, like the wavevector of the initial helix, the anisotropy, etc., can be described well by a single scaling function. We also briefly discuss the evolution of magnetization current.
翻訳日:2023-06-22 03:11:32 公開日:2023-06-19
# 深部マルチタスク表現学習による手画像からの人物同一性・性別・年齢推定

Joint Person Identity, Gender and Age Estimation from Hand Images using Deep Multi-Task Representation Learning ( http://arxiv.org/abs/2303.15263v3 )

ライセンス: Link先を確認
Nathanael L. Baisa(参考訳) 本稿では,手画像が性的虐待などの重大犯罪の場合にのみ利用可能な情報であることから,犯罪捜査を目的として,手画像から個人のアイデンティティ,性別,年齢を共同で推定するマルチタスク表現学習フレームワークを提案する。 重大犯罪の犯人の手画像から身元,性別,年齢を共同推定するために,最新のディープラーニングアーキテクチャを調査し,その性能を比較した。 年齢予測を簡略化するため,年齢推定のための年齢群を作成する。 公開可能な1kハンドデータセット上で,畳み込みベースと変圧器ベースの両方のディープラーニングアーキテクチャの評価と比較を行う。 本研究は, 刑事捜査における手画像から, 同一性だけでなく, 被疑者の性別や年齢など他の属性を効率的に推定することが可能であることを示す。

In this paper, we propose a multi-task representation learning framework to jointly estimate the identity, gender and age of individuals from their hand images for the purpose of criminal investigations since the hand images are often the only available information in cases of serious crime such as sexual abuse. We investigate different up-to-date deep learning architectures and compare their performance for joint estimation of identity, gender and age from hand images of perpetrators of serious crime. To simplify the age prediction, we create age groups for the age estimation. We make extensive evaluations and comparisons of both convolution-based and transformer-based deep learning architectures on a publicly available 11k hands dataset. Our experimental analysis shows that it is possible to efficiently estimate not only identity but also other attributes such as gender and age of suspects jointly from hand images for criminal investigations, which is crucial in assisting international police forces in the court to identify and convict abusers.
翻訳日:2023-06-22 03:11:20 公開日:2023-06-19
# 絡み合い軌道とその境界

Entanglement Trajectory and its Boundary ( http://arxiv.org/abs/2303.13587v3 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 本稿では,量子コンピューティングの文脈における絡み合いを調べるための新しい手法を提案する。 本手法は,量子アルゴリズムの実行の異なる段階における密度行列の縮小を解析し,グラフ上の支配的固有値とフォン・ノイマンエントロピーを表現し,「絡み合い軌道」を生成する。 軌道の境界を確立するために、ランダム行列理論を用いる。 量子断熱計算、グローバーアルゴリズム、ショアアルゴリズムなどの例の検証を通じて、エンタングルメント軌道は確立された境界内にとどまり、それぞれの例に特有の特徴を示すことを証明した。 さらに、これらの境界と特徴を、代替エントロピー測度によって定義される軌道へ拡張できることを示した。 絡み合い軌道は量子系の不変性として機能し、様々な状況と絡み合いの定義の整合性を維持する。 この研究に付随する数値シミュレーションはオープンアクセスで利用できる。

In this article, we present a novel approach to investigating entanglement in the context of quantum computing. Our methodology involves analyzing reduced density matrices at different stages of a quantum algorithm's execution and representing the dominant eigenvalue and von Neumann entropy on a graph, creating an "entanglement trajectory." To establish the trajectory's boundaries, we employ random matrix theory. Through the examination of examples such as quantum adiabatic computation, the Grover algorithm, and the Shor algorithm, we demonstrate that the entanglement trajectory remains within the established boundaries, exhibiting unique characteristics for each example. Moreover, we show that these boundaries and features can be extended to trajectories defined by alternative entropy measures. The entanglement trajectory serves as an invariant property of a quantum system, maintaining consistency across varying situations and definitions of entanglement. Numerical simulations accompanying this research are available via open access.
翻訳日:2023-06-22 03:10:13 公開日:2023-06-19
# 学習型静的マルウェア分類器の逆ロバスト性

Adversarial Robustness of Learning-based Static Malware Classifiers ( http://arxiv.org/abs/2303.13372v2 )

ライセンス: Link先を確認
Shoumik Saha, Wenxiao Wang, Yigitcan Kaya, Soheil Feizi, Tudor Dumitras(参考訳) マルウェア検出は長年、マルウェア作者とアンチウイルスシステムの間で進行中の武器競争の舞台だった。 機械学習(ML)を利用するソリューションは、この武器レースの規模が大きくなるにつれて、勢いを増す。 しかし、この傾向はMLに直接攻撃を仕掛けることが敵にとって魅力的な可能性となっている。 我々は、このアームレースを、ファイルの生バイトで動作する一般的な畳み込みニューラルネットワークベースのマルウェア分類器であるMalConvの文脈において、両方の観点から研究する。 まず、MalConvは敵のパッチ攻撃に対して脆弱であることを示し、マルウェアファイルにバイトレベルのパッチを付加すると、94.3%の時間の検出をバイパスする。 さらに,1つのパッチが,それを含むマルウェアファイルの一定時間内に検出率を80%低下させることができる汎用逆パッチ(UAP)攻撃を開発した。 これらのパッチは、元のファイルサイズに対して比較的小さい場合でも有効であり、2%から8%の間である。 対策としてウィンドウアブレーションを行い,非ランダム化平滑化を可能とし,視覚タスクのパッチ攻撃に対する現代の認証防御をrawファイルに適用する。 結果として生じる‘smoothed-malconv’は,ユニバーサルパッチを含むマルウェアの80%以上を検出し,最大66%の堅牢性を保証することで,堅牢なマルウェア検出に向けた有望なステップを概説する。 我々の知る限り、我々は、マルウェアフィールドのバイトレベルのアブレーションを用いて、普遍的な敵パッチ攻撃と認証された防御を最初に適用した。

Malware detection has long been a stage for an ongoing arms race between malware authors and anti-virus systems. Solutions that utilize machine learning (ML) gain traction as the scale of this arms race increases. This trend, however, makes performing attacks directly on ML an attractive prospect for adversaries. We study this arms race from both perspectives in the context of MalConv, a popular convolutional neural network-based malware classifier that operates on raw bytes of files. First, we show that MalConv is vulnerable to adversarial patch attacks: appending a byte-level patch to malware files bypasses detection 94.3% of the time. Moreover, we develop a universal adversarial patch (UAP) attack where a single patch can drop the detection rate in constant time of any malware file that contains it by 80%. These patches are effective even being relatively small with respect to the original file size -- between 2%-8%. As a countermeasure, we then perform window ablation that allows us to apply de-randomized smoothing, a modern certified defense to patch attacks in vision tasks, to raw files. The resulting `smoothed-MalConv' can detect over 80% of malware that contains the universal patch and provides certified robustness up to 66%, outlining a promising step towards robust malware detection. To our knowledge, we are the first to apply universal adversarial patch attack and certified defense using ablations on byte level in the malware field.
翻訳日:2023-06-22 03:09:56 公開日:2023-06-19
# アーキテクチャ、データセット、モデルスケールの非依存型メタラーニング

Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning ( http://arxiv.org/abs/2303.11183v2 )

ライセンス: Link先を確認
Zixuan Hu, Li Shen, Zhenyi Wang, Tongliang Liu, Chun Yuan, Dacheng Tao(参考訳) データフリーなメタ学習の目標は、トレーニングデータにアクセスすることなく、事前訓練されたモデルの集合から有用な事前知識を学ぶことである。 しかし、既存の仕事はパラメータ空間でのみ問題を解く。 (i)事前訓練されたモデルに含まれる実りあるデータ知識を無視する。 (ii)大規模事前訓練モデルにはスケールできない。 (iii)同じネットワークアーキテクチャでメタ学習モデルのみを学習できる。 これらの問題に対処するために,(1)データフリーなメタトレーニング中のエピソードカリキュラムインバージョン(eci),(2)メタテスト中のインナーループ後のインバージョンキャリブレーション(icfil)を含む,purerと呼ばれる統一フレームワークを提案する。 メタトレーニング中に,新しい未知のタスクに素早く適応する学習のための疑似エピソード訓練を行うeciを提案する。 具体的には,事前学習した各モデルからトレーニングデータを蒸留することにより,擬似エピソードの系列を段階的に合成する。 ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。 本稿では,ECIを用いたメタトレーニングの最適化プロセスについて,エンドツーエンドで検証する。 メタテスト中,メタトレーニングとメタテストタスク分布のギャップを狭めるために,メタテスト時にのみ使用される簡易なプラグアンドプレイサプリメントICFILを提案する。 様々な実世界のシナリオにおける広範囲な実験は、我々の優れた性能を示している。

The goal of data-free meta-learning is to learn useful prior knowledge from a collection of pre-trained models without accessing their training data. However, existing works only solve the problem in parameter space, which (i) ignore the fruitful data knowledge contained in the pre-trained models; (ii) can not scale to large-scale pre-trained models; (iii) can only meta-learn pre-trained models with the same network architecture. To address those issues, we propose a unified framework, dubbed PURER, which contains: (1) ePisode cUrriculum inveRsion (ECI) during data-free meta training; and (2) invErsion calibRation following inner loop (ICFIL) during meta testing. During meta training, we propose ECI to perform pseudo episode training for learning to adapt fast to new unseen tasks. Specifically, we progressively synthesize a sequence of pseudo episodes by distilling the training data from each pre-trained model. The ECI adaptively increases the difficulty level of pseudo episodes according to the real-time feedback of the meta model. We formulate the optimization process of meta training with ECI as an adversarial form in an end-to-end manner. During meta testing, we further propose a simple plug-and-play supplement-ICFIL-only used during meta testing to narrow the gap between meta training and meta testing task distribution. Extensive experiments in various real-world scenarios show the superior performance of ours.
翻訳日:2023-06-22 03:09:22 公開日:2023-06-19
# ディファレンシャルフェイスモーフィングアタック検出のためのマルチスペクトルイメージング--予備的検討

Multispectral Imaging for Differential Face Morphing Attack Detection: A Preliminary Study ( http://arxiv.org/abs/2304.03510v2 )

ライセンス: Link先を確認
Raghavendra Ramachandra, Sushma Venkatesh, Naser Damer, Narayan Vetrekar, Rajendra Gad(参考訳) 顔のモーフィング攻撃検出は、高品質で現実的なモーフィング攻撃生成の進歩により、ますます困難な問題になりつつある。 これらの攻撃は境界制御アプリケーションをターゲットにしているため、モーフィング攻撃の信頼性の高い検出が不可欠である。 本稿では,D-MADのためのマルチスペクトルフレームワークを提案する。 D-MAD法は、ePassport(参照画像とも呼ばれる)と信頼されたデバイス(例えば、自動境界制御(ABC)ゲート)から取得した2つの顔画像を用いて、ePassportで提示された顔画像が変形しているかどうかを検出する。 提案されたマルチスペクトルd-madフレームワークは、信頼できるキャプチャとしてキャプチャされたマルチスペクトルイメージを導入し、7つの異なるスペクトルバンドをキャプチャしてモーフィング攻撃を検出する。 複数のセッションで可視カメラとマルチスペクトルカメラの両方を使って撮影された143のユニークなデータセットについて、広範囲な実験が行われた。 その結果,提案手法は可視画像と比較して優れた性能を示した。

Face morphing attack detection is emerging as an increasingly challenging problem owing to advancements in high-quality and realistic morphing attack generation. Reliable detection of morphing attacks is essential because these attacks are targeted for border control applications. This paper presents a multispectral framework for differential morphing-attack detection (D-MAD). The D-MAD methods are based on using two facial images that are captured from the ePassport (also called the reference image) and the trusted device (for example, Automatic Border Control (ABC) gates) to detect whether the face image presented in ePassport is morphed. The proposed multispectral D-MAD framework introduce a multispectral image captured as a trusted capture to capture seven different spectral bands to detect morphing attacks. Extensive experiments were conducted on the newly created datasets with 143 unique data subjects that were captured using both visible and multispectral cameras in multiple sessions. The results indicate the superior performance of the proposed multispectral framework compared to visible images.
翻訳日:2023-06-22 03:02:37 公開日:2023-06-19
# 農業分野における自己監督表現学習のためのインジェクトノイズ判別器

INoD: Injected Noise Discriminator for Self-Supervised Representation Learning in Agricultural Fields ( http://arxiv.org/abs/2303.18101v3 )

ライセンス: Link先を確認
Julia Hindel, Nikhil Gosala, Kevin Bregler, Abhinav Valada(参考訳) 農業の知覚データセットは量と多様性の両方に制限されており、教師付き学習アプローチの効果的な訓練を妨げる。 自己指導型学習技術によりこの問題が緩和されるが、既存の手法は農業領域の密集予測タスクに最適化されていないため、性能が低下する。 本研究では, 自己教師型表現学習における特徴置換とデータセット識別の原理を活かしたインジェクテッドノイズ識別器(INoD)を用いて, この制限に対処する。 inodは、畳み込み符号化中に2つの非結合データセットからフィーチャーマップをインターリーブし、プリテキストタスクとして結果のフィーチャーマップのデータセットアフィリエーションを予測する。 提案手法により、ネットワークは、あるデータセットで見られるオブジェクトの無意味な表現を学習し、解離したデータセットの類似した特徴と合わせて観察することができる。 これによりネットワークは、関連するオブジェクトの高レベルなセマンティクスを判断することができ、様々な下流タスクのパフォーマンスが向上する。 さらに,ポテトフィールドにおける物体検出のための16,800枚以上の画像からなるFraunhofer Potato 2022データセットについても紹介した。 サトウキビ2016とジャガイモデータセットのオブジェクト検出,セマンティクスセグメンテーション,インスタンスセグメンテーションといったタスクにおいて,提案するinodプリトレーニング戦略の広範な評価を行った結果,最先端のパフォーマンスが得られた。

Perception datasets for agriculture are limited both in quantity and diversity which hinders effective training of supervised learning approaches. Self-supervised learning techniques alleviate this problem, however, existing methods are not optimized for dense prediction tasks in agriculture domains which results in degraded performance. In this work, we address this limitation with our proposed Injected Noise Discriminator (INoD) which exploits principles of feature replacement and dataset discrimination for self-supervised representation learning. INoD interleaves feature maps from two disjoint datasets during their convolutional encoding and predicts the dataset affiliation of the resultant feature map as a pretext task. Our approach enables the network to learn unequivocal representations of objects seen in one dataset while observing them in conjunction with similar features from the disjoint dataset. This allows the network to reason about higher-level semantics of the entailed objects, thus improving its performance on various downstream tasks. Additionally, we introduce the novel Fraunhofer Potato 2022 dataset consisting of over 16,800 images for object detection in potato fields. Extensive evaluations of our proposed INoD pretraining strategy for the tasks of object detection, semantic segmentation, and instance segmentation on the Sugar Beets 2016 and our potato dataset demonstrate that it achieves state-of-the-art performance.
翻訳日:2023-06-22 03:00:30 公開日:2023-06-19
# 偏微分方程式学習のための擬ハミルトンニューラルネットワーク

Pseudo-Hamiltonian neural networks for learning partial differential equations ( http://arxiv.org/abs/2304.14374v2 )

ライセンス: Link先を確認
S{\o}lve Eidnes, Kjetil Olsen Lye(参考訳) Pseudo-Hamiltonian Neural Network (PHNN)は、最近、通常の微分方程式でモデル化できる力学系を学ぶために導入された。 本稿では,この手法を偏微分方程式に拡張する。 得られたモデルは、保存、散逸、外部力を表す用語をモデル化する最大3つのニューラルネットワークと、学習または入力として与えられる離散畳み込み演算子から構成される。 単一ニューラルネットワークによるフルダイナミックスをモデル化したベースラインモデルと比較して,PHNNの性能が優れていることを示す。 さらに、PHNNモデルは物理的解釈が異なる3つの部分から構成されるので、これらを別々に研究してシステムについての洞察を得ることができ、外部の力を取り除いたり、変化させたりしても、学習モデルは適用可能である。

Pseudo-Hamiltonian neural networks (PHNN) were recently introduced for learning dynamical systems that can be modelled by ordinary differential equations. In this paper, we extend the method to partial differential equations. The resulting model is comprised of up to three neural networks, modelling terms representing conservation, dissipation and external forces, and discrete convolution operators that can either be learned or be given as input. We demonstrate numerically the superior performance of PHNN compared to a baseline model that models the full dynamics by a single neural network. Moreover, since the PHNN model consists of three parts with different physical interpretations, these can be studied separately to gain insight into the system, and the learned model is applicable also if external forces are removed or changed.
翻訳日:2023-06-22 02:42:40 公開日:2023-06-19
# 自発対称性破砕の分岐部における量子蝶効果

Quantum Butterfly Effect at the Crossroads of Spontaneous Symmetry Breaking ( http://arxiv.org/abs/2304.14272v2 )

ライセンス: Link先を確認
Pranaya Pratik Das, Biplab Ganguli(参考訳) 古典力学において、ハミルトニアンの自発対称性の破れは、いくつかの正則系の力学をカオス化する。 古典的および量子的画像は、これらの壊れた対称領域で完全に異なるわけではない。 それらの間には対応があるが、短い時間窓がある。 しかし、我々の数値観測により、量子力学はハミルトニアンに対称性破壊項を導入することで、古典的非カオス系における指数的揺らぎをエミュレートし、その逆の役割を模倣できることが示された。 本研究では, 摂動強度を変化させた3次元量子力学モデルにおける既存の対称性を自発的に破壊し, システムに異常をもたらす。 OTOC、Loschmidt echo、SFF(Spectral form factor)などの数値診断ツールの助けを借りて、非対称性の導入によってシステムに浸透する可能性のある異常を検出する。 我々の主な焦点は、古典的極限におけるリャプノフ指数に還元されるOTOCの指数的成長である。 しかしながら、otocの指数関数的成長はポテンシャルの全体にわたっては広がりませんが、破れた対称性の近傍の固有状態に限定されます。 これらの結果は、Loschmidt echoとSFFを背景としたOTOCの指数的成長が非対称性に起因することを示唆している。 言い換えれば、OTOCは、しばしば蝶効果と同義語である対称性破壊の効果を検出する。

In classical mechanics, spontaneous symmetry breaking of the Hamiltonian can embroil the dynamics of some regular systems into chaos. The classical and quantum pictures are not entirely different in these broken symmetric regions. There exists a correspondence between them, but for a brief time window. However, our numerical observations show that quantum mechanics can emulate the opposite role and forge exponential fluctuations in classically non-chaotic systems within an early-time window by introducing a symmetry-breaking term to the Hamiltonian. In this work, we spontaneously break the existing symmetry in three one-dimensional quantum mechanical models by varying perturbation strength to bring anomaly into the system. With the help of numerical diagnostic tools such as OTOC, Loschmidt echo and spectral form factor(SFF) we detect the anomalies that may sweep into the system with the introduction of the asymmetry. Our primary focus is on the exponential growth of OTOC as it reduces to the Lyapunov exponent in the classical limit. However, these exponential growths of OTOC are not widespread over the entire potential well but are limited only to the eigenstates in the neighbourhood of the broken symmetry. These results suggest that the exponential growth of OTOC, backed by Loschmidt echo and SFF, is due to asymmetry. In other words, OTOC detects the effect of symmetry-breaking, which is often synonymous with the butterfly effect.
翻訳日:2023-06-22 02:42:26 公開日:2023-06-19
# ディープニューラルネットワークを用いた微分方程式の解法と解法に関する調査

A Survey on Solving and Discovering Differential Equations Using Deep Neural Networks ( http://arxiv.org/abs/2304.13807v2 )

ライセンス: Link先を確認
Hyeonjung (Tari) Jung, Jayant Gupta, Bharat Jayaprakash, Matthew Eagon, Harish Panneer Selvam, Carl Molnar, William Northrop, Shashi Shekhar(参考訳) 常微分方程式と偏微分方程式(de)は、物理系をモデル化するために科学的および数学的領域において広く用いられる。 現在の文献は主に、特定のDreやDesファミリーを解決するディープニューラルネットワーク(DNN)ベースの方法に焦点を当てている。 DEモデルを用いた歴史を持つ研究コミュニティは、DNNベースの微分方程式解法(DNN-DE)を、現在の数値法に代わる高速で転送可能な代替手段とみなすことができる。 しかし、DNN-DEメソッドを物理アプリケーション領域にまたがって使用するための体系的な調査や、将来の研究を導くための一般的な分類法が欠如している。 本稿では,先行研究の調査と分類を行い,上級実践者,専門職,大学院生に対して工学・計算機科学の教育的チュートリアルを提供する。 まず,dnn-de の傘下で研究されている de システムの領域をナビゲートする分類法を提案する。 次に,物理情報ニューラルネットワーク(PINN)の理論と性能について検討し,DNN-DEアーキテクチャが方程式系を数学的に解く方法を示す。 第三に,DNN を用いた DE の解決と発見の鍵となるアイデアを強化するため,我々は PINN を開発するための Python パッケージである DeepXDE を用いて,古典的な DE を解くための DNN-DE を開発した。

Ordinary and partial differential equations (DE) are used extensively in scientific and mathematical domains to model physical systems. Current literature has focused primarily on deep neural network (DNN) based methods for solving a specific DE or a family of DEs. Research communities with a history of using DE models may view DNN-based differential equation solvers (DNN-DEs) as a faster and transferable alternative to current numerical methods. However, there is a lack of systematic surveys detailing the use of DNN-DE methods across physical application domains and a generalized taxonomy to guide future research. This paper surveys and classifies previous works and provides an educational tutorial for senior practitioners, professionals, and graduate students in engineering and computer science. First, we propose a taxonomy to navigate domains of DE systems studied under the umbrella of DNN-DE. Second, we examine the theory and performance of the Physics Informed Neural Network (PINN) to demonstrate how the influential DNN-DE architecture mathematically solves a system of equations. Third, to reinforce the key ideas of solving and discovery of DEs using DNN, we provide a tutorial using DeepXDE, a Python package for developing PINNs, to develop DNN-DEs for solving and discovering a classic DE, the linear transport equation.
翻訳日:2023-06-22 02:42:00 公開日:2023-06-19
# 非定常環境における動的システムのリアルタイム安全性評価:方法と手法のレビュー

Real-time Safety Assessment of Dynamic Systems in Non-stationary Environments: A Review of Methods and Techniques ( http://arxiv.org/abs/2304.12583v2 )

ライセンス: Link先を確認
Zeyi Liu and Songqiao Hu and Xiao He(参考訳) 動的システムのリアルタイム安全性評価(RTSA)は,特に非定常環境において,産業や輸送などの分野において重要な意味を持つ重要な課題である。 しかし,非定常環境におけるリアルタイム安全性評価手法の包括的レビューの欠如は,関連手法の進歩と洗練を妨げている。 本稿では,非定常環境におけるRTSAタスクの手法と手法について概説する。 特に、非定常環境におけるrtsaアプローチの背景と意義を最初に強調する。 次に、定義、分類、および主な課題をカバーする問題記述を示す。 本稿では,オンラインアクティブラーニング,オンラインセミ教師付きラーニング,オンライン転送学習,オンライン異常検出といった関連技術の最近の進歩を概観する。 最後に,今後の展望と今後の研究の方向性について論じる。 本総説は,非定常環境におけるリアルタイム安全評価手法の総合的かつ最新の概観を提供することを目的としており,この分野の研究者や実践者にとって貴重な資源となる。

Real-time safety assessment (RTSA) of dynamic systems is a critical task that has significant implications for various fields such as industrial and transportation applications, especially in non-stationary environments. However, the absence of a comprehensive review of real-time safety assessment methods in non-stationary environments impedes the progress and refinement of related methods. In this paper, a review of methods and techniques for RTSA tasks in non-stationary environments is provided. Specifically, the background and significance of RTSA approaches in non-stationary environments are firstly highlighted. We then present a problem description that covers the definition, classification, and main challenges. We review recent developments in related technologies such as online active learning, online semi-supervised learning, online transfer learning, and online anomaly detection. Finally, we discuss future outlooks and potential directions for further research. Our review aims to provide a comprehensive and up-to-date overview of real-time safety assessment methods in non-stationary environments, which can serve as a valuable resource for researchers and practitioners in this field.
翻訳日:2023-06-22 02:41:09 公開日:2023-06-19
# 量子電磁密度関数理論を用いた実キャビティ内の分子

Molecules in Real Cavities with Quantum Electrodynamical Density Functional Theory ( http://arxiv.org/abs/2305.02391v2 )

ライセンス: Link先を確認
Mark Kamper Svendsen, Kristian Sommer Thygesen, Angel Rubio and Johannes Flick(参考訳) 複雑な電磁環境における強結合型光物質系の実現には、光と物質を第一原理から扱える理論手法の開発が必要である。 量子電磁密度汎関数理論(QEDFT)は、電子系が量子化された光モードと結合する状況への密度汎関数理論の一般化である。 この方法は、電子系と量子化された光のモードの強力な記述を提供するが、実際には電磁媒体の吸収と分散を正しく扱うことはできない。 また, キャビティ場の強度パラメータは, 物質が埋め込まれた実際の電磁環境とはリンクしていないため, 効果的に自由パラメータとなる。 本稿では,実測光キャビティ設定のためのQEDFTを正確にパラメータ化するために,マクロQED(MQED)をどのように呼び出すかについて議論する。 このアプローチの例を示すために,吸収性球面キャビティの例を考察し,弱結合から強結合への遷移に対する環境と電子系の異なるパラメータの影響について考察する。 我々の研究の結果、一般に、損失のある環境の結合パラメータは古典的なダイドグリーンの関数で表現できるようになった。 ダイドグリーン関数は、電磁環境と境界条件によって完全に決定されるため、自由パラメータとして光-物質結合強度を除去する。 この作業の一環として、簡単な空洞設置のための空洞結合強度を計算できる使い易いツールも提供します。

Rapid experimental progress in realizing strongly coupled light-matter systems in complex electromagnetic environments necessitates the development of theoretical methods capable of treating light and matter from first principles. A popular such method is quantum electrodynamical density functional theory (QEDFT) which is a generalization of density functional theory to situations where the electronic system is coupled to quantized light modes. While this method provides a powerful description of the electronic system and the quantized modes of light, it has so far been unable to deal correctly with absorbing and dispersing electromagnetic media in practice. In addition, the cavity field strength parameters have not been linked to the real electromagnetic environment in which the matter is embedded meaning that these are effectively free parameters. In this paper, we discuss how macroscopic QED (MQED) can be invoked to correctly parameterize QEDFT for realistic optical cavity setups. To exemplify this approach, we consider the example of a absorbing spherical cavity and study the impact of different parameters of both the environment and the electronic system on the transition from weak-to-strong coupling. As a result of our work, the coupling parameters in general, lossy environments can be now expressed in terms of the classical Dyadic Green's Function. Because the Dyadic Green's Function is completely determined by the electromagnetic environment and the boundary conditions, it thus removes the light-matter coupling strengths as free parameters. As part of this work, we also provide an easy to use tool that can calculate the cavity coupling strengths for simple cavity setups.
翻訳日:2023-06-22 02:30:43 公開日:2023-06-19
# ストリーム効率のよい学習

Stream Efficient Learning ( http://arxiv.org/abs/2305.02217v2 )

ライセンス: Link先を確認
Zhi-Hua Zhou(参考訳) 多くの現実世界のアプリケーションにおけるデータはストリームのように時間とともに蓄積されることが多い。 与えられたトレーニングデータセットから学習することに焦点を当てた従来の機械学習研究とは対照的に、データストリームからの学習は、入ってくるデータストリームが圧倒的なサイズと未知の変化で無限に持続できるという事実を無視することはできず、全ての受信データを時間内に処理できるような無限に供給された計算リソースを持つと仮定するのは現実的ではない。 このように、データストリームからの学習の一般化性能は、受信したデータの数だけでなく、計算資源の懸念とともに、どれだけのデータをタイムリーに活用できるかにも依存する。 本稿では、機械学習のスループットの概念を導入し、ストリーム効率学習を定義し、アルゴリズムの学習能力と問題の複雑さに加えて、初めて学習理論における計算資源の影響を考慮に入れた理論的枠組みを提案する。

Data in many real-world applications are often accumulated over time, like a stream. In contrast to conventional machine learning studies that focus on learning from a given training data set, learning from data streams cannot ignore the fact that the incoming data stream can be potentially endless with overwhelming size and unknown changes, and it is impractical to assume to have infinitely supplied computational resource such that all received data can be handled in time. Thus, the generalization performance of learning from data streams depends not only on how many data have been received, but also on how many data can be well exploited timely, with computational resource concerns. For this purpose, in this article we introduce the notion of machine learning throughput, define Stream Efficient Learning and present a theoretical framework which takes into account the influence of computational resource, in learning theory for the first time, in addition to the ability of learning algorithm and complexity of the problem.
翻訳日:2023-06-22 02:30:15 公開日:2023-06-19
# シングルステージマルチパーソンポーズ推定のためのハイブリッドモデル

Hybrid model for Single-Stage Multi-Person Pose Estimation ( http://arxiv.org/abs/2305.01167v2 )

ライセンス: Link先を確認
Jonghyun Kim, Bosang Kim, Hyotae Lee, Jungpyo Kim, Wonhyeok Im, Lanying Jin, Dowoo Kwon, and Jungho Lee(参考訳) 一般に、人間のポーズ推定方法は、回帰(すなわち、熱マップのない)と熱マップに基づく方法の2つの手法に分類される。 前者は畳み込み層と完全連結層を用いて各キーポイントの正確な座標を直接推定する。 このアプローチは重なり、密集したキーポイントを検出できるが、シーンに存在しないキーポイントによって予期せぬ結果が得られる。 一方、後者は、各キーポイントに予測されたヒートマップを使用することで、存在しないものをフィルタリングすることができる。 それでも、キーポイント座標を熱マップから得る際に量子化誤差に悩まされる。 また、回帰と異なり、画像中の密配置されたキーポイントを区別することは困難である。 この目的のために,HybridPoseと呼ばれる単一段階多人数ポーズ推定のためのハイブリッドモデルを提案し,その長所を最大化することで,両アプローチの欠点を相互に克服する。 さらに,鍵点座標間の空間的依存関係とその可視性を示す自己相関損失を導入する。 そのため、HybridPoseは、密配置されたキーポイントを検出するだけでなく、画像内の存在しないキーポイントをフィルタリングすることもできる。 実験の結果,提案手法はポーズ推定精度において,性能劣化を伴わないキーポイントの可視性を示すことがわかった。

In general, human pose estimation methods are categorized into two approaches according to their architectures: regression (i.e., heatmap-free) and heatmap-based methods. The former one directly estimates precise coordinates of each keypoint using convolutional and fully-connected layers. Although this approach is able to detect overlapped and dense keypoints, unexpected results can be obtained by non-existent keypoints in a scene. On the other hand, the latter one is able to filter the non-existent ones out by utilizing predicted heatmaps for each keypoint. Nevertheless, it suffers from quantization error when obtaining the keypoint coordinates from its heatmaps. In addition, unlike the regression one, it is difficult to distinguish densely placed keypoints in an image. To this end, we propose a hybrid model for single-stage multi-person pose estimation, named HybridPose, which mutually overcomes each drawback of both approaches by maximizing their strengths. Furthermore, we introduce self-correlation loss to inject spatial dependencies between keypoint coordinates and their visibility. Therefore, HybridPose is capable of not only detecting densely placed keypoints, but also filtering the non-existent keypoints in an image. Experimental results demonstrate that proposed HybridPose exhibits the keypoints visibility without performance degradation in terms of the pose estimation accuracy.
翻訳日:2023-06-22 02:29:46 公開日:2023-06-19
# ヒント: 時間的ニューラルネットワークのためのトポロジカルに重要な経路サンプリング

TIPS: Topologically Important Path Sampling for Anytime Neural Networks ( http://arxiv.org/abs/2305.08021v2 )

ライセンス: Link先を確認
Guihong Li, Kartikeya Bhardwaj, Yuedong Yang, Radu Marculescu(参考訳) anytime neural network(anytimenns)は、さまざまなハードウェアリソース制約下で実行時にモデルの複雑さを適応的に調整するための有望なソリューションである。 しかし、手動設計のAnytimeNNはデザイナの事前経験に偏りがあり、したがって準最適ソリューションを提供する。 既存の手作りアプローチの限界に対処するために、我々は最初にanytimennsのトレーニングプロセスを離散時間マルコフ連鎖(dtmc)としてモデル化し、anytimennsのトレーニングに最も寄与する経路を特定するためにそれを使用する。 この新たなDTMCに基づく分析に基づいて,様々なハードウェア制約下でAnytimeNNを自動設計するフレームワークであるTIPSを提案する。 実験の結果,TIPSはAnytimeNNの収束率とテスト精度を向上させることができることがわかった。 既存のAnytimeNNのアプローチと比較して、TIPSは複数のデータセットで精度を2%-6.6%向上し、SOTAの精度-FLOPのトレードオフを達成する。

Anytime neural networks (AnytimeNNs) are a promising solution to adaptively adjust the model complexity at runtime under various hardware resource constraints. However, the manually-designed AnytimeNNs are biased by designers' prior experience and thus provide sub-optimal solutions. To address the limitations of existing hand-crafted approaches, we first model the training process of AnytimeNNs as a discrete-time Markov chain (DTMC) and use it to identify the paths that contribute the most to the training of AnytimeNNs. Based on this new DTMC-based analysis, we further propose TIPS, a framework to automatically design AnytimeNNs under various hardware constraints. Our experimental results show that TIPS can improve the convergence rate and test accuracy of AnytimeNNs. Compared to the existing AnytimeNNs approaches, TIPS improves the accuracy by 2%-6.6% on multiple datasets and achieves SOTA accuracy-FLOPs tradeoffs.
翻訳日:2023-06-22 02:23:28 公開日:2023-06-19
# オープン量子システムのジャンプチャネル統計におけるパターン

Patterns in the jump-channel statistics of open quantum systems ( http://arxiv.org/abs/2305.07957v2 )

ライセンス: Link先を確認
Gabriel T. Landi(参考訳) 複数のジャンプチャネルを持つ連続測定量子系は、各ジャンプチャネルを表すランダムジャンプ時間とランダム放出シンボルによって記述される確率過程をもたらす。 待ち時間分布については多くが知られているが、放射された記号の統計についてはほとんど知られていない。 この手紙で我々はこのギャップを埋める。 まず,結果として生じる確率過程の完全な特徴と,そのシミュレーションの効率的な方法,基礎となるメモリ構造の決定について述べる。 第二に、確率的進化におけるパターンを明らかにする方法を示す: 一部のシステムは閉じたパターンをサポートし、進化は有限の状態または少なくとも繰り返される状態の上を走る。 しかし、どちらも可能でないとしても、将来の結果を予測できる能力に基づいて、状態が概してクラスタ化されることが示される。 境界駆動型一次元XYスピンチェーンによる輸送の研究により、これらのアイデアを説明する。

A continuously measured quantum system with multiple jump channels gives rise to a stochastic process described by random jump times and random emitted symbols, representing each jump channel. While much is known about the waiting time distributions, very little is known about the statistics of the emitted symbols. In this letter we fill in this gap. First, we provide a full characterization of the resulting stochastic process, including efficient ways of simulating it, as well as determining the underlying memory structure. Second, we show how to unveil patterns in the stochastic evolution: Some systems support closed patterns, wherein the evolution runs over a finite set of states, or at least recurring states. But even if neither is possible, we show that one may still cluster the states approximately, based on their ability to predict future outcomes. We illustrate these ideas by studying transport through a boundary-driven one-dimensional XY spin chain.
翻訳日:2023-06-22 02:22:39 公開日:2023-06-19
# 大規模マルチモーダルモデルにおけるOCRの隠れミステリーについて

On the Hidden Mystery of OCR in Large Multimodal Models ( http://arxiv.org/abs/2305.07895v4 )

ライセンス: Link先を確認
Yuliang Liu, Zhang Li, Hongliang Li, Wenwen Yu, Yang Liu, Biao Yang, Mingxin Huang, Dezhi Peng, Mingyu Liu, Mingrui Chen, Chunyuan Li, Xucheng Yin, Cheng-lin Liu, Lianwen Jin, Xiang Bai(参考訳) 大規模モデルは近年,自然言語処理やマルチモーダル視覚言語学習において重要な役割を担っている。 テキスト関連視覚タスクにおける有効性については,いまだ検討されていない。 本研究では,テキスト認識(文書テキスト,芸術テキスト,手書きテキスト,シーンテキスト),テキストベースの視覚的質問応答(文書テキスト,シーンテキスト,バイリンガルテキスト),キー情報抽出(受信情報,文書,栄養情報),手書きの数学的表現認識において,既存のマルチモーダルモデルの総合的研究を行った。 これらのモデルの強みと弱みは、主に単語認識の意味的理解に依存し、個々の文字形状に対する劣った知覚を示す。 また、テキスト長に対する差分を表示し、画像のきめ細かい特徴を検出する能力に制限がある。 その結果,現在最も強力な大規模マルチモーダルモデルでさえ,従来のテキストタスクではドメイン固有メソッドと一致せず,より複雑なタスクでは大きな課題に直面していることがわかった。 最も重要な点は,ゼロショットマルチモーダル技術の向上を目的とした革新的戦略の構想と評価のための基礎的枠組みを,本研究で提示した基礎的結果が提供できることである。 評価パイプラインはhttps://github.com/yuliang-liu/multimodalocrで利用可能である。

Large models have recently played a dominant role in natural language processing and multimodal vision-language learning. It remains less explored about their efficacy in text-related visual tasks. We conducted a comprehensive study of existing publicly available multimodal models, evaluating their performance in text recognition (document text, artistic text, handwritten text, scene text), text-based visual question answering (document text, scene text, and bilingual text), key information extraction (receipts, documents, and nutrition facts) and handwritten mathematical expression recognition. Our findings reveal strengths and weaknesses in these models, which primarily rely on semantic understanding for word recognition and exhibit inferior perception of individual character shapes. They also display indifference towards text length and have limited capabilities in detecting finegrained features in images. Consequently, these results demonstrate that even the current most powerful large multimodal models cannot match domain-specific methods in traditional text tasks and face greater challenges in more complex tasks. Most importantly, the baseline results showcased in this study could provide a foundational framework for the conception and assessment of innovative strategies targeted at enhancing zero-shot multimodal techniques. Evaluation pipeline is available at https://github.com/Yuliang-Liu/MultimodalOCR.
翻訳日:2023-06-22 02:22:25 公開日:2023-06-19
# 画素不確かさ推定による医用画像分割の一般化に向けて

Towards Generalizable Medical Image Segmentation with Pixel-wise Uncertainty Estimation ( http://arxiv.org/abs/2305.07883v2 )

ライセンス: Link先を確認
Shuai Wang, Zipei Yan, Daoan Zhang, Zhongsen Li, Sirui Wu, Wenxuan Chen, Rui Li(参考訳) ディープニューラルネットワーク(DNN)は、独立および同一分散(IID)仮説の下で視覚認識において有望な性能を達成する。 対照的に、IDD仮説は多くの現実世界、特に医用画像解析において普遍的に保証されていない。 医用画像分割は通常、各ピクセルをカテゴリに分類する画素単位の分類タスクとして定式化される。 しかし、この定式化はdnnを混乱させるため、例えば境界付近の画素など、分類が難しい画素を無視している。 本稿では,まず,分類の難しい画素が不確実性が高いことを明らかにする。 そこで本研究では,dnnの分類が難しい画素を強調するために不確実性推定を用いた新しい枠組みを提案する。 提案手法はprostateとfundusの2つのベンチマークで評価した。 実験の結果,本手法は最先端手法よりも優れていた。

Deep neural networks (DNNs) achieve promising performance in visual recognition under the independent and identically distributed (IID) hypothesis. In contrast, the IID hypothesis is not universally guaranteed in numerous real-world applications, especially in medical image analysis. Medical image segmentation is typically formulated as a pixel-wise classification task in which each pixel is classified into a category. However, this formulation ignores the hard-to-classified pixels, e.g., some pixels near the boundary area, as they usually confuse DNNs. In this paper, we first explore that hard-to-classified pixels are associated with high uncertainty. Based on this, we propose a novel framework that utilizes uncertainty estimation to highlight hard-to-classified pixels for DNNs, thereby improving its generalization. We evaluate our method on two popular benchmarks: prostate and fundus datasets. The results of the experiment demonstrate that our method outperforms state-of-the-art methods.
翻訳日:2023-06-22 02:22:02 公開日:2023-06-19
# 一般関数近似を用いた平均場強化学習の統計的効率について

On the Statistical Efficiency of Mean Field Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2305.11283v2 )

ライセンス: Link先を確認
Jiawei Huang, Batuhan Yardim, Niao He(参考訳) 本稿では,平均場制御(MFC)および平均場制御(MFG)における強化学習の統計的効率を一般関数近似を用いて検討する。 平均場モデルに基づくエルダー次元 (mbed) と呼ばれる新しい概念を導入し, 平均場 rl 問題の豊富な族を仮定した。 さらに, mfc の $\epsilon$-optimal policy や mfg の $\epsilon$-nash equilibrium policy を,関連するパラメータのサンプル複雑性多項式 w.r.t を用いて返却し,状態数,アクション数,エージェント数に依存しない楽観的最大値推定アルゴリズムを提案する。 特に,我々は遷移ダイナミクスに対するリプシッツ連続性の軽度な仮定と,前回の作業における強固な構造的仮定のみを必要とする。 最後に、生成モデルへのアクセスを前提として、MFC設定の指数的下限を確立するとともに、MFG設定における平衡を近似する新しいサンプル効率モデル除去アルゴリズムを提供する。 以上の結果から, 単エージェント, MFC, MFGに対するRLの分離は, 試料効率の観点から明らかにされた。

In this paper, we study the statistical efficiency of Reinforcement Learning in Mean-Field Control (MFC) and Mean-Field Game (MFG) with general function approximation. We introduce a new concept called Mean-Field Model-Based Eluder Dimension (MBED), which subsumes a rich family of Mean-Field RL problems. Additionally, we propose algorithms based on Optimistic Maximal Likelihood Estimation, which can return an $\epsilon$-optimal policy for MFC or an $\epsilon$-Nash Equilibrium policy for MFG, with sample complexity polynomial w.r.t. relevant parameters and independent of the number of states, actions and the number of agents. Notably, our results only require a mild assumption of Lipschitz continuity on transition dynamics and avoid strong structural assumptions in previous work. Finally, in the tabular setting, given the access to a generative model, we establish an exponential lower bound for MFC setting, while providing a novel sample-efficient model elimination algorithm to approximate equilibrium in MFG setting. Our results reveal a fundamental separation between RL for single-agent, MFC, and MFG from the sample efficiency perspective.
翻訳日:2023-06-22 02:13:01 公開日:2023-06-19
# ジェネラリストロボットに向けて:生成シミュレーションによる有望なパラダイム

Towards Generalist Robots: A Promising Paradigm via Generative Simulation ( http://arxiv.org/abs/2305.10455v2 )

ライセンス: Link先を確認
Zhou Xian, Theophile Gervet, Zhenjia Xu, Yi-Ling Qiao, Tsun-Hsuan Wang, Yian Wang(参考訳) この文書は、一般のロボットへの潜在的な経路に対する著者のビジョンを概説する位置紙として機能する。 この文書の目的は、著者たちの興奮をコミュニティと共有し、ロボット工学とAIにおける有望な研究方向性を明らかにすることである。 著者らは、提案されたパラダイムは、ロボット研究の長年の目標を達成するための、実現可能な道であると信じている。 この文書は、ロボット工学研究のための最新の大規模基盤モデルにおいて、鉱業に関する具体的な知識を提示する。 これらのモデルを直接使用または適応して低レベルのポリシやアクションを生成する代わりに、このモデルを使用して多様化したタスク、シーン、トレーニングの監督を大規模に生成し、低レベルのスキル学習をスケールアップし、最終的に汎用ロボットを力づけるロボティクスの基礎モデルへと導く、完全に自動化された生成パイプライン(生成シミュレーションと呼ばれる)を提唱している。 著者らは積極的にこの方向を推し進めているが、一方で、大規模な政策訓練を施した汎用ロボットを構築するという野心的な目標には、計算力やハードウェアなどの重要なリソースが要求されている。 そのため、この初期段階で意見を共有することで議論が促進され、業界団体から提案された経路や関連するトピックに対する関心が高まり、この分野の技術的進歩が促進される可能性があると著者らは考えている。

This document serves as a position paper that outlines the authors' vision for a potential pathway towards generalist robots. The purpose of this document is to share the excitement of the authors with the community and highlight a promising research direction in robotics and AI. The authors believe the proposed paradigm is a feasible path towards accomplishing the long-standing goal of robotics research: deploying robots, or embodied AI agents more broadly, in various non-factory real-world settings to perform diverse tasks. This document presents a specific idea for mining knowledge in the latest large-scale foundation models for robotics research. Instead of directly using or adapting these models to produce low-level policies and actions, it advocates for a fully automated generative pipeline (termed as generative simulation), which uses these models to generate diversified tasks, scenes and training supervisions at scale, thereby scaling up low-level skill learning and ultimately leading to a foundation model for robotics that empowers generalist robots. The authors are actively pursuing this direction, but in the meantime, they recognize that the ambitious goal of building generalist robots with large-scale policy training demands significant resources such as computing power and hardware, and research groups in academia alone may face severe resource constraints in implementing the entire vision. Therefore, the authors believe sharing their thoughts at this early stage could foster discussions, attract interest towards the proposed pathway and related topics from industry groups, and potentially spur significant technical advancements in the field.
翻訳日:2023-06-22 02:11:17 公開日:2023-06-19
# 不確定な最大エントロピーの原理

The Principle of Uncertain Maximum Entropy ( http://arxiv.org/abs/2305.09868v2 )

ライセンス: Link先を確認
Kenneth Bogert, Matthew Kothe(参考訳) 情報理論においてジェインズが導入した最大エントロピーの原理は、統計力学、機械学習、生態学といった様々な分野の進歩に貢献した。 結果として得られる解は触媒となり、研究者は経験的な観察を偏りのないモデル獲得にマッピングし、複雑なシステムや現象の理解を深める。 しかし、ノイズや眼球閉塞などのモデル要素が直接観測できない状況を考えると、特徴制約に合致しないため、標準的な最大エントロピーアプローチが失敗する可能性がある。 ここでは,不確実な最大エントロピーの原理を,いくつかのアドホックな手法の精度を超越しながら,任意のノイズを観測しながら,利用可能な情報を符号化する手法として示す。 さらに,ブラックボックス機械学習モデルの出力を不確定な最大エントロピーモデルへの入力として活用し,観測関数が利用できないシナリオに対する新しいアプローチを提案する。 以前の修正では、観測誤差の計算時に特徴的制約を緩和するか、ゼロ平均ガウス型のようなよく特性化された誤差を与えられたか、観察によって与えられた最も可能性の高いモデル要素を単に選択するかのどちらかであった。 従来の最大エントロピー法を一般化し,不確実な観測を活用できるため,様々な分野の幅広い応用が期待できる。

The principle of maximum entropy, as introduced by Jaynes in information theory, has contributed to advancements in various domains such as Statistical Mechanics, Machine Learning, and Ecology. Its resultant solutions have served as a catalyst, facilitating researchers in mapping their empirical observations to the acquisition of unbiased models, whilst deepening the understanding of complex systems and phenomena. However, when we consider situations in which the model elements are not directly observable, such as when noise or ocular occlusion is present, possibilities arise for which standard maximum entropy approaches may fail, as they are unable to match feature constraints. Here we show the Principle of Uncertain Maximum Entropy as a method that both encodes all available information in spite of arbitrarily noisy observations while surpassing the accuracy of some ad-hoc methods. Additionally, we utilize the output of a black-box machine learning model as input into an uncertain maximum entropy model, resulting in a novel approach for scenarios where the observation function is unavailable. Previous remedies either relaxed feature constraints when accounting for observation error, given well-characterized errors such as zero-mean Gaussian, or chose to simply select the most likely model element given an observation. We anticipate our principle finding broad applications in diverse fields due to generalizing the traditional maximum entropy method with the ability to utilize uncertain observations.
翻訳日:2023-06-22 02:10:49 公開日:2023-06-19
# 多変量定常および非定常時系列に対するカーネルベース共同独立試験

Kernel-based Joint Independence Tests for Multivariate Stationary and Non-stationary Time Series ( http://arxiv.org/abs/2305.08529v2 )

ライセンス: Link先を確認
Zhaolu Liu and Robert L. Peach and Felix Laumann and Sara Vallejo Mengod and Mauricio Barahona(参考訳) 相互接続されたシステムの時間的進化を捉える多変量時系列データは、多様な領域に分布する。 共観測変数間の複雑な関係と潜在的な依存関係を理解することは、それらのシステムの正確な統計モデルと分析に不可欠である。 本稿では,d$$-variable Hilbert-Schmidt independent criterion (dHSIC) を固定プロセスと非定常プロセスの両方に拡張することにより,多変量時系列における共同独立のカーネルベース統計テストを導入する。 本手法は, 実世界の気候・社会経済データだけでなく, 周波数混合データや論理ゲートなどの合成例において, 高精度な依存関係をしっかりと発見する方法について述べる。 本手法は,多変量時系列解析のための数学的ツールボックスに加え,データ中の高次相互作用の解明を支援する。

Multivariate time series data that capture the temporal evolution of interconnected systems are ubiquitous in diverse areas. Understanding the complex relationships and potential dependencies among co-observed variables is crucial for the accurate statistical modelling and analysis of such systems. Here, we introduce kernel-based statistical tests of joint independence in multivariate time series by extending the $d$-variable Hilbert-Schmidt independence criterion (dHSIC) to encompass both stationary and non-stationary processes, thus allowing broader real-world applications. By leveraging resampling techniques tailored for both single- and multiple-realisation time series, we show how the method robustly uncovers significant higher-order dependencies in synthetic examples, including frequency mixing data and logic gates, as well as real-world climate and socioeconomic data. Our method adds to the mathematical toolbox for the analysis of multivariate time series and can aid in uncovering high-order interactions in data.
翻訳日:2023-06-22 02:10:02 公開日:2023-06-19
# 垂直フェデレート学習におけるセキュアトレーニングのための二次関数暗号

Quadratic Functional Encryption for Secure Training in Vertical Federated Learning ( http://arxiv.org/abs/2305.08358v2 )

ライセンス: Link先を確認
Shuangyi Chen, Anuja Modi, Shweta Agrawal, Ashish Khisti(参考訳) 垂直連合学習(VFL)は、個々のデータのプライバシ保護を希望する複数のパーティ間でデータが分散されるような環境で、機械学習(ML)モデルの協調トレーニングを可能にする。 特にvflでは、ラベルは単一のパーティで利用可能であり、すべてのパーティのデータが結合された場合にのみ、完全な機能セットが形成される。 近年、Xuらはマルチインプット関数暗号を用いたVFLのためのセキュア勾配計算のためのFedVと呼ばれる新しいフレームワークを提案した。 本稿では,縦型フェデレート学習のための一般化線形モデルを訓練する際に,擬似関数暗号を用いることで,Xuなどの情報漏洩を回避できる方法を説明する。

Vertical federated learning (VFL) enables the collaborative training of machine learning (ML) models in settings where the data is distributed amongst multiple parties who wish to protect the privacy of their individual data. Notably, in VFL, the labels are available to a single party and the complete feature set is formed only when data from all parties is combined. Recently, Xu et al. proposed a new framework called FedV for secure gradient computation for VFL using multi-input functional encryption. In this work, we explain how some of the information leakage in Xu et al. can be avoided by using Quadratic functional encryption when training generalized linear models for vertical federated learning.
翻訳日:2023-06-22 02:09:42 公開日:2023-06-19
# ChipGPT: 自然言語のハードウェア設計からどこまで離れているのか

ChipGPT: How far are we from natural language hardware design ( http://arxiv.org/abs/2305.14019v3 )

ライセンス: Link先を確認
Kaiyan Chang and Ying Wang and Haimeng Ren and Mengdi Wang and Shengwen Liang and Yinhe Han and Huawei Li and Xiaowei Li(参考訳) ChatGPTのような大規模言語モデル(LLM)は前例のないマシンインテリジェンスを示しており、ハードウェアエンジニアが自然言語インタラクションによる高効率論理設計を実現するのに優れた性能を示している。 LLMが支援するハードウェア設計プロセスの可能性を推定するために、LLMを探索して自然言語仕様からハードウェア論理設計を生成する自動設計環境の実証を試みる。 よりアクセシブルで効率的なチップ開発フローを実現するために,LLMをベースとしたスケーラブルな4段階ゼロコード論理設計フレームワークを提案する。 最初、デモのChipGPTはLSMのプロンプトを生成して始まり、最初のVerilogプログラムを生成する。 第二に、出力マネージャは最終設計空間に収集する前にこれらのプログラムを修正・最適化する。 最終的にChipGPTはこの領域を探索し、ターゲットのメトリクスの下で最適な設計を選択する。 この評価は、LLMがいくつかの仕様のために自然言語で記述された正確で完全なハードウェアロジック設計を生成できるかどうかにいくつかの光を当てている。 この結果,ChipGPTはプログラム性,制御性を改善し,従来の作業環境やネイティブLLMよりも広い設計最適化空間を示すことがわかった。

As large language models (LLMs) like ChatGPT exhibited unprecedented machine intelligence, it also shows great performance in assisting hardware engineers to realize higher-efficiency logic design via natural language interaction. To estimate the potential of the hardware design process assisted by LLMs, this work attempts to demonstrate an automated design environment that explores LLMs to generate hardware logic designs from natural language specifications. To realize a more accessible and efficient chip development flow, we present a scalable four-stage zero-code logic design framework based on LLMs without retraining or finetuning. At first, the demo, ChipGPT, begins by generating prompts for the LLM, which then produces initial Verilog programs. Second, an output manager corrects and optimizes these programs before collecting them into the final design space. Eventually, ChipGPT will search through this space to select the optimal design under the target metrics. The evaluation sheds some light on whether LLMs can generate correct and complete hardware logic designs described by natural language for some specifications. It is shown that ChipGPT improves programmability, and controllability, and shows broader design optimization space compared to prior work and native LLMs alone.
翻訳日:2023-06-22 02:03:42 公開日:2023-06-19
# 制御可能な画像合成のための遅延制約拡散誘導

Late-Constraint Diffusion Guidance for Controllable Image Synthesis ( http://arxiv.org/abs/2305.11520v5 )

ライセンス: Link先を確認
Chang Liu, Dong Liu(参考訳) 拡散モデルは、テキスト条件の有無にかかわらず、数語または全くの単語を与えられたフォトリアリスティック画像の合成能力を示す。 通常のユーザーやアーティストは、全体的なレイアウト、色、構造、オブジェクトの形状など、特定のガイダンスで合成画像を制御するつもりなので、これらのモデルはユーザーのニーズを十分に満たさないかもしれない。 制御可能な画像合成に拡散モデルを適用するために,拡散復調ネットワークの中間特性を正則化するためのいくつかの手法が提案されている。 本稿では, 早期制約法として知られ, 単一解法で複数の条件を扱うのに困難がある。 彼らは、多くのトレーニングコストと一般化不可能なソリューションを必要とする、特定の条件ごとに別々のモデルをトレーニングすることを意図している。 これらの問題に対処するために,我々は拡散ネットワークをそのまま残しながら,その出力が要求条件に合致するように制約するという,遅延制約という新しいアプローチを提案する。 具体的には,外部条件と拡散モデルの内部表現との相関性を確立するために,軽量条件アダプタを訓練する。 反復分別処理の間、条件付きガイダンスを対応する条件アダプタに送信してサンプリングプロセスを確立された相関で操作する。 さらに,提案手法に準拠した合成画像の品質向上を図るため,時間ステップリサンプリング法と早期停止法を用いて,導入した遅延制約戦略を導入する。 提案手法は,既存の早期制約法よりも優れ,未確認条件の一般化に優れる。 私たちのコードは利用できます。

Diffusion models, either with or without text condition, have demonstrated impressive capability in synthesizing photorealistic images given a few or even no words. These models may not fully satisfy user need, as normal users or artists intend to control the synthesized images with specific guidance, like overall layout, color, structure, object shape, and so on. To adapt diffusion models for controllable image synthesis, several methods have been proposed to incorporate the required conditions as regularization upon the intermediate features of the diffusion denoising network. These methods, known as early-constraint ones in this paper, have difficulties in handling multiple conditions with a single solution. They intend to train separate models for each specific condition, which require much training cost and result in non-generalizable solutions. To address these difficulties, we propose a new approach namely late-constraint: we leave the diffusion networks unchanged, but constrain its output to be aligned with the required conditions. Specifically, we train a lightweight condition adapter to establish the correlation between external conditions and internal representations of diffusion models. During the iterative denoising process, the conditional guidance is sent into corresponding condition adapter to manipulate the sampling process with the established correlation. We further equip the introduced late-constraint strategy with a timestep resampling method and an early stopping technique, which boost the quality of synthesized image meanwhile complying with the guidance. Our method outperforms the existing early-constraint methods and generalizes better to unseen condition. Our code would be available.
翻訳日:2023-06-22 02:01:21 公開日:2023-06-19
# 単一画像超解像用高能率混合変圧器

Efficient Mixed Transformer for Single Image Super-Resolution ( http://arxiv.org/abs/2305.11403v5 )

ライセンス: Link先を確認
Ling Zheng, Jinchen Zhu, Jinpeng Shi, Shizhuang Weng(参考訳) 近年,変圧器を用いた手法は単一画像超解像法 (sisr) で印象的な結果を得ている。 しかし、局所性機構の欠如と高複雑性は超解像(SR)の分野における応用を制限する。 これらの問題を解決するため,本研究ではEMT(Efficient Mixed Transformer)を提案する。 具体的には,複数の連続トランス層からなるMixed Transformer Block (MTB)を提案する。 PMはピクセルシフト操作によって局所的な知識集約を強化することができる。 pmにはパラメータや浮動小数点演算がないため、追加の複雑さは導入されない。 さらに、画像異方性を利用して、効率的なグローバル依存モデリングを実現するために、SA(SWSA)のストライプウィンドウを用いる。 実験結果から,EMTはベンチマークデータセット上で既存の手法よりも優れ,最先端の性能を達成した。 コードはhttps://github.com/Fried-Rice-Lab/FriedRiceLabで入手できる。

Recently, Transformer-based methods have achieved impressive results in single image super-resolution (SISR). However, the lack of locality mechanism and high complexity limit their application in the field of super-resolution (SR). To solve these problems, we propose a new method, Efficient Mixed Transformer (EMT) in this study. Specifically, we propose the Mixed Transformer Block (MTB), consisting of multiple consecutive transformer layers, in some of which the Pixel Mixer (PM) is used to replace the Self-Attention (SA). PM can enhance the local knowledge aggregation with pixel shifting operations. At the same time, no additional complexity is introduced as PM has no parameters and floating-point operations. Moreover, we employ striped window for SA (SWSA) to gain an efficient global dependency modelling by utilizing image anisotropy. Experimental results show that EMT outperforms the existing methods on benchmark dataset and achieved state-of-the-art performance. The Code is available at https://github.com/Fried-Rice-Lab/FriedRiceLab.
翻訳日:2023-06-22 02:00:55 公開日:2023-06-19
# グラム反復による畳み込み層に対するリプシッツ定数の効率的な境界

Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram Iteration ( http://arxiv.org/abs/2305.16173v3 )

ライセンス: Link先を確認
Blaise Delattre, Quentin Barth\'elemy, Alexandre Araujo, Alexandre Allauzen(参考訳) リプシッツ定数の制御は、ニューラルネットワークのトレーニングの安定性、一般化、堅牢性に大きな影響を与えるため、この値の推定は現在では真の科学的課題となっている。 本稿では,循環行列理論を用いた畳み込み層のスペクトルノルムの精度,高速,微分可能な上界とパワー反復の新たな代替について述べる。 グラム反復と呼ばれるこのアプローチは超線形収束を示す。 まず,本手法が他の最先端手法よりも精度,計算コスト,スケーラビリティにおいて優れていることを示す実験を総合的に実施する。 そして、畳み込みニューラルネットワークのリプシッツ正則化に対して高い効果が証明され、並行アプローチに対する競合結果が得られた。 コードはhttps://github.com/blaisedelattre/lip4convで入手できる。

Since the control of the Lipschitz constant has a great impact on the training stability, generalization, and robustness of neural networks, the estimation of this value is nowadays a real scientific challenge. In this paper we introduce a precise, fast, and differentiable upper bound for the spectral norm of convolutional layers using circulant matrix theory and a new alternative to the Power iteration. Called the Gram iteration, our approach exhibits a superlinear convergence. First, we show through a comprehensive set of experiments that our approach outperforms other state-of-the-art methods in terms of precision, computational cost, and scalability. Then, it proves highly effective for the Lipschitz regularization of convolutional neural networks, with competitive results against concurrent approaches. Code is available at https://github.com/blaisedelattre/lip4conv.
翻訳日:2023-06-22 01:52:42 公開日:2023-06-19
# ディープラーニングアーキテクチャを用いた潜在音声空間探索のための音響設計戦略

Sound Design Strategies for Latent Audio Space Explorations Using Deep Learning Architectures ( http://arxiv.org/abs/2305.15571v2 )

ライセンス: Link先を確認
K{\i}van\c{c} Tatar, Kelsey Cotton, Daniel Bisig(参考訳) 音と音楽のコンピューティングにおけるディープラーニングの応用に関する研究は近年関心を集めているが、これらの新技術と実際の芸術的実践にどのように組み込むかには、いまだに無関係である。 本研究では,変分オートエンコーダ(VAE)と呼ばれる,よく知られたディープラーニングアーキテクチャについて検討する。 これらのアーキテクチャは、類似したデータポイントが互いに近接するように、データポイントを整理した潜在空間を生成するために、多くの領域で使用されている。 以前は、VAEはシンボリック音楽以外のラテント音色空間やラテント音色空間を生成するために用いられてきた。 音色の特徴にvaeを適用するには、ネットワークが生成する音色を計算コストの高い音声信号に変換するvocoderが必要である。 本研究では,VAEを生音声データに直接適用し,音声特徴抽出をバイパスする。 このアプローチにより、実践者はデータセットのキュレーションを通じて美学の柔軟性とコントロールを提供しながら、オーディオ記録を使用できるようになる。 音声信号生成における計算時間の短縮により、生オーディオアプローチをリアルタイムアプリケーションに組み込むことができる。 そこで本研究では,音響設計のための潜時空間と音色を探索する3つの手法を提案する。 そこで,我々は,潜伏音空間を音響や音楽の練習に活用するための,芸術的アプローチと戦略について対話することを目的としている。

The research in Deep Learning applications in sound and music computing have gathered an interest in the recent years; however, there is still a missing link between these new technologies and on how they can be incorporated into real-world artistic practices. In this work, we explore a well-known Deep Learning architecture called Variational Autoencoders (VAEs). These architectures have been used in many areas for generating latent spaces where data points are organized so that similar data points locate closer to each other. Previously, VAEs have been used for generating latent timbre spaces or latent spaces of symbolic music excepts. Applying VAE to audio features of timbre requires a vocoder to transform the timbre generated by the network to an audio signal, which is computationally expensive. In this work, we apply VAEs to raw audio data directly while bypassing audio feature extraction. This approach allows the practitioners to use any audio recording while giving flexibility and control over the aesthetics through dataset curation. The lower computation time in audio signal generation allows the raw audio approach to be incorporated into real-time applications. In this work, we propose three strategies to explore latent spaces of audio and timbre for sound design applications. By doing so, our aim is to initiate a conversation on artistic approaches and strategies to utilize latent audio spaces in sound and music practices.
翻訳日:2023-06-22 01:51:42 公開日:2023-06-19
# PulseNet: 犬のランダム拡張ポリシーと連続ウェーブレット変換を用いたディープラーニングECG信号分類

PulseNet: Deep Learning ECG-signal classification using random augmentation policy and continous wavelet transform for canines ( http://arxiv.org/abs/2305.15424v2 )

ライセンス: Link先を確認
Andre Dourson, Roberto Santilli, Federica Marchesotti, Jennifer Schneiderman, Oliver Roman Stiel, Fernando Junior, Michael Fitzke, Norbert Sithirangathan, Emil Walleser, Xiaoli Qiao, Mark Parkinson(参考訳) 心電図(ecg)の評価には熟練した獣医が必要であるが、心電図の解釈と診断支援のための獣医の利用は限られている。 ECGシークエンスの自動評価ツールの開発は、臨床医にリアルタイムの結果と意思決定支援ツールを提供することで、獣医のケアを改善することができる。 犬の心電図配列を正常または異常と分類する深層畳み込みニューラルネットワーク(cnn)アプローチを実装した。 ECGレコードは8秒のリードII配列に変換され、正常(心臓異常の証拠はない)または異常(1つ以上の心臓異常の存在)に分類される。 このプロジェクトで実装された新しい拡張ライブラリであるrandomaugmentecgを使用して、ecgシーケンスをトレーニングするためにランダムに拡張する。 各チャンクは連続ウェーブレット変換を用いて2次元スカルグラムに変換される。 2Dの頭蓋骨は正常または異常と分類され、バイナリCNN分類器によって分類される。 AUC-ROCスコアが0.9506に達した3人の獣医師に対して、ヒトレベルのパフォーマンスに適合したテストデータセットで実験結果が検証された。 さらに、MLOpsアプローチを使用して、Microsoft Azureへのモデルデプロイメントを記述します。 本研究は,犬用心電図を自動的に分類する深層学習モデルの実装の試みの1つであり,自動心電図分類の導入は,診断性能の向上と臨床効率の向上を通じて獣医学的ケアを向上させる。

Evaluating canine electrocardiograms (ECG) require skilled veterinarians, but current availability of veterinary cardiologists for ECG interpretation and diagnostic support is limited. Developing tools for automated assessment of ECG sequences can improve veterinary care by providing clinicians real-time results and decision support tools. We implement a deep convolutional neural network (CNN) approach for classifying canine electrocardiogram sequences as either normal or abnormal. ECG records are converted into 8 second Lead II sequences and classified as either normal (no evidence of cardiac abnormalities) or abnormal (presence of one or more cardiac abnormalities). For training ECG sequences are randomly augmented using RandomAugmentECG, a new augmentation library implemented specifically for this project. Each chunk is then is converted using a continuous wavelet transform into a 2D scalogram. The 2D scalogram are then classified as either normal or abnormal by a binary CNN classifier. Experimental results are validated against three boarded veterinary cardiologists achieving an AUC-ROC score of 0.9506 on test dataset matching human level performance. Additionally, we describe model deployment to Microsoft Azure using an MLOps approach. To our knowledge, this work is one of the first attempts to implement a deep learning model to automatically classify ECG sequences for canines.Implementing automated ECG classification will enhance veterinary care through improved diagnostic performance and increased clinic efficiency.
翻訳日:2023-06-22 01:50:52 公開日:2023-06-19
# フォトニック貯留層コンピュータを用いた高速人行動認識

High Speed Human Action Recognition using a Photonic Reservoir Computer ( http://arxiv.org/abs/2305.15283v2 )

ライセンス: Link先を確認
Enrico Picco, Piotr Antonik, Serge Massar(参考訳) ビデオにおける人間の行動の認識はコンピュータビジョンにおける最も活発な研究分野の一つである。 標準的アプローチは生のビデオデータの多かれ少なかれ複雑な前処理段階で構成され、その後比較的単純な分類アルゴリズムが続く。 ここでは,貯水池計算アルゴリズムを用いて人間の行動の認識に対処し,分類器の段階に焦点をあてる。 そこで本研究では,簡易な短時間・長時間スケールで組み合わせた「興味の時間ステップ」に基づく新しい貯留層コンピュータのトレーニング手法を提案する。 我々は,このアルゴリズムの性能を,KTHデータセット上の1つの非線形ノードと遅延線に基づく数値シミュレーションとフォトニック実装の両方を用いて検討した。 我々は,複数の映像ストリームをリアルタイムで処理できる点まで,高い精度と速度で課題を解決した。 本研究は、ビデオ処理のための効率的な専用ハードウェアを開発するための重要なステップである。

The recognition of human actions in videos is one of the most active research fields in computer vision. The canonical approach consists in a more or less complex preprocessing stages of the raw video data, followed by a relatively simple classification algorithm. Here we address recognition of human actions using the reservoir computing algorithm, which allows us to focus on the classifier stage. We introduce a new training method for the reservoir computer, based on "Timesteps Of Interest", which combines in a simple way short and long time scales. We study the performance of this algorithm using both numerical simulations and a photonic implementation based on a single non-linear node and a delay line on the well known KTH dataset. We solve the task with high accuracy and speed, to the point of allowing for processing multiple video streams in real time. The present work is thus an important step towards developing efficient dedicated hardware for video processing.
翻訳日:2023-06-22 01:50:26 公開日:2023-06-19
# graph meets llm:堅牢な会話理解のための協調フィルタリングへの新しいアプローチ

Graph Meets LLM: A Novel Approach to Collaborative Filtering for Robust Conversational Understanding ( http://arxiv.org/abs/2305.14449v3 )

ライセンス: Link先を確認
Zheng Chen, Ziyan Jiang, Fan Yang, Eunah Cho, Xing Fan, Xiaojiang Huang, Yanbin Lu, Aram Galstyan(参考訳) Alexaのような会話型AIシステムは、堅牢な会話理解とユーザの摩擦を軽減するために、欠陥クエリを理解する必要がある。 これらの欠陥のあるクエリは、自動音声認識(ASR)と自然言語理解(NLU)におけるユーザの曖昧さ、誤り、エラーから生じることが多い。 パーソナライズドクエリ書き換え(Personalized query rewriting)は、ユーザの個々の振る舞いや好みを考慮してクエリの欠陥を軽減するアプローチである。 典型的には、会話型AIと過去のユーザインタラクションの成功率に依存する。 しかし、ユーザ履歴内の未認識のインタラクションは、パーソナライズされたクエリ書き換えに新たな課題をもたらす。 本稿では,これまでユーザの履歴になかった新たなユーザインタラクションの書き直しを特に課題とする,"協調的クエリ書き直し"アプローチを提案する。 このアプローチは、過去のユーザ-エンティティインタラクションの"ユーザフィードバックインタラクショングラフ"(fig)を構築し、マルチホップグラフトラバーサルを活用して、将来の見当たらないクエリをカバーするために、各ユーザのインデックスを強化する。 リッチユーザインデックスはCollaborative User Indexと呼ばれ、数百の追加エントリを含んでいる。 拡大インデックスからの精度低下に対処するために,l1検索モデルにトランスフォーマー層を追加し,l2ランキングモデルにグラフベースおよびガードレール機能を組み込む。 ユーザインデックスの事前計算が可能であるため,ビデオ/音楽領域におけるユーザ・エンゲージ・リンク予測のためのFIGを強化するために,Large Language Model (LLM) の利用についてさらに検討する。 具体的には,Dolly-V2 7Bモデルについて検討する。 その結果,微調整Dolly-V2生成により拡張されたユーザインデックスにより,将来の未確認ユーザインタラクションのカバレッジが大幅に向上し,グラフトラバースのみのアプローチと比較して,未確認クエリにおけるQR性能が向上することがわかった。

Conversational AI systems such as Alexa need to understand defective queries to ensure robust conversational understanding and reduce user friction. These defective queries often arise from user ambiguities, mistakes, or errors in automatic speech recognition (ASR) and natural language understanding (NLU). Personalized query rewriting is an approach that focuses on reducing defects in queries by taking into account the user's individual behavior and preferences. It typically relies on an index of past successful user interactions with the conversational AI. However, unseen interactions within the user's history present additional challenges for personalized query rewriting. This paper presents our "Collaborative Query Rewriting" approach, which specifically addresses the task of rewriting new user interactions that have not been previously observed in the user's history. This approach builds a "User Feedback Interaction Graph" (FIG) of historical user-entity interactions and leverages multi-hop graph traversal to enrich each user's index to cover future unseen defective queries. The enriched user index is called a Collaborative User Index and contains hundreds of additional entries. To counteract precision degradation from the enlarged index, we add additional transformer layers to the L1 retrieval model and incorporate graph-based and guardrail features into the L2 ranking model. Since the user index can be pre-computed, we further investigate the utilization of a Large Language Model (LLM) to enhance the FIG for user-entity link prediction in the Video/Music domains. Specifically, this paper investigates the Dolly-V2 7B model. We found that the user index augmented by the fine-tuned Dolly-V2 generation significantly enhanced the coverage of future unseen user interactions, thereby boosting QR performance on unseen queries compared with the graph traversal only approach.
翻訳日:2023-06-22 01:50:04 公開日:2023-06-19
# 拡散モデルのための高精度データフリー量子化に向けて

Towards Accurate Data-free Quantization for Diffusion Models ( http://arxiv.org/abs/2305.18723v3 )

ライセンス: Link先を確認
Changyuan Wang, Ziwei Wang, Xiuwei Xu, Yansong Tang, Jie Zhou, Jiwen Lu(参考訳) 本稿では,効率的な画像生成のための拡散モデル(ADP-DM)の高精度なデータ自由後量子化フレームワークを提案する。 従来のデータフリー量子化法は、生成時間ステップに関係なくテンソル離散化の共有量子化関数を学習し、アクティベーション分布は様々な時間ステップで大きく異なる。 キャリブレーション画像は、一般化量子化関数学習に十分な情報を提供しないランダムな時間ステップで取得される。 どちらの問題も大きな量子化誤差を引き起こし、画像生成性能は明らかに低下する。 それとは対照的に, 異なる時間ステップで活性化離散化を行うグループ毎の量子化関数を設計し, 情報校正画像生成のための最適な時間ステップをサンプリングし, 数値化拡散モデルによって計算オーバーヘッドを無視できる離散化誤差を低減できることを示した。 具体的には, 可微分探索アルゴリズムにより最適化された, 異なる群における量子化関数の重要性度に応じて時間ステップを分割する。 また, 量子化拡散モデルの展開における一般化能力を高めるため, 構造リスク最小化原理によるキャリブレーション画像生成のための最適な時間ステップを選択する。 実験結果から,本手法は拡散モデルの時間的学習後の量子化に類似した計算コストで優れることを示した。

In this paper, we propose an accurate data-free post-training quantization framework of diffusion models (ADP-DM) for efficient image generation. Conventional data-free quantization methods learn shared quantization functions for tensor discretization regardless of the generation timesteps, while the activation distribution differs significantly across various timesteps. The calibration images are acquired in random timesteps which fail to provide sufficient information for generalizable quantization function learning. Both issues cause sizable quantization errors with obvious image generation performance degradation. On the contrary, we design group-wise quantization functions for activation discretization in different timesteps and sample the optimal timestep for informative calibration image generation, so that our quantized diffusion model can reduce the discretization errors with negligible computational overhead. Specifically, we partition the timesteps according to the importance weights of quantization functions in different groups, which are optimized by differentiable search algorithms. We also select the optimal timestep for calibration image generation by structural risk minimizing principle in order to enhance the generalization ability in the deployment of quantized diffusion model. Extensive experimental results show that our method outperforms the state-of-the-art post-training quantization of diffusion model by a sizable margin with similar computational cost.
翻訳日:2023-06-22 01:43:20 公開日:2023-06-19
# 位相空間における古典的および半古典的極限

Classical and semi-classical limits in phase space ( http://arxiv.org/abs/2305.18644v2 )

ライセンス: Link先を確認
Clay D. Spence(参考訳) 半古典力学の別の見方は、シュル=オディンガー方程式の近似の形で導出され、位相空間上の線型一階偏微分方程式を与える。 この方程式は古典的軌跡に沿って波動関数を対流輸送するので、軌道が続くにつれて振幅は一定であり、作用によって位相は$\hbar$で割られる。 波動関数の2乗マグニチュードは可算位相空間密度であり、そのような密度の古典的時間発展に対するリウヴィルの方程式に従う。 これはKoopman-von–Neumann (KvN) の古典力学の定式化の導出である。 時間に依存しない形式では、連続性はトーラスの任意の閉経路の位相の変化を2\pi$の整数倍に制限し、本質的にトーラス上の定在波を与えるため、量子化が発生する。 これはどんな系にも当てはまるが、分離可能な系ではボーア・ソマーフェルト量子化を与える。

An alternative view of semiclassical mechanics is derived in the form of an approximation to Schr\"odinger's equation, giving a linear first-order partial differential equation on phase space. The equation advectively transports wavefunctions along classical trajectories, so that as a trajectory is followed the amplitude remains constant and the phase changes by the action divided by $\hbar$. The wavefunction's squared-magnitude is a plausible phase space density and obeys Liouville's equation for the classical time evolution of such densities. This is a derivation of the Koopman-von~Neumann (KvN) formulation of classical mechanics, which previously was postulated but not derived. With the time-independent form, quantization arises because continuity constrains the change of phase around any closed path in the torus covered by the classical solution to be an integer multiple of $2\pi$, essentially giving standing waves on the torus. While this applies to any system, for separable systems it gives Bohr-Sommerfeld quantization.
翻訳日:2023-06-22 01:42:58 公開日:2023-06-19
# APIから学ぶ: Black-Box Data-Free Meta-Learning

Learning to Learn from APIs: Black-Box Data-Free Meta-Learning ( http://arxiv.org/abs/2305.18413v2 )

ライセンス: Link先を確認
Zixuan Hu, Li Shen, Zhenyi Wang, Baoyuan Wu, Chun Yuan, Dacheng Tao(参考訳) data-free meta-learning(dfml)の目的は、トレーニングデータにアクセスせずに事前学習されたモデルの集合からメタラーニングすることで、新しいタスクの効率的な学習を可能にすることである。 既存のDFML作業はメタ学習しかできない (i)ホワイトボックス、及び (ii)小規模事前訓練モデル (iii)同じアーキテクチャで、任意のモデルアーキテクチャと内部のモデルスケールを備えたAPIへの推論アクセスしか持たない、より実用的な設定を無視します。 本稿では,ブラックボックスapiの集合から単一メタモデルへ,より汎用的なメタ知識を転送するためのbi-level data-free meta knowledge distillation (bidf-mkd)フレームワークを提案する。 具体的には、APIを照会するだけで、各APIを逆転して、ゼロ階勾配推定器を介してトレーニングデータを回復し、新しい二段階メタ知識蒸留構造を用いてメタラーニングを行い、境界クエリセットの回復手法を設計して、決定境界付近のより情報的なクエリセットを復元する。 また,限られたAPI予算の設定内での一般化を促進するため,より補間されたタスクをカバーし,タスク分布の多様化を図るタスクメモリ再生を提案する。 bidf-mkdフレームワークの優れた性能を示す、さまざまな現実世界のシナリオにおける広範囲な実験。

Data-free meta-learning (DFML) aims to enable efficient learning of new tasks by meta-learning from a collection of pre-trained models without access to the training data. Existing DFML work can only meta-learn from (i) white-box and (ii) small-scale pre-trained models (iii) with the same architecture, neglecting the more practical setting where the users only have inference access to the APIs with arbitrary model architectures and model scale inside. To solve this issue, we propose a Bi-level Data-free Meta Knowledge Distillation (BiDf-MKD) framework to transfer more general meta knowledge from a collection of black-box APIs to one single meta model. Specifically, by just querying APIs, we inverse each API to recover its training data via a zero-order gradient estimator and then perform meta-learning via a novel bi-level meta knowledge distillation structure, in which we design a boundary query set recovery technique to recover a more informative query set near the decision boundary. In addition, to encourage better generalization within the setting of limited API budgets, we propose task memory replay to diversify the underlying task distribution by covering more interpolated tasks. Extensive experiments in various real-world scenarios show the superior performance of our BiDf-MKD framework.
翻訳日:2023-06-22 01:42:37 公開日:2023-06-19
# マルチモーダルハテフルミームの下位意味をデコードする

Decoding the Underlying Meaning of Multimodal Hateful Memes ( http://arxiv.org/abs/2305.17678v2 )

ライセンス: Link先を確認
Ming Shan Hee, Wen-Haw Chong and Roy Ka-Wei Lee(参考訳) 近年、ヘイトフルミーム分類タスクに有望な性能をもたらすモデルが提案されている。 それにもかかわらず、これらのモデルは基礎となる意味を解明し、分類出力をサポートする解釈可能な説明を生成しない。 説明可能な憎悪のミームメソッドが欠如している主な理由は、ベンチマークやトレーニングのための根拠となる真実の説明を含む憎悪のミームデータセットがないことである。 直感的には、そのような説明を持つことで、コンテンツモデレーターがフラグのある憎しみのあるミームを解釈し、取り除くことを教育し、支援することができる。 本稿では,憎悪の背景にある文脈的理由にアノテートされた,新しいマルチモーダルな憎悪のミームデータセットであるdataset (hatred)を導入することで,この研究のギャップを解決する。 また、ヘイトフルミームを説明するための基礎となる理由を自動的に生成し、この課題に基づいて最先端の訓練済み言語モデルのベースライン性能を確立することを目的とした、新しい条件生成タスクも定義する。 我々はさらに、新しい条件生成タスクの課題を分析し、目に見える領域や見えない領域におけるミームを説明することで、HatReDの有用性を実証する。 データセットとベンチマークモデルはここで利用可能である。

Recent studies have proposed models that yielded promising performance for the hateful meme classification task. Nevertheless, these proposed models do not generate interpretable explanations that uncover the underlying meaning and support the classification output. A major reason for the lack of explainable hateful meme methods is the absence of a hateful meme dataset that contains ground truth explanations for benchmarking or training. Intuitively, having such explanations can educate and assist content moderators in interpreting and removing flagged hateful memes. This paper address this research gap by introducing Hateful meme with Reasons Dataset (HatReD), which is a new multimodal hateful meme dataset annotated with the underlying hateful contextual reasons. We also define a new conditional generation task that aims to automatically generate underlying reasons to explain hateful memes and establish the baseline performance of state-of-the-art pre-trained language models on this task. We further demonstrate the usefulness of HatReD by analyzing the challenges of the new conditional generation task in explaining memes in seen and unseen domains. The dataset and benchmark models are made available here: https://github.com/Social-AI-Studio/HatRed
翻訳日:2023-06-22 01:41:59 公開日:2023-06-19
# スケッチリファインメントによるインタラクティブな画像インペインティング

Towards Interactive Image Inpainting via Sketch Refinement ( http://arxiv.org/abs/2306.00407v3 )

ライセンス: Link先を確認
Chang Liu, Shunxin Xu, Jialun Peng, Kaidong Zhang and Dong Liu(参考訳) イメージインペインティングの難しい問題は、腐敗した領域の複雑な構造を復元することである。 インタラクティブなイメージのインパインティングを動機付け、スケッチなどの追加ヒントを活用してインパインティングプロセスを支援する。 sketchはエンドユーザーにはシンプルで直感的だが、ランダム性のあるフリーフォームがある。 このようなランダム性は、塗装されたモデルと混同し、完成した画像に深刻なアーティファクトを引き起こす可能性がある。 この問題に対処するため,sketchrefinerと呼ばれる2段階画像インペインティング手法を提案する。 第1段階では,利用者に提供されたスケッチを粗い方法で校正し,洗練するために,相互相関損失関数を用いることを提案する。 第2段階では,特徴空間の抽象的スケッチから情報的特徴を抽出し,着色過程を変調する。 また,実際のスケッチを自動的にシミュレートし,異なるアプリケーションでテストプロトコルを構築するアルゴリズムを提案する。 公開データセットの実験結果によると、SketchRefinerはスケッチ情報を効果的に利用し、フリーフォームスケッチによるアーティファクトを排除している。 本手法は定性的にも量的にも常に最先端の手法よりも優れており,一方で実世界のアプリケーションにおいても大きな可能性を秘めている。 コードとデータセットが利用可能です。

One tough problem of image inpainting is to restore complex structures in the corrupted regions. It motivates interactive image inpainting which leverages additional hints, e.g., sketches, to assist the inpainting process. Sketch is simple and intuitive to end users, but meanwhile has free forms with much randomness. Such randomness may confuse the inpainting models, and incur severe artifacts in completed images. To address this problem, we propose a two-stage image inpainting method termed SketchRefiner. In the first stage, we propose using a cross-correlation loss function to robustly calibrate and refine the user-provided sketches in a coarse-to-fine fashion. In the second stage, we learn to extract informative features from the abstracted sketches in the feature space and modulate the inpainting process. We also propose an algorithm to simulate real sketches automatically and build a test protocol with different applications. Experimental results on public datasets demonstrate that SketchRefiner effectively utilizes sketch information and eliminates the artifacts due to the free-form sketches. Our method consistently outperforms the state-of-the-art ones both qualitatively and quantitatively, meanwhile revealing great potential in real-world applications. Our code and dataset are available.
翻訳日:2023-06-22 01:33:29 公開日:2023-06-19
# ダブルロバストなセルフトレーニング

Doubly Robust Self-Training ( http://arxiv.org/abs/2306.00265v2 )

ライセンス: Link先を確認
Banghua Zhu, Mingyu Ding, Philip Jacobson, Ming Wu, Wei Zhan, Michael Jordan, Jiantao Jiao(参考訳) 自己学習は半教師付き学習問題を解決する重要な手法である。 擬似ラベルを生成して、限定ラベル付きデータセットと組み合わせてトレーニングすることで、ラベルのないデータを活用する。 自己学習の有効性は、これらの擬似ラベルの精度に大きく依存する。 本稿では,2つのエクストリーム間のバランスを確実に表す新しい半教師付きアルゴリズムである,二重頑健な自己学習を提案する。 擬似ラベルが完全に正しくない場合、ラベル付きデータのみを使用してトレーニングプロセスに還元する。 逆に、擬似ラベルが完全に正確である場合には、擬似ラベル付きデータとラベル付きデータを利用するトレーニングプロセスに変換し、有効サンプルサイズを増大させる。 画像分類のためのImageNetデータセットと3次元オブジェクト検出のためのnuScenes自律走行データセットの両方に関する実証的な評価を通じて、標準の自己学習ベースラインよりも2倍頑健な損失が優れていることを示す。

Self-training is an important technique for solving semi-supervised learning problems. It leverages unlabeled data by generating pseudo-labels and combining them with a limited labeled dataset for training. The effectiveness of self-training heavily relies on the accuracy of these pseudo-labels. In this paper, we introduce doubly robust self-training, a novel semi-supervised algorithm that provably balances between two extremes. When the pseudo-labels are entirely incorrect, our method reduces to a training process solely using labeled data. Conversely, when the pseudo-labels are completely accurate, our method transforms into a training process utilizing all pseudo-labeled data and labeled data, thus increasing the effective sample size. Through empirical evaluations on both the ImageNet dataset for image classification and the nuScenes autonomous driving dataset for 3D object detection, we demonstrate the superiority of the doubly robust loss over the standard self-training baseline.
翻訳日:2023-06-22 01:33:08 公開日:2023-06-19
# 量子回路からのベルサンプリング

Bell sampling from quantum circuits ( http://arxiv.org/abs/2306.00083v2 )

ライセンス: Link先を確認
Dominik Hangleiter and Michael J. Gullans(参考訳) 量子コンピュータの検証における中心的な課題は、パフォーマンス全体をベンチマークし、計算能力を示すことである。 本研究では,両タスクに使用可能な量子計算のモデルであるベルサンプリング(bell sampling)を見つけ,フォールトトレランスへの理想的な一歩を与える。 ベルサンプリングでは,逆ベル基底の量子回路で作成された状態の2つのコピーを測定する。 ベルサンプルは古典的に抽出可能であり、同時に回路シャドーと呼ばれるものを構成することを示し、ベルサンプルから状態を作成する量子回路に関する情報を効率的に抽出し、回路エラーを診断することができる。 ベルサンプルから効率的に抽出できる既知の特性に加えて、回路の深さに対するテストと、回路内のtゲート数に対する下限を推定するアルゴリズムという2つの新しい効率的なプロトコルを与える。 さらに,T数が少ない回路で作成した状態の完全な記述をアルゴリズムで学習する。

A central challenge in the verification of quantum computers is benchmarking their performance as a whole and demonstrating their computational capabilities. In this work, we find a model of quantum computation, Bell sampling, that can be used for both of those tasks and thus provides an ideal stepping stone towards fault-tolerance. In Bell sampling, we measure two copies of a state prepared by a quantum circuit in the transversal Bell basis. We show that the Bell samples are classically intractable to produce and at the same time constitute what we call a circuit shadow: from the Bell samples we can efficiently extract information about the quantum circuit preparing the state, as well as diagnose circuit errors. In addition to known properties that can be efficiently extracted from Bell samples, we give two new and efficient protocols, a test for the depth of the circuit and an algorithm to estimate a lower bound to the number of T gates in the circuit. With some additional measurements, our algorithm learns a full description of states prepared by circuits with low T-count.
翻訳日:2023-06-22 01:32:52 公開日:2023-06-19
# 粗い集合による規則一般帰納学習

A rule-general abductive learning by rough sets ( http://arxiv.org/abs/2305.19718v2 )

ライセンス: Link先を確認
Xu-chang Guo, Hou-biao Li(参考訳) 実世界のタスクでは、通常大量のラベルなしデータとラベル付きデータがある。 この2つの学習を組み合わせることは半教師付き学習と呼ばれる。 専門家は論理ルールを使ってラベルのないデータをラベル付けすることができるが、この操作はコストがかかる。 知覚と推論の組み合わせは、そのような半教師付きタスクとドメイン知識の処理に良い影響を与える。 しかし、ドメイン知識の取得と修正、削減、ルールの生成は、解決すべき複雑な問題である。 ラフセット理論は情報システムにおける知識処理を解く重要な方法である。 本稿では,粗集合(RS-ABL)による規則一般帰納学習を提案する。 ルールの目標概念とサブ概念を情報テーブルに変換することにより、ドメイン知識の獲得とルールの修正・縮小・生成を低コストで解決するための粗いセット理論が用いられる。 このフレームワークは、知識ベースの範囲を広げるために、より広範な負のルールを生成することもできる。 従来の半教師付き学習法と比較して、RS-ABLは半教師付きタスクの処理精度が高い。

In real-world tasks, there is usually a large amount of unlabeled data and labeled data. The task of combining the two to learn is known as semi-supervised learning. Experts can use logical rules to label unlabeled data, but this operation is costly. The combination of perception and reasoning has a good effect in processing such semi-supervised tasks with domain knowledge. However, acquiring domain knowledge and the correction, reduction and generation of rules remain complex problems to be solved. Rough set theory is an important method for solving knowledge processing in information systems. In this paper, we propose a rule general abductive learning by rough set (RS-ABL). By transforming the target concept and sub-concepts of rules into information tables, rough set theory is used to solve the acquisition of domain knowledge and the correction, reduction and generation of rules at a lower cost. This framework can also generate more extensive negative rules to enhance the breadth of the knowledge base. Compared with the traditional semi-supervised learning method, RS-ABL has higher accuracy in dealing with semi-supervised tasks.
翻訳日:2023-06-22 01:30:47 公開日:2023-06-19
# 変分法による量子アニール型ctによる実数画像再構成

Quantum annealing-based computed tomography using variational approach for a real-number image reconstruction ( http://arxiv.org/abs/2306.02214v2 )

ライセンス: Link先を確認
Akihiro Haga(参考訳) 目的:近年の量子コンピューティングの進歩にもかかわらず、利用可能な量子ビットの数が限られており、CT再構成の進歩を妨げている。 本研究では,量子アニーリングに基づくct(qact)を現在の量子ビットレベルで活用する可能性について検討する。 アプローチ: QACTアルゴリズムは2次非制約バイナリ最適化(QUBO)問題を正確に解くことを目的としている。 さらに,変動法を用いて実数を近似して画像を再構成する新しい手法を提案する。 このアプローチにより、少数の量子ビットを用いて正確なCT画像再構成が可能となる。 本研究では、4x4から24x24ピクセルの様々な画像サイズに対する投影データ量とノイズの影響について検討する。 再構成結果は、従来の再構成アルゴリズム、すなわち、最大期待予測最大化(MLEM)とフィルタバックプロジェクション(FBP)と比較される。 主な結果: 変分アプローチを採用し, 画像の各画素に対して2量子ビットを活用することで, 適切な投影数で正確な再構成を実現することができた。 豊富な投影と低騒音の条件下では、QACTの画質はMLEMやFBPよりも優れていた。 しかし、投影データに制限のある状況やノイズの存在下では、QACTの画質はMLEMよりも劣っていた。 意義: 本研究は実数再構成のための変分手法を用いたQACT再構成アルゴリズムを開発した。 驚くべきことに、各ピクセルの表現には2量子ビットしか必要とせず、正確な再構成に十分な性能を示した。

Objective: Despite recent advancements in quantum computing, the limited number of available qubits has hindered progress in CT reconstruction. This study investigates the feasibility of utilizing quantum annealing-based computed tomography (QACT) with current quantum bit levels. Approach: The QACT algorithm aims to precisely solve quadratic unconstrained binary optimization (QUBO) problems. Furthermore, a novel approach is proposed to reconstruct images by approximating real numbers using the variational method. This approach allows for accurate CT image reconstruction using a small number of qubits. The study examines the impact of projection data quantity and noise on various image sizes ranging from 4x4 to 24x24 pixels. The reconstructed results are compared against conventional reconstruction algorithms, namely maximum likelihood expectation maximization (MLEM) and filtered back projection (FBP). Main result: By employing the variational approach and utilizing two qubits for each pixel of the image, accurate reconstruction was achieved with an adequate number of projections. Under conditions of abundant projections and lower noise levels, the image quality in QACT outperformed that of MLEM and FBP. However, in situations with limited projection data and in the presence of noise, the image quality in QACT was inferior to that in MLEM. Significance: This study developed the QACT reconstruction algorithm using the variational approach for real-number reconstruction. Remarkably, only 2 qubits were required for each pixel representation, demonstrating their sufficiency for accurate reconstruction.
翻訳日:2023-06-22 01:24:29 公開日:2023-06-19
# speechgen: プロンプトによる音声言語モデルの生成能力の解放

SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts ( http://arxiv.org/abs/2306.02207v2 )

ライセンス: Link先を確認
Haibin Wu, Kai-Wei Chang, Yuan-Kuei Wu, Hung-yi Lee(参考訳) 大規模言語モデル(LLM)は人工知能生成コンテンツ(AIGC)、特にChatGPTの出現によって注目されている。 しかし、離散トークンを処理するLLMへの連続音声の直接適応は未解決の課題であり、LLMの音声生成への応用を妨げる。 音声信号は、テキストデータだけでなく、話者や感情を含む豊富な情報をカプセル化するので、高度な音声lmsは角を曲がっている。 プロンプトチューニングは、いくつかの音声分類タスクにおいてパラメータ効率と競合性能が著しく向上している。 しかしながら、プロンプトが音声lmsから生成タスクを効果的に導出できる程度は、未解決の問題である。 本稿では,SpeechGenと呼ばれる一貫したフレームワークにおいて,各世代タスクの音声LMを刺激するために,約10Mのトレーニング可能なパラメータで即時チューニングする手法を提案する。 提案した統合フレームワークは効率と有効性に大きな可能性を秘めており、特に高度な音声 LM の到着が差し迫っているため、フレームワークの能力は大幅に向上する。 speechgenのコードとデモはプロジェクトのwebサイトにある。 \url{https://ga642381.github.io/speechprompt/speechgen}

Large language models (LLMs) have gained considerable attention for Artificial Intelligence Generated Content (AIGC), particularly with the emergence of ChatGPT. However, the direct adaptation of continuous speech to LLMs that process discrete tokens remains an unsolved challenge, hindering the application of LLMs for speech generation. The advanced speech LMs are in the corner, as that speech signals encapsulate a wealth of information, including speaker and emotion, beyond textual data alone. Prompt tuning has demonstrated notable gains in parameter efficiency and competitive performance on some speech classification tasks. However, the extent to which prompts can effectively elicit generation tasks from speech LMs remains an open question. In this paper, we present pioneering research that explores the application of prompt tuning to stimulate speech LMs for various generation tasks, within a unified framework called SpeechGen, with around 10M trainable parameters. The proposed unified framework holds great promise for efficiency and effectiveness, particularly with the imminent arrival of advanced speech LMs, which will significantly enhance the capabilities of the framework. The code and demos of SpeechGen will be available on the project website: \url{https://ga642381.github.io/SpeechPrompt/speechgen}
翻訳日:2023-06-22 01:24:08 公開日:2023-06-19
# 矛盾する問題:マルチモーダルうわさ検出のための知識誘導型デュアルコンシスタンシーネットワーク

Inconsistent Matters: A Knowledge-guided Dual-consistency Network for Multi-modal Rumor Detection ( http://arxiv.org/abs/2306.02137v2 )

ライセンス: Link先を確認
Mengzhu Sun, Xi Zhang, Jianqiang Ma, Sihong Xie, Yazheng Liu, and Philip S. Yu(参考訳) ニュース消費者の注意を惹きつけるため、噂の拡散はマルチメディアコンテンツをますます活用している。 多くの噂検出モデルがマルチモーダルデータを活用しているが、画像とテキストの一貫性のないセマンティクスをほとんど考慮せず、ポストの内容と背景知識の矛盾を見つけることは滅多にない。 さらに、一般に複数のモダリティの完全性を前提としており、現実のシナリオで欠落したモダリティを扱うことができない。 ソーシャルメディアの噂が矛盾するセマンティクスを持つ可能性が高いという直観に動機づけられ、マルチメディアコンテンツのうわさを検出するための新しい知識誘導デュアルコンシステンシーネットワークが提案されている。 2つの一貫性検出サブネットワークを使用して、クロスモーダルレベルとコンテンツ知識レベルの不整合を同時にキャプチャする。 また、視覚モダリティのないポストと視覚モダリティのないポストを区別する特別なトークンを使用して、異なる視覚モダリティ条件下で堅牢なマルチモダリティ表現学習を可能にする。 3つのパブリックな実世界のマルチメディアデータセットに関する広範な実験は、完全かつ不完全なモダリティ条件下で、我々のフレームワークが最先端のベースラインを上回ることができることを示している。 私たちのコードはhttps://github.com/mengzsun/kdcnで利用可能です。

Rumor spreaders are increasingly utilizing multimedia content to attract the attention and trust of news consumers. Though quite a few rumor detection models have exploited the multi-modal data, they seldom consider the inconsistent semantics between images and texts, and rarely spot the inconsistency among the post contents and background knowledge. In addition, they commonly assume the completeness of multiple modalities and thus are incapable of handling handle missing modalities in real-life scenarios. Motivated by the intuition that rumors in social media are more likely to have inconsistent semantics, a novel Knowledge-guided Dual-consistency Network is proposed to detect rumors with multimedia contents. It uses two consistency detection subnetworks to capture the inconsistency at the cross-modal level and the content-knowledge level simultaneously. It also enables robust multi-modal representation learning under different missing visual modality conditions, using a special token to discriminate between posts with visual modality and posts without visual modality. Extensive experiments on three public real-world multimedia datasets demonstrate that our framework can outperform the state-of-the-art baselines under both complete and incomplete modality conditions. Our codes are available at https://github.com/MengzSun/KDCN.
翻訳日:2023-06-22 01:23:30 公開日:2023-06-19
# 神経科学のレンズによる人工意識の実現可能性

The feasibility of artificial consciousness through the lens of neuroscience ( http://arxiv.org/abs/2306.00915v2 )

ライセンス: Link先を確認
Jaan Aru, Matthew Larkum, James M. Shine(参考訳) 大規模言語モデルとの相互作用は、これらのモデルが意識的である可能性を示唆している。 神経科学の観点からすると、この立場は防御が難しい。 例えば、大きな言語モデルのアーキテクチャは、哺乳類の意識的意識と関連づけられた視床皮質系の重要な特徴を欠いている。 第二に、大きな言語モデルへの入力には、私たちの周りの世界との感覚的接触の特徴を具現化した組み込み情報コンテンツが欠けている。 最後に、以前の2つの議論は将来のAIシステムでは克服できるが、第3の議論は近い将来に橋渡しが困難になる可能性がある。 すなわち、意識は「ゲーム中に皮膚」を持つことに依存し、システムの存在はその行動に依存し、現在の人工知能には当てはまらない、と我々は論じる。

Interactions with large language models have led to the suggestion that these models may be conscious. From the perspective of neuroscience, this position is difficult to defend. For one, the architecture of large language models is missing key features of the thalamocortical system that have been linked to conscious awareness in mammals. Secondly, the inputs to large language models lack the embodied, embedded information content characteristic of our sensory contact with the world around us. Finally, while the previous two arguments can be overcome in future AI systems, the third one might be harder to bridge in the near future. Namely, we argue that consciousness might depend on having 'skin in the game', in that the existence of the system depends on its actions, which is not true for present-day artificial intelligence.
翻訳日:2023-06-22 01:22:19 公開日:2023-06-19
# 懸念する理由:「パウズレター」に署名した専門家の動機を調べる

Why They're Worried: Examining Experts' Motivations for Signing the 'Pause Letter' ( http://arxiv.org/abs/2306.00891v2 )

ライセンス: Link先を確認
Isabella Struckman, Sofie Kupiec(参考訳) 本稿では、専門家のサンプルが保持するAIの現状について考察する。 これらの専門家は、先進的なAI開発を停止するよう要求する最近のFuture of Lifeからの公開書簡の署名者だった。 インタビュー参加者の視点を正確に表現するために、最善の努力が払われました。 しかし、その地位を完璧に描写できる紙は無かった。 私たちはどのような意見を述べたかに自信を感じていますが、強くは持たないのです。 このようなダイナミックな時代には、AIとその将来に対する期待の中で、誰も解決すべきではないと感じています。

This paper presents perspectives on the state of AI, as held by a sample of experts. These experts were early signatories of the recent open letter from Future of Life, which calls for a pause on advanced AI development. Utmost effort was put into accurately representing the perspectives of our interviewees, and they have all read and approved of their representation. However, no paper could offer a perfect portrayal of their position. We feel confident in what opinions we do put forward, but we do not hold them tightly. In such dynamic times, we feel that no one should be resolved in their expectations for AI and its future.
翻訳日:2023-06-22 01:22:09 公開日:2023-06-19
# SequenceMatch: バックトラッキングを用いた自己回帰シーケンスモデリングのための模擬学習

SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking ( http://arxiv.org/abs/2306.05426v2 )

ライセンス: Link先を確認
Chris Cundy, Stefano Ermon(参考訳) 多くの領域において、自己回帰モデルは次の観測を予測するタスクにおいて高い確率に達することができる。 しかし、このMLE(Maxum-likelihood)の目的は、必ずしも下流で自動回帰的に高品質なシーケンスを生成するユースケースと一致しない。 mleの客観的重み列は、データ分布の周波数に比例し、モデルの分散の振る舞い(ood)のガイダンスを含まず、自己回帰的生成時の複合誤差を生じさせる。 この複合的誤り問題に対処するために, シーケンス生成を模倣学習(IL)問題として定式化する。 これにより、自己回帰モデルによって生成されたシーケンスの分布と、OOD生成シーケンスの重み付き分岐を含むデータセットからのシーケンスの分散を最小化できる。 ILフレームワークはまた、生成プロセスにバックスペースアクションを導入することで、バックトラックを組み込むことができます。 これにより、配列 OOD を取ると、モデルがサンプルトークンを反転させることで複合エラー問題を緩和する。 得られた手法であるSequenceMatchは、敵の訓練や大きなアーキテクチャ変更なしに実装できる。 sequencematch-$\chi^2$ divergence は、生成に使用される自己回帰モデルのためのより適切な訓練対象である。 経験的に、SequenceMatchトレーニングは、言語モデルを用いたテキスト生成において、MLEよりも改善されていることを示す。

In many domains, autoregressive models can attain high likelihood on the task of predicting the next observation. However, this maximum-likelihood (MLE) objective does not necessarily match a downstream use-case of autoregressively generating high-quality sequences. The MLE objective weights sequences proportionally to their frequency under the data distribution, with no guidance for the model's behaviour out of distribution (OOD): leading to compounding error during autoregressive generation. In order to address this compounding error problem, we formulate sequence generation as an imitation learning (IL) problem. This allows us to minimize a variety of divergences between the distribution of sequences generated by an autoregressive model and sequences from a dataset, including divergences with weight on OOD generated sequences. The IL framework also allows us to incorporate backtracking by introducing a backspace action into the generation process. This further mitigates the compounding error problem by allowing the model to revert a sampled token if it takes the sequence OOD. Our resulting method, SequenceMatch, can be implemented without adversarial training or major architectural changes. We identify the SequenceMatch-$\chi^2$ divergence as a more suitable training objective for autoregressive models which are used for generation. We show that empirically, SequenceMatch training leads to improvements over MLE on text generation with language models.
翻訳日:2023-06-22 01:13:34 公開日:2023-06-19
# 学習空間データのパーティショニング

Learned spatial data partitioning ( http://arxiv.org/abs/2306.04846v2 )

ライセンス: Link先を確認
Keizo Hori, Yuya Sasaki, Daichi Amagata, Yuki Murosaki, Makoto Onizuka(参考訳) 空間データのサイズが大幅に大きくなるため、分散並列処理システムを用いて空間データを効率的に解析することが不可欠である。 本稿では,機械学習技術を用いて空間データ分割を学習し,データの位置に基づくコンピュータに空間データのグループを効果的に割り当てる手法を提案する。 強化学習の文脈で空間データ分割を定式化し,新しい深層強化学習アルゴリズムを開発した。 学習アルゴリズムは空間データ分割とprunes非効率的な学習プロセスの特徴を活用して最適な分割を見つける。 本研究では,apache sedonaと実世界の空間データを用いた実験により,距離結合クエリを高速化するためのパーティションを効率的に発見し,最大59.4%のワークロード実行時間を削減できることを実証する。

Due to the significant increase in the size of spatial data, it is essential to use distributed parallel processing systems to efficiently analyze spatial data. In this paper, we first study learned spatial data partitioning, which effectively assigns groups of big spatial data to computers based on locations of data by using machine learning techniques. We formalize spatial data partitioning in the context of reinforcement learning and develop a novel deep reinforcement learning algorithm. Our learning algorithm leverages features of spatial data partitioning and prunes ineffective learning processes to find optimal partitions efficiently. Our experimental study, which uses Apache Sedona and real-world spatial data, demonstrates that our method efficiently finds partitions for accelerating distance join queries and reduces the workload run time by up to 59.4%.
翻訳日:2023-06-22 01:13:14 公開日:2023-06-19
# 系統的誤りによるデータからの解の解明--物理に制約された畳み込みニューラルネットワークアプローチ

Uncovering solutions from data corrupted by systematic errors: A physics-constrained convolutional neural network approach ( http://arxiv.org/abs/2306.04600v2 )

ライセンス: Link先を確認
Daniel Kelshaw, Luca Magri(参考訳) 自然現象や工学システムに関する情報は一般的にデータに含まれる。 データはモデルや実験で系統的なエラーによって破損する可能性がある。 本稿では,データから体系的な誤りを取り除き,基礎となる物理系の時空間解を明らかにするツールを提案する。 このツールは物理制約付き畳み込みニューラルネットワーク(PC-CNN)で、方程式とデータを管理するシステムからの情報を組み合わせる。 線形対流、バーガース方程式、二次元乱流などの偏微分方程式によってモデル化される基本現象に焦点を当てる。 まず、この問題を定式化し、物理制約付き畳み込みニューラルネットワークを記述し、体系的誤りをパラメータ化する。 次に,大規模マルチモーダル・システマティック・エラーによるデータから解法を明らかにする。 第3に,異なる系統的誤りに対するパラメトリック研究を行う。 その方法が堅牢であることを示す。 第4に、未発見解の物理的性質を分析する。 PC-CNNから推定される解は、体系的な誤りによって破損したデータとは対照的に物理的であることを示す。 この研究は、モデルから認識的誤りを取り除き、測定から体系的エラーを取り除く機会を開く。

Information on natural phenomena and engineering systems is typically contained in data. Data can be corrupted by systematic errors in models and experiments. In this paper, we propose a tool to uncover the spatiotemporal solution of the underlying physical system by removing the systematic errors from data. The tool is the physics-constrained convolutional neural network (PC-CNN), which combines information from both the systems governing equations and data. We focus on fundamental phenomena that are modelled by partial differential equations, such as linear convection, Burgers equation, and two-dimensional turbulence. First, we formulate the problem, describe the physics-constrained convolutional neural network, and parameterise the systematic error. Second, we uncover the solutions from data corrupted by large multimodal systematic errors. Third, we perform a parametric study for different systematic errors. We show that the method is robust. Fourth, we analyse the physical properties of the uncovered solutions. We show that the solutions inferred from the PC-CNN are physical, in contrast to the data corrupted by systematic errors that does not fulfil the governing equations. This work opens opportunities for removing epistemic errors from models, and systematic errors from measurements.
翻訳日:2023-06-22 01:12:54 公開日:2023-06-19
# 制約分布シフトによる推論

Inference under constrained distribution shifts ( http://arxiv.org/abs/2306.03302v2 )

ライセンス: Link先を確認
Santiago Cortes-Gomez, Mateo Dulce, Bryan Wilder(参考訳) 大規模な管理データセットや観察データセットは、意思決定を知らせるためにますます使われています。 この取り組みは、現実の証拠にポリシーを基礎付けることを目的としているが、選択バイアスやその他の分布シフトが観察データに支障をきたすことが多いため、課題が発生する。 堅牢な推論を提供する以前の試みは、ユーザが指定した分布シフトの量(例えば、観測された分布と対象分布の最大KL分散)に応じて保証を与えていた。 しかしながら、意思決定者は、可能なシフトの種類を制限するターゲット分布に関する追加の知識を持つことが多い。 このような情報を活用するために,ターゲット分布下で期待が分かっている関数の形で,ユーザ指定制約に従う分布シフトの存在を統計的に推測できるフレームワークを提案する。 出力は、推定した目標分布の値に基づいて高確率境界となる。 そこで,本手法は,広い範囲の推定値を部分的に識別するために,ドメイン知識を活用する。 これらの境界を推定する手法の計算・統計特性を解析し,本手法が様々なシミュレーションおよび半合成タスクにおいて有意な境界を生成することを示す。

Large-scale administrative or observational datasets are increasingly used to inform decision making. While this effort aims to ground policy in real-world evidence, challenges have arise as that selection bias and other forms of distribution shift often plague observational data. Previous attempts to provide robust inferences have given guarantees depending on a user-specified amount of possible distribution shift (e.g., the maximum KL divergence between the observed and target distributions). However, decision makers will often have additional knowledge about the target distribution which constrains the kind of shifts which are possible. To leverage such information, we proposed a framework that enables statistical inference in the presence of distribution shifts which obey user-specified constraints in the form of functions whose expectation is known under the target distribution. The output is high-probability bounds on the value an estimand takes on the target distribution. Hence, our method leverages domain knowledge in order to partially identify a wide class of estimands. We analyze the computational and statistical properties of methods to estimate these bounds, and show that our method can produce informative bounds on a variety of simulated and semisynthetic tasks.
翻訳日:2023-06-22 01:11:31 公開日:2023-06-19
# ニューラルネットワークの圧縮におけるロングテールの効果の理解

Understanding the Effect of the Long Tail on Neural Network Compression ( http://arxiv.org/abs/2306.06238v2 )

ライセンス: Link先を確認
Harvey Dam, Vinu Joseph, Aditya Bhaskara, Ganesh Gopalakrishnan, Saurav Muralidharan, Michael Garland(参考訳) ニューラルネットワーク研究の成熟したサブフィールドであるネットワーク圧縮は、この10年間で、モデルのサイズを減らし、推論を高速化し、分類精度を維持しながら大きな進歩を遂げた。 しかし、多くの研究が、全体的な精度だけに焦点を合わせることは誤解される可能性があると指摘している。 例えば、フルモデルと圧縮モデルのミスマッチは、表現不足のクラスに偏る可能性があることが示されている。 これは、元のネットワークと 'semantic equivalence'' を維持しながら、ネットワーク圧縮を達成することができるか? 本研究は,Feldmanらによって観測されたコンピュータビジョンデータセットにおける「長い尾」現象の文脈において,この問題を考察する。 彼らは、特定の入力(適切に定義された)の \emph{memorization} はよい一般化を達成するために必須であると主張する。 圧縮によってネットワークの容量が制限されるため(それゆえ記憶能力も制限される)、本研究では、フルモデルと圧縮モデルのミスマッチは記憶されたトレーニングデータと相関しているか? 異なるベースアーキテクチャと圧縮スキームを考慮して,画像分類タスクに対して,この方向の肯定的な証拠を示す。

Network compression is now a mature sub-field of neural network research: over the last decade, significant progress has been made towards reducing the size of models and speeding up inference, while maintaining the classification accuracy. However, many works have observed that focusing on just the overall accuracy can be misguided. E.g., it has been shown that mismatches between the full and compressed models can be biased towards under-represented classes. This raises the important research question, \emph{can we achieve network compression while maintaining ``semantic equivalence'' with the original network?} In this work, we study this question in the context of the ``long tail'' phenomenon in computer vision datasets observed by Feldman, et al. They argue that \emph{memorization} of certain inputs (appropriately defined) is essential to achieving good generalization. As compression limits the capacity of a network (and hence also its ability to memorize), we study the question: are mismatches between the full and compressed models correlated with the memorized training data? We present positive evidence in this direction for image classification tasks, by considering different base architectures and compression schemes.
翻訳日:2023-06-22 01:03:03 公開日:2023-06-19
# 3次元音速位相不変エコー定位

3-Dimensional Sonic Phase-invariant Echo Localization ( http://arxiv.org/abs/2306.08281v2 )

ライセンス: Link先を確認
Christopher Hahne(参考訳) パララックスと飛行時間(ToF)は、高度なカメラベースの3次元3次元再構成において様々な光と気象条件が課題であるロボットビジョンにおいて補完的なものとみなされる。 そこで本研究では,3次元空間における任意のセンサ位置から音波パルスを三角測量するために,対応エコー(PaCE)のパララックスを確立した。 これは新しいラウンドトリップ反射モデルによって達成され、それはセンサーの位置と検出された到着時刻にまたがる楕円形の交差点でターゲットをピンポイントする。 チャネル間エコーアソシエーションは、標的検出の必須条件となり、シームズ多層パーセプトロン(MLP)のスタックから得られる特徴類似性から学習される。 PaCEアルゴリズムは1個の等方性エミッタと少なくとも3個のToF受信機からの位相不変3次元物体の局在化を可能にする。 空中超音波センサハードウェアを用いて実験を行い、定量的な結果を得た。

Parallax and Time-of-Flight (ToF) are often regarded as complementary in robotic vision where various light and weather conditions remain challenges for advanced camera-based 3-Dimensional (3-D) reconstruction. To this end, this paper establishes Parallax among Corresponding Echoes (PaCE) to triangulate acoustic ToF pulses from arbitrary sensor positions in 3-D space for the first time. This is achieved through a novel round-trip reflection model that pinpoints targets at the intersection of ellipsoids, which are spanned by sensor locations and detected arrival times. Inter-channel echo association becomes a crucial prerequisite for target detection and is learned from feature similarity obtained by a stack of Siamese Multi-Layer Perceptrons (MLPs). The PaCE algorithm enables phase-invariant 3-D object localization from only 1 isotropic emitter and at least 3 ToF receivers with relaxed sensor position constraints. Experiments are conducted with airborne ultrasound sensor hardware and back this hypothesis with quantitative results.
翻訳日:2023-06-22 00:54:46 公開日:2023-06-19
# デジタル病理における人工知能 : 診断精度の体系的レビューとメタ分析

Artificial intelligence in digital pathology: a diagnostic test accuracy systematic review and meta-analysis ( http://arxiv.org/abs/2306.07999v2 )

ライセンス: Link先を確認
Clare McGenity, Emily L Clarke, Charlotte Jennings, Gillian Matthews, Caroline Cartlidge, Henschel Freduah-Agyemang, Deborah D Stocken, Darren Treanor(参考訳) 臨床使用前のAIモデルの診断性能を保証することが、これらの技術の安全性と成功の鍵となる。 近年,診断目的でデジタル病理画像に適用されたAIを報告する研究が急速に増えている。 本研究の目的は,すべての病理領域のデジタル病理画像におけるaiの診断精度の概観を提供することである。 この体系的なレビューとメタアナリシスは、あらゆる病気のタイプの全スライド画像(wsis)に適用されるあらゆるタイプの人工知能を用いた診断精度の研究を含んでいた。 基準基準は病理組織学的評価と免疫組織化学による診断であった。 2022年6月にPubMed、EMBASE、Centralで調査が行われた。 対象は2976例で,その内100例はレビューに,48例はメタ分析に含まれていた。 quadas-2ツールを用いてバイアスのリスクと適用可能性の懸念を評価した。 2人の研究者がデータ抽出を行い,二変量ランダム効果モデルを用いてメタ分析を行った。 包含物として100の研究が同定され、152,000枚以上のスライド画像 (WSI) に相当し、多くの病型を表わした。 このうち48の研究がメタアナリシスに含まれていた。 これらの研究では、平均感度は96.3%(CI 94.1-97.7)、平均特異度は93.3%(CI 90.5-95.4)であった。 研究設計にはかなりの多様性があり、包含物が特定された100の研究はすべて、バイアスのリスクが高いか不明瞭な領域を少なくとも1つ持っていた。 このレビューは、スライド画像全体におけるアプリケーション間のAIパフォーマンスの広範な概要を提供する。 しかし、研究設計と利用可能なパフォーマンスデータには大きなばらつきがあり、研究の実施状況の詳細と、しばしば欠落するデータセットを構成することができる。 全体として、AIはWSIに適用した場合に適切な精度を提供するが、そのパフォーマンスをより厳格に評価する必要がある。

Ensuring diagnostic performance of AI models before clinical use is key to the safe and successful adoption of these technologies. Studies reporting AI applied to digital pathology images for diagnostic purposes have rapidly increased in number in recent years. The aim of this work is to provide an overview of the diagnostic accuracy of AI in digital pathology images from all areas of pathology. This systematic review and meta-analysis included diagnostic accuracy studies using any type of artificial intelligence applied to whole slide images (WSIs) in any disease type. The reference standard was diagnosis through histopathological assessment and / or immunohistochemistry. Searches were conducted in PubMed, EMBASE and CENTRAL in June 2022. We identified 2976 studies, of which 100 were included in the review and 48 in the full meta-analysis. Risk of bias and concerns of applicability were assessed using the QUADAS-2 tool. Data extraction was conducted by two investigators and meta-analysis was performed using a bivariate random effects model. 100 studies were identified for inclusion, equating to over 152,000 whole slide images (WSIs) and representing many disease types. Of these, 48 studies were included in the meta-analysis. These studies reported a mean sensitivity of 96.3% (CI 94.1-97.7) and mean specificity of 93.3% (CI 90.5-95.4) for AI. There was substantial heterogeneity in study design and all 100 studies identified for inclusion had at least one area at high or unclear risk of bias. This review provides a broad overview of AI performance across applications in whole slide imaging. However, there is huge variability in study design and available performance data, with details around the conduct of the study and make up of the datasets frequently missing. Overall, AI offers good accuracy when applied to WSIs but requires more rigorous evaluation of its performance.
翻訳日:2023-06-22 00:53:21 公開日:2023-06-19
# 体積医用画像分割のための学習可能な重み初期化

Learnable Weight Initialization for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2306.09320v2 )

ライセンス: Link先を確認
Shahina Kunhimon, Abdelrahman Shaker, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan(参考訳) 局所畳み込みとグローバルな注意の利点を組み合わせたハイブリッド容積医用画像セグメンテーションモデルが最近注目されている。 主にアーキテクチャの変更に重点を置いているが、既存のほとんどのハイブリッドアプローチでは、医療データの本質的な容積性を無視して性能を制限する従来のデータ非依存の重み初期化スキームが使用されている。 そこで本研究では, 利用可能な医療訓練データを用いて, 提案する自己監督目標を用いて, 文脈的および構造的手がかりを効果的に学習する, 学習可能な重み初期化手法を提案する。 我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。 多臓器・肺癌セグメンテーションタスクの実験は、我々のアプローチの有効性を示し、最先端セグメンテーション性能をもたらす。 ソースコードとモデルは、https://github.com/shahinakk/lwi-vmsで利用可能です。

Hybrid volumetric medical image segmentation models, combining the advantages of local convolution and global attention, have recently received considerable attention. While mainly focusing on architectural modifications, most existing hybrid approaches still use conventional data-independent weight initialization schemes which restrict their performance due to ignoring the inherent volumetric nature of the medical data. To address this issue, we propose a learnable weight initialization approach that utilizes the available medical training data to effectively learn the contextual and structural cues via the proposed self-supervised objectives. Our approach is easy to integrate into any hybrid model and requires no external training data. Experiments on multi-organ and lung cancer segmentation tasks demonstrate the effectiveness of our approach, leading to state-of-the-art segmentation performance. Our source code and models are available at: https://github.com/ShahinaKK/LWI-VMS.
翻訳日:2023-06-22 00:46:45 公開日:2023-06-19
# DiPlomat: 実用的な推論のための対話データセット

DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning ( http://arxiv.org/abs/2306.09030v2 )

ライセンス: Link先を確認
Hengli Li, Song-Chun Zhu, Zilong Zheng(参考訳) プラグマティック推論は、実生活の会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担い、コミュニケーション型社会的エージェントの開発に不可欠である。 本稿では,現実的推論と位置的会話理解における機械の能力のベンチマークを目的とした,新しい課題であるDiPlomatを紹介する。 異なる比喩表現(例:比喩、皮肉)を個別のタスクとして扱う以前の作品と比較すると、DiPlomatは一般的な実用的理解に向けた結束的な枠組みを提供する。 我々のデータセットはAmazon Mechanical Turk (AMT)を利用して作成され、結果として合計4,177のマルチターンダイアログが生成される。 このデータセットと合わせて,PIR(Pragmatic Identification and Reasoning)とCQA(Conversational Question Answering)という2つのタスクを提案する。 State-of-the-art(SOTA)ニューラルアーキテクチャによる実験結果には、いくつかの重要な発見がある。 1) 大言語モデル(llm)は,この主観的な領域に取り組む上で,性能に乏しい。 2) コンテキストの包括的理解は,人間と機械の相互関係を確立する上で重要な要因として出現する。 3)現状モデルは実用的推論の適用に欠陥がある。 その結果、文脈理解、推論、含意的な意味モデリングの能力を向上させるために、より注意を払うことが必要となる。

Pragmatic reasoning plays a pivotal role in deciphering implicit meanings that frequently arise in real-life conversations and is essential for the development of communicative social agents. In this paper, we introduce a novel challenge, DiPlomat, aiming at benchmarking machines' capabilities on pragmatic reasoning and situated conversational understanding. Compared with previous works that treat different figurative expressions (e.g. metaphor, sarcasm) as individual tasks, DiPlomat provides a cohesive framework towards general pragmatic understanding. Our dataset is created through the utilization of Amazon Mechanical Turk ( AMT ), resulting in a total of 4, 177 multi-turn dialogues. In conjunction with the dataset, we propose two tasks, Pragmatic Identification and Reasoning (PIR) and Conversational Question Answering (CQA). Experimental results with state-of-the-art (SOTA) neural architectures reveal several significant findings: 1) large language models ( LLMs) exhibit poor performance in tackling this subjective domain; 2) comprehensive comprehension of context emerges as a critical factor for establishing benign human-machine interactions; 3) current models defect in the application of pragmatic reasoning. As a result, we call on more attention to improve the ability of context understanding, reasoning, and implied meaning modeling.
翻訳日:2023-06-22 00:45:21 公開日:2023-06-19
# refusion: 1次元データによる推薦のための二項拡散プロセス

RecFusion: A Binomial Diffusion Process for 1D Data for Recommendation ( http://arxiv.org/abs/2306.08947v2 )

ライセンス: Link先を確認
Gabriel B\'en\'edict, Olivier Jeunen, Samuele Papa, Samarth Bhargav, Daan Odijk, Maarten de Rijke(参考訳) 本稿では,レコメンデーションのための拡散モデルを構成するRecFusionを提案する。 空間相関を含む画像データとは異なり、レコメンデーションで一般的に利用されるユーザ-テーマインタラクションマトリックスは、ユーザとアイテム間の空間的関係を欠いている。 1次元ベクトル上の拡散を定式化し、二項拡散を提案し、ベルヌーイ過程と二項ユーザ・イテム相互作用を明示的にモデル化する。 RecFusionは、コアレコメンデーション設定(バイナリ非シーケンスフィードバックのTop-nレコメンデーション)と最も一般的なデータセット(MovieLensとNetflix)に基づいて、複雑なVAEベースラインのパフォーマンスにアプローチする。 提案する拡散モデルでは,MRIやCTなどの医療領域において,1Dおよび/またはバイナリ設定に特化している。

In this paper we propose RecFusion, which comprise a set of diffusion models for recommendation. Unlike image data which contain spatial correlations, a user-item interaction matrix, commonly utilized in recommendation, lacks spatial relationships between users and items. We formulate diffusion on a 1D vector and propose binomial diffusion, which explicitly models binary user-item interactions with a Bernoulli process. We show that RecFusion approaches the performance of complex VAE baselines on the core recommendation setting (top-n recommendation for binary non-sequential feedback) and the most common datasets (MovieLens and Netflix). Our proposed diffusion models that are specialized for 1D and/or binary setups have implications beyond recommendation systems, such as in the medical domain with MRI and CT scans.
翻訳日:2023-06-22 00:45:00 公開日:2023-06-19
# 因果構造学習の実践に向けて

Towards Practical Federated Causal Structure Learning ( http://arxiv.org/abs/2306.09433v2 )

ライセンス: Link先を確認
Zhaoyu Wang, Pingchuan Ma, Shuai Wang(参考訳) 因果関係を理解することは科学的発見に不可欠である。 因果構造学習のプロセスは、そのような関係を理解するために観測データから因果グラフを識別することを含む。 通常、中央サーバがこのタスクを実行するが、サーバとデータを共有するとプライバシー上のリスクが生じる。 フェデレーション学習はこの問題を解決できるが、既存のフェデレーション因果構造学習のソリューションは、データに関する非現実的な仮定を作り、収束の保証を欠く。 FedC2SLは、クライアントから生データを収集することなく、2変数間の条件独立性を調べるフェデレーション条件独立テストを用いて因果グラフを学習するフェデレーション制約に基づく因果構造学習スキームである。 FedC2SLは、データに関するより弱い、より現実的な仮定を必要とし、クライアント間のデータのばらつきに強く抵抗する。 FedPCとFedFCIはそれぞれ因果構造学習のためのFedC2SLの2つの変種である。 この研究は、既存のソリューションに対して合成データセットと実世界のデータの両方を使用してFedC2SLを評価し、クライアント間のデータ不均一性に対するパフォーマンスと強力なレジリエンスを示す。

Understanding causal relations is vital in scientific discovery. The process of causal structure learning involves identifying causal graphs from observational data to understand such relations. Usually, a central server performs this task, but sharing data with the server poses privacy risks. Federated learning can solve this problem, but existing solutions for federated causal structure learning make unrealistic assumptions about data and lack convergence guarantees. FedC2SL is a federated constraint-based causal structure learning scheme that learns causal graphs using a federated conditional independence test, which examines conditional independence between two variables under a condition set without collecting raw data from clients. FedC2SL requires weaker and more realistic assumptions about data and offers stronger resistance to data variability among clients. FedPC and FedFCI are the two variants of FedC2SL for causal structure learning in causal sufficiency and causal insufficiency, respectively. The study evaluates FedC2SL using both synthetic datasets and real-world data against existing solutions and finds it demonstrates encouraging performance and strong resilience to data heterogeneity among clients.
翻訳日:2023-06-22 00:34:41 公開日:2023-06-19
# ディープラーニングを用いた高濃度セル画像からのマルチオミクス予測

Multi-omics Prediction from High-content Cellular Imaging with Deep Learning ( http://arxiv.org/abs/2306.09391v2 )

ライセンス: Link先を確認
Rahil Mehrizi, Arash Mehrjou, Maryana Alegro, Yi Zhao, Benedetta Carbone, Carl Fishwick, Johanna Vappiani, Jing Bi, Siobhan Sanford, Hakan Keles, Marcus Bantscheff, Cuong Nguyen, and Patrick Schwab(参考訳) 高濃度の細胞イメージング、転写学、およびプロテオミクスのデータは、細胞の状態や機能に影響を与える生物学の分子層についてリッチで相補的な見解を提供する。 しかし、マルチオミクス測定の変化が細胞形態に影響を与える生物学的決定因子はまだ体系的に研究されておらず、細胞イメージングが細胞イメージングデータから直接マルチオミクスを予測できる可能性の程度は今のところ不明である。 ここでは, 蛍光色素で染色した高濃度画像から直接, 細胞集団のマルチオミクスを予測するディープラーニングアプローチであるImage2Omicsを用いて, 細胞画像から直接, バルクマルチオミクス測定を予測できるかどうかを問う。 ヒト誘導多能性幹細胞(hipsc)由来の遺伝子編集マクロファージを複数の刺激条件下で実験的に評価し,image2omicsが細胞画像から直接転写学およびプロテオミクス測定値を予測する際に,平均観測トレーニングセット存在量に基づく予測者よりも有意に優れた性能が得られることを実証した。 5903 (22.43%, 95% ci: 8.77%, 38.88%), 5819 (22.11%), 95% ci: 10.40%, 38.08%), 95% ci: 38.08%, それぞれ26137 in m1およびm2刺激マクロファージ, 1933 (38.77%), 95% ci: 36.94%, 39.85%, 2055 (41.22%), 95% ci: 39.31%, 42.42%) タンパク質はそれぞれm1およびm2刺激マクロファージ4986のうち4986タンパク質である。 以上の結果から, 細胞画像から転写産物やタンパク質の存在が予測可能であること, 細胞画像は, 興味の機構や期待される性能閾値によっては, マルチオミクス測定のスケーラブルで資源効率のよい代替品である可能性が示唆された。

High-content cellular imaging, transcriptomics, and proteomics data provide rich and complementary views on the molecular layers of biology that influence cellular states and function. However, the biological determinants through which changes in multi-omics measurements influence cellular morphology have not yet been systematically explored, and the degree to which cell imaging could potentially enable the prediction of multi-omics directly from cell imaging data is therefore currently unclear. Here, we address the question of whether it is possible to predict bulk multi-omics measurements directly from cell images using Image2Omics -- a deep learning approach that predicts multi-omics in a cell population directly from high-content images stained with multiplexed fluorescent dyes. We perform an experimental evaluation in gene-edited macrophages derived from human induced pluripotent stem cell (hiPSC) under multiple stimulation conditions and demonstrate that Image2Omics achieves significantly better performance in predicting transcriptomics and proteomics measurements directly from cell images than predictors based on the mean observed training set abundance. We observed significant predictability of abundances for 5903 (22.43%; 95% CI: 8.77%, 38.88%) and 5819 (22.11%; 95% CI: 10.40%, 38.08%) transcripts out of 26137 in M1 and M2-stimulated macrophages respectively and for 1933 (38.77%; 95% CI: 36.94%, 39.85%) and 2055 (41.22%; 95% CI: 39.31%, 42.42%) proteins out of 4986 in M1 and M2-stimulated macrophages respectively. Our results show that some transcript and protein abundances are predictable from cell imaging and that cell imaging may potentially, in some settings and depending on the mechanisms of interest and desired performance threshold, even be a scalable and resource-efficient substitute for multi-omics measurements.
翻訳日:2023-06-22 00:34:21 公開日:2023-06-19
# ヒトモビリティシミュレーションのための時空間型グラフニューラルネットワーク

Spatiotemporal-Augmented Graph Neural Networks for Human Mobility Simulation ( http://arxiv.org/abs/2306.09381v2 )

ライセンス: Link先を確認
Yu Wang, Tongya Zheng, Shunyu Liu, Kaixuan Chen, Zunlei Feng, Yunzhi Hao, Mingli Song(参考訳) ヒューマンモビリティパターンは、政策決定シナリオや経済行動研究に重要な応用が示されている。 人体移動シミュレーションの課題は,人体移動データの希少性や疎大性に懸念を抱く,少数の軌跡データから人体移動軌道を生成することを目的としている。 既存の手法は主に位置の静的な関係に依存するが、場所の動的時空間効果は無視されている。 一方,訪問分布の時空間対応は,場所の空間的近接性と機能的類似性を明らかにする。 一方, 移動経路の反復的生成過程は, 異なる場所における変動持続時間によって阻害される。 そこで我々は,位置の動的時空間効果,すなわち時空間拡張gRaphニューラルネットワーク(STAR)をモデル化する新しい枠組みを提案する。 STARフレームワークは、時空間対応を捉えるために様々な時空間グラフを設計し、位置の変動期間をシミュレートする新しいdwellブランチを構築し、最終的に逆向きに最適化する。 人体移動シミュレーションのための4つの実際のデータセットに対する総合的な実験は、STARの最先端手法に対する優位性を検証した。 私たちのコードは公開されます。

Human mobility patterns have shown significant applications in policy-decision scenarios and economic behavior researches. The human mobility simulation task aims to generate human mobility trajectories given a small set of trajectory data, which have aroused much concern due to the scarcity and sparsity of human mobility data. Existing methods mostly rely on the static relationships of locations, while largely neglect the dynamic spatiotemporal effects of locations. On the one hand, spatiotemporal correspondences of visit distributions reveal the spatial proximity and the functionality similarity of locations. On the other hand, the varying durations in different locations hinder the iterative generation process of the mobility trajectory. Therefore, we propose a novel framework to model the dynamic spatiotemporal effects of locations, namely SpatioTemporal-Augmented gRaph neural networks (STAR). The STAR framework designs various spatiotemporal graphs to capture the spatiotemporal correspondences and builds a novel dwell branch to simulate the varying durations in locations, which is finally optimized in an adversarial manner. The comprehensive experiments over four real datasets for the human mobility simulation have verified the superiority of STAR to state-of-the-art methods. Our code will be made publicly available.
翻訳日:2023-06-22 00:33:32 公開日:2023-06-19
# 等価なマルチタスク学習

Equitable Multi-task Learning ( http://arxiv.org/abs/2306.09373v2 )

ライセンス: Link先を確認
Jun Yuan and Rui Zhang(参考訳) マルチタスク学習(MTL)は,CV,NLP,IRなど,さまざまな研究領域で大きな成功を収めている。 複雑で競合するタスクの相関のため、すべてのタスクをナイーブに訓練することで、不平等な学習につながる可能性がある。 マルチタスク最適化(MTO)は、全てのタスクを同時に改善することを目的としているが、従来の手法は、大きな損失スケールや勾配ノルム等級差のあるタスクでは、しばしば不適切な処理を行う。 この問題を解決するために,MTLのエクイティ問題を詳細に検討し,共有パラメータの更新におけるタスクの相対的寄与(タスク固有の損失の値が生勾配の基準を分割する)の正則化により,MLLの一般化性能が向上することを発見した。 理論的解析に基づいて, EMTL という新しいマルチタスク最適化手法を提案し, 等価な MTL を実現する。 具体的には、異なるタスクの相対的な貢献をより近づけるために、分散正規化を効率的に追加する。 提案手法は,2つの異なる研究領域の公開ベンチマークデータセットにおいて,最先端の手法を安定的に上回っている。 さらに、マルチタスクレコメンデーションによるオフラインおよびオンラインa/bテストも実施する。 EMTLはマルチタスク・レコメンデーションを大幅に改善し,産業景観における手法の優位性と実践性を示す。

Multi-task learning (MTL) has achieved great success in various research domains, such as CV, NLP and IR etc. Due to the complex and competing task correlation, naive training all tasks may lead to inequitable learning, i.e. some tasks are learned well while others are overlooked. Multi-task optimization (MTO) aims to improve all tasks at same time, but conventional methods often perform poor when tasks with large loss scale or gradient norm magnitude difference. To solve the issue, we in-depth investigate the equity problem for MTL and find that regularizing relative contribution of different tasks (i.e. value of task-specific loss divides its raw gradient norm) in updating shared parameter can improve generalization performance of MTL. Based on our theoretical analysis, we propose a novel multi-task optimization method, named EMTL, to achieve equitable MTL. Specifically, we efficiently add variance regularization to make different tasks' relative contribution closer. Extensive experiments have been conduct to evaluate EMTL, our method stably outperforms state-of-the-art methods on the public benchmark datasets of two different research domains. Furthermore, offline and online A/B test on multi-task recommendation are conducted too. EMTL improves multi-task recommendation significantly, demonstrating the superiority and practicability of our method in industrial landscape.
翻訳日:2023-06-22 00:33:14 公開日:2023-06-19
# ArtFusion: Dual Conditional Latent Diffusion Modelを用いた制御可能な任意型転送

ArtFusion: Controllable Arbitrary Style Transfer using Dual Conditional Latent Diffusion Models ( http://arxiv.org/abs/2306.09330v2 )

ライセンス: Link先を確認
Dar-Yen Chen(参考訳) Arbitrary Style Transfer (AST)は、任意のアートワークからスタイルを採用することで、イメージを変換することを目的としている。 それでも、多様で主観的なユーザー嗜好に対応する必要性は大きな課題である。 異なるコンテンツ構造を保存したいユーザーもいるが、より分かりやすいスタイライゼーションを好むユーザーもいる。 フィードフォワードAST法の進歩にもかかわらず、その限定されたカスタマイズ性は、実用的応用を妨げる。 我々は、コンテンツとスタイルの柔軟なバランスを提供する新しいアプローチ、ArtFusionを提案する。 バイアス付き類似性損失に依存する従来の手法とは対照的に、artfusionは革新的な双条件拡散確率モデル(dual-cldm)を採用している。 このアプローチは反復パターンを緩和し、ブラシストロークやジャンル特有の特徴のような微妙な芸術的側面を強化する。 様々な生成タスクにおける条件拡散確率モデル (cDM) の有望な結果にもかかわらず, 組合わせ学習データの必要性から, スタイル伝達の導入は困難である。 ArtFusionはこの問題をうまくナビゲートし、より実用的で制御可能なスタイリングを提供する。 私たちのアプローチの重要な要素は、モデルトレーニング中に単一のイメージをコンテンツとスタイルの両方に使用し、推論中に効果的なスタイライゼーションを維持することです。 ArtFusionは、優れた制御性と芸術的詳細の忠実な提示に関する既存のアプローチを上回り、その優れたスタイル転送能力の証拠を提供する。 さらに, artfusionで使用されるデュアルcldmは, 様々な複雑な多条件生成タスクの可能性を秘めており, 研究の影響を大きく広げている。

Arbitrary Style Transfer (AST) aims to transform images by adopting the style from any selected artwork. Nonetheless, the need to accommodate diverse and subjective user preferences poses a significant challenge. While some users wish to preserve distinct content structures, others might favor a more pronounced stylization. Despite advances in feed-forward AST methods, their limited customizability hinders their practical application. We propose a new approach, ArtFusion, which provides a flexible balance between content and style. In contrast to traditional methods reliant on biased similarity losses, ArtFusion utilizes our innovative Dual Conditional Latent Diffusion Probabilistic Models (Dual-cLDM). This approach mitigates repetitive patterns and enhances subtle artistic aspects like brush strokes and genre-specific features. Despite the promising results of conditional diffusion probabilistic models (cDM) in various generative tasks, their introduction to style transfer is challenging due to the requirement for paired training data. ArtFusion successfully navigates this issue, offering more practical and controllable stylization. A key element of our approach involves using a single image for both content and style during model training, all the while maintaining effective stylization during inference. ArtFusion outperforms existing approaches on outstanding controllability and faithful presentation of artistic details, providing evidence of its superior style transfer capabilities. Furthermore, the Dual-cLDM utilized in ArtFusion carries the potential for a variety of complex multi-condition generative tasks, thus greatly broadening the impact of our research.
翻訳日:2023-06-22 00:32:10 公開日:2023-06-19
# 浅いボソンサンプリングの探求:スケーラブルな量子超越性を目指して

Exploring Shallow-Depth Boson Sampling: Towards Scalable Quantum Supremacy ( http://arxiv.org/abs/2306.10671v1 )

ライセンス: Link先を確認
Byeongseon Go, Changhun Oh, Liang Jiang and Hyunseok Jeong(参考訳) ボソンサンプリング(英: Boson sample)とは、量子超越性(quantum supremacy)の候補として、古典的なコンピュータをプラプシブルな仮定で効率的にシミュレーションすることの難しいサンプリングタスクである。 しかし、短期量子デバイスに対する大きなノイズ率のため、これらのノイズの多いデバイスがより大きな量子システムに対する量子優位性を維持しているかどうかはまだ不明である。 ノイズレートは一般に回路深度とともに増加するため、浅い深さの量子回路でシミュレーション硬さの証拠を見つける方法もある。 証拠を見つけるためには, ボソンサンプリングのシミュレーション硬度を証明するためには, 最先端技術で必要とされている, 近似出力確率の平均ケース硬度に必要となる最小の深さを同定する。 本研究では,フォック状態およびガウス状態における浅部深度ボソンサンプリングの出力確率分布を解析し,幾何学的局所アーキテクチャのための浅部深度系における平均ケース硬度引数の制限について検討する。 本稿では,幾何学的局所的アーキテクチャに関連する問題を克服する浅層リニア光回路アーキテクチャを提案する。 その結果,本アーキテクチャは,大域ハール・ランダムボゾンサンプリング回路に類似し,浅層領域における平均硬さ特性の可能性を示すことが示唆された。 この結果は、対応するアーキテクチャが浅いボソンサンプリングでスケーラブルな量子超越性に利用される可能性を示唆している。

Boson sampling is a sampling task proven to be hard to simulate efficiently using classical computers under plausible assumptions, which makes it an appealing candidate for quantum supremacy. However, due to a large noise rate for near-term quantum devices, it is still unclear whether those noisy devices maintain the quantum advantage for much larger quantum systems. Since the noise rate typically grows with the circuit depth, an alternative is to find evidence of simulation hardness at the shallow-depth quantum circuit. To find the evidence, one way is to identify the minimum depth required for the average-case hardness of approximating output probabilities, which is considered a necessary condition for the state-of-the-art technique to prove the simulation hardness of boson sampling. In this work, we analyze the output probability distribution of shallow-depth boson sampling for Fock-states and Gaussian states, and examine the limitation of the average-case hardness argument at this shallow-depth regime for geometrically local architectures. We propose a shallow-depth linear optical circuit architecture that can overcome the problems associated with geometrically local architectures. Our numerical results suggest that this architecture demonstrates possibilities of average-case hardness properties in a shallow-depth regime, through its resemblance to the global Haar-random boson sampling circuit. This result implies that the corresponding architecture has the potential to be utilized for scalable quantum supremacy with its shallow-depth boson sampling.
翻訳日:2023-06-21 19:28:42 公開日:2023-06-19
# 目的数変化を伴う動的多目的最適化のための知識伝達

Knowledge Transfer for Dynamic Multi-objective Optimization with a Changing Number of Objectives ( http://arxiv.org/abs/2306.10668v1 )

ライセンス: Link先を確認
Gan Ruan, Leandro L. Minku, Stefan Menzel, Bernhard Sendhoff and Xin Yao(参考訳) 他の多くの動的多目的最適化問題(DMOP)とは異なり、目的が変化するDMOPは、通常、パレート正面あるいはパレート集合多様体の拡張あるいは収縮をもたらす。 知識伝達は、ある問題インスタンスから別の問題インスタンスを解くために有用な情報を転送できるため、DMOPの解決に使われてきた。 しかし, DMOPの目的が変化している状態遷移アルゴリズムは, フィットネスランドスケープやパレートの前面形状が非分離性, 偽造性, その他の困難な特徴を示す場合, 十分な多様性を欠いている。 そこで本研究では,目的数の増加/減少に対応してパレート集合を拡張/縮小することで,変化後の個体多様性を高めるための知識伝達動的多目的進化アルゴリズム(ktdmoea)を提案する。 これにより、最適化後に優れた収束性と多様性を持つ解集合が得られる。 13のdmopベンチマークを用いた包括的研究により,提案するktdmoeaは,最先端のアルゴリズムと比較して人口多様性の向上に成功し,特に変化の早い環境での最適化が向上していることが示された。

Different from most other dynamic multi-objective optimization problems (DMOPs), DMOPs with a changing number of objectives usually result in expansion or contraction of the Pareto front or Pareto set manifold. Knowledge transfer has been used for solving DMOPs, since it can transfer useful information from solving one problem instance to solve another related problem instance. However, we show that the state-of-the-art transfer algorithm for DMOPs with a changing number of objectives lacks sufficient diversity when the fitness landscape and Pareto front shape present nonseparability, deceptiveness or other challenging features. Therefore, we propose a knowledge transfer dynamic multi-objective evolutionary algorithm (KTDMOEA) to enhance population diversity after changes by expanding/contracting the Pareto set in response to an increase/decrease in the number of objectives. This enables a solution set with good convergence and diversity to be obtained after optimization. Comprehensive studies using 13 DMOP benchmarks with a changing number of objectives demonstrate that our proposed KTDMOEA is successful in enhancing population diversity compared to state-of-the-art algorithms, improving optimization especially in fast changing environments.
翻訳日:2023-06-21 19:28:14 公開日:2023-06-19
# 帰納学習による物体トポロジカル文字獲得

Object Topological Character Acquisition by Inductive Learning ( http://arxiv.org/abs/2306.10664v1 )

ライセンス: Link先を確認
Wei Hui, Liping Yu and Yiran Wei(参考訳) オブジェクトの形状や構造を理解することは、オブジェクト認識にとって非常に重要だが、現在使われている最も一般的なパターン認識方法は、多くのトレーニングデータを必要とする機械学習である。 問題は、この種のオブジェクト指向学習には事前知識が欠けていることだ。 トレーニングデータの量と計算の複雑さは非常に大きいため、学習後に明示的な知識を抽出することは困難である。 これは一般に「理由を知らずにどのように知るか」と呼ばれる。 我々は,少数の肯定的な例に基づいて,物体の形状とその形式的表現の概念的知識を導き出そうとする帰納的学習法を採用した。 オブジェクト認識の実装は、色、エッジ、テクスチャなどの単純な物理的特徴に基づくものではなく、トポロジーのような、安定で永続的で、認識に不可欠な共通の幾何学に基づいていることは明らかである。 本稿では, 対象の骨格(RTS)に基づく地形構造の形式的表現を提案し, 「共通地盤の探索」 の誘導過程を実現する。 本研究は,経験主義から合理主義への物体認識の促進に寄与する。

Understanding the shape and structure of objects is undoubtedly extremely important for object recognition, but the most common pattern recognition method currently used is machine learning, which often requires a large number of training data. The problem is that this kind of object-oriented learning lacks a priori knowledge. The amount of training data and the complexity of computations are very large, and it is hard to extract explicit knowledge after learning. This is typically called "knowing how without knowing why". We adopted a method of inductive learning, hoping to derive conceptual knowledge of the shape of an object and its formal representation based on a small number of positive examples. It is clear that implementing object recognition is not based on simple physical features such as colors, edges, textures, etc., but on their common geometry, such as topologies, which are stable, persistent, and essential to recognition. In this paper, a formal representation of topological structure based on object's skeleton (RTS) was proposed and the induction process of "seeking common ground" is realized. This research helps promote the method of object recognition from empiricism to rationalism.
翻訳日:2023-06-21 19:27:54 公開日:2023-06-19
# あいまいな談話マーカーと絡み合った関係に対する分散マーカー表現

Distributed Marker Representation for Ambiguous Discourse Markers and Entangled Relations ( http://arxiv.org/abs/2306.10658v1 )

ライセンス: Link先を確認
Dongyu Ru, Lin Qiu, Xipeng Qiu, Yue Zhang, Zheng Zhang(参考訳) 談話分析は文書中の文間の内在的な意味構造をモデル化するため、重要なタスクである。 談話マーカーは日常言語における談話の自然な表現である。 1つの課題は、マーカーと事前定義された人ラベルの談話関係が文間の意味論を記述する際に曖昧であることである。 より優れたアプローチは、マーカー上の文脈依存分布を用いて談話情報を表現することであると信じている。 本研究では,(潜在的に)無限の言論マーカーデータを潜在言論感覚で活用し,文対でマーカーをブリッジすることで,分散マーカ表現(DMR)を学習することを提案する。 このような表現は、監視なしでデータから自動的に学習することができ、データ自体への洞察を提供する。 暗黙的談話関係認識タスクにおけるDMRのSOTA性能と強い解釈可能性を示す実験を行った。 提案手法は,対話マーカー間の複雑なあいまいさや絡み合いや,手動で定義した談話関係を理解する上でも有用である。

Discourse analysis is an important task because it models intrinsic semantic structures between sentences in a document. Discourse markers are natural representations of discourse in our daily language. One challenge is that the markers as well as pre-defined and human-labeled discourse relations can be ambiguous when describing the semantics between sentences. We believe that a better approach is to use a contextual-dependent distribution over the markers to express discourse information. In this work, we propose to learn a Distributed Marker Representation (DMR) by utilizing the (potentially) unlimited discourse marker data with a latent discourse sense, thereby bridging markers with sentence pairs. Such representations can be learned automatically from data without supervision, and in turn provide insights into the data itself. Experiments show the SOTA performance of our DMR on the implicit discourse relation recognition task and strong interpretability. Our method also offers a valuable tool to understand complex ambiguity and entanglement among discourse markers and manually defined discourse relations.
翻訳日:2023-06-21 19:27:36 公開日:2023-06-19
# 仮想人間の生成モデル:人間の特性学習のためのマスクモデルアプローチ

Virtual Human Generative Model: Masked Modeling Approach for Learning Human Characteristics ( http://arxiv.org/abs/2306.10656v1 )

ライセンス: Link先を確認
Kenta Oono, Nontawat Charoenphakdee, Kotatsu Bito, Zhengyan Gao, Yoshiaki Ota, Shoichiro Yamaguchi, Yohei Sugawara, Shin-ichi Maeda, Kunihiko Miyoshi, Yuki Saito, Koki Tsuda, Hiroshi Maruyama, Kohei Hayashi(参考訳) 健康属性、ライフスタイル、パーソナリティの関係を特定することは、身体的および精神的な状態の理解と改善に不可欠である。 機械学習のアプローチは、それらの関係をモデル化し、実行可能な提案を提供する。 本稿では,ヘルスケア,ライフスタイル,パーソナリティに関する属性を推定する機械学習モデルであるvirtual human generative model (vhgm)を提案する。 vhgmは、既知の属性の結合分布を学ぶためにマスクモデルで訓練された深い生成モデルである。 不均一な表型データセットを使用して、VHGMは1,800以上の属性を効率的に学習する。 VHGMとその訓練技術の性能を数値的に評価する。 VHGMの概念実証として,医療属性の仮想計測やライフスタイルの仮説検証など,ユーザシナリオを示すいくつかのアプリケーションを提案する。

Identifying the relationship between healthcare attributes, lifestyles, and personality is vital for understanding and improving physical and mental conditions. Machine learning approaches are promising for modeling their relationships and offering actionable suggestions. In this paper, we propose Virtual Human Generative Model (VHGM), a machine learning model for estimating attributes about healthcare, lifestyles, and personalities. VHGM is a deep generative model trained with masked modeling to learn the joint distribution of attributes conditioned on known ones. Using heterogeneous tabular datasets, VHGM learns more than 1,800 attributes efficiently. We numerically evaluate the performance of VHGM and its training techniques. As a proof-of-concept of VHGM, we present several applications demonstrating user scenarios, such as virtual measurements of healthcare attributes and hypothesis verifications of lifestyles.
翻訳日:2023-06-21 19:27:20 公開日:2023-06-19
# 学習インデクシングの分布依存部分対数問合せ時間について

On Distribution Dependent Sub-Logarithmic Query Time of Learned Indexing ( http://arxiv.org/abs/2306.10651v1 )

ライセンス: Link先を確認
Sepanta Zeighami, Cyrus Shahabi(参考訳) データ管理の根本的な問題は、クエリにマッチする配列内の要素を見つけることだ。 近年、この問題を解決するために学習インデックスが広く使われており、配列内のアイテムの位置を予測するモデルを学習している。 これらは、非学習メソッド(例えば、o(\log n)$ time でクエリに応答する b-trees やバイナリ検索)を桁違いに上回っていることが実証的に示されている。 しかし、学習インデックスの成功は理論的に正当化されていない。 既存の試行だけが$O(\log n)$と同じクエリ時間を示しているが、データ分散に関するいくつかの仮定の下で、非学習メソッドよりも空間の複雑さが一定に改善されている。 本稿では,データ分散の軽度な仮定と,非学習手法と同じ空間の複雑さにより,学習インデックスが$O(\log\log n)$予測クエリ時間でクエリに答えられることを示す。 また,少し大きくてもニアリニアな空間のオーバーヘッドを許すことで,学習インデックスが$o(1)$ のクエリ時間を達成できることを示した。 本研究は,学習指標が非学習法よりも桁違いに高速であることを理論的に証明し,その経験的成功を理論的に基礎づけた。

A fundamental problem in data management is to find the elements in an array that match a query. Recently, learned indexes are being extensively used to solve this problem, where they learn a model to predict the location of the items in the array. They are empirically shown to outperform non-learned methods (e.g., B-trees or binary search that answer queries in $O(\log n)$ time) by orders of magnitude. However, success of learned indexes has not been theoretically justified. Only existing attempt shows the same query time of $O(\log n)$, but with a constant factor improvement in space complexity over non-learned methods, under some assumptions on data distribution. In this paper, we significantly strengthen this result, showing that under mild assumptions on data distribution, and the same space complexity as non-learned methods, learned indexes can answer queries in $O(\log\log n)$ expected query time. We also show that allowing for slightly larger but still near-linear space overhead, a learned index can achieve $O(1)$ expected query time. Our results theoretically prove learned indexes are orders of magnitude faster than non-learned methods, theoretically grounding their empirical success.
翻訳日:2023-06-21 19:27:06 公開日:2023-06-19
# モビリティを用いたデータヘテロジェンス階層型連合学習

Data-Heterogeneous Hierarchical Federated Learning with Mobility ( http://arxiv.org/abs/2306.10692v1 )

ライセンス: Link先を確認
Tan Chen, Jintao Yan, Yuxuan Sun, Sheng Zhou, Deniz Gunduz, Zhisheng Niu(参考訳) フェデレーション学習は、プライバシ保存方法で複数のデバイスにまたがる機械学習(ML)モデルの分散トレーニングを可能にする。 階層型連合学習(hfl)はさらに、レイテンシとカバレッジの要件を満たすために提案されている。 本稿では,車載ネットワークを主とする移動性を持つデータヘテロジェンス型hflシナリオについて考察する。 移動性およびデータ不均一性に関して,HFLの収束上限を導出し,HFLの性能にどう影響するかを解析する。 モビリティはコミュニケーションの観点からは課題と見なされているが,本研究の目的はモビリティを利用して,データの多様性の緩和による学習性能の向上である。 シミュレーションの結果,HFLを用いてCIFAR-10データセット上で畳み込みニューラルネットワークをトレーニングした場合,モビリティがモデル精度を最大15.1\%向上することを示す。

Federated learning enables distributed training of machine learning (ML) models across multiple devices in a privacy-preserving manner. Hierarchical federated learning (HFL) is further proposed to meet the requirements of both latency and coverage. In this paper, we consider a data-heterogeneous HFL scenario with mobility, mainly targeting vehicular networks. We derive the convergence upper bound of HFL with respect to mobility and data heterogeneity, and analyze how mobility impacts the performance of HFL. While mobility is considered as a challenge from a communication point of view, our goal here is to exploit mobility to improve the learning performance by mitigating data heterogeneity. Simulation results verify the analysis and show that mobility can indeed improve the model accuracy by up to 15.1\% when training a convolutional neural network on the CIFAR-10 dataset using HFL.
翻訳日:2023-06-21 19:18:01 公開日:2023-06-19
# 長距離相互作用を有するクリーンチェーンにおける多体局在

Many-body Localization in Clean Chains with Long-Range Interactions ( http://arxiv.org/abs/2306.10691v1 )

ライセンス: Link先を確認
Chen Cheng(参考訳) 強い長距離相互作用は、障害のない閉じた量子系の局所化につながる。 完全対角化法を用いて,有限クーロン相互作用を持つ変換不変量子鎖における熱分解と多体局在を数値的に検討した。 すべての自明な退化を除いて、相互作用による局所化は、レベル統計学、固有状態期待値、および多体基底で構築されたグラフ上のアンダーソン局在化の観点でよく示されている。 一般固有状態の局所化の性質は、パワー・ロー相互作用からの準非秩序に起因する。 しかし、実空間対称性のため、長い時間ダイナミクスは退化固有状態によって支配され、最終的に実空間における均質性に達する。 一方、絡み合いエントロピーは、同じ理由から、局所的な状態においても面積則を超えた大きさ依存性を示し、実空間における不完全局在を示す。

The strong long-range interaction leads to localization in the closed quantum system without disorders. Employing the exact diagonalization method, the author numerically investigates thermalization and many-body localization in translational invariant quantum chains with finite Coulomb interactions. In the computational basis, excluding all trivial degeneracies, the interaction-induced localization is well demonstrated in aspects of level statistics, eigenstate expectation values, and the Anderson localization on graphs constructed of the many-body basis. The nature of localization for generic eigenstates is attributed to the quasi-disorder from the power-law interactions. However, due to the real-space symmetries, the long-time dynamics is dominated by the degenerate eigenstates and eventually reach homogeneity in real space. On the other hand, the entanglement entropy exhibits the size-dependence beyond the area law for the same reason, even deep in the localized state, indicating an incomplete localization in real space.
翻訳日:2023-06-21 19:17:45 公開日:2023-06-19
# real restorer: mriモーションアーティファクト除去のためのartifact-free flow restorer(af2r)

Realistic Restorer: artifact-free flow restorer(AF2R) for MRI motion artifact removal ( http://arxiv.org/abs/2306.10689v1 )

ライセンス: Link先を確認
Jiandong Su and Kun Shang and Dong Liang(参考訳) 運動アーティファクトは、画像品質を著しく低下させ、検査効率を低下させ、正確な診断を困難にする磁気共鳴イメージング(MRI)において大きな課題である。 しかし、従来の手法はしばしば人工物補正のための暗黙のモデルに依存しており、その結果、人工物の形成機構をモデル化し、人工物情報と解剖学的詳細との関係を特徴づけるバイアスが生じる。 これらの制限は、高品質のmr画像を得る能力を妨げる。 本研究では,画像領域におけるアーティファクトと解剖学的コンテンツの関係を再構築するアーティファクト生成機構を取り入れ,医学的問題における暗黙のモデルよりも明示的なモデルの優越性を強調した。 そこで本研究では,条件付き正規化フローを用いてこの問題に対処した,新しいエンドツーエンド画像ドメインモデルaf2rを提案する。 具体的には,まず,動画像から解剖学的特徴を抽出する特徴エンコーダを設計する。 そして,特徴対像フローモジュールを用いた一連の可逆変換により,動画像の影響を受けないMR画像を得る。 シミュレーションおよび実データを用いた実験により, 定量的, 質的ともに良好な性能を得られ, 解剖学的詳細が保たれることを示した。

Motion artifact is a major challenge in magnetic resonance imaging (MRI) that severely degrades image quality, reduces examination efficiency, and makes accurate diagnosis difficult. However, previous methods often relied on implicit models for artifact correction, resulting in biases in modeling the artifact formation mechanism and characterizing the relationship between artifact information and anatomical details. These limitations have hindered the ability to obtain high-quality MR images. In this work, we incorporate the artifact generation mechanism to reestablish the relationship between artifacts and anatomical content in the image domain, highlighting the superiority of explicit models over implicit models in medical problems. Based on this, we propose a novel end-to-end image domain model called AF2R, which addresses this problem using conditional normalization flow. Specifically, we first design a feature encoder to extract anatomical features from images with motion artifacts. Then, through a series of reversible transformations using the feature-to-image flow module, we progressively obtain MR images unaffected by motion artifacts. Experimental results on simulated and real datasets demonstrate that our method achieves better performance in both quantitative and qualitative results, preserving better anatomical details.
翻訳日:2023-06-21 19:17:30 公開日:2023-06-19
# 反応型・特徴型・関係型知識蒸留のカテゴリ

Categories of Response-Based, Feature-Based, and Relation-Based Knowledge Distillation ( http://arxiv.org/abs/2306.10687v1 )

ライセンス: Link先を確認
Chuanguang Yang, Xinqiang Yu, Zhulin An, Yongjun Xu(参考訳) ディープニューラルネットワークは、人工知能のタスクで素晴らしいパフォーマンスを達成した。 インテリジェントシステムの成功は、しばしば計算複雑性とストレージコストの高い大規模モデルに依存している。 オーバーパラメータネットワークは最適化が容易で、パフォーマンスが向上することが多い。 しかし、リソース限定のエッジデバイスにデプロイすることは困難である。 知識蒸留(KD)は、過パラメータトレーニングの観点から軽量ネットワークを最適化することを目的としている。 従来のオフラインKDは、面倒な教師からの知識を、小さくて速い学生ネットワークに転送する。 大規模な事前学習型教員ネットワークが利用できない場合、オンラインKDは協調学習や相互学習によってモデル群を改善することができる。 追加のモデルを必要とせずに、Self-KDはネットワーク自体を補助アーキテクチャーで強化する。 KDは主にこれらの2つの側面の知識抽出と蒸留戦略を含んでいる。 KDスキーム以外にも、マルチ教師KD、クロスモーダルKD、アテンションベースKD、データフリーKD、逆KDといった様々なKDアルゴリズムが実用用途で広く利用されている。 本稿では,知識カテゴリ,蒸留スキーム,アルゴリズム,および性能比較に関する実証的研究を含む総合的なKD調査を提供する。 最後に,既存のkdワークのオープンな課題と今後の方向性について考察する。

Deep neural networks have achieved remarkable performance for artificial intelligence tasks. The success behind intelligent systems often relies on large-scale models with high computational complexity and storage costs. The over-parameterized networks are often easy to optimize and can achieve better performance. However, it is challenging to deploy them over resource-limited edge-devices. Knowledge Distillation (KD) aims to optimize a lightweight network from the perspective of over-parameterized training. The traditional offline KD transfers knowledge from a cumbersome teacher to a small and fast student network. When a sizeable pre-trained teacher network is unavailable, online KD can improve a group of models by collaborative or mutual learning. Without needing extra models, Self-KD boosts the network itself using attached auxiliary architectures. KD mainly involves knowledge extraction and distillation strategies these two aspects. Beyond KD schemes, various KD algorithms are widely used in practical applications, such as multi-teacher KD, cross-modal KD, attention-based KD, data-free KD and adversarial KD. This paper provides a comprehensive KD survey, including knowledge categories, distillation schemes and algorithms, as well as some empirical studies on performance comparison. Finally, we discuss the open challenges of existing KD works and prospect the future directions.
翻訳日:2023-06-21 19:17:08 公開日:2023-06-19
# オーディオ・ビジュアル予測符号化による音源分離

Visually-Guided Sound Source Separation with Audio-Visual Predictive Coding ( http://arxiv.org/abs/2306.10684v1 )

ライセンス: Link先を確認
Zengjie Song and Zhaoxiang Zhang(参考訳) 視覚誘導音源分離の枠組みは一般的に視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分から構成される。 この分野で現在進行中のトレンドは、インフォメーションビジュアルガイダンスのための視覚特徴抽出器と、機能融合のためのモジュールを別々に考案し、音響分析にデフォルトでu-netを使用していることである。 しかし、この分割・対数パラダイムはパラメータ非効率であり、また、様々なモデルコンポーネントの協調最適化と調和が課題となるため、最適以下の性能が得られる可能性がある。 対照的に,本論文では,この課題を効率的に,より効果的に処理するための新しい手法として,avpc(audio-visual prediction coding)を提案する。 avpcのネットワークは、セマンティックな視覚的特徴を導出するシンプルなresnetベースのビデオ分析ネットワークと、オーディオ特徴を抽出し、マルチモーダル情報を融合し、同じアーキテクチャで音声分離マスクを予測できる予測符号化ベースの音声分離ネットワークを備えている。 特徴間の予測誤差を反復的に最小化することにより、AVPCは音声と視覚情報を再帰的に統合し、徐々に性能が向上する。 また,同じ音源の2つの視聴覚表現を共同予測することで,avpcの有効な自己教師付き学習戦略を開発した。 AVPCは楽器の音を分離する際のいくつかのベースラインよりも優れており、モデルサイズは大幅に小さくなっている。 コードは、https://github.com/zjsong/Audio-Visual-Predictive-Coding.comで入手できる。

The framework of visually-guided sound source separation generally consists of three parts: visual feature extraction, multimodal feature fusion, and sound signal processing. An ongoing trend in this field has been to tailor involved visual feature extractor for informative visual guidance and separately devise module for feature fusion, while utilizing U-Net by default for sound analysis. However, such divide-and-conquer paradigm is parameter inefficient and, meanwhile, may obtain suboptimal performance as jointly optimizing and harmonizing various model components is challengeable. By contrast, this paper presents a novel approach, dubbed audio-visual predictive coding (AVPC), to tackle this task in a parameter efficient and more effective manner. The network of AVPC features a simple ResNet-based video analysis network for deriving semantic visual features, and a predictive coding-based sound separation network that can extract audio features, fuse multimodal information, and predict sound separation masks in the same architecture. By iteratively minimizing the prediction error between features, AVPC integrates audio and visual information recursively, leading to progressively improved performance. In addition, we develop a valid self-supervised learning strategy for AVPC via co-predicting two audio-visual representations of the same sound source. Extensive evaluations demonstrate that AVPC outperforms several baselines in separating musical instrument sounds, while reducing the model size significantly. Code is available at: https://github.com/zjsong/Audio-Visual-Predictive-Coding.
翻訳日:2023-06-21 19:16:50 公開日:2023-06-19
# 相反的適応を伴う空間-時間グラフ学習

Spatial-Temporal Graph Learning with Adversarial Contrastive Adaptation ( http://arxiv.org/abs/2306.10683v1 )

ライセンス: Link先を確認
Qianru Zhang and Chao Huang and Lianghao Xia and Zheng Wang and Siuming Yiu and Ruihua Han(参考訳) 空間-時間グラフ学習は、犯罪予測や交通流予測のような様々な都市センシングタスクのための構造化空間-時間データのモデリングと学習領域表現のための有望なソリューションとして登場した。 しかし、既存のモデルのほとんどは、不正確なグラフ構造情報集約スキーマのため、生成された領域グラフの品質に弱い。 実生活シナリオにおけるユビキタスな空間-時間的データノイズと不完全性は、高品質な領域表現を生成する上で課題となる。 この課題に対処するために,効率的な自己教師付き学習を実現するための空間時空間グラフ学習モデル(GraphST)を提案する。 提案手法は, 空間時間グラフ強化のための重要な多視点自己教師情報の蒸留を自動化する, 対向的コントラスト学習パラダイムである。 我々は,graphstに適応的にハードサンプルを同定させ,自己視性を高め,表現識別能力とロバスト性を高めた。 さらに,ビュー固有の領域表現の相互依存性をモデル化し,その基礎となる関係性を維持するために,クロスビューコントラスト学習パラダイムを導入する。 実生活データセット上での様々な時空間予測タスクにおいて,提案手法の優位性を示す。 私たちは、以下のリンクを通じてモデル実装をリリースします。

Spatial-temporal graph learning has emerged as a promising solution for modeling structured spatial-temporal data and learning region representations for various urban sensing tasks such as crime forecasting and traffic flow prediction. However, most existing models are vulnerable to the quality of the generated region graph due to the inaccurate graph-structured information aggregation schema. The ubiquitous spatial-temporal data noise and incompleteness in real-life scenarios pose challenges in generating high-quality region representations. To address this challenge, we propose a new spatial-temporal graph learning model (GraphST) for enabling effective self-supervised learning. Our proposed model is an adversarial contrastive learning paradigm that automates the distillation of crucial multi-view self-supervised information for robust spatial-temporal graph augmentation. We empower GraphST to adaptively identify hard samples for better self-supervision, enhancing the representation discrimination ability and robustness. In addition, we introduce a cross-view contrastive learning paradigm to model the inter-dependencies across view-specific region representations and preserve underlying relation heterogeneity. We demonstrate the superiority of our proposed GraphST method in various spatial-temporal prediction tasks on real-life datasets. We release our model implementation via the link: \url{https://github.com/HKUDS/GraphST}.
翻訳日:2023-06-21 19:16:23 公開日:2023-06-19
# 複数の量子エミッタからの単一光子放出における暗黒状態誘起トラップ則

Dark-state induced trapping law in single-photon emission from multiple quantum emitters ( http://arxiv.org/abs/2306.10682v1 )

ライセンス: Link先を確認
Lei Qiao, Jiangbin Gong(参考訳) 導波路系における単一光子集団力学を有限帯域の光子チャネルと量子エミッタのアンサンブルからなる導波路系で検討する。 これらの量子エミッタの体積の大きさは、放射光子の波長と比較すると無視できる。 wigner-weisskopf と markovian 理論を超越した解析計算に基づいて,励起エミッタの時間発展に対する厳密な解を集合効果で提示する。 光子-エミッタ結合状態によるトラップ効果とは異なり、系内の暗黒状態はボソニック浴と光子とエミッターの結合強度とは無関係に普遍的なトラップ挙動をもたらすことが判明した。 その代わり、トラップは初期励起エミッタの数と総エミッタ数のみによって決定される。 このようなトラップ法則は、システム内に複数のタイプのエミッタが存在する場合でも持続可能であることを示す。 この結果から,励起エミッタの数がシステム内のエミッタの総数よりはるかに少ない場合,単一光子集合放出が強く抑制される可能性が示唆された。

We study the single-photon collective dynamics in a waveguide system consisting of the photon channel with a finite bandwidth and an ensemble of quantum emitters. The size of the volume of these quantum emitters is ignorable when compared with the wavelength of the radiation photons. Based on the analytical calculations beyond the Wigner-Weisskopf and Markovian theories, we present exact solutions to the time evolution of the excited emitters with collective effects. Different from the trapping effect caused by photon-emitter bound states, we find that the dark states in the systems lead to a universal trapping behavior independent of the bosonic bath and the coupling strength between photons and emitters. Instead, the trapping is solely determined by the number of initially excited emitters and the total number of emitters. We demonstrate that such a trapping law can persist even when there are more than one type of emitters in the system. Our findings lead to the prediction that single-photon collective emissions can be strongly suppressed if the number of excited emitters is much less than the total number of emitters in the system.
翻訳日:2023-06-21 19:16:05 公開日:2023-06-19
# LVVC: 効率的なヒューマン・マシンビジョンのための学習型ビデオ符号化フレームワーク

LVVC: A Learned Versatile Video Coding Framework for Efficient Human-Machine Vision ( http://arxiv.org/abs/2306.10681v1 )

ライセンス: Link先を確認
Xihua Sheng, Li Li, Dong Liu, Houqiang Li(参考訳) ほとんど全てのデジタルビデオは送信前にコンパクトな表現に符号化される。 このようなコンパクトな表現は、マシンビジョンアルゴリズムによって処理/分析される前に、人間が表示する前にピクセルにデコードする必要がある。 マシンビジョンでは、少なくとも概念的には、コード化された表現を直接ピクセルにデコードすることなく処理/分析することがより効率的である。 この概念に触発された学習多目的ビデオ符号化(LVVC)フレームワークは、デコードと直接処理/分析の両方をサポートするコンパクト表現の学習を目標とし、人間と機械の視覚の両方に汎用性を持たせる。 我々のLVVCフレームワークは機能ベースの圧縮ループを持ち、1つのフレームを中間機能に符号化(復号化)し、中間機能を参照して次のフレームを符号化(復号化)する。 提案する特徴ベースの圧縮ループには,特徴ベースの時間的コンテキストマイニングとクロスドメインモーションエンコーダ/デコーダという2つの重要な技術がある。 LVVCフレームワークでは、中間機能を使ってビデオを再構成したり、異なるタスクネットワークに入力したりすることができる。 LVVCフレームワークは、十分に確立されたベンチマークデータセット上で、ビデオ再構成、ビデオ処理、およびビデオ解析タスクを用いて実装され、評価される。 評価結果は,提案したLVVCフレームワークの圧縮効率を示す。

Almost all digital videos are coded into compact representations before being transmitted. Such compact representations need to be decoded back to pixels before being displayed to human and - as usual - before being processed/analyzed by machine vision algorithms. For machine vision, it is more efficient at least conceptually, to process/analyze the coded representations directly without decoding them into pixels. Motivated by this concept, we propose a learned versatile video coding (LVVC) framework, which targets on learning compact representations to support both decoding and direct processing/analysis, thereby being versatile for both human and machine vision. Our LVVC framework has a feature-based compression loop, where one frame is encoded (resp. decoded) to intermediate features, and the intermediate features are referenced for encoding (resp. decoding) the following frames. Our proposed feature-based compression loop has two key technologies, one is feature-based temporal context mining, and the other is cross-domain motion encoder/decoder. With the LVVC framework, the intermediate features may be used to reconstruct videos, or be fed into different task networks. The LVVC framework is implemented and evaluated with video reconstruction, video processing, and video analysis tasks on the well-established benchmark datasets. The evaluation results demonstrate the compression efficiency of the proposed LVVC framework.
翻訳日:2023-06-21 19:15:45 公開日:2023-06-19
# ロバスト・ホロスティック・マンモグラム分類のためのデュアルビュー相関ハイブリッドアテンションネットワーク

Dual-view Correlation Hybrid Attention Network for Robust Holistic Mammogram Classification ( http://arxiv.org/abs/2306.10676v1 )

ライセンス: Link先を確認
Zhiwei Wang, Junlin Xian, Kangyi Liu, Xin Li, Qiang Li, Xin Yang(参考訳) マンモグラフィー画像は乳癌検診において重要であり、典型的には二重視形態、すなわち頭蓋・頭蓋(CC)と側方斜視(MLO)で得られ、相補的な情報を提供する。 しかし,従来の手法は,臨床知識に反し,二重視点相関の重要性を無視する2つの視点から特徴を独立に学習する。 本稿では,頑健なマンモグラム分類のための二重視点相関型ハイブリットアテンションネットワーク(DCHA-Net)を提案する。 具体的には、dcha-netは2つのビューの深い機能を抽出し、再発明するために慎重に設計されている。 局所的関係と非局所的注意ブロックからなるハイブリッド注意モジュールを提案し,相関最大化における対の視点の空間的不一致を緩和する。 胸壁と等距離の帯状領域間の特徴の類似性を最大化するために,両眼相関損失が導入された。 2つの公開データセット、すなわちinbreastとcbis-ddsmの実験結果は、dcha-netがビュー間の特徴相関を保存し最大化できることを示し、その結果、マンモグラム全体を悪性かどうかを分類する最先端技術を上回る。

Mammogram image is important for breast cancer screening, and typically obtained in a dual-view form, i.e., cranio-caudal (CC) and mediolateral oblique (MLO), to provide complementary information. However, previous methods mostly learn features from the two views independently, which violates the clinical knowledge and ignores the importance of dual-view correlation. In this paper, we propose a dual-view correlation hybrid attention network (DCHA-Net) for robust holistic mammogram classification. Specifically, DCHA-Net is carefully designed to extract and reinvent deep features for the two views, and meanwhile to maximize the underlying correlations between them. A hybrid attention module, consisting of local relation and non-local attention blocks, is proposed to alleviate the spatial misalignment of the paired views in the correlation maximization. A dual-view correlation loss is introduced to maximize the feature similarity between corresponding strip-like regions with equal distance to the chest wall, motivated by the fact that their features represent the same breast tissues, and thus should be highly-correlated. Experimental results on two public datasets, i.e., INbreast and CBIS-DDSM, demonstrate that DCHA-Net can well preserve and maximize feature correlations across views, and thus outperforms the state-of-the-arts for classifying a whole mammogram as malignant or not.
翻訳日:2023-06-21 19:15:21 公開日:2023-06-19
# LaDe:業界初の総合的最終マイル配送データセット

LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry ( http://arxiv.org/abs/2306.10675v1 )

ライセンス: Link先を確認
Lixia Wu, Haomin Wen, Haoyuan Hu, Xiaowei Mao, Yutong Xia, Ergang Shan, Jianbin Zhen, Junhong Lou, Yuxuan Liang, Liuqing Yang, Roger Zimmermann, Youfang Lin, Huaiyu Wan(参考訳) 実世界のラストマイル配送データセットは、ロジスティクス、サプライチェーン管理、時空間データマイニングの研究に不可欠である。 これまで多くのアルゴリズムが開発されてきたが、この分野の研究を支援するために広く受け入れられたラストマイル配送データセットは存在しない。 本稿では,業界から数百万のパッケージを投入した最初の公開ラストマイル配送データセットである‘texttt{LaDe}’を紹介する。 LaDeには3つの特徴がある。 実世界の運用には6ヶ月で10,677k個の21kクーリエのパッケージが含まれる。 2)総合的な情報。 ロケーションや時間要件といった独自のパッケージ情報に加えて,タスクの受け入れやタスクフィニッシュイベントなどのイベントがいつ,どこで発生したかを記録するタスクイベント情報も提供する。 (3)多様性。 データセットにはパッケージのピックアップや配送など,さまざまなシナリオからのデータや,複数の都市からのデータが含まれています。 タスク毎に複数の古典的なベースラインモデルを実行することで、LaDeを3つのタスクで検証する。 ladeの大規模で包括的で多様な機能は、サプライチェーンコミュニティやデータマイニングコミュニティなどの研究者に、別途の機会を提供することができると考えています。 datasetのホームページはhttps://huggingface.co/datasets/cainiao-ai/ladeで公開されている。

Real-world last-mile delivery datasets are crucial for research in logistics, supply chain management, and spatio-temporal data mining. Despite a plethora of algorithms developed to date, no widely accepted, publicly available last-mile delivery dataset exists to support research in this field. In this paper, we introduce \texttt{LaDe}, the first publicly available last-mile delivery dataset with millions of packages from the industry. LaDe has three unique characteristics: (1) Large-scale. It involves 10,677k packages of 21k couriers over 6 months of real-world operation. (2) Comprehensive information. It offers original package information, such as its location and time requirements, as well as task-event information, which records when and where the courier is while events such as task-accept and task-finish events happen. (3) Diversity. The dataset includes data from various scenarios, including package pick-up and delivery, and from multiple cities, each with its unique spatio-temporal patterns due to their distinct characteristics such as populations. We verify LaDe on three tasks by running several classical baseline models per task. We believe that the large-scale, comprehensive, diverse feature of LaDe can offer unparalleled opportunities to researchers in the supply chain community, data mining community, and beyond. The dataset homepage is publicly available at https://huggingface.co/datasets/Cainiao-AI/LaDe.
翻訳日:2023-06-21 19:14:54 公開日:2023-06-19
# コントラスト局在を用いたロバスト欠陥検出

Robust Defect Detection with Contrastive Localization ( http://arxiv.org/abs/2306.10720v1 )

ライセンス: Link先を確認
Jiang Lin and Yaping yan(参考訳) 欠陥検出は、正常分布から領域を検出し、ローカライズすることを目的としている。 それまでの研究は、欠陥領域を特定するために正規性をモデル化することに頼っていた。 本稿では,モデルプロセスなしで欠陥パターンを直接検出する一段階フレームワークを提案する。 この能力は、生成的敵ネットワーク(gan)、新しく提案されたスケールドパターン損失、動的マスク付きサイクル一貫性補助ネットワークの3つの組み合わせによって採用されている。 直接マッピングを学ぶのを避けるために、欠陥の位置を示す明示的な情報は意図的に除外される。 挑戦的なmvtec adデータセットのテクスチャクラスにおける実験結果から,提案手法はf1-scoreのsota法よりも2.9\%高い値を示した。

Defect detection aims to detect and localize regions out of the normal distribution. Previous works rely on modeling the normality to identify the defective regions, which may lead to non-ideal generalizability. This paper proposed a one-stage framework that detects defective patterns directly without the modeling process. This ability is adopted through the joint efforts of three parties: a generative adversarial network (GAN), a newly proposed scaled pattern loss, and a dynamic masked cycle-consistent auxiliary network. Explicit information that could indicate the position of defects is intentionally excluded to avoid learning any direct mapping. Experimental results on the texture class of the challenging MVTec AD dataset show that the proposed method is 2.9\% higher than the SOTA methods in F1-Score, while substantially outperforming SOTA methods in generalizability.
翻訳日:2023-06-21 19:07:26 公開日:2023-06-19
# 最大エントロピー不均質ミラー学習

Maximum Entropy Heterogeneous-Agent Mirror Learning ( http://arxiv.org/abs/2306.10715v1 )

ライセンス: Link先を確認
Jiarong Liu, Yifan Zhong, Siyi Hu, Haobo Fu, Qiang Fu, Xiaojun Chang, Yaodong Yang(参考訳) 近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。 しかしながら、既存の最先端の手法では、サンプルの非効率性、ハイパーパラメータに関する脆性、および準最適ナッシュ平衡への収束の危険性に関する課題に直面している。 本稿では,この問題を解決するために,最大エントロピー不均質エージェントミラー学習(mehaml)という,最大エントロピー原理を活用し,最大エントロピーマールアクタ-クリティックアルゴリズムを設計する新しい理論的枠組みを提案する。 我々は,MEHAMLフレームワークから派生したアルゴリズムが,結合最大エントロピー目標の単調改善と量子応答平衡(QRE)への収束の望ましい特性を享受できることを証明した。 MEHAMLの実用性は、広く使われているRLアルゴリズムであるHASAC(ソフトアクター・クリティカル)のMEHAML拡張を開発することで実証され、Multi-Agent MuJoCo、StarCraftII、Google Research Footballの3つの挑戦的ベンチマークにおいて、探索と堅牢性に大きな改善が示されている。 以上の結果から,HASACはHATD3,HAPPO,QMIX,MAPPOといった強力なベースライン手法よりも優れており,新たな技術が確立された。 プロジェクトページはhttps://sites.google.com/view/mehaml。

Multi-agent reinforcement learning (MARL) has been shown effective for cooperative games in recent years. However, existing state-of-the-art methods face challenges related to sample inefficiency, brittleness regarding hyperparameters, and the risk of converging to a suboptimal Nash Equilibrium. To resolve these issues, in this paper, we propose a novel theoretical framework, named Maximum Entropy Heterogeneous-Agent Mirror Learning (MEHAML), that leverages the maximum entropy principle to design maximum entropy MARL actor-critic algorithms. We prove that algorithms derived from the MEHAML framework enjoy the desired properties of the monotonic improvement of the joint maximum entropy objective and the convergence to quantal response equilibrium (QRE). The practicality of MEHAML is demonstrated by developing a MEHAML extension of the widely used RL algorithm, HASAC (for soft actor-critic), which shows significant improvements in exploration and robustness on three challenging benchmarks: Multi-Agent MuJoCo, StarCraftII, and Google Research Football. Our results show that HASAC outperforms strong baseline methods such as HATD3, HAPPO, QMIX, and MAPPO, thereby establishing the new state of the art. See our project page at https://sites.google.com/view/mehaml.
翻訳日:2023-06-21 19:07:12 公開日:2023-06-19
# 有効強化学習のための一般化と塑性の強化

Enhancing Generalization and Plasticity for Sample Efficient Reinforcement Learning ( http://arxiv.org/abs/2306.10711v1 )

ライセンス: Link先を確認
Hojoon Lee, Hanseul Cho, Hyunseung Kim, Daehoon Gwak, Joonkee Kim, Jaegul Choo, Se-Young Yun, Chulhee Yun(参考訳) 強化学習(RL)では、特にデータ取得が高価でリスクの高いシナリオにおいて、サンプル効率の向上が不可欠である。 原則として、オフポリシーrlアルゴリズムは、環境インタラクション毎に複数の更新を可能にすることにより、サンプル効率を向上させることができる。 しかし、これらの複数の更新はしばしば過度に適合し、ネットワークが新しいデータに適応する能力を低下させる。 この課題を実証分析し, 一般化性と可塑性がモデルの適応性を改善する上で異なる役割を担っていることを見出した。 そこで本研究では,Sharpness-Aware Minimization (SAM) とリセット機構の併用を提案する。 SAMは、広範囲で滑らかなミニマムを求め、一般化を改善し、リセット機構は、最後の数層の周期的再初期化を通じて、モデルに塑性を一貫して注入する。 本研究では,Atari-100kベンチマークとDeepMind Control Suiteベンチマークのサンプル効率と計算コストの向上を実証した。

In Reinforcement Learning (RL), enhancing sample efficiency is crucial, particularly in scenarios when data acquisition is costly and risky. In principle, off-policy RL algorithms can improve sample efficiency by allowing multiple updates per environment interaction. However, these multiple updates often lead to overfitting, which decreases the network's ability to adapt to new data. We conduct an empirical analysis of this challenge and find that generalizability and plasticity constitute different roles in improving the model's adaptability. In response, we propose a combined usage of Sharpness-Aware Minimization (SAM) and a reset mechanism. SAM seeks wide, smooth minima, improving generalization, while the reset mechanism, through periodic reinitialization of the last few layers, consistently injects plasticity into the model. Through extensive empirical studies, we demonstrate that this combined usage improves sample efficiency and computational cost on the Atari-100k and DeepMind Control Suite benchmarks.
翻訳日:2023-06-21 19:06:45 公開日:2023-06-19
# マルチスケール流体シミュレーションにおける隠れ変数の機械学習

Machine learning of hidden variables in multiscale fluid simulation ( http://arxiv.org/abs/2306.10709v1 )

ライセンス: Link先を確認
Archis S. Joglekar and Alexander G. R. Thomas(参考訳) 流体力学の方程式を解くには、マイクロフィジカルの欠如を考慮した閉包関係の使用がしばしば必要となる。 例えば、レイノルズ数が大きい系の流体力学に関する方程式を解くと、サブグリッド効果が重要となり、乱流閉包が必要となり、クヌーゼン数が大きい系では、運動効果が重要となり、動力学的閉包が必要となる。 閉包関係を必要とする量の成長と輸送を規定する方程式を加えることで、空間や時間において非局所的な「隠れ変数」を導入することで、微小物理学を捉えることができる。 流体条件に対する「隠れた変数」の振る舞いは、全ての微小物理学を含む高い忠実度またはab-initioモデルから学べる。 本研究では,エンド・ツー・エンドの微分可能である偏微分方程式シミュレータを用いて,実地シミュレーションに対する疑似配置ニューラルネットワークのトレーニングを行う。 この手法により, ボルツマン型方程式シミュレータ(Vlasov や Particle-In-Cell など)でのみモデル化できる非線形で大規模なクヌーゼン数プラズマ物理学を再現できることを示す。

Solving fluid dynamics equations often requires the use of closure relations that account for missing microphysics. For example, when solving equations related to fluid dynamics for systems with a large Reynolds number, sub-grid effects become important and a turbulence closure is required, and in systems with a large Knudsen number, kinetic effects become important and a kinetic closure is required. By adding an equation governing the growth and transport of the quantity requiring the closure relation, it becomes possible to capture microphysics through the introduction of ``hidden variables'' that are non-local in space and time. The behavior of the ``hidden variables'' in response to the fluid conditions can be learned from a higher fidelity or ab-initio model that contains all the microphysics. In our study, a partial differential equation simulator that is end-to-end differentiable is used to train judiciously placed neural networks against ground-truth simulations. We show that this method enables an Euler equation based approach to reproduce non-linear, large Knudsen number plasma physics that can otherwise only be modeled using Boltzmann-like equation simulators such as Vlasov or Particle-In-Cell modeling.
翻訳日:2023-06-21 19:06:28 公開日:2023-06-19
# FDNet: 効率的でロバストで実用的な時系列予測のためのFDNet

FDNet: Focal Decomposed Network for Efficient, Robust and Practical Time Series Forecasting ( http://arxiv.org/abs/2306.10703v1 )

ライセンス: Link先を確認
Li Shen, Yuning Wei, Yangzhu Wang, Huaxin Qiu(参考訳) 本稿では,FDNet: A Focal Decomposed Network for efficient, robust and practical time series forecastingを提案する。 我々は、入力シーケンスの普遍的特徴写像から予測結果を得る従来のディープ時系列予測式から分離する。 これとは対照的に、FDNetは入力要素の普遍的相関を無視し、入力シーケンスからきめ細かい局所的特徴のみを抽出する。 1) 入力列の細粒度局所特徴マップのみを用いた深部時系列予測が理論的に実現可能であることを示す。 2)グローバルな粗い特徴マップを捨てることで,FDNetは実世界のアプリケーションに共通する時系列の動的変化に起因する分散シフト問題を克服する。 (3)FDNetは、基本的自己回帰を除いて時系列の帰納バイアスに依存せず、汎用的で実用的である。 さらに,Long Sequence Time Series Input (LSTI) 問題に直面する場合,入力シーケンスを効率よく,堅牢な予測のために,焦点方式で分解する焦点入力シーケンス分解法を提案する。 FDNetは6つの実世界のベンチマークで競合予測性能を達成し、他の13のSOTAベースラインと比較して平均38.4%の予測MSEを削減した。 ソースコードはhttps://github.com/OrigamiSL/FDNetで入手できる。

This paper presents FDNet: a Focal Decomposed Network for efficient, robust and practical time series forecasting. We break away from conventional deep time series forecasting formulas which obtain prediction results from universal feature maps of input sequences. In contrary, FDNet neglects universal correlations of input elements and only extracts fine-grained local features from input sequence. We show that: (1) Deep time series forecasting with only fine-grained local feature maps of input sequence is feasible upon theoretical basis. (2) By abandoning global coarse-grained feature maps, FDNet overcomes distribution shift problem caused by changing dynamics of time series which is common in real-world applications. (3) FDNet is not dependent on any inductive bias of time series except basic auto-regression, making it general and practical. Moreover, we propose focal input sequence decomposition method which decomposes input sequence in a focal manner for efficient and robust forecasting when facing Long Sequence Time series Input (LSTI) problem. FDNet achieves competitive forecasting performances on six real-world benchmarks and reduces prediction MSE by 38.4% on average compared with other thirteen SOTA baselines. The source code is available at https://github.com/OrigamiSL/FDNet.
翻訳日:2023-06-21 19:06:09 公開日:2023-06-19
# 摂動型2段階多ドメインアクティブラーニング

Perturbation-Based Two-Stage Multi-Domain Active Learning ( http://arxiv.org/abs/2306.10700v1 )

ライセンス: Link先を確認
Rui He, Zeyu Dai, Shan He, Ke Tang(参考訳) マルチドメイン学習(MDL)のシナリオでは、さまざまなドメインからデータを集めるのが複雑になるため、高いラベル付けが求められる。 アクティブラーニング(AL)は、少数の高情報インスタンスをアノテートすることで、この問題に対する奨励的な解決策を示し、ラベル付けの労力を削減します。 従来,MDLシナリオの従来のAL戦略は,選択手順中に各インスタンスのドメイン共有情報を活用できなかった。 この問題を軽減するために, ASP-MTLモデルに組み込んだ新しい摂動型2段階多分野アクティブラーニング手法を提案する。 具体的には、p2s-mdalは、ドメインの予算を割り当て、多様性選択のための領域を確立することを含む。 モデルの共有特徴抽出器のロバスト性を評価するために摂動距離を導入し、潜在的にクロスドメインな影響のあるサンプルの同定を容易にする。 テキストと画像の両方を包含する3つの実世界のデータセットで実験を行う。 従来のAL戦略よりも優れた性能は,提案戦略の有効性を示す。 さらに, 各成分の妥当性を示すためのアブレーション試験が実施されている。 最後に,今後のmdal研究への興味をそそる可能性について概説する。

In multi-domain learning (MDL) scenarios, high labeling effort is required due to the complexity of collecting data from various domains. Active Learning (AL) presents an encouraging solution to this issue by annotating a smaller number of highly informative instances, thereby reducing the labeling effort. Previous research has relied on conventional AL strategies for MDL scenarios, which underutilize the domain-shared information of each instance during the selection procedure. To mitigate this issue, we propose a novel perturbation-based two-stage multi-domain active learning (P2S-MDAL) method incorporated into the well-regarded ASP-MTL model. Specifically, P2S-MDAL involves allocating budgets for domains and establishing regions for diversity selection, which are further used to select the most cross-domain influential samples in each region. A perturbation metric has been introduced to evaluate the robustness of the shared feature extractor of the model, facilitating the identification of potentially cross-domain influential samples. Experiments are conducted on three real-world datasets, encompassing both texts and images. The superior performance over conventional AL strategies shows the effectiveness of the proposed strategy. Additionally, an ablation study has been carried out to demonstrate the validity of each component. Finally, we outline several intriguing potential directions for future MDAL research, thus catalyzing the field's advancement.
翻訳日:2023-06-21 19:05:48 公開日:2023-06-19
# 3次元物体検出のための車両運動予測とフレーム融合

Frame Fusion with Vehicle Motion Prediction for 3D Object Detection ( http://arxiv.org/abs/2306.10699v1 )

ライセンス: Link先を確認
Xirui Li, Feng Wang, Naiyan Wang, Chao Ma(参考訳) LiDARベースの3D検出では、履歴点雲は将来の予測に役立つ豊富な時間情報を含む。 同様に、履歴検出は将来の検出に寄与すべきである。 本稿では,歴史フレームを融合させて3次元物体検出結果を改善する検出拡張手法であるFrameFusionを提案する。 フレームフュージョンでは、履歴フレームを現在のフレームに'フォワード'し、密結合ボックスに重み付き非最大抑制を適用して融合ボックスを備えた融合フレームを得る。 フレームを'フォワード'するために、車体運動モデルを用いて境界ボックスの将来のポーズを推定する。 しかし、一般的に使用される定速度モデルは、旋回車では自然に失敗するため、この問題に対処するために2つの車両運動モデルを検討する。 Waymo Open Dataset上では, FrameFusion法は, 車両レベル2のAPHを無視できるレイテンシで, 様々な3D検出器の性能を継続的に向上し, 時間融合法MPPNetの性能をわずかに向上させる。 また,運動モデル選択に関する広範な実験を行った。

In LiDAR-based 3D detection, history point clouds contain rich temporal information helpful for future prediction. In the same way, history detections should contribute to future detections. In this paper, we propose a detection enhancement method, namely FrameFusion, which improves 3D object detection results by fusing history frames. In FrameFusion, we ''forward'' history frames to the current frame and apply weighted Non-Maximum-Suppression on dense bounding boxes to obtain a fused frame with merged boxes. To ''forward'' frames, we use vehicle motion models to estimate the future pose of the bounding boxes. However, the commonly used constant velocity model fails naturally on turning vehicles, so we explore two vehicle motion models to address this issue. On Waymo Open Dataset, our FrameFusion method consistently improves the performance of various 3D detectors by about $2$ vehicle level 2 APH with negligible latency and slightly enhances the performance of the temporal fusion method MPPNet. We also conduct extensive experiments on motion model selection.
翻訳日:2023-06-21 19:05:28 公開日:2023-06-19
# Task-Conditioned Hypernetwork に基づくマルチタスクエピソードメモリによる深層強化学習

Deep Reinforcement Learning with Multitask Episodic Memory Based on Task-Conditioned Hypernetwork ( http://arxiv.org/abs/2306.10698v1 )

ライセンス: Link先を確認
Yonggang Jin, Chenxu Wang, Liuyu Xiang, Yaodong Yang, Jie Fu and Zhaofeng He(参考訳) 深層強化学習アルゴリズムは通常、正確な意思決定能力を得るために環境と複数の相互作用に依存する非効率のサンプリングによって妨げられる。 対照的に、人間は海馬を頼りに、関連するタスクの過去の経験から関連する情報を取得するように見え、それは、環境の相互作用にのみ依存するのではなく、新しいタスクを学ぶ際の意思決定を導く。 それにもかかわらず、過去の経験を確立された強化学習アルゴリズムに組み込むエージェントのための海馬のようなモジュールの設計には、2つの課題がある。 第1の課題は、現在のタスクで最も重要な過去の経験を選択することであり、第2の課題は、そのような経験を意思決定ネットワークに統合することである。 これらの課題に対処するために,タスク条件付きハイパーネットワークに基づく検索ネットワークを用いて,検索ネットワークのパラメータをタスクに応じて適応させる新しいアルゴリズムを提案する。 同時に,動的修正機構により,検索ネットワークと意思決定ネットワークの協調作業が促進される。 提案手法を課題のミニグリッド環境上で評価する。 実験の結果,提案手法は強いベースラインを著しく上回ることがわかった。

Deep reinforcement learning algorithms are usually impeded by sampling inefficiency, heavily depending on multiple interactions with the environment to acquire accurate decision-making capabilities. In contrast, humans seem to rely on their hippocampus to retrieve relevant information from past experiences of relevant tasks, which guides their decision-making when learning a new task, rather than exclusively depending on environmental interactions. Nevertheless, designing a hippocampus-like module for an agent to incorporate past experiences into established reinforcement learning algorithms presents two challenges. The first challenge involves selecting the most relevant past experiences for the current task, and the second is integrating such experiences into the decision network. To address these challenges, we propose a novel algorithm that utilizes a retrieval network based on a task-conditioned hypernetwork, which adapts the retrieval network's parameters depending on the task. At the same time, a dynamic modification mechanism enhances the collaborative efforts between the retrieval and decision networks. We evaluate the proposed algorithm on the challenging MiniGrid environment. The experimental results demonstrate that our proposed method significantly outperforms strong baselines.
翻訳日:2023-06-21 19:05:08 公開日:2023-06-19
# semail: 分離したモデルによる視覚模倣の邪魔をなくす

SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models ( http://arxiv.org/abs/2306.10695v1 )

ライセンス: Link先を確認
Shenghua Wan, Yucen Wang, Minghao Shao, Ruying Chen, De-Chuan Zhan(参考訳) モデルベース模倣学習(MBIL)は、画像やビデオなどの高次元入力源のサンプル効率を向上させる一般的な強化学習手法である。 mbil研究の慣例に従い、既存のアルゴリズムはタスクの無関係な情報、特に動画中の注意をそらす情報によって非常に欺かれやすい。 この問題に対処するために, エージェントアクションによって決定されるタスク関連依存性により, 環境ダイナミクスを2つの部分に分離し, 個別に訓練する, 分離モデルベース適応学習 (SeMAIL) という新しいアルゴリズムを提案する。 このように、エージェントはその軌道を想像し、タスク関連状態空間における専門家の振る舞いを効率的に模倣することができる。 本手法は,複雑な観測を行う様々な視覚制御タスクと,専門的観測から得られた異なる背景を持つより困難なタスクにおいて,ほぼ熟練した性能を実現する。

Model-based imitation learning (MBIL) is a popular reinforcement learning method that improves sample efficiency on high-dimension input sources, such as images and videos. Following the convention of MBIL research, existing algorithms are highly deceptive by task-irrelevant information, especially moving distractors in videos. To tackle this problem, we propose a new algorithm - named Separated Model-based Adversarial Imitation Learning (SeMAIL) - decoupling the environment dynamics into two parts by task-relevant dependency, which is determined by agent actions, and training separately. In this way, the agent can imagine its trajectories and imitate the expert behavior efficiently in task-relevant state space. Our method achieves near-expert performance on various visual control tasks with complex observations and the more challenging tasks with different backgrounds from expert observations.
翻訳日:2023-06-21 19:04:50 公開日:2023-06-19
# 局所境界ミス種別誤差下での最小二乗値反復はロバストである

Least Square Value Iteration is Robust Under Locally Bounded Misspecification Error ( http://arxiv.org/abs/2306.10694v1 )

ライセンス: Link先を確認
Yunfan Li and Lin Yang(参考訳) 強化学習の成功は、特に地道が複雑である場合に自然に、不特定性(地道と最良機能近似器のミスマッチ)が生じる政策、価値、モデルの関数近似に大きく依存している。 誤特定エラーは無限のサンプルでも消えないため、誤特定の下で堅牢なアルゴリズムを設計することが最重要となる。 Recently, it is shown that policy-based approaches can be robust even when the policy function approximation is under a large locally-bounded misspecification error, with which the function class may have $\Omega(1)$ approximation error in certain states and actions but is only small on average under a policy-induced state-distribution; whereas it is only known that value-based approach can effectively learn under globally-bounded misspecification error, i.e., the approximation errors to value functions have a uniform upper bound on all state-actions. しかし、同じロバスト性が価値ベースのアプローチで達成できるかどうかは、まだ疑問の余地がない。 本稿では,提案アルゴリズムであるLast-Square-Value-Iteration [Jin et al, 2020]を設計した探索ボーナスを用いて,局所的不特定誤差の下で頑健性を実現することができることを示す。 具体的には,$d$ が線形特徴の次元,$H$ がエピソードの長さ,$K$ がエピソードの総数,$\zeta$ が誤特定誤差の局所的境界である場合,アルゴリズムが $\widetilde{O}\left(\sqrt{d^3KH^4} + dKH^2\zeta \right)$ を後悔境界とすることを示す。 さらに,このアルゴリズムは$\zeta$を知らずに同じ後悔点を達成できることを示し,政策に基づくアプローチにおけるサンプルの複雑さを改善するために,ロバストな政策評価オラクルとして使用できることを示した。

The success of reinforcement learning heavily relies on the function approximation of policy, value or models, where misspecification (a mismatch between the ground-truth and best function approximators) naturally occurs especially when the ground-truth is complex. As misspecification error does not vanish even with infinite number of samples, designing algorithms that are robust under misspecification is of paramount importance. Recently, it is shown that policy-based approaches can be robust even when the policy function approximation is under a large locally-bounded misspecification error, with which the function class may have $\Omega(1)$ approximation error in certain states and actions but is only small on average under a policy-induced state-distribution; whereas it is only known that value-based approach can effectively learn under globally-bounded misspecification error, i.e., the approximation errors to value functions have a uniform upper bound on all state-actions. Yet it remains an open question whether similar robustness can be achieved with value-based approaches. In this paper, we answer this question affirmatively by showing that the algorithm, Least-Square-Value-Iteration [Jin et al, 2020], with carefully designed exploration bonus can achieve robustness under local misspecification error bound. In particular, we show that algorithm achieves a regret bound of $\widetilde{O}\left(\sqrt{d^3KH^4} + dKH^2\zeta \right)$, where $d$ is the dimension of linear features, $H$ is the length of the episode, $K$ is the total number of episodes, and $\zeta$ is the local bound of the misspecification error. Moreover, we show that the algorithm can achieve the same regret bound without knowing $\zeta$ and can be used as robust policy evaluation oracle that can be applied to improve sample complexity in policy-based approaches.
翻訳日:2023-06-21 19:04:35 公開日:2023-06-19
# 光ネットワークにおけるリアルタイム異常検出のための機械学習

Machine Learning for Real-Time Anomaly Detection in Optical Networks ( http://arxiv.org/abs/2306.10741v1 )

ライセンス: Link先を確認
Sadananda Behera, Tania Panayiotou, Georgios Ellinas(参考訳) 本研究では,エンコーダ・デコーダ(ED)深層学習モデルの複数ステップ先進予測機能を利用したリアルタイム異常検出手法を提案する。 特に、エンコーダデコーダは、過去のQoT(Quality-of-Transmission)観測を分析して、長期の水平線(すなわち数日先)上でのソフトフェイル進化をモデル化するために用いられる。 この情報はその後、QoTの進化を期待する知識によって予期せぬネットワークの振る舞いを捉えることができるため、リアルタイムな異常検出(例えば、攻撃事件)に使用される。 特に、異常検出には統計仮説テストスキームを使用し、通常はこの目的に適用される教師付き(SL)および教師なし学習(UL)スキームの制限を緩和する。 提案手法は,SLの適用時に必要となるラベル付き異常や,異常事例(UL)を特定するためのデータセット全体をオンライン解析する必要性を排除した。 全体として,QoT進化情報を利用することで,提案手法はリアルタイムに異常な偏差を効果的に検出できることが示されている。 重要なこととして,ソフトフェイルな進化(qot予測)に関する情報は,異常を正確に検出するために不可欠であることが示されている。

This work proposes a real-time anomaly detection scheme that leverages the multi-step ahead prediction capabilities of encoder-decoder (ED) deep learning models with recurrent units. Specifically, an encoder-decoder is used to model soft-failure evolution over a long future horizon (i.e., for several days ahead) by analyzing past quality-of-transmission (QoT) observations. This information is subsequently used for real-time anomaly detection (e.g., of attack incidents), as the knowledge of how the QoT is expected to evolve allows capturing unexpected network behavior. Specifically, for anomaly detection, a statistical hypothesis testing scheme is used, alleviating the limitations of supervised (SL) and unsupervised learning (UL) schemes, usually applied for this purpose. Indicatively, the proposed scheme eliminates the need for labeled anomalies, required when SL is applied, and the need for on-line analyzing entire datasets to identify abnormal instances (i.e., UL). Overall, it is shown that by utilizing QoT evolution information, the proposed approach can effectively detect abnormal deviations in real-time. Importantly, it is shown that the information concerning soft-failure evolution (i.e., QoT predictions) is essential to accurately detect anomalies.
翻訳日:2023-06-21 18:58:04 公開日:2023-06-19
# スケーラブルな確率的経路

Scalable Probabilistic Routes ( http://arxiv.org/abs/2306.10736v1 )

ライセンス: Link先を確認
Suwei Yang, Victor C. Liang, Kuldeep S. Meel(参考訳) パッケージデリバリーとライドシェアリングサービスの劇的な増加により、過去10年間でルートの推測と予測が関心を集めている。 基礎となる組合せ構造と確率の組み入れを考えると、経路予測には形式的手法と機械学習の両方の手法が含まれる。 ルート予測の有望なアプローチのひとつに、確率値で拡張された決定図がある。 しかし、このアプローチの有効性は、コンパイルされた決定図のサイズに依存する。 このアプローチのスケーラビリティは、経験的なランタイムと空間の複雑さのために制限されている。 まず,道路網グラフの頂点数に対して,線形数の変数を用いた緩和符号化を導入し,結果の決定図のサイズを大幅に削減する。 第2に,ステップワイズサンプリングではなく,単一パスサンプリングに基づく経路予測を提案する。 実世界の道路ネットワークから得られた評価では,提案した経路の約2倍の品質を達成でき,しかも最先端に比べて桁違いに高速であることを示す。

Inference and prediction of routes have become of interest over the past decade owing to a dramatic increase in package delivery and ride-sharing services. Given the underlying combinatorial structure and the incorporation of probabilities, route prediction involves techniques from both formal methods and machine learning. One promising approach for predicting routes uses decision diagrams that are augmented with probability values. However, the effectiveness of this approach depends on the size of the compiled decision diagrams. The scalability of the approach is limited owing to its empirical runtime and space complexity. In this work, our contributions are two-fold: first, we introduce a relaxed encoding that uses a linear number of variables with respect to the number of vertices in a road network graph to significantly reduce the size of resultant decision diagrams. Secondly, instead of a stepwise sampling procedure, we propose a single pass sampling-based route prediction. In our evaluations arising from a real-world road network, we demonstrate that the resulting system achieves around twice the quality of suggested routes while being an order of magnitude faster compared to state-of-the-art.
翻訳日:2023-06-21 18:57:42 公開日:2023-06-19
# 量子システムのパラメータ推定のための最適制御戦略

Optimal Control Strategies for Parameter Estimation of Quantum Systems ( http://arxiv.org/abs/2306.10735v1 )

ライセンス: Link先を確認
Quentin Ansel, Etienne Dionis, Dominique Sugny(参考訳) 最適制御理論は、量子システムのパラメータ推定を改善する効果的なツールである。 制御プロトコルの設計には様々な方法を用いることができる。 それらは量子フィッシャー情報(QFI)の最大化または選択的制御プロセスに基づいている。 これら2つのアプローチの類似点,相違点,利点について述べる。 ホウ素浴に結合したスピン$-\tfrac{1}{2}$系のパラメータを推定するための詳細な比較研究が提示される。 制御機構は,非一貫性が無視できない場合や実験装置がQFIに適応していない場合を除き,一般に等価であることを示す。 後者の場合、選択的な制御によって達成される精度は、QFIが与える精度よりも桁違いに優れている。

Optimal control theory is an effective tool to improve parameter estimation of quantum systems. Different methods can be employed for the design of the control protocol. They can be based either on Quantum Fischer Information (QFI) maximization or selective control processes. We describe the similarities, differences, and advantages of these two approaches. A detailed comparative study is presented for estimating the parameters of a spin$-\tfrac{1}{2}$ system coupled to a bosonic bath. We show that the control mechanisms are generally equivalent, except when the decoherence is not negligible or when the experimental setup is not adapted to the QFI. In this latter case, the precision achieved with selective controls can be several orders of magnitude better than that given by the QFI.
翻訳日:2023-06-21 18:57:28 公開日:2023-06-19
# 深層学習に基づくギリシャの道路網上の黒点識別

Deep learning based black spot identification on Greek road networks ( http://arxiv.org/abs/2306.10734v1 )

ライセンス: Link先を確認
Ioannis Karamanlis and Alexandros Kokkalis and Vassilios Profillidis and George Botzoris and Chairi Kiourt and Vasileios Sevetlidis and George Pavlidis(参考訳) 時空間現象であるブラックスポット識別は、道路事故の地理的な位置と時間に基づく発生を分析する。 典型的には、ブラックスポットと呼ばれる事故の集中度が高い地域を特定するために、設定された期間における道路網の特定の場所を調べる。 これらの問題領域を評価することで、道路設計、交通量、運転行動、天候、インフラなどの衝突率の増加の原因と原因を明らかにすることができる。 しかし、ブラックスポットを特定する際の課題は、データ可用性の制限、データ品質、寄与要因の評価である。 さらに、道路設計、インフラ、車両安全技術の進化は、黒点分析と判定に影響を及ぼす可能性がある。 この研究は、ギリシャの道路網における交通事故に注目し、警察や政府発行の自動車事故報告書のデータを利用して、黒点を認識する。 この研究は、北ギリシャのブラックスポット(bsng)と呼ばれる一般公開されたデータセットと、高精度な識別方法を生み出した。

Black spot identification, a spatiotemporal phenomenon, involves analyzing the geographical location and time-based occurrence of road accidents. Typically, this analysis examines specific locations on road networks during set time periods to pinpoint areas with a higher concentration of accidents, known as black spots. By evaluating these problem areas, researchers can uncover the underlying causes and reasons for increased collision rates, such as road design, traffic volume, driver behavior, weather, and infrastructure. However, challenges in identifying black spots include limited data availability, data quality, and assessing contributing factors. Additionally, evolving road design, infrastructure, and vehicle safety technology can affect black spot analysis and determination. This study focused on traffic accidents in Greek road networks to recognize black spots, utilizing data from police and government-issued car crash reports. The study produced a publicly available dataset called Black Spots of North Greece (BSNG) and a highly accurate identification method.
翻訳日:2023-06-21 18:57:17 公開日:2023-06-19
# UniG3D: 統一された3Dオブジェクト生成データセット

UniG3D: A Unified 3D Object Generation Dataset ( http://arxiv.org/abs/2306.10730v1 )

ライセンス: Link先を確認
Qinghong Sun, Yangguang Li, ZeXiang Liu, Xiaoshui Huang, Fenggang Liu, Xihui Liu, Wanli Ouyang, Jing Shao(参考訳) 生成AIの分野は、仮想現実、自律運転、メタバース、ゲーム、ロボット工学など、さまざまな領域に変革的な影響を与えている。 これらのアプリケーションの中で、3Dオブジェクト生成技術が最も重要である。 この技術は、3Dオブジェクトの作成、カスタマイズ、探索という領域で新しい道を開いた。 しかし、既存の3Dオブジェクト生成手法の品質と多様性は、テキストの品質、2Dレンダリング画像と3Dアセットを含むマルチモーダルデータ表現の不完全性、およびデータセットのサイズなど、既存の3Dオブジェクトデータセットの不完全性によって制約される。 これらの問題を解決するために,ojaverseとshapenetのデータセットにユニバーサルなデータ変換パイプラインを用いて構築した統一3dオブジェクト生成データセットであるunig3dを提案する。 このパイプラインは、レンダリングエンジンとマルチモーダルモデルを用いて、各生の3Dモデルを包括的なマルチモーダルデータ表現<text, image, point cloud, mesh>に変換する。 これらのモジュールは、テキスト情報の豊かさとデータ表現の包括性を保証する。 注目すべきは、パイプラインの普遍性は、生の3Dデータのみを必要とするため、任意の3Dデータセットに適用可能であることです。 データセットのデータソースの選択は、そのスケールと品質に基づいています。 次に,点雲の一般的な3次元表現と符号付き距離関数に合わせた2つのオブジェクト生成法であるpoint-eとsdfusionを用いて,データセットの有効性を評価する。 私たちのデータセットは、https://unig3d.github.io.org/で利用可能です。

The field of generative AI has a transformative impact on various areas, including virtual reality, autonomous driving, the metaverse, gaming, and robotics. Among these applications, 3D object generation techniques are of utmost importance. This technique has unlocked fresh avenues in the realm of creating, customizing, and exploring 3D objects. However, the quality and diversity of existing 3D object generation methods are constrained by the inadequacies of existing 3D object datasets, including issues related to text quality, the incompleteness of multi-modal data representation encompassing 2D rendered images and 3D assets, as well as the size of the dataset. In order to resolve these issues, we present UniG3D, a unified 3D object generation dataset constructed by employing a universal data transformation pipeline on Objaverse and ShapeNet datasets. This pipeline converts each raw 3D model into comprehensive multi-modal data representation <text, image, point cloud, mesh> by employing rendering engines and multi-modal models. These modules ensure the richness of textual information and the comprehensiveness of data representation. Remarkably, the universality of our pipeline refers to its ability to be applied to any 3D dataset, as it only requires raw 3D data. The selection of data sources for our dataset is based on their scale and quality. Subsequently, we assess the effectiveness of our dataset by employing Point-E and SDFusion, two widely recognized methods for object generation, tailored to the prevalent 3D representations of point clouds and signed distance functions. Our dataset is available at: https://unig3d.github.io.
翻訳日:2023-06-21 18:56:58 公開日:2023-06-19
# AdaSelection: データサブサンプリングによるディープラーニングトレーニングの高速化

AdaSelection: Accelerating Deep Learning Training through Data Subsampling ( http://arxiv.org/abs/2306.10728v1 )

ライセンス: Link先を確認
Minghe Zhang, Chaosheng Dong, Jinmiao Fu, Tianchen Zhou, Jia Liang, Jia Liu, Bo Liu, Michinari Momma, Bryan Wang, Yan Gao, Yi Sun(参考訳) 本稿では,各ミニバッチ内の最も有益なサブサンプルを識別し,モデル性能を犠牲にすることなく大規模ディープラーニングモデルのトレーニングを高速化する適応型サブサンプリング手法であるadaselectionを提案する。 本手法は,各イテレーションにおいて,メソッドレベルの重要度とメソッド内サンプルレベルの重要度を組み込んだ任意の数のベースラインサブサンプリング手法を柔軟に組み合わせることができる。 アドホックサンプリングの標準的なプラクティスは、プロダクション環境から大量のデータで連続的なトレーニングにつながることが多い。 前方および後方通過時のデータインスタンスの選択を改善するため,これらのパスから各インスタンスの情報を一定に記録することを提案する。 画像と言語の両方のデータセットの分類タスクや回帰タスクなど,さまざまな入力やタスクをまたいでテストすることにより,本手法の有効性を実証する。 業界標準のベースラインと比較すると、adaselectionは一貫して優れたパフォーマンスを示している。

In this paper, we introduce AdaSelection, an adaptive sub-sampling method to identify the most informative sub-samples within each minibatch to speed up the training of large-scale deep learning models without sacrificing model performance. Our method is able to flexibly combines an arbitrary number of baseline sub-sampling methods incorporating the method-level importance and intra-method sample-level importance at each iteration. The standard practice of ad-hoc sampling often leads to continuous training with vast amounts of data from production environments. To improve the selection of data instances during forward and backward passes, we propose recording a constant amount of information per instance from these passes. We demonstrate the effectiveness of our method by testing it across various types of inputs and tasks, including the classification tasks on both image and language datasets, as well as regression tasks. Compared with industry-standard baselines, AdaSelection consistently displays superior performance.
翻訳日:2023-06-21 18:56:31 公開日:2023-06-19
# jamp:言語モデルの一般化能力評価のための日本語時間的推論データセット

Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models ( http://arxiv.org/abs/2306.10727v1 )

ライセンス: Link先を確認
Tomoki Sugimoto, Yasumasa Onoe, Hitomi Yanaka(参考訳) 時間的推論を含む自然言語推論(NLI)タスクは、事前訓練された言語モデル(LM)では依然として困難である。 このタスクのために様々なデータセットが作成されているが、主に英語に焦点を当てており、他の言語でのリソースの必要性に対処していない。 現在のLMが言語間の時間的推論の一般化能力を実現するかどうかは不明である。 本稿では,時間的推論に着目したNLIベンチマークであるJampについて述べる。 我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を可能にする。 データアノテーションプロセスを開始するために、形式的セマンティクステストスイートに基づいた様々な推論テンプレートを作成します。 次に,日本語のケースフレーム辞書とよく設計されたテンプレートを用いて,推論パターンとゴールドラベルの分布を制御しながら,多様なNLIサンプルを自動生成する。 テンスフラグメント(つまり時間的推論パターン)に基づいてデータセットを分割することにより,単言語/多言語lmsの一般化能力を評価する。 本研究は, LMが習慣性などの特定の言語現象に苦しむことを示し, 言語間でより効果的なNLIモデルの開発の可能性を示している。

Natural Language Inference (NLI) tasks involving temporal inference remain challenging for pre-trained language models (LMs). Although various datasets have been created for this task, they primarily focus on English and do not address the need for resources in other languages. It is unclear whether current LMs realize the generalization capacity for temporal inference across languages. In this paper, we present Jamp, a Japanese NLI benchmark focused on temporal inference. Our dataset includes a range of temporal inference patterns, which enables us to conduct fine-grained analysis. To begin the data annotation process, we create diverse inference templates based on the formal semantics test suites. We then automatically generate diverse NLI examples by using the Japanese case frame dictionary and well-designed templates while controlling the distribution of inference patterns and gold labels. We evaluate the generalization capacities of monolingual/multilingual LMs by splitting our dataset based on tense fragments (i.e., temporal inference patterns). Our findings demonstrate that LMs struggle with specific linguistic phenomena, such as habituality, indicating that there is potential for the development of more effective NLI models across languages.
翻訳日:2023-06-21 18:56:16 公開日:2023-06-19
# 連続学習のための部分ハイパーネットワーク

Partial Hypernetworks for Continual Learning ( http://arxiv.org/abs/2306.10724v1 )

ライセンス: Link先を確認
Hamed Hemati, Vincenzo Lomonaco, Davide Bacciu, Damian Borth(参考訳) Hypernetworksは、タスク依存の重みを生成し、メタモデルレベルでの重み変化をペナル化することにより、継続学習(CL)における忘れを軽減します。 残念ながら、全ての重みの生成は大規模アーキテクチャでは計算コストがかかるだけでなく、すべてのモデル重みを生成する必要があるかどうかもよく理解されていない。 clにおける潜伏再生法に触発されて,初期層を凍結しながらハイパーネットワークを用いたモデル最終層の部分重み生成を提案する。 この目的により、最終性能を損なうことなく、どれくらいのレイヤを凍結できるかという質問に答える。 いくつかの実験を通じて, 凍結可能な層数がclストリームの分布的類似性に比例することを示した。 そこで, ハイパネットワークの有効性を示すため, ノイズストリームが遅延リプレイ法の性能に大きく影響し, ノイズストリームが古いサンプルで再生した場合に, 遅延リプレイ法の性能が向上することを示した。 対照的に、部分的ハイパーネットワークは、以前の経験で精度を維持することでノイズに対してより堅牢である。 最後に、分割したCIFAR-100とTinyImagenetベンチマークの実験を行い、部分的ハイパーネットの異なるバージョンと遅延再生法を比較した。 ハイパーネットワークを用いた部分的重み生成は,ニューラルネットワークにおける忘れる問題に対する有望な解決策である。 CLストリームにおける計算と最終的なテスト精度の効果的なバランスを提供することができる。

Hypernetworks mitigate forgetting in continual learning (CL) by generating task-dependent weights and penalizing weight changes at a meta-model level. Unfortunately, generating all weights is not only computationally expensive for larger architectures, but also, it is not well understood whether generating all model weights is necessary. Inspired by latent replay methods in CL, we propose partial weight generation for the final layers of a model using hypernetworks while freezing the initial layers. With this objective, we first answer the question of how many layers can be frozen without compromising the final performance. Through several experiments, we empirically show that the number of layers that can be frozen is proportional to the distributional similarity in the CL stream. Then, to demonstrate the effectiveness of hypernetworks, we show that noisy streams can significantly impact the performance of latent replay methods, leading to increased forgetting when features from noisy experiences are replayed with old samples. In contrast, partial hypernetworks are more robust to noise by maintaining accuracy on previous experiences. Finally, we conduct experiments on the split CIFAR-100 and TinyImagenet benchmarks and compare different versions of partial hypernetworks to latent replay methods. We conclude that partial weight generation using hypernetworks is a promising solution to the problem of forgetting in neural networks. It can provide an effective balance between computation and final test accuracy in CL streams.
翻訳日:2023-06-21 18:55:58 公開日:2023-06-19
# オントロジー推論による微調整大規模エンタープライズ言語モデル

Fine-tuning Large Enterprise Language Models via Ontological Reasoning ( http://arxiv.org/abs/2306.10723v1 )

ライセンス: Link先を確認
Teodoro Baldazzi, Luigi Bellomarini, Stefano Ceri, Andrea Colombo, Andrea Gentili, Emanuel Sallinger(参考訳) 大きな言語モデル(LLM)はタスク固有のトレーニングデータのおかげで、さまざまな目標に適応するためのテクニックとして微調整を利用する。 タスクの特異性はドメインの向き、すなわち、ある関心領域のタスクに正確に対処するLLMの特殊化と密接に関連しなければなりません。 しかしながら、モデルは通常、公開可能なデータや、データベースからの地上データに対して微調整され、ビジネスレベルの定義やドメインエクスペリエンスを無視します。 一方、エンタープライズ知識グラフ(EKG)は、存在論的推論を通じてそのようなドメイン知識をキャプチャし、拡張することができる。 本研究では,LLM の柔軟性と EKG のドメイン指向性を組み合わせることを目的として,存在論的推論の力を生かした新しいニューロシンボリックアーキテクチャを提案し,LLM の微調整のためのタスクとドメイン固有コーパスを構築する。

Large Language Models (LLMs) exploit fine-tuning as a technique to adapt to diverse goals, thanks to task-specific training data. Task specificity should go hand in hand with domain orientation, that is, the specialization of an LLM to accurately address the tasks of a given realm of interest. However, models are usually fine-tuned over publicly available data or, at most, over ground data from databases, ignoring business-level definitions and domain experience. On the other hand, Enterprise Knowledge Graphs (EKGs) are able to capture and augment such domain knowledge via ontological reasoning. With the goal of combining LLM flexibility with the domain orientation of EKGs, we propose a novel neurosymbolic architecture that leverages the power of ontological reasoning to build task- and domain-specific corpora for LLM fine-tuning.
翻訳日:2023-06-21 18:55:35 公開日:2023-06-19
# レンダラーは良いゼロショット表現学習者である: メトリクス学習のための拡散潜時探索

Renderers are Good Zero-Shot Representation Learners: Exploring Diffusion Latents for Metric Learning ( http://arxiv.org/abs/2306.10721v1 )

ライセンス: Link先を確認
Michael Tang, David Shustin(参考訳) 現代の生成型ニューラルレンダリングモデルの潜在空間は、3d認識による視覚的理解タスクの表現として機能するか? 画像ビューの表現からシーン表現を収集し,シーン表現の集約を可能にすることを含む,Shap-Eの潜伏空間のメートル法学習特性を測定するためのプロキシとして検索を用い,従来のEfficientNetベースライン表現よりも優れたShap-E表現がゼロショットであり,両手法が妨害的損失を用いて訓練された場合でも競争力があることを示す。 これらの結果から、3Dベースのレンダリングと生成モデルにより、自然界における識別的タスクに有用な表現が得られることが示唆された。 我々のコードは \url{https://github.com/michaelwilliamtang/golden-retriever} で利用可能です。

Can the latent spaces of modern generative neural rendering models serve as representations for 3D-aware discriminative visual understanding tasks? We use retrieval as a proxy for measuring the metric learning properties of the latent spaces of Shap-E, including capturing view-independence and enabling the aggregation of scene representations from the representations of individual image views, and find that Shap-E representations outperform those of the classical EfficientNet baseline representations zero-shot, and is still competitive when both methods are trained using a contrative loss. These findings give preliminary indication that 3D-based rendering and generative models can yield useful representations for discriminative tasks in our innately 3D-native world. Our code is available at \url{https://github.com/michaelwilliamtang/golden-retriever}.
翻訳日:2023-06-21 18:55:18 公開日:2023-06-19
# PowerBEV - 鳥の視点で見出すための強力で軽量なフレームワーク

PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction in Bird's-Eye View ( http://arxiv.org/abs/2306.10761v1 )

ライセンス: Link先を確認
Peizheng Li, Shuxiao Ding, Xieyuanli Chen, Niklas Hanselmann, Marius Cordts and Juergen Gall(参考訳) インスタンスを正確に認識し、将来の動きを予測することは、自動運転車にとって重要なタスクであり、複雑な都市交通の中で安全に移動することができる。 鳥眼ビュー(BEV)の表現は自律運転の認識において一般的であるが、運動予測設定におけるそのポテンシャルは調査されていない。 サラウンドカメラからの既存のBEVインスタンス予測のアプローチは、時空間的に一貫した方法で将来のインスタンスを予測するために、複雑な後処理と組み合わせたマルチタスク自動回帰セットアップに依存している。 本稿では,本パラダイムから脱却し,従来の手法に固有の冗長性を低減することを目的とした,POWERBEVという,効率的なエンドツーエンドフレームワークを提案する。 まず、POWERBEVは自動回帰方式で未来を予測するのではなく、軽量な2D畳み込みネットワークから構築された並列なマルチスケールモジュールを使用する。 第二に、セグメント化と遠心逆流は予測に十分であり、冗長な出力モダリティを排除し、従来のマルチタスクの目的を単純化する。 この出力表現に基づいて、時間を通してより安定したインスタンスアソシエーションを生成する単純なフローワープに基づく後処理手法を提案する。 この軽量で強力な設計を通じて、POWERBEVはNuScenes Datasetの最先端のベースラインを上回り、BEVインスタンス予測の代替パラダイムを提供する。 コードはhttps://github.com/EdwardLeeLPZ/PowerBEV.comで公開しました。

Accurately perceiving instances and predicting their future motion are key tasks for autonomous vehicles, enabling them to navigate safely in complex urban traffic. While bird's-eye view (BEV) representations are commonplace in perception for autonomous driving, their potential in a motion prediction setting is less explored. Existing approaches for BEV instance prediction from surround cameras rely on a multi-task auto-regressive setup coupled with complex post-processing to predict future instances in a spatio-temporally consistent manner. In this paper, we depart from this paradigm and propose an efficient novel end-to-end framework named POWERBEV, which differs in several design choices aimed at reducing the inherent redundancy in previous methods. First, rather than predicting the future in an auto-regressive fashion, POWERBEV uses a parallel, multi-scale module built from lightweight 2D convolutional networks. Second, we show that segmentation and centripetal backward flow are sufficient for prediction, simplifying previous multi-task objectives by eliminating redundant output modalities. Building on this output representation, we propose a simple, flow warping-based post-processing approach which produces more stable instance associations across time. Through this lightweight yet powerful design, POWERBEV outperforms state-of-the-art baselines on the NuScenes Dataset and poses an alternative paradigm for BEV instance prediction. We made our code publicly available at: https://github.com/EdwardLeeLPZ/PowerBEV.
翻訳日:2023-06-21 18:47:47 公開日:2023-06-19
# 大グラフ表現のためのトランスフォーマーの単純化とエンパワーメント

Simplifying and Empowering Transformers for Large-Graph Representations ( http://arxiv.org/abs/2306.10759v1 )

ライセンス: Link先を確認
Qitian Wu, Wentao Zhao, Chenxiao Yang, Hengrui Zhang, Fan Nie, Haitian Jiang, Yatao Bian, Junchi Yan(参考訳) 大規模グラフでの表現の学習は、大量のデータポイントに関わる相互依存性のため、長年にわたる課題である。 グラフ構造化データのための基盤エンコーダの新たなクラスであるトランスフォーマーは、隣接するノードを越えて全ペアの影響を捉えることができるため、小さなグラフ上で有望な性能を示している。 それでも、既存のアプローチは、言語や視覚タスクにおけるトランスフォーマーの精神を継承し、深いマルチヘッドの注意を積み重ねることで複雑なモデルを受け入れる傾向があります。 本稿では,一層注意を払わなくても,ノード数が千レベルから十億レベルに及ぶノード特性予測ベンチマークにおいて,驚くほどの競合性能が得られることを批判的に示す。 これにより、大きなグラフ上でTransformerの設計哲学を再考し、グローバルな注目はスケーラビリティを妨げる計算オーバーヘッドである。 提案手法を簡易グラフトランスフォーマー (sgformer) として構成し, 1 層内の任意のノード間の情報を効率的に伝達するシンプルな注意モデルによって実現されている。 SGFormerは、位置エンコーディング、フィーチャ/グラフ前処理、拡張損失を必要としない。 実証的には、SGFormerはWebスケールグラフogbn-papers100Mにスケールし、中規模のグラフ上でSOTA変換器上で最大141倍の推論加速度を得る。 提案手法は,現在の結果以外にも,大規模なグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを実現するものだと考えている。

Learning representations on large-sized graphs is a long-standing challenge due to the inter-dependence nature involved in massive data points. Transformers, as an emerging class of foundation encoders for graph-structured data, have shown promising performance on small graphs due to its global attention capable of capturing all-pair influence beyond neighboring nodes. Even so, existing approaches tend to inherit the spirit of Transformers in language and vision tasks, and embrace complicated models by stacking deep multi-head attentions. In this paper, we critically demonstrate that even using a one-layer attention can bring up surprisingly competitive performance across node property prediction benchmarks where node numbers range from thousand-level to billion-level. This encourages us to rethink the design philosophy for Transformers on large graphs, where the global attention is a computation overhead hindering the scalability. We frame the proposed scheme as Simplified Graph Transformers (SGFormer), which is empowered by a simple attention model that can efficiently propagate information among arbitrary nodes in one layer. SGFormer requires none of positional encodings, feature/graph pre-processing or augmented loss. Empirically, SGFormer successfully scales to the web-scale graph ogbn-papers100M and yields up to 141x inference acceleration over SOTA Transformers on medium-sized graphs. Beyond current results, we believe the proposed methodology alone enlightens a new technical path of independent interest for building Transformers on large graphs.
翻訳日:2023-06-21 18:47:20 公開日:2023-06-19
# オーバーコンプリート準確率表現における量子回路の負性最小化

Minimizing the negativity of quantum circuits in overcomplete quasiprobability representations ( http://arxiv.org/abs/2306.10758v1 )

ライセンス: Link先を確認
Denis A. Kulikov, Vsevolod I. Yashin, Aleksey K. Fedorov, and Evgeniy O. Kiktenko(参考訳) 古典的資源を用いた量子プロセスのシミュラビリティの問題が量子コンピューティングの基盤となっている。 量子回路は古典的に、例えばモンテカルロサンプリング技術を用いて回路の基本要素である状態、ゲート、測定の準確率表現をシミュレートすることができる。 シミュレーションの有効性は、これらの基本要素の表現における負性率の量によって決定される。 ここでは、与えられた量子回路の準確率表現に関する全負性を最小化するアプローチ、すなわち、対応する準確率ベクトルと行列の次元が量子状態の平方次元よりも大きいような方法を開発する。 提案手法は,超完全性によって現れる等価準確率ベクトルと行列に対する最適化と,超完全フレームに対する最適化の両方を含む。 本研究では,いくつかの例に対して開発した手法の性能を実証し,標準的超完全準確率表現と比較してその有意なアドバンテージを示す。

A problem of simulatability of quantum processes using classical resources play a cornerstone role for quantum computing. Quantum circuits can be simulated classically using, e.g., Monte Carlo sampling techniques applied to quasiprobability representations of circuits' basic elements, i.e. states, gates, and measurements. The effectiveness of the simulation is determined by the amount of the negativity in the representation of these basic elements. Here we develop an approach for minimizing the total negativity of a given quantum circuit with respect to quasiprobability representations, which are overcomplete, i.e., are such that dimensionality of corresponding quasistochastic vectors and matrices is larger than the squared dimensionality of quantum states. Our approach includes both optimization over equivalent quasistochastic vectors and matrices, which appear due to the overcompleteness, and optimization over overcomplete frames. We demonstrate the performance of the developed approach on some illustrative cases, and show its significant advantage compared to the standard overcomplete quasistochastic representations.
翻訳日:2023-06-21 18:46:55 公開日:2023-06-19
# hrnetによるリハビリテーションモニタリングシステム

A HRNet-based Rehabilitation Monitoring System ( http://arxiv.org/abs/2306.10756v1 )

ライセンス: Link先を確認
Yi-Ching Hung, Yu-Qing Jiang, Fong-Syuan Liou, Yu-Hsuan Tsao, Zi-Cing Chiang, MIn-Te Sun(参考訳) リハビリテーション治療は、マイナースポーツや職業的外傷の治癒に役立つ。 従来のリハビリテーションプロセスでは、セラピストは患者に特定のアクションを割り当てて病院の訪問の間に実行し、患者は正しいアクションを記憶し、それを実行するためのスケジュールに依存する。 残念なことに、多くの患者はアクションを忘れたり、詳細でアクションを思い出すのに失敗する。 その結果、リハビリテーション治療が阻害されるか、最悪の場合、不適切な行動によって追加の怪我を負う可能性がある。 これらの課題を解決するため,患者のスマートフォンを介して患者の行動をいつ実行すべきかを患者に知らせるHRNetベースのリハビリテーション監視システムを提案する。 さらに、セラピストが患者のリハビリテーションの進捗を監視するのに役立つ。 私たちのシステムはiOSアプリとサーバ側のいくつかのコンポーネントで構成されています。 アプリはアクションビデオの表示と収集を担当している。 サーバは、各アクションの反復回数を追跡するために、セラピストのアクションとビデオ中の患者の類似度スコアを算出する。 これらの統計は、患者とセラピストの両方に表示される。 実験により, 類似度計算のF1スコアは0.9以上であり, 繰り返し回数のソフト精度は90%以上であった。

The rehabilitation treatment helps to heal minor sports and occupational injuries. In a traditional rehabilitation process, a therapist will assign certain actions to a patient to perform in between hospital visits, and it will rely on the patient to remember actions correctly and the schedule to perform them. Unfortunately, many patients forget to perform actions or fail to recall actions in detail. As a consequence, the rehabilitation treatment is hampered or, in the worst case, the patient may suffer from additional injury caused by performing incorrect actions. To resolve these issues, we propose a HRNet-based rehabilitation monitoring system, which can remind a patient when to perform the actions and display the actions for the patient to follow via the patient's smartphone. In addition, it helps the therapist to monitor the progress of the rehabilitation for the patient. Our system consists of an iOS app and several components at the server side. The app is in charge of displaying and collecting action videos. The server computes the similarity score between the therapist's actions and the patient's in the videos to keep track of the number of repetitions of each action. Theses stats will be shown to both of the patient and therapist. The extensive experiments show that the F1-Score of the similarity calculation is as high as 0.9 and the soft accuracy of the number of repetitions is higher than 90%.
翻訳日:2023-06-21 18:46:39 公開日:2023-06-19
# 教師なしオープンドメインキーフレーズ生成

Unsupervised Open-domain Keyphrase Generation ( http://arxiv.org/abs/2306.10755v1 )

ライセンス: Link先を確認
Lam Thanh Do, Pritom Saha Akash, Kevin Chen-Chuan Chang(参考訳) 本研究では,人間ラベルデータを用いずに構築可能なキーフレーズ生成モデルであり,ドメイン間で一貫した実行が可能な,教師なしオープンドメインキーフレーズ生成の問題について検討する。 そこで本研究では,2つのモジュールからなる seq2seq モデルを提案し,その2つのモジュール,すなわち,教師なしかつオープンドメインの方法で構築できる \textit{phraseness} と \textit{informativeness} モジュールを提案する。 フレーズ化モジュールはフレーズを生成し、情報化モジュールはテキストの中核概念を表すものに向けて生成をガイドする。 提案手法を,異なる領域の8つのベンチマークデータセットを用いて徹底的に評価した。 ドメイン内データセットの結果から,既存の教師なしモデルと比較して最先端の結果が得られ,教師なし手法と教師なし手法のギャップを約16倍に縮めることが明らかとなった。 さらに,本モデルは,全体としては領域外データセットのベースラインを超えるため,ドメイン全体で一貫した性能を示す。

In this work, we study the problem of unsupervised open-domain keyphrase generation, where the objective is a keyphrase generation model that can be built without using human-labeled data and can perform consistently across domains. To solve this problem, we propose a seq2seq model that consists of two modules, namely \textit{phraseness} and \textit{informativeness} module, both of which can be built in an unsupervised and open-domain fashion. The phraseness module generates phrases, while the informativeness module guides the generation towards those that represent the core concepts of the text. We thoroughly evaluate our proposed method using eight benchmark datasets from different domains. Results on in-domain datasets show that our approach achieves state-of-the-art results compared with existing unsupervised models, and overall narrows the gap between supervised and unsupervised methods down to about 16\%. Furthermore, we demonstrate that our model performs consistently across domains, as it overall surpasses the baselines on out-of-domain datasets.
翻訳日:2023-06-21 18:46:18 公開日:2023-06-19
# マルチエージェント確率ゲームと強化学習に基づく共有エネルギーストレージを用いたマルチマイクログリッドシステムの協調最適化

Collaborative Optimization of Multi-microgrids System with Shared Energy Storage Based on Multi-agent Stochastic Game and Reinforcement Learning ( http://arxiv.org/abs/2306.10754v1 )

ライセンス: Link先を確認
Yijian Wang, Yang Cui, Yang Li, Yang Xu(参考訳) マルチマイクログリッドシステム(MMG)の経済的かつ安定した運用を実現することが不可欠である。 しかし、解決すべき課題がいくつか残っている。 まず,安定動作の観点からは,主格子のエネルギー変動を最小限に抑える必要がある。 第二に、エネルギー変換装置の特性を考慮する必要がある。 最後に、mmgシステムの運用コストを削減しつつ、プライバシ保護が重要です。 これらの課題に対処するために、共有エネルギーストレージ(SES)を用いたMMGシステムのためのデータ駆動戦略を提案する。 また,Multi-Agent Soft Actor-Critic (MA-SAC) と (Multi-Agent Win or Learn Fast Policy Hill-Climbing)MA-WoLF-PHC を用いて,部分的に観測可能な動的確率ゲーム問題の解法を提案する。 中国北西部のMMGシステムの動作データをテストすることで, 結果のR-Square(R2)値は0.999に達し, ニューラルネットワークが非線形条件を効果的にモデル化したことを示す。 提案されたMMGシステムフレームワークは、メイングリッドのエネルギー変動を24時間で1746.5kW削減し、テストで16.21%のコスト削減を実現する。 最後に,高速収束速度と最適化性能により,提案アルゴリズムの優位性を検証した。

Achieving the economical and stable operation of Multi-microgrids (MMG) systems is vital. However, there are still some challenging problems to be solved. Firstly, from the perspective of stable operation, it is necessary to minimize the energy fluctuation of the main grid. Secondly, the characteristics of energy conversion equipment need to be considered. Finally, privacy protection while reducing the operating cost of an MMG system is crucial. To address these challenges, a Data-driven strategy for MMG systems with Shared Energy Storage (SES) is proposed. The Mixed-Attention is applied to fit the conditions of the equipment, additionally, Multi-Agent Soft Actor-Critic(MA-SAC) and (Multi-Agent Win or Learn Fast Policy Hill-Climbing)MA-WoLF-PHC are proposed to solve the partially observable dynamic stochastic game problem. By testing the operation data of the MMG system in Northwest China, following conclusions are drawn: the R-Square (R2) values of results reach 0.999, indicating the neural network effectively models the nonlinear conditions. The proposed MMG system framework can reduce energy fluctuations in the main grid by 1746.5kW in 24 hours and achieve a cost reduction of 16.21% in the test. Finally, the superiority of the proposed algorithms is verified through their fast convergence speed and excellent optimization performance.
翻訳日:2023-06-21 18:46:00 公開日:2023-06-19
# WiCo:ボトムアップとトップダウンによる画像セグメンテーションの勝利

WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation ( http://arxiv.org/abs/2306.10750v1 )

ライセンス: Link先を確認
Zesen Cheng, Peng Jin, Hao Li, Kehan Li, Siheng Li, Xiangyang Ji, Chang Liu and Jie Chen(参考訳) トップダウンメソッドとボトムアップメソッドはセグメンテーションを参照する2つの主流であるが、どちらのメソッドも固有の弱点を持っている。 トップダウン法は、細粒度のクロスモーダルアライメントの欠如により、主に極性陰性(pn)エラーによって妨げられる。 ボトムアップ法は主に、先行するオブジェクト情報の欠如による劣悪な正(ip)エラーによって引き起こされる。 それにもかかわらず、2種類の手法がそれぞれの弱点を抑えるのに非常に相補的であるが、直接平均の組み合わせは有害な干渉を引き起こす。 この文脈で、我々はWin-win Cooperation (WiCo)を構築し、Win-win改善を達成するために相互作用と統合の両面において2種類のメソッドの相補的な性質を利用する。 インタラクションの面では、補完的機能インタラクション(Complementary Feature Interaction, CFI)は、トップダウンブランチにきめ細かい情報を提供し、補完的機能拡張のためにボトムアップブランチに事前オブジェクト情報を導入する。 統合面では、gaussian scoring integration (gsi) が2つのブランチのガウスのパフォーマンス分布をモデル化し、分布から自信のあるスコアをサンプリングすることで結果を重み付け統合する。 当社のWiCoでは、いくつかの顕著なトップダウンとボトムアップの組み合わせが、合理的な余分なコストで3つの一般的なデータセットに対して顕著な改善を実現しています。

The top-down and bottom-up methods are two mainstreams of referring segmentation, while both methods have their own intrinsic weaknesses. Top-down methods are chiefly disturbed by Polar Negative (PN) errors owing to the lack of fine-grained cross-modal alignment. Bottom-up methods are mainly perturbed by Inferior Positive (IP) errors due to the lack of prior object information. Nevertheless, we discover that two types of methods are highly complementary for restraining respective weaknesses but the direct average combination leads to harmful interference. In this context, we build Win-win Cooperation (WiCo) to exploit complementary nature of two types of methods on both interaction and integration aspects for achieving a win-win improvement. For the interaction aspect, Complementary Feature Interaction (CFI) provides fine-grained information to top-down branch and introduces prior object information to bottom-up branch for complementary feature enhancement. For the integration aspect, Gaussian Scoring Integration (GSI) models the gaussian performance distributions of two branches and weightedly integrates results by sampling confident scores from the distributions. With our WiCo, several prominent top-down and bottom-up combinations achieve remarkable improvements on three common datasets with reasonable extra costs, which justifies effectiveness and generality of our method.
翻訳日:2023-06-21 18:45:37 公開日:2023-06-19
# 垂直連合学習に対する実践的および一般的バックドア攻撃

Practical and General Backdoor Attacks against Vertical Federated Learning ( http://arxiv.org/abs/2306.10746v1 )

ライセンス: Link先を確認
Yuexin Xuan, Xiaojun Chen, Zhendong Zhao, Bisheng Tang, Ye Dong(参考訳) フェデレーション学習(FL)は、データプライバシを公開することなく、複数の組織間でのデータコラボレーションを促進することを目的としており、潜在的なセキュリティリスクに直面している。 重大な脅威の1つはバックドア攻撃であり、攻撃者はモデルの予測を操作するためにトレーニングデータセットに特定のトリガーを注入する。 既存のflバックドア攻撃のほとんどは、異なる当事者が所有するデータが同じ機能を持つ水平連合学習(hfl)に基づいている。 しかし、HFLと比較して、各パーティが特徴の相違部分のみを保持し、ラベルが1つのパーティのみが所有する、垂直連合学習(VFL)に対するバックドア攻撃はめったに研究されない。 この攻撃の主な課題は、攻撃者がデータラベルにアクセスせずに効果的な攻撃を行うことである。 この目的のために我々はbadvflを提案する。badvflはラベル情報なしで被害者モデルにバックドアトリガーを注入する新しい実用的な手法である。 BadVFLは主に2つの重要なステップから構成される。 まず,ラベルの知識を持たない攻撃者の課題に対処するため,勾配に基づくデータカテゴリをトレース可能なsddモジュールを導入する。 次に,攻撃目標とトリガー間の決定依存性を高めることにより,攻撃の有効性を向上させるSDPモジュールを提案する。 広範な実験により、badvflは多様なデータセットとモデルをサポートし、わずか1%の中毒率で93%以上の攻撃成功率を達成した。

Federated learning (FL), which aims to facilitate data collaboration across multiple organizations without exposing data privacy, encounters potential security risks. One serious threat is backdoor attacks, where an attacker injects a specific trigger into the training dataset to manipulate the model's prediction. Most existing FL backdoor attacks are based on horizontal federated learning (HFL), where the data owned by different parties have the same features. However, compared to HFL, backdoor attacks on vertical federated learning (VFL), where each party only holds a disjoint subset of features and the labels are only owned by one party, are rarely studied. The main challenge of this attack is to allow an attacker without access to the data labels, to perform an effective attack. To this end, we propose BadVFL, a novel and practical approach to inject backdoor triggers into victim models without label information. BadVFL mainly consists of two key steps. First, to address the challenge of attackers having no knowledge of labels, we introduce a SDD module that can trace data categories based on gradients. Second, we propose a SDP module that can improve the attack's effectiveness by enhancing the decision dependency between the trigger and attack target. Extensive experiments show that BadVFL supports diverse datasets and models, and achieves over 93% attack success rate with only 1% poisoning rate.
翻訳日:2023-06-21 18:45:13 公開日:2023-06-19
# 自由電子によるフォトニックのトポロジカル保護強相互作用

Topologically Protected Strong-Interaction of Photonics with Free Electron ( http://arxiv.org/abs/2306.10745v1 )

ライセンス: Link先を確認
Jing Li and Yunquan Liu(参考訳) 本稿では, トポロジカルフォトニクスを用いた自由電子と光子との強い相互作用の研究手法を提案する。 本研究は,光と自由電子の相互作用を著しく高めるために位相的コーナー状態が利用できることを示す。 トポロジカルキャビティの品質係数は20,000を超え、ポンプパルスがオフになってもコーナー状態は非常に長寿命である。 これにより、従来の光子誘起近接場電子顕微鏡(PINEM)のように、ゼロ遅延や位相マッチングを必要とせずに強力な相互作用を実現することができる。 また、トポロジカルフォトニック構造を利用して自由電子波束を柔軟に形成できることを示し、これによって将来自由電子による量子電磁力学(QED)プロセスと量子光学の制御が容易になる。

We propose a robust scheme of studying the strong interactions between free electrons and photons using topological photonics. Our study reveals that the topological corner state can be used to enhance the interaction between light and free electron significantly. The quality factor of topological cavity can exceed 20,000 and the corner state has very long lifetime even after the pump pulse is off. And thus, the platform enables to achieve strong interaction without the needs for zero-delay and phase-matching as in traditional photon-induced near-field electron microscopy (PINEM). We also show the topological photonic structures can be utilized to shape free electron wavepackets very flexibly, which facilitates the control of quantum electrodynamical (QED) processes and quantum optics with free electrons in the future.
翻訳日:2023-06-21 18:44:47 公開日:2023-06-19
# BNN-DP:動的プログラミングによるベイズニューラルネットワークのロバスト性証明

BNN-DP: Robustness Certification of Bayesian Neural Networks via Dynamic Programming ( http://arxiv.org/abs/2306.10742v1 )

ライセンス: Link先を確認
Steven Adams, Andrea Patane, Morteza Lahijanian, Luca Laurenti(参考訳) 本稿では,ベイズニューラルネットワーク(BNN)の対角的堅牢性解析のための効率的なアルゴリズムフレームワークであるBNN-DPを紹介する。 入力点のコンパクトな集合$T\subset \mathbb{R}^n$ が与えられたとき、BNN-DP は BNN の予測上の下限と上限を$T$ で計算する。 このフレームワークは、bnnを確率力学系として解釈することに基づいており、ネットワークの層に沿って予測範囲を制限するために動的プログラミング(dp)アルゴリズムを利用することができる。 具体的には、バウンド伝搬法と凸緩和法を用いて後方再帰法を導出し、BNNの予測範囲を断片的アフィン関数でオーバー近似する。 アルゴリズムは一般的であり、回帰と分類の両方のタスクを処理できる。 各種回帰および分類タスクとBNNアーキテクチャに関する一連の実験において、BNN-DPは、境界の厳密性と計算効率の両方において、最先端の手法よりも最大4桁高い性能を示すことを示した。

In this paper, we introduce BNN-DP, an efficient algorithmic framework for analysis of adversarial robustness of Bayesian Neural Networks (BNNs). Given a compact set of input points $T\subset \mathbb{R}^n$, BNN-DP computes lower and upper bounds on the BNN's predictions for all the points in $T$. The framework is based on an interpretation of BNNs as stochastic dynamical systems, which enables the use of Dynamic Programming (DP) algorithms to bound the prediction range along the layers of the network. Specifically, the method uses bound propagation techniques and convex relaxations to derive a backward recursion procedure to over-approximate the prediction range of the BNN with piecewise affine functions. The algorithm is general and can handle both regression and classification tasks. On a set of experiments on various regression and classification tasks and BNN architectures, we show that BNN-DP outperforms state-of-the-art methods by up to four orders of magnitude in both tightness of the bounds and computational efficiency.
翻訳日:2023-06-21 18:44:33 公開日:2023-06-19
# amrsアセンブル! 自己回帰モデルを用いたAMR解析の学習

AMRs Assemble! Learning to Ensemble with Autoregressive Models for AMR Parsing ( http://arxiv.org/abs/2306.10786v1 )

ライセンス: Link先を確認
Abelardo Carlos Mart\'inez Lorenzo, Pere-Llu\'is Huguet Cabot, Roberto Navigli(参考訳) 本稿では,複数のグラフ予測をマージしてアンサンブル戦略に依存するAMR解析における最先端技術について検討する。 解析の結果,本モデルはしばしばamr構造制約に違反することが明らかとなった。 この問題に対処するために,検証手法を開発し,組立モデルがSMATCH計量の弱点を利用してより高いスコアを得る方法を示す。 さらに、可能なすべての予測の中でSMATCHスコアを計算する必要性を強調した。 これらの課題を克服するために、トランスフォーマーモデルに基づく2つの新しいアンサンブル戦略を提案し、構造制約に対する堅牢性を改善しつつ、計算時間を短縮する。 提案手法は,AMRパーサとメトリクスを向上するための新たな洞察を提供する。 私たちのコードは \href{https://www.github.com/babelscape/AMRs-Assemble}{github.com/babelscape/AMRs-Assemble} で利用可能です。

In this paper, we examine the current state-of-the-art in AMR parsing, which relies on ensemble strategies by merging multiple graph predictions. Our analysis reveals that the present models often violate AMR structural constraints. To address this issue, we develop a validation method, and show how ensemble models can exploit SMATCH metric weaknesses to obtain higher scores, but sometimes result in corrupted graphs. Additionally, we highlight the demanding need to compute the SMATCH score among all possible predictions. To overcome these challenges, we propose two novel ensemble strategies based on Transformer models, improving robustness to structural constraints, while also reducing the computational time. Our methods provide new insights for enhancing AMR parsers and metrics. Our code is available at \href{https://www.github.com/babelscape/AMRs-Assemble}{github.com/babelscape/AMRs-Assemble}.
翻訳日:2023-06-21 18:39:39 公開日:2023-06-19
# 時間周波数知覚器を用いたマルチトラック音楽転写

Multitrack Music Transcription with a Time-Frequency Perceiver ( http://arxiv.org/abs/2306.10785v1 )

ライセンス: Link先を確認
Wei-Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung(参考訳) マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。 満足のいく結果を得るためには、より複雑なモデルを必要とする非常に難しいタスクです。 さらに、先行作品は、通常楽器の書き起こしに重点を置いているが、ボーカルを無視することは、通常、音楽の中でもっとも重要な信号源である。 本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。 Perceiver TFは、時間的コヒーレンスをモデル化するために、Transformer 層を追加して階層的な拡張を導入することで、Perceiver アーキテクチャを強化する。 したがって、我々のモデルは、より優れたスケーラビリティを実現するPerceiverの利点を継承し、単一のモデルで多くの楽器の書き起こしをうまく扱えるようにします。 実験では、Perceiver TFを訓練し、12の楽器クラスをモデル化し、マルチタスク学習方式で発声する。 その結果,提案システムは様々な公開データセット上で最先端のシステム(MT3やSpecTNTなど)よりも優れていた。

Multitrack music transcription aims to transcribe a music audio input into the musical notes of multiple instruments simultaneously. It is a very challenging task that typically requires a more complex model to achieve satisfactory result. In addition, prior works mostly focus on transcriptions of regular instruments, however, neglecting vocals, which are usually the most important signal source if present in a piece of music. In this paper, we propose a novel deep neural network architecture, Perceiver TF, to model the time-frequency representation of audio input for multitrack transcription. Perceiver TF augments the Perceiver architecture by introducing a hierarchical expansion with an additional Transformer layer to model temporal coherence. Accordingly, our model inherits the benefits of Perceiver that posses better scalability, allowing it to well handle transcriptions of many instruments in a single model. In experiments, we train a Perceiver TF to model 12 instrument classes as well as vocal in a multi-task learning manner. Our result demonstrates that the proposed system outperforms the state-of-the-art counterparts (e.g., MT3 and SpecTNT) on various public datasets.
翻訳日:2023-06-21 18:39:24 公開日:2023-06-19
# PartSLAM: 高速化マップマッチングのための教師なし部分ベースシーンモデリング

PartSLAM: Unsupervised Part-based Scene Modeling for Fast Succinct Map Matching ( http://arxiv.org/abs/2306.10782v1 )

ライセンス: Link先を確認
Shogo Hanada, Kanji Tanaka(参考訳) 本稿では,地図データのコンパクトな記述を生かした1-to-Nマップマッチング問題について検討し,様々なロボットビジョンタスクで使用されるマップマッチング手法のスケーラビリティを向上する。 本稿では,マップマッチングサブタスクのみからなる,高速な簡潔なマップマッチングを目的とした最初の手法を提案する。 これらのタスクには、小さな部分を使って各マップを効果的に説明できるコンパクトな部分ベースのシーンモデルを見つけるためのオフラインマップマッチングの試みが含まれる。 タスクには、部分ベースのマップ間の対応を効率的に見つけるオンラインマップマッチングの試みも含まれている。 我々のパートベースシーンモデリング手法は教師なしであり、入力と既知の参照マップ間の共通パターン探索(CPD)を用いる。 これによりロボットは人間の介入なしにコンパクトな地図モデルを学ぶことができる。 また、キーポイントとディスクリプタBBからなるコンパクトなバウンディングボックス(BB)ベースの部分記述子を用いたランダム化視覚句(RVP)の最先端CPD技術を用いた実践的実装を提案する。 公開公開のradishデータセットを用いた地図マッチング実験の結果,提案手法は,大幅な高速化と数倍のコンパクトな地図データのコンパクトな記述により,マップマッチングを成功させることができた。 本稿では,標準の2次元点集合写像とbbに基づく部分表現に焦点をあてるが,我々のアプローチは3次元点クラウドマップのような広い範囲の地図形式に適用できるほど一般的であり,また一般のバウンディングボリュームや他のコンパクトな部分表現にも適用できると考えている。

In this paper, we explore the challenging 1-to-N map matching problem, which exploits a compact description of map data, to improve the scalability of map matching techniques used by various robot vision tasks. We propose a first method explicitly aimed at fast succinct map matching, which consists only of map-matching subtasks. These tasks include offline map matching attempts to find a compact part-based scene model that effectively explains each map using fewer larger parts. The tasks also include an online map matching attempt to efficiently find correspondence between the part-based maps. Our part-based scene modeling approach is unsupervised and uses common pattern discovery (CPD) between the input and known reference maps. This enables a robot to learn a compact map model without human intervention. We also present a practical implementation that uses the state-of-the-art CPD technique of randomized visual phrases (RVP) with a compact bounding box (BB) based part descriptor, which consists of keypoint and descriptor BBs. The results of our challenging map-matching experiments, which use a publicly available radish dataset, show that the proposed approach achieves successful map matching with significant speedup and a compact description of map data that is tens of times more compact. Although this paper focuses on the standard 2D point-set map and the BB-based part representation, we believe our approach is sufficiently general to be applicable to a broad range of map formats, such as the 3D point cloud map, as well as to general bounding volumes and other compact part representations.
翻訳日:2023-06-21 18:39:03 公開日:2023-06-19
# SegT: ポリープセグメンテーションのための分離エッジ誘導変圧器ネットワーク

SegT: A Novel Separated Edge-guidance Transformer Network for Polyp Segmentation ( http://arxiv.org/abs/2306.10773v1 )

ライセンス: Link先を確認
Feiyu Chen, Haiping Ma and Weijia Zhang(参考訳) 大腸内視鏡的ポリープの正確な分割は, 画像解析と外科的介入において重要なステップであると考えられる。 近年、様々なポリプを効果的にセグメント化できるエンコーダ・デコーダフレームワークに基づいた多くの研究が進められている。 このような改善は、主にグローバル機能を使用し、注意手法を適用することで、ローカル機能を強化することを目的としている。 しかし、最終的なエンコーダブロックのグローバル情報のみに依存すると、中間層の局所的な特徴を失う可能性がある。 加えて、良性領域とポリプの間の縁を決定することは難しい課題である。 そこで本稿では,ポリプセグメンテーションモデルの構築を目的とした,新たな分離エッジガイドトランス(segt)ネットワークを提案する。 既存のcnnベースのアプローチよりもロバストな表現を学ぶトランスフォーマエンコーダが特に適用された。 ポリプの正確なセグメンテーションを決定するために,セパレータとエッジ誘導ブロックからなる分離エッジ誘導モジュールを利用する。 セパレータブロックは背景と前景の間のエッジをハイライトする2つのストリームオペレータであり、一方、エッジガイドブロックは両ストリームの背後にあり、エッジの理解を強化する。 最後に、革新的なカスケード融合モジュールが使われ、洗練されたマルチレベル機能を融合した。 SegTの有効性を評価するため、5つの挑戦的な公開データセットを用いて実験を行った。

Accurate segmentation of colonoscopic polyps is considered a fundamental step in medical image analysis and surgical interventions. Many recent studies have made improvements based on the encoder-decoder framework, which can effectively segment diverse polyps. Such improvements mainly aim to enhance local features by using global features and applying attention methods. However, relying only on the global information of the final encoder block can result in losing local regional features in the intermediate layer. In addition, determining the edges between benign regions and polyps could be a challenging task. To address the aforementioned issues, we propose a novel separated edge-guidance transformer (SegT) network that aims to build an effective polyp segmentation model. A transformer encoder that learns a more robust representation than existing CNN-based approaches was specifically applied. To determine the precise segmentation of polyps, we utilize a separated edge-guidance module consisting of separator and edge-guidance blocks. The separator block is a two-stream operator to highlight edges between the background and foreground, whereas the edge-guidance block lies behind both streams to strengthen the understanding of the edge. Lastly, an innovative cascade fusion module was used and fused the refined multi-level features. To evaluate the effectiveness of SegT, we conducted experiments with five challenging public datasets, and the proposed model achieved state-of-the-art performance.
翻訳日:2023-06-21 18:38:37 公開日:2023-06-19
# グラフの構造ノード埋め込みの評価と説明のための教師なしフレームワーク

Unsupervised Framework for Evaluating and Explaining Structural Node Embeddings of Graphs ( http://arxiv.org/abs/2306.10770v1 )

ライセンス: Link先を確認
Ashkan Dehghan, Kinga Siuta, Agata Skorupka, Andrei Betlen, David Miller, Bogumil Kaminski, Pawel Pralat(参考訳) 埋め込みとは、ネットワークのノードの集合から実際のベクトル空間へのマッピングである。 埋め込みは、基礎となるグラフトポロジと構造、ノード間関係、あるいはグラフ、そのサブグラフまたはノード自身に関するその他の関連情報を取得するなど、さまざまな目的を持つことができる。 組込みを使用する上での現実的な課題は、選択すべきバリエーションが多数存在することだ。 与えられたタスクの可能な選択肢の長いリストから、最も有望な埋め込みの小さなセットを選択することは困難であり、しばしばドメインの専門知識を必要とする。 埋め込みは、古典的埋め込みと構造的埋め込みの2つの主なタイプに分類できる。 古典的埋め込みはノードの局所的および大域的近接性の両方を学ぶことに焦点を当て、構造的埋め込みはノードの近傍の局所的構造に関する情報を学習する。 古典的なノード組込みには、データサイエンティストが(教師なしの方法で)さらなる調査に値するいくつかの組込みを識別するのに役立つフレームワークがある。 残念ながら、構造埋め込みのためのそのようなフレームワークは存在しない。 本稿では構造グラフ埋め込みの教師なしランキングのためのフレームワークを提案する。 提案したフレームワークは、構造的な埋め込みに集約品質スコアを割り当てる以外に、データサイエンティストにこの埋め込みの特性に関する洞察を与える。 組込み学習を事前に定義したノードの特徴、学習の程度、組込み空間内のどの次元が予め定義されたノードの特徴を表すかといった情報を生成する。 この情報を使用することで、ユーザーは、他の複雑なブラックボックス埋め込みアルゴリズムに説明できるレベルを得る。

An embedding is a mapping from a set of nodes of a network into a real vector space. Embeddings can have various aims like capturing the underlying graph topology and structure, node-to-node relationship, or other relevant information about the graph, its subgraphs or nodes themselves. A practical challenge with using embeddings is that there are many available variants to choose from. Selecting a small set of most promising embeddings from the long list of possible options for a given task is challenging and often requires domain expertise. Embeddings can be categorized into two main types: classical embeddings and structural embeddings. Classical embeddings focus on learning both local and global proximity of nodes, while structural embeddings learn information specifically about the local structure of nodes' neighbourhood. For classical node embeddings there exists a framework which helps data scientists to identify (in an unsupervised way) a few embeddings that are worth further investigation. Unfortunately, no such framework exists for structural embeddings. In this paper we propose a framework for unsupervised ranking of structural graph embeddings. The proposed framework, apart from assigning an aggregate quality score for a structural embedding, additionally gives a data scientist insights into properties of this embedding. It produces information which predefined node features the embedding learns, how well it learns them, and which dimensions in the embedded space represent the predefined node features. Using this information the user gets a level of explainability to an otherwise complex black-box embedding algorithm.
翻訳日:2023-06-21 18:38:12 公開日:2023-06-19
# 性的虐待の男女差: オランダの政治家をTwitterで例に

Gender Differences in Abuse: The Case of Dutch Politicians on Twitter ( http://arxiv.org/abs/2306.10769v1 )

ライセンス: Link先を確認
Isabelle van der Vegt(参考訳) 政治家に対するオンラインの虐待や脅しは、世界中の多くの国のように、オランダで大きな問題となっている。 本稿では、オランダの政治家がtwitter上で受けた虐待の性差を分析し、少数民族的地位のさらなる影響について考察する。 2022年を通して党指導者に向けられた全てのツイートが集められた。 性別と少数民族の身分の影響は、6つの異なる言語的虐待、すなわち毒性、重篤な毒性、アイデンティティアタック、暴言、侮辱、脅迫によって推定された。 期待に反して、男性政治家は、脅威を除いてあらゆる種類の虐待のレベルが高かったが、男女差は認められなかった。 性別と少数民族間の有意な交流効果は、多くの虐待対策で見いだされた。 重篤な有害性、アイデンティティ攻撃、嫌悪の場合には、女性少数民族の政治家は、女性の大多数の女性の同僚よりも深刻な影響を受けたが、男性政治家よりは悪くなかった。 最終的に、女性少数民族の政治家は全てのグループよりも高いレベルの脅威を受けた。 オンライン乱用や脅迫が政治的参加や保持に悪影響を及ぼすと報告されていることから、これらの結果は特に懸念されている。

Online abuse and threats towards politicians have become a significant concern in the Netherlands, like in many other countries across the world. This paper analyses gender differences in abuse received by Dutch politicians on Twitter, while taking into account the possible additional impact of ethnic minority status. All tweets directed at party leaders throughout the entire year of 2022 were collected. The effect of gender and ethnic minority status were estimated for six different linguistic measures of abuse, namely, toxicity, severe toxicity, identity attacks, profanity, insults, and threats. Contrary to expectations, male politicians received higher levels of all forms of abuse, with the exception of threats, for which no significant gender difference was found. Significant interaction effects between gender and ethnic minority status were found for a number of abuse measures. In the case of severe toxicity, identity attacks, and profanity, female ethnic minority politicians were more severely impacted than their ethnic majority female colleagues, but not worse than male politicians. Finally, female ethnic minority politicians received the highest levels of threats compared to all groups. Given that online abuse and threats are reported to have a negative effect on political participation and retention, these results are particularly worrying.
翻訳日:2023-06-21 18:37:49 公開日:2023-06-19
# p-tensors:高次メッセージパッシングネットワーク構築のための一般的な形式

P-tensors: a General Formalism for Constructing Higher Order Message Passing Networks ( http://arxiv.org/abs/2306.10767v1 )

ライセンス: Link先を確認
Tianyi Sun, Andrew Hands, Risi Kondor(参考訳) 最近の論文では、高階グラフニューラルネットワークは、特に分子のような高度に構造化されたグラフ上で、標準的なメッセージパッシングよりも精度が高いことが示されている。 これらのモデルは通常、与えられたグラフに含まれる部分グラフの高次表現を考慮し、それらの間の線型写像を実行する。 これらの構造を置換同変テンソル(英語版)(permutation equivariant tensor, P-tensors)として定式化し、任意の位数同変P-テンソル間のすべての線型写像の基底を導出する。 実験により、このパラダイムは、いくつかのベンチマークデータセット上でのアートパフォーマンスの状態を実証する。

Several recent papers have recently shown that higher order graph neural networks can achieve better accuracy than their standard message passing counterparts, especially on highly structured graphs such as molecules. These models typically work by considering higher order representations of subgraphs contained within a given graph and then perform some linear maps between them. We formalize these structures as permutation equivariant tensors, or P-tensors, and derive a basis for all linear maps between arbitrary order equivariant P-tensors. Experimentally, we demonstrate this paradigm achieves state of the art performance on several benchmark datasets.
翻訳日:2023-06-21 18:37:29 公開日:2023-06-19
# 結晶グラフニューラルネットワークを用いた置換アロイング

Substitutional Alloying Using Crystal Graph Neural Networks ( http://arxiv.org/abs/2306.10766v1 )

ライセンス: Link先を確認
Dario Massa, Daniel Cie\'sli\'nski, Amirhossein Naghdi and Stefanos Papanikolaou(参考訳) 材料発見、特に極度の操作条件を必要とするアプリケーションには、可能な構成の富を問う能力を自然に制限する広範囲なテストが必要である。 機械学習(ML)は近年,この取り組みを体系的な方法で促進する上で,十分に確立された役割を担っている。 利用可能な正確なDFTデータの量の増加は、新しいMLモデルをトレーニングし、テストできる確固たる基盤である。 従来のモデルは静的記述子に依存しており、一般に限られた種類のシステムに適合するが、グラフニューラルネットワーク(GNN)の柔軟性により、結晶によって形成されたようなグラフ上で直接学習できる。 結晶グラフニューラルネットワーク(CGNN)を用いて、原子(ノード/頂点)、結合(エッジ)、大域状態属性を符号化したグラフを用いて、DFTレベルの精度で結晶特性を予測する。 本研究では,トレーニングセットに含まれるバルク結晶に置換欠陥を加えることで,これまで見られなかったシステムの特性をモデルから予測するCGNN MegNetフレームワークの能力をテストすることを目的とする。 生成エネルギーと構造特性(弾性変調など)の予測精度を評価するためにDFT検証を行う。 CGNNを用いて、合金発見における有望な経路を特定することができる。

Materials discovery, especially for applications that require extreme operating conditions, requires extensive testing that naturally limits the ability to inquire the wealth of possible compositions. Machine Learning (ML) has nowadays a well established role in facilitating this effort in systematic ways. The increasing amount of available accurate DFT data represents a solid basis upon which new ML models can be trained and tested. While conventional models rely on static descriptors, generally suitable for a limited class of systems, the flexibility of Graph Neural Networks (GNNs) allows for direct learning representations on graphs, such as the ones formed by crystals. We utilize crystal graph neural networks (CGNN) to predict crystal properties with DFT level accuracy, through graphs with encoding of the atomic (node/vertex), bond (edge), and global state attributes. In this work, we aim at testing the ability of the CGNN MegNet framework in predicting a number of properties of systems previously unseen from the model, obtained by adding a substitutional defect in bulk crystals that are included in the training set. We perform DFT validation to assess the accuracy in the prediction of formation energies and structural features (such as elastic moduli). Using CGNNs, one may identify promising paths in alloy discovery.
翻訳日:2023-06-21 18:37:16 公開日:2023-06-19
# 医療agiへの道--低コストでドメイン特化医療llmを統一する

Path to Medical AGI: Unify Domain-specific Medical LLMs with the Lowest Cost ( http://arxiv.org/abs/2306.10765v1 )

ライセンス: Link先を確認
Juexiao Zhou, Xiuying Chen, Xin Gao(参考訳) 医療人工知能(medical artificial general intelligence, agi)は、幅広いタスクやドメインにわたって知識を理解し、学習し、適用する能力を持つ医療アプリケーションに特化したシステムを開発することを目的とした新興分野である。 大規模言語モデル(LLM)はAGIに向けた重要なステップである。 しかし、医療分野でのクロスドメイン LLM のトレーニングは、主に多様なドメインからデータを集めることによる大きな課題を生んでいる。 このタスクは、プライバシーの制限と、公開されている医療データセットの不足により、特に困難になる。 本稿では,ドメイン固有の医療用LLMを低コストで統一するためのパラダイムであるメディカルAGI(MedAGI)を提案する。 医療分野におけるドメイン特化型マルチモーダルllmの増加に伴い,新たな適応的専門家選択アルゴリズムを用いてユーザの質問を解析し,適切な医療モデルを自動的に選択するように設計されている。 医療分野における既存のllmへの統一的なアプローチを提供し、新しいモデルの導入にかかわらず再トレーニングの必要性をなくしている。 この特徴は、動的に進行する医療領域における将来の防御ソリューションとなる。 MedAgiのレジリエンスを明らかにするために,皮膚科診断,X線診断,病理画像解析の3つの異なる領域にまたがって評価を行った。 その結果,メダギは優れた汎用性とスケーラビリティを示し,多様なドメインにまたがる優れた性能を示した。 私たちのコードはhttps://github.com/JoshuaChou2018/MedAGI.comでさらなる研究を促進するために公開されています。

Medical artificial general intelligence (AGI) is an emerging field that aims to develop systems specifically designed for medical applications that possess the ability to understand, learn, and apply knowledge across a wide range of tasks and domains. Large language models (LLMs) represent a significant step towards AGI. However, training cross-domain LLMs in the medical field poses significant challenges primarily attributed to the requirement of collecting data from diverse domains. This task becomes particularly difficult due to privacy restrictions and the scarcity of publicly available medical datasets. Here, we propose Medical AGI (MedAGI), a paradigm to unify domain-specific medical LLMs with the lowest cost, and suggest a possible path to achieve medical AGI. With an increasing number of domain-specific professional multimodal LLMs in the medical field being developed, MedAGI is designed to automatically select appropriate medical models by analyzing users' questions with our novel adaptive expert selection algorithm. It offers a unified approach to existing LLMs in the medical field, eliminating the need for retraining regardless of the introduction of new models. This characteristic renders it a future-proof solution in the dynamically advancing medical domain. To showcase the resilience of MedAGI, we conducted an evaluation across three distinct medical domains: dermatology diagnosis, X-ray diagnosis, and analysis of pathology pictures. The results demonstrated that MedAGI exhibited remarkable versatility and scalability, delivering exceptional performance across diverse domains. Our code is publicly available to facilitate further research at https://github.com/JoshuaChou2018/MedAGI.
翻訳日:2023-06-21 18:36:43 公開日:2023-06-19
# モニタを用いたグローバルコンテキストによるコードの言語モデル誘導

Guiding Language Models of Code with Global Context using Monitors ( http://arxiv.org/abs/2306.10763v1 )

ライセンス: Link先を確認
Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K. Lahiri, Sriram K. Rajamani(参考訳) 生成近傍の周辺コードが十分なコンテキストを提供する場合、コード言語モデル(LM)はうまく機能する。 これは、他のモジュールやライブラリで定義された型や機能、特にトレーニング中に見えないものを使用する必要がある場合に当てはまらない。 LMはそのようなグローバルな文脈に対する認識が限られており、例えば他のファイルで定義されている型を誤用して幻覚に陥る。 最近の研究は、グローバルな情報を取得してローカルなコンテキストを拡大することでこの問題を克服しようとしている。 しかし、これはプロンプトを肥大させ、アーキテクチャの変更と追加のトレーニングを必要とする。 統合開発環境(ide)は、静的解析を使ってグローバルコンテキストを指先に持ち込むことで開発者を支援する。 我々はこの支援を開発者によって享受され、lmsに拡張します。 本稿では,背景の静的解析を用いてデコーディングを誘導するモニタの概念を提案する。 事前検索とは異なり、静的解析はデコードプロセス全体を通して反復的に呼び出され、最も関連する提案をオンデマンドで提供する。 LMがオブジェクト参照のコードを生成すると、型一貫性のある識別子の使用を監視することで提案手法の有用性を示す。 当社のアプローチを評価するため,PragmaticCodeというオープンソースプロジェクトのデータセットを開発環境とともにキュレートした。 様々なパラメータスケールのモデルにおいて,モニタ誘導復号化により,lm が基底真理にマッチする識別子を生成するだけでなく,コンパイル率や基底真理との一致度も向上することを示した。 より少ないパラメータを持つLMをモニタでガイドすると、より大きなLMよりも優れた性能が得られる。 モニターガイドのデコードにより、santacoder-1.1bはより大きなtext-davinci-003モデルよりもコンパイルレートとnext-identifierマッチングが向上する。 データセットとコードはhttps://aka.ms/monitors4codegenでリリースされる。

Language models of code (LMs) work well when the surrounding code in the vicinity of generation provides sufficient context. This is not true when it becomes necessary to use types or functionality defined in another module or library, especially those not seen during training. LMs suffer from limited awareness of such global context and end up hallucinating, e.g., using types defined in other files incorrectly. Recent work tries to overcome this issue by retrieving global information to augment the local context. However, this bloats the prompt or requires architecture modifications and additional training. Integrated development environments (IDEs) assist developers by bringing the global context at their fingertips using static analysis. We extend this assistance, enjoyed by developers, to the LMs. We propose a notion of monitors that use static analysis in the background to guide the decoding. Unlike a priori retrieval, static analysis is invoked iteratively during the entire decoding process, providing the most relevant suggestions on demand. We demonstrate the usefulness of our proposal by monitoring for type-consistent use of identifiers whenever an LM generates code for object dereference. To evaluate our approach, we curate PragmaticCode, a dataset of open-source projects with their development environments. On models of varying parameter scale, we show that monitor-guided decoding consistently improves the ability of an LM to not only generate identifiers that match the ground truth but also improves compilation rates and agreement with ground truth. We find that LMs with fewer parameters, when guided with our monitor, can outperform larger LMs. With monitor-guided decoding, SantaCoder-1.1B achieves better compilation rate and next-identifier match than the much larger text-davinci-003 model. The datasets and code will be released at https://aka.ms/monitors4codegen .
翻訳日:2023-06-21 18:36:01 公開日:2023-06-19
# 風車ブレードの異常検出のための非接触センシング:複素値オートエンコーダを用いた焦点SVDD

Non-contact Sensing for Anomaly Detection in Wind Turbine Blades: A focus-SVDD with Complex-Valued Auto-Encoder Approach ( http://arxiv.org/abs/2306.10808v1 )

ライセンス: Link先を確認
Ga\"etan Frusque, Daniel Mitchell, Jamie Blanche, David Flynn, Olga Fink(参考訳) 風力タービンブレード(WTB)の製造欠陥の発生は、運用コストとメンテナンスコストを大幅に増加させ、重大で破壊的な結果をもたらす可能性がある。 したがって、製造工程における検査は、複合材料の一貫した製造の確保に不可欠である。 周波数変調連続波(fmcw)レーダのような非接触センシング技術は、硬化中にこれらの複雑な構造のフルビューを提供するため、ますます普及している。 本稿では,FMCWレーダを非破壊検知モードとして利用する製造の品質保証を強化する。 さらに,(1)FMCWレーダの中間周波数信号の解析表現を,受信波からの材料固有およびラウンドトリップ遅延情報をアンタングルする特徴として用いた,新しい異常検出パイプラインを開発した。 2) 焦点支援ベクトルデータ記述(focus-SVDD)と呼ばれる新しい異常検出手法を提案する。 この方法論は、健全なデータ特徴を取り除いた後にデータセットの限界境界を定義することで、異常の属性に焦点を当てる。 3) 提案手法では, 複素数値オートエンコーダを用いて健全な特徴を除去し, 指数振幅減衰 (ead) と呼ばれる新しい活性化関数を導入する。 EADは、瞬時振幅信号を特徴付けるレイリー分布を利用する。 提案手法の有効性は収集データに適用することで実証され,他の最先端の教師なし異常検出手法と比較して優れた性能を示す。 この手法は、構造的なヘルスモニタリングだけでなく、深い複雑な値のデータ処理やsvddアプリケーションの分野でも大きな貢献を期待されている。

The occurrence of manufacturing defects in wind turbine blade (WTB) production can result in significant increases in operation and maintenance costs and lead to severe and disastrous consequences. Therefore, inspection during the manufacturing process is crucial to ensure consistent fabrication of composite materials. Non-contact sensing techniques, such as Frequency Modulated Continuous Wave (FMCW) radar, are becoming increasingly popular as they offer a full view of these complex structures during curing. In this paper, we enhance the quality assurance of manufacturing utilizing FMCW radar as a non-destructive sensing modality. Additionally, a novel anomaly detection pipeline is developed that offers the following advantages: (1) We use the analytic representation of the Intermediate Frequency signal of the FMCW radar as a feature to disentangle material-specific and round-trip delay information from the received wave. (2) We propose a novel anomaly detection methodology called focus Support Vector Data Description (focus-SVDD). This methodology involves defining the limit boundaries of the dataset after removing healthy data features, thereby focusing on the attributes of anomalies. (3) The proposed method employs a complex-valued autoencoder to remove healthy features and we introduces a new activation function called Exponential Amplitude Decay (EAD). EAD takes advantage of the Rayleigh distribution, which characterizes an instantaneous amplitude signal. The effectiveness of the proposed method is demonstrated through its application to collected data, where it shows superior performance compared to other state-of-the-art unsupervised anomaly detection methods. This method is expected to make a significant contribution not only to structural health monitoring but also to the field of deep complex-valued data processing and SVDD application.
翻訳日:2023-06-21 18:28:40 公開日:2023-06-19
# 乳がんの病理組織像からの新しいアジュバント化学療法に対する病理学的完全反応を予測するためのエキスパートの認識駆動型深層学習

Experts' cognition-driven ensemble deep learning for external validation of predicting pathological complete response to neoadjuvant chemotherapy from histological images in breast cancer ( http://arxiv.org/abs/2306.10805v1 )

ライセンス: Link先を確認
Yongquan Yang, Fengling Li, Yani Wei, Yuanyuan Zhao, Jing Fu, Xiuli Xiao, Hong Bu(参考訳) 乳がん画像では, 深層学習(DL)に基づく病理組織像から, ネオアジュバント化学療法(NAC)に対する病理学的完全反応(pCR)を直接予測する傾向が見られた。 しかし、構築されたDLベースのモデルが外部の検証よりも内部の検証性能が優れていることは、一般に知られている問題である。 この状況の主な理由は、検証のための外部データの分布が、予測モデルの構築のためのトレーニングデータの分布とは異なることである。 本稿では,この状況をより本質的なアプローチで緩和することを目的とする。 乳がんの組織像からNACに対するpCR予測の外部的妥当性を検証するため,専門家の認識駆動型深層学習(ECDEDL)アプローチを提案する。 提案するECDEDLは, 病的モデルと人工知能の専門家の両方の認識を考慮に入れ, 予測モデルの一般化と外部検証の改善を考慮に入れ, 様々な作業経験を参照して意思決定を行う人間の作業パラダイムを本質的に近似する。 提案手法は,予測モデルを開発し内部検証を行うために一次データセットと同じセンターから収集した695個のwsisと,外部検証を行う外部データセットとして他の3つのセンターから収集された340個のwsisを用いて検証した。 外部検証において、提案されたECDEDLアプローチは、pCR予測のAUCを61.52(59.80-63.26)から67.75(66.74-68.80)に改善し、pCR予測の精度を56.09(49.39-62.79)から71.01(69.44-72.58)に改善した。 提案したECDEDLは外部検証に極めて有効であり,内部検証をより数値的に近似した。

In breast cancer imaging, there has been a trend to directly predict pathological complete response (pCR) to neoadjuvant chemotherapy (NAC) from histological images based on deep learning (DL). However, it has been a commonly known problem that the constructed DL-based models numerically have better performances in internal validation than in external validation. The primary reason for this situation lies in that the distribution of the external data for validation is different from the distribution of the training data for the construction of the predictive model. In this paper, we aim to alleviate this situation with a more intrinsic approach. We propose an experts' cognition-driven ensemble deep learning (ECDEDL) approach for external validation of predicting pCR to NAC from histological images in breast cancer. The proposed ECDEDL, which takes the cognition of both pathology and artificial intelligence experts into consideration to improve the generalization of the predictive model to the external validation, more intrinsically approximates the working paradigm of a human being which will refer to his various working experiences to make decisions. The proposed ECDEDL approach was validated with 695 WSIs collected from the same center as the primary dataset to develop the predictive model and perform the internal validation, and 340 WSIs collected from other three centers as the external dataset to perform the external validation. In external validation, the proposed ECDEDL approach improves the AUCs of pCR prediction from 61.52(59.80-63.26) to 67.75(66.74-68.80) and the Accuracies of pCR prediction from 56.09(49.39-62.79) to 71.01(69.44-72.58). The proposed ECDEDL was quite effective for external validation, numerically more approximating the internal validation.
翻訳日:2023-06-21 18:28:12 公開日:2023-06-19
# 拡散モデルを用いた条件付きテキスト画像生成

Conditional Text Image Generation with Diffusion Models ( http://arxiv.org/abs/2306.10804v1 )

ライセンス: Link先を確認
Yuanzhi Zhu, Zhaohai Li, Tianwei Wang, Mengchao He, Cong Yao(参考訳) 手書き文字やシーンテキストを含む現在のテキスト認識システムは、十分なテキスト画像の収集と注釈によって現実世界の複雑さと多様性を実現することが困難であるため、画像合成と拡張に大きく依存している。 本稿では, テキスト画像生成の課題について, フォトリアリスティックで多様な画像サンプルを所定の条件で生成する際の拡散モデルの強力な能力を活用して検討し, 拡散モデルを用いた条件付きテキスト画像生成法(CTIG-DM)を提案する。 テキスト画像の特性に適合するため,画像生成過程におけるサンプルの属性,内容,スタイルを制御できる,画像条件,テキスト条件,スタイル条件の3つの条件を考案する。 具体的には、(1)合成モード、(2)拡張モード、(3)回復モード、(4)模倣モードの4つのテキスト画像生成モードをこれら3つの条件を組み合わせて構成することで導出することができる。 手書きテキストとシーンテキストの両方の広範な実験により、提案されているctig-dmは実世界の複雑さと多様性をシミュレートする画像サンプルを作成でき、既存のテキスト認識器の性能を向上させることができる。 さらに、CTIG-DMは、OF-Vocabulary(OOV)単語を含む領域適応および画像生成において、その魅力を示す。

Current text recognition systems, including those for handwritten scripts and scene text, have relied heavily on image synthesis and augmentation, since it is difficult to realize real-world complexity and diversity through collecting and annotating enough real text images. In this paper, we explore the problem of text image generation, by taking advantage of the powerful abilities of Diffusion Models in generating photo-realistic and diverse image samples with given conditions, and propose a method called Conditional Text Image Generation with Diffusion Models (CTIG-DM for short). To conform to the characteristics of text images, we devise three conditions: image condition, text condition, and style condition, which can be used to control the attributes, contents, and styles of the samples in the image generation process. Specifically, four text image generation modes, namely: (1) synthesis mode, (2) augmentation mode, (3) recovery mode, and (4) imitation mode, can be derived by combining and configuring these three conditions. Extensive experiments on both handwritten and scene text demonstrate that the proposed CTIG-DM is able to produce image samples that simulate real-world complexity and diversity, and thus can boost the performance of existing text recognizers. Besides, CTIG-DM shows its appealing potential in domain adaptation and generating images containing Out-Of-Vocabulary (OOV) words.
翻訳日:2023-06-21 18:27:38 公開日:2023-06-19
# 島を用いた3方向情報パラドックスとその解決

Three way information paradox and its resolution using islands ( http://arxiv.org/abs/2306.10801v1 )

ライセンス: Link先を確認
Manish Ramchander, Sitender Pratap Kashyap, Roji Pius(参考訳) ブラックホールは有限自由度を持ち、任意の系の非有界絡み合い成長を燃やすことはできない。 結合した系が1つの実体である通常の情報パラドックスの代わりに、ここではブラックホールの$\chi_0$と2つの無限の実体を結合する:熱浴$\chi_1$と補助系$\chi _2$。 これは、ブラックホールのエントロピーに対する重力補正が$\chi _1$と$\chi _2$エントロピーのパラドックス成長を防げないという意味で、新しい情報パラドックスを生み出す。 このことは、このパラドックスがどんな分解能を持っているのかを即座に引き起こし、島式と絡み合いのモノガミーのアイデアを用いて、AdS$2$JT重力モデルでこの問題に対処する。 ブラックホールのエントロピー成長を改善させる量子極端表面を発見し、$\chi _1$と$\chi _2$エントロピーがモノガミーを用いてどのように振る舞うかを論じ、これらの期待を満たす島を導出する。 我々の結果の直接的な結果は、重力が独立に開始しても$\chi _1$と$\chi _2$の絡み合いを構築することである。

Black holes possess finite degrees of freedom and thus cannot fuel unbounded entanglement growth of any system. Instead of the usual information paradox where the coupled system is one entity, the Hawking radiation, here we couple a black hole $\chi_0$ with two infinite entities: a thermal bath $\chi_1$ and an auxiliary system $\chi _2$. This produces a novel information paradox in the sense that gravitational correction to black hole entropy does not rule out paradoxical growth of $\chi _1$ and $\chi _2$ entropies. This immediately raises what kind of resolution such a paradox has, and we address this question working in the AdS$_2$ JT gravity model, using the island formula, and ideas of entanglement monogamy. We find the quantum extremal surface that cures the black hole entropy growth, argue to the nature of how $\chi _1$ and $\chi _2$ entropies must behave using monogamy, and derive an island which satisfies these expectations. A direct consequence of our results is that gravitation builds entanglement between $\chi _1$ and $\chi _2$, even though they start out independently.
翻訳日:2023-06-21 18:27:13 公開日:2023-06-19
# selftalk: 自己教師付き可換学習図による3次元対話顔の理解

SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend 3D Talking Faces ( http://arxiv.org/abs/2306.10799v1 )

ライセンス: Link先を確認
Ziqiao Peng, Yihao Luo, Yue Shi, Hao Xu, Xiangyu Zhu, Hongyan Liu, Jun He, Zhaoxin Fan(参考訳) 音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用 これまでの研究は、音声信号から現実的な唇の動きと表情を生み出してきた。 しかし、データのみによって駆動される従来の回帰モデルは、正確なラベルへのアクセスの困難や異なるモダリティ間のドメインギャップといったいくつかの重要な問題に直面し、精度と一貫性に欠ける不満足な結果をもたらす。 ラベル付きデータへの依存を低減しつつ、生成した唇の動きの視覚的精度を高めるために、クロスモーダルネットワークシステムに自己監督を組み込んだ新たなフレームワークであるSelfTalkを提案する。 このフレームワークは、顔アニメーター、音声認識、唇読取インタプリタの3つのモジュールからなるネットワークシステムを構築する。 selftalkのコアは、オーディオ、テキスト、唇形状の互換性のある機能を交換し、モデルがこれらの要素間の複雑な接続を学習できるようにする、コンタクティブなトレーニングダイアグラムです。 提案フレームワークは, 唇読解者から学んだ知識を利用して, より可塑性な唇形状を生成する。 広汎な実験とユーザスタディにより,提案手法が質的かつ定量的に,最先端の性能を達成することを示す。 補足ビデオを見ることをお勧めします。

Speech-driven 3D face animation technique, extending its applications to various multimedia fields. Previous research has generated promising realistic lip movements and facial expressions from audio signals. However, traditional regression models solely driven by data face several essential problems, such as difficulties in accessing precise labels and domain gaps between different modalities, leading to unsatisfactory results lacking precision and coherence. To enhance the visual accuracy of generated lip movement while reducing the dependence on labeled data, we propose a novel framework SelfTalk, by involving self-supervision in a cross-modals network system to learn 3D talking faces. The framework constructs a network system consisting of three modules: facial animator, speech recognizer, and lip-reading interpreter. The core of SelfTalk is a commutative training diagram that facilitates compatible features exchange among audio, text, and lip shape, enabling our models to learn the intricate connection between these factors. The proposed framework leverages the knowledge learned from the lip-reading interpreter to generate more plausible lip shapes. Extensive experiments and user studies demonstrate that our proposed approach achieves state-of-the-art performance both qualitatively and quantitatively. We recommend watching the supplementary video.
翻訳日:2023-06-21 18:26:48 公開日:2023-06-19
# 点雲の自己教師あり変圧器について

A deep dive into explainable self-supervised transformers for point clouds ( http://arxiv.org/abs/2306.10798v1 )

ライセンス: Link先を確認
Ioannis Romanelis and Vlassis Fotis and Konstantinos Moustakas and Adrian Munteanu(参考訳) 本稿では,点クラウド領域における自己超越によって達成された変圧器の特性について考察する。 具体的には,Masked Autoencodingの有効性を事前学習方式として評価し,Momentum Contrastを代替として検討する。 本研究では,データ量が学習特徴に与える影響について検討し,変圧器のドメイン間挙動の類似性を明らかにする。 総合的な視認を通じて,トランスフォーマーが意味的に有意味な領域に順応することを学び,事前学習が基礎となる幾何学をよりよく理解することを示す。 さらに,微調整プロセスとその学習表現への影響について検討した。 それに基づいて,モデルやトレーニングパイプラインに修正を加えることなく,ベースラインを一貫して上回るフリーズ戦略を考案し,トランスフォーマーモデル間の分類作業において最先端の結果を得る。

In this paper we delve into the properties of transformers, attained through self-supervision, in the point cloud domain. Specifically, we evaluate the effectiveness of Masked Autoencoding as a pretraining scheme, and explore Momentum Contrast as an alternative. In our study we investigate the impact of data quantity on the learned features, and uncover similarities in the transformer's behavior across domains. Through comprehensive visualiations, we observe that the transformer learns to attend to semantically meaningful regions, indicating that pretraining leads to a better understanding of the underlying geometry. Moreover, we examine the finetuning process and its effect on the learned representations. Based on that, we devise an unfreezing strategy which consistently outperforms our baseline without introducing any other modifications to the model or the training pipeline, and achieve state-of-the-art results in the classification task among transformer models.
翻訳日:2023-06-21 18:26:26 公開日:2023-06-19
# 部分観測力学系に対するエコー状態ネットワーク予測地平線の可変性

Variability of echo state network prediction horizon for partially observed dynamical systems ( http://arxiv.org/abs/2306.10797v1 )

ライセンス: Link先を確認
Ajit Mahata, Reetish Padhi and Amit Apte(参考訳) 部分状態観測を用いた力学系の研究は、多くの実世界のシステムに適用できるため重要な問題である。 本稿では,部分状態入力と完全状態出力を併用したエコー状態ネットワーク(ESN)フレームワークを提案する。 LorenzシステムとChuaの発振器(数値シミュレーションおよび実験システムの両方)を用いて,本手法の有効性を検証した。 自律力学系としてのESNは、いくつかのリャプノフ時間の短期予測を行うことができることを示した。 しかしながら、予測の地平線は、初期条件(詳細を探求する側面)によって高いばらつきを持つ。 さらに,esn予測の長期ダイナミクスと数値シミュレーションや実験ダイナミクスを比較し,同様の結果を得た結果から,ノイズのある数値データセットや実験データセットでトレーニングしても,esnはシステムのダイナミクスを効果的に学習できることを示した。 そこで本研究では,ESNが完全な観測が不可能なシステムのダイナミクスを予測するための,安価な代理モデルとして機能する可能性を示す。

Study of dynamical systems using partial state observation is an important problem due to its applicability to many real-world systems. We address the problem by proposing an echo state network (ESN) framework with partial state input with partial or full state output. The Lorenz system and Chua's oscillator (both numerically simulated and experimental systems) are used to check the effectiveness of our method. We demonstrate that the ESN, as an autonomous dynamical system, is capable of making short-term predictions up to a few Lyapunov times. However, the prediction horizon has high variability depending on the initial condition -- an aspect that we explore in detail. Further, using a variety of statistical metrics to compare the long-term dynamics of the ESN predictions with numerically simulated or experimental dynamics and observed similar results, we show that the ESN can effectively learn the system's dynamics even when trained with noisy numerical or experimental datasets. Thus, we demonstrate the potential of ESNs to serve as a cheap surrogate model for predicting the dynamics of systems where complete observations are unavailable.
翻訳日:2023-06-21 18:26:11 公開日:2023-06-19
# NAR-Former V2:Universal Neural Network Representation Learningのための変換器の再考

NAR-Former V2: Rethinking Transformer for Universal Neural Network Representation Learning ( http://arxiv.org/abs/2306.10792v1 )

ライセンス: Link先を確認
Yun Yi, Haokui Zhang, Rong Xiao, Nannan Wang, Xiaoyu Wang(参考訳) 現実世界のアプリケーションでより多くのディープラーニングモデルが適用されると、ニューラルネットワーク自体の表現をモデリングし学習する必要性が高まる。 効率的な表現は、実際のトレーニングやデプロイメント手順を必要とせずに、ネットワークのターゲット属性を予測し、効率的なネットワークデプロイメントと設計を容易にするために使用できる。 近年、Transformerの成功に触発されて、Transformerベースの表現学習フレームワークが提案され、セル構造モデルを扱う上で有望な性能を達成した。 しかし、グラフニューラルネットワーク(GNN)に基づくアプローチは、ネットワーク全体の学習表現の分野を支配している。 本稿では、Transformerを再検討し、GNNと比較し、異なるアーキテクチャ特性を分析する。 次に,トランスフォーマーに基づく汎用ニューラルネットワーク表現学習モデル NAR-Former V2 を提案する。 セル構造ネットワークとネットワーク全体から効率的な表現を学ぶことができる。 具体的には、まずネットワークをグラフとして、ネットワークをシーケンスにエンコードするための簡単なトークン化器を設計します。 そして、GNNの帰納的表現学習能力をTransformerに組み込むことで、未確認アーキテクチャに遭遇した場合に、Transformerをより一般化することができる。 さらに,グラフ構造から表現を学習する際のトランスフォーマーの能力を高めるための,単純かつ効果的な修正も導入する。 提案手法は, NNLQPデータセットの遅延推定において, GNN-based method NNLPをはるかに上回っている。 さらに,nasbench101およびnasbench201データセットの精度予測について,他の最先端手法と同等の性能を実現する。

As more deep learning models are being applied in real-world applications, there is a growing need for modeling and learning the representations of neural networks themselves. An efficient representation can be used to predict target attributes of networks without the need for actual training and deployment procedures, facilitating efficient network deployment and design. Recently, inspired by the success of Transformer, some Transformer-based representation learning frameworks have been proposed and achieved promising performance in handling cell-structured models. However, graph neural network (GNN) based approaches still dominate the field of learning representation for the entire network. In this paper, we revisit Transformer and compare it with GNN to analyse their different architecture characteristics. We then propose a modified Transformer-based universal neural network representation learning model NAR-Former V2. It can learn efficient representations from both cell-structured networks and entire networks. Specifically, we first take the network as a graph and design a straightforward tokenizer to encode the network into a sequence. Then, we incorporate the inductive representation learning capability of GNN into Transformer, enabling Transformer to generalize better when encountering unseen architecture. Additionally, we introduce a series of simple yet effective modifications to enhance the ability of the Transformer in learning representation from graph structures. Our proposed method surpasses the GNN-based method NNLP by a significant margin in latency estimation on the NNLQP dataset. Furthermore, regarding accuracy prediction on the NASBench101 and NASBench201 datasets, our method achieves highly comparable performance to other state-of-the-art methods.
翻訳日:2023-06-21 18:25:54 公開日:2023-06-19
# 因果推論による事前学習言語モデルからの常識知識の保存

Preserving Commonsense Knowledge from Pre-trained Language Models via Causal Inference ( http://arxiv.org/abs/2306.10790v1 )

ライセンス: Link先を確認
Junhao Zheng, Qianli Ma, Shengjie Qiu, Yue Wu, Peitian Ma, Junlong Liu, Huawen Feng, Xichen Shang and Haibin Chen(参考訳) 微調整は、事前学習された言語モデル(plm)の学習知識を下流タスクに転送する、シンプルで効果的な技術であることが証明されている。 しかし、バニラ微調整はターゲットデータに容易に適合し、一般化能力を低下させる。 現存するほとんどの研究は、破滅的な忘れ物であり、どの知識が転送可能かを特定せずに、訓練済みの知識を無差別に保持している。 この動機付けにより、微調整を因果グラフにフレーム化し、大惨事の欠落は、事前訓練されたデータから失われた因果効果にあることを発見する。 因果的観点から,因果関係を取り戻すための微調整のための統一的な目的を提案する。 興味深いことに、統一された目標は、目標データから新しい知識を学ぶバニラ微調整目標と、plmから古い知識を保存する因果目標の合計と見なすことができる。 したがって,本手法は柔軟性が高く,知識を保ちながら負の伝達を軽減できる。 コモンセンス付きエンドウイングモデルは長年の課題であるので,提案手法をコモンセンス qa 上で実装し,その有効性を検証するためにヒューリスティックな推定を行う。 実験では,既存のQAモデルの性能を向上させるプラグインモジュールとして実装できる6つのコモンセンスQAデータセットに対して,最先端の微調整手法より優れていた。

Fine-tuning has been proven to be a simple and effective technique to transfer the learned knowledge of Pre-trained Language Models (PLMs) to downstream tasks. However, vanilla fine-tuning easily overfits the target data and degrades the generalization ability. Most existing studies attribute it to catastrophic forgetting, and they retain the pre-trained knowledge indiscriminately without identifying what knowledge is transferable. Motivated by this, we frame fine-tuning into a causal graph and discover that the crux of catastrophic forgetting lies in the missing causal effects from the pretrained data. Based on the causal view, we propose a unified objective for fine-tuning to retrieve the causality back. Intriguingly, the unified objective can be seen as the sum of the vanilla fine-tuning objective, which learns new knowledge from target data, and the causal objective, which preserves old knowledge from PLMs. Therefore, our method is flexible and can mitigate negative transfer while preserving knowledge. Since endowing models with commonsense is a long-standing challenge, we implement our method on commonsense QA with a proposed heuristic estimation to verify its effectiveness. In the experiments, our method outperforms state-of-the-art fine-tuning methods on all six commonsense QA datasets and can be implemented as a plug-in module to inflate the performance of existing QA models.
翻訳日:2023-06-21 18:25:27 公開日:2023-06-19
# 深層強化学習を用いた適応順序情報抽出

Adaptive Ordered Information Extraction with Deep Reinforcement Learning ( http://arxiv.org/abs/2306.10787v1 )

ライセンス: Link先を確認
Wenhao Huang, Jiaqing Liang, Zhixu Li, Yanghua Xiao, Chuanjun Ji(参考訳) 情報抽出(IE)は広く研究されている。 既存のメソッドは常に、イベント抽出のような1つのインスタンスで複数の要素を抽出できる複雑なieタスクの固定抽出順序に従う。 しかし、いくつかの複雑なIEデータセットの実験を行い、異なる抽出順序が多くのインスタンスの抽出結果に顕著に影響を及ぼし、抽出順序に敏感な文の割合がIEタスクの複雑さとともに劇的に増加するのを観察する。 そこで本稿では,異なるインスタンスの最適要素抽出順序を求める新しい適応順序ieパラダイムを提案し,最適な抽出結果を得る。 また,各インスタンスの最適抽出順序を生成するための強化学習(rl)ベースのフレームワークを提案する。 さらに,抽出器訓練段階における露光バイアスを軽減するため,RLに適応した協調学習フレームワークを提案する。 いくつかの公開データセットで行った広範囲な実験は、提案手法が以前の手法を上回ることができ、特に複雑なデータに対して様々なieタスクのパフォーマンスを効果的に改善できることを示している。

Information extraction (IE) has been studied extensively. The existing methods always follow a fixed extraction order for complex IE tasks with multiple elements to be extracted in one instance such as event extraction. However, we conduct experiments on several complex IE datasets and observe that different extraction orders can significantly affect the extraction results for a great portion of instances, and the ratio of sentences that are sensitive to extraction orders increases dramatically with the complexity of the IE task. Therefore, this paper proposes a novel adaptive ordered IE paradigm to find the optimal element extraction order for different instances, so as to achieve the best extraction results. We also propose an reinforcement learning (RL) based framework to generate optimal extraction order for each instance dynamically. Additionally, we propose a co-training framework adapted to RL to mitigate the exposure bias during the extractor training phase. Extensive experiments conducted on several public datasets demonstrate that our proposed method can beat previous methods and effectively improve the performance of various IE tasks, especially for complex ones.
翻訳日:2023-06-21 18:25:04 公開日:2023-06-19
# 3dvrスケッチによる3d形状のプロトタイピングと探索

3D VR Sketch Guided 3D Shape Prototyping and Exploration ( http://arxiv.org/abs/2306.10830v1 )

ライセンス: Link先を確認
Ling Luo, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song, Yulia Gryaditskaya(参考訳) 3D形状モデリングは労働集約的で時間を要するため、長年の専門知識を必要とする。 近年,3次元形状モデリングを容易にするために,2次元スケッチやテキスト入力を3次元形状生成ネットワークの条件モダリティとして検討している。 しかし、テキストには十分な細かな情報がなく、幾何学よりもカテゴリや外観を記述するのに適しており、2dのスケッチは曖昧であり、複雑な3d形状を2dで描くにはさらなる実践が必要である。 代わりに、3dで直接描画される仮想現実のスケッチを探索する。 スケッチは初心者によって作成され、アートトレーニングなしで作成され、物理的に証明可能な3D形状の再構築を目指していると仮定する。 このようなスケッチは、潜在的に曖昧であるため、入力スケッチ構造に従う複数の3次元形状の生成の問題に取り組む。 トレーニングデータのサイズが限られているため,本手法を慎重に設計し,段階的にモデルを訓練し,マルチモーダル3次元形状表現を活用する。 生成した3次元形状の可算性を保証するために, 3次元形状の潜在空間分布をモデル化する正規化流れを利用する。 入力スケッチに対する生成した3Dモデルの忠実さを促進するために,トレーニングプロセスの異なる段階に展開する専用損失を提案する。 私たちはコードを一般公開する予定です。

3D shape modeling is labor-intensive and time-consuming and requires years of expertise. Recently, 2D sketches and text inputs were considered as conditional modalities to 3D shape generation networks to facilitate 3D shape modeling. However, text does not contain enough fine-grained information and is more suitable to describe a category or appearance rather than geometry, while 2D sketches are ambiguous, and depicting complex 3D shapes in 2D again requires extensive practice. Instead, we explore virtual reality sketches that are drawn directly in 3D. We assume that the sketches are created by novices, without any art training, and aim to reconstruct physically-plausible 3D shapes. Since such sketches are potentially ambiguous, we tackle the problem of the generation of multiple 3D shapes that follow the input sketch structure. Limited in the size of the training data, we carefully design our method, training the model step-by-step and leveraging multi-modal 3D shape representation. To guarantee the plausibility of generated 3D shapes we leverage the normalizing flow that models the distribution of the latent space of 3D shapes. To encourage the fidelity of the generated 3D models to an input sketch, we propose a dedicated loss that we deploy at different stages of the training process. We plan to make our code publicly available.
翻訳日:2023-06-21 18:19:05 公開日:2023-06-19
# 準周期モザイク格子における多動端の実験的プローブ

Experimental probe of multi-mobility edges in quasiperiodic mosaic lattices ( http://arxiv.org/abs/2306.10829v1 )

ライセンス: Link先を確認
Jun Gao, Ivan M. Khaymovich, Xiao-Wei Wang, Ze-Sheng Xu, Adrian Iovan, Govind Krishna, Alexander V. Balatsky, Val Zwiller, Ali W. Elshaari(参考訳) 移動性エッジ(me)は局在物理学を理解する上で重要な概念であり、エネルギースペクトルにおける拡張状態と局所状態の間の臨界遷移を示す。 andersonローカライズ・スケーリング理論は、低次元システムにおけるmeの欠如を予測する。 そのため、特に低次元の単一粒子に対する正確なMEの探索は、最近理論と実験的研究の両方に大きな関心を集め、顕著な進歩をもたらした。 しかし、複数のmesを示す単一のシステムの可能性や、強い障害領域内においても拡張状態が継続的に存在する可能性など、いくつかの疑問が残されている。 本稿では,ナノフォトニック回路を用いた準周期モザイク格子を用いて,これらの問題に対処する実験的な証拠を提供する。 本研究は, 2次対称性の破れと変調周期の異なる格子における拡張状態と局所状態の共存を示す。 単一サイトインジェクションと障害レベルの走査により,変調格子のMEを概ね調査することができた。 これらの結果は、最近の理論予測を裏付け、ME物理を研究するための新しい道を導入し、ハイブリッド集積フォトニックデバイスを用いた量子状態におけるME物理のさらなる探索にインスピレーションを与える。

The mobility edge (ME) is a crucial concept in understanding localization physics, marking the critical transition between extended and localized states in the energy spectrum. Anderson localization scaling theory predicts the absence of ME in lower dimensional systems. Hence, the search for exact MEs, particularly for single particles in lower dimensions, has recently garnered significant interest in both theoretical and experimental studies, resulting in notable progress. However, several open questions remain, including the possibility of a single system exhibiting multiple MEs and the continual existence of extended states, even within the strong disorder domain. Here, we provide experimental evidence to address these questions by utilizing a quasiperiodic mosaic lattice with meticulously designed nanophotonic circuits. Our observations demonstrate the coexistence of extended and localized states in lattices with broken duality symmetry and varying modulation periods. By single site injection and scanning the disorder level, we could approximately probe the ME of the modulated lattice. These results corroborate recent theoretical predictions, introduce a new avenue for investigating ME physics, and offer inspiration for further exploration of ME physics in the quantum regime using hybrid integrated photonic devices.
翻訳日:2023-06-21 18:18:44 公開日:2023-06-19
# 季節分解に基づく誤差補正中期電力負荷予測モデル

An Error Correction Mid-term Electricity Load Forecasting Model Based on Seasonal Decomposition ( http://arxiv.org/abs/2306.10826v1 )

ライセンス: Link先を確認
Liping Zhang, Di Wu, Xin Luo(参考訳) 中期電力負荷予測(lf)は電力システムの計画と運用において重要な役割を担っている。 本稿では,既存のLFモデルの動作における誤り蓄積と転送の問題に対処するため,より正確かつ安定したLFを提供するために,誤り訂正ベースLF(ECLF)と呼ばれる新しいモデルを提案する。 まず、時系列分析と特徴工学が元のデータに作用し、負荷データを3つのコンポーネントに分解し、関連する特徴を抽出する。 そして、アンサンブルを積み重ねるアイデアに基づいて、長い短期記憶を誤差補正モジュールとして使用し、コンポーネントを別々に予測し、その予測結果を第2段階予測のための極端な勾配押し上げに投入する新機能として扱う。 最後に、部品サブシリーズ予測結果を再構成して最終LF結果を得る。 提案モデルは,中国2都市における実世界の電力負荷データに基づいて評価され,他のベンチマークモデルよりも優れた性能を示す実験結果が得られた。

Mid-term electricity load forecasting (LF) plays a critical role in power system planning and operation. To address the issue of error accumulation and transfer during the operation of existing LF models, a novel model called error correction based LF (ECLF) is proposed in this paper, which is designed to provide more accurate and stable LF. Firstly, time series analysis and feature engineering act on the original data to decompose load data into three components and extract relevant features. Then, based on the idea of stacking ensemble, long short-term memory is employed as an error correction module to forecast the components separately, and the forecast results are treated as new features to be fed into extreme gradient boosting for the second-step forecasting. Finally, the component sub-series forecast results are reconstructed to obtain the final LF results. The proposed model is evaluated on real-world electricity load data from two cities in China, and the experimental results demonstrate its superior performance compared to the other benchmark models.
翻訳日:2023-06-21 18:18:25 公開日:2023-06-19
# EPRペアのみを用いた量子検出可能ビザンチン合意プロトコル

A Quantum Detectable Byzantine Agreement Protocol using only EPR pairs ( http://arxiv.org/abs/2306.10825v1 )

ライセンス: Link先を確認
Theodore Andronikos, Alla Sirokofskich(参考訳) 本稿では,検出可能ビザンチン合意のための新しい量子プロトコルを提案する。 提案されたプロトコルを類似の量子プロトコルと区別することは、EPRペアのみを使用し、特に$\ket{ \Psi^{ + }$ペアを使用するという事実である。 検出可能なビザンチン協定を保証できる高度な量子プロトコルは数多く存在するが、現在の技術的制限のため、それらは実装に簡単には依存しない。 多数のプレーヤーに対して、$\ket{ GHZ }$ $n$-tuplesや他のよりエキゾチックな絡み合った状態は、生成が困難であり、そのようなプロトコルのスケーラビリティを複雑にする可能性がある。 対照的にベル状態は、間違いなく最大の絡み合った状態の中で最も容易に生成できる状態である。 これは、プレイヤー数$n$に関係なく、EPRペアだけを必要とするため、提案されたプロトコルのスケーラビリティを促進することを願っている。 最後に、任意の多くのプレイヤーが$n$であっても、我々のプロトコルは常に一定数のラウンド、すなわち$3$で完了します。

In this paper, we introduce a new quantum protocol for Detectable Byzantine Agreement. What distinguishes the proposed protocol among similar quantum protocols, is the fact that it uses only EPR pairs, and, in particular, $\ket{ \Psi^{ + } }$ pairs. There are many sophisticated quantum protocols that guarantee Detectable Byzantine Agreement, but they do not easily lend themselves to practical implementations, due to present-day technological limitations. For a large number $n$ of players, $\ket{ GHZ }$ $n$-tuples, or other more exotic entangled states, are not easy to produce, a fact which might complicate the scalability of such protocols. In contrast, Bell states are, undoubtedly, the easiest to generate among maximally entangled states. This will, hopefully, facilitate the scalability of the proposed protocol, as only EPR pairs are required, irrespective of the number $n$ of players. Finally, we mention that, even for arbitrary many players $n$, our protocol always completes in a constant number of rounds, namely $3$.
翻訳日:2023-06-21 18:18:08 公開日:2023-06-19
# パッケージinnsightを用いた深層ニューラルネットワークの解釈

Interpreting Deep Neural Networks with the Package innsight ( http://arxiv.org/abs/2306.10822v1 )

ライセンス: Link先を確認
Niklas Koenen, Marvin N. Wright(参考訳) RパッケージInnsightは、ディープニューラルネットワークの予測を、いわゆるフィーチャー属性メソッドで可変的に解釈する一般的なツールボックスを提供する。 統一的でユーザフレンドリなフレームワークとは別に、このパッケージは3つの点で際立っている。 一般的に、ニューラルネットワークのための機能属性メソッドを実装する最初のRパッケージである。 第二に、ディープラーニングライブラリとは独立して、keras、torch、Neuralnet、さらにはカスタムモデルを含む、任意のRパッケージからモデルの解釈を可能にする。 その柔軟性にもかかわらず、innsightはtorchパッケージの高速かつ効率的な配列計算から内部的に恩恵を受け、libtorch $-$ pytorchのc++バックエンド$-$をpython依存なしで構築する。 最後に、表、信号、画像データ、あるいはこれらの組み合わせのための様々な視覚化ツールを提供する。 さらにプロットをプロットパッケージを使ってインタラクティブにレンダリングすることもできる。

The R package innsight offers a general toolbox for revealing variable-wise interpretations of deep neural networks' predictions with so-called feature attribution methods. Aside from the unified and user-friendly framework, the package stands out in three ways: It is generally the first R package implementing feature attribution methods for neural networks. Secondly, it operates independently of the deep learning library allowing the interpretation of models from any R package, including keras, torch, neuralnet, and even custom models. Despite its flexibility, innsight benefits internally from the torch package's fast and efficient array calculations, which builds on LibTorch $-$ PyTorch's C++ backend $-$ without a Python dependency. Finally, it offers a variety of visualization tools for tabular, signal, image data or a combination of these. Additionally, the plots can be rendered interactively using the plotly package.
翻訳日:2023-06-21 18:17:50 公開日:2023-06-19
# 音素自動転写による5つのL1背景からの韓国語発音誤りパターンの比較

Comparison of L2 Korean pronunciation error patterns from five L1 backgrounds by using automatic phonetic transcription ( http://arxiv.org/abs/2306.10821v1 )

ライセンス: Link先を確認
Eun Jung Yeo, Hyungshin Ryu, Jooyoung Lee, Sunhee Kim, Minhwa Chung(参考訳) 本稿では,中国語,ベトナム語,日本語,タイ語,英語の5言語背景のl2韓国語の発音誤りパターンを,自動音声認識を用いて大規模に分析する。 解析のために、各L1に対して、標準電話シーケンスと微調整されたWav2Vec2 XLS-R電話認識器から得られる自動転写電話シーケンスを整列させて、混乱行列を生成する。 混乱行列の各値を比較して、頻繁な共通エラーパターンをキャプチャし、特定の言語背景特有のパターンを指定する。 韓国語の外国語話者音声データを用いた人工知能学習データセットでは,(1)発声子音の置換,(2)音節末子音の削除,(3)単音節の置換,が一般的な誤りパターンであることがわかった。 一方,(1)ベトナム語では/n/,(2)日本語では/\textturnm/,/n/で音節末/l/の置換を含む39パターンが言語依存型として見出された。

This paper presents a large-scale analysis of L2 Korean pronunciation error patterns from five different language backgrounds, Chinese, Vietnamese, Japanese, Thai, and English, by using automatic phonetic transcription. For the analysis, confusion matrices are generated for each L1, by aligning canonical phone sequences and automatically transcribed phone sequences obtained from fine-tuned Wav2Vec2 XLS-R phone recognizer. Each value in the confusion matrices is compared to capture frequent common error patterns and to specify patterns unique to a certain language background. Using the Foreign Speakers' Voice Data of Korean for Artificial Intelligence Learning dataset, common error pattern types are found to be (1) substitutions of aspirated or tense consonants with plain consonants, (2) deletions of syllable-final consonants, and (3) substitutions of diphthongs with monophthongs. On the other hand, thirty-nine patterns including (1) syllable-final /l/ substitutions with /n/ for Vietnamese and (2) /\textturnm/ insertions for Japanese are discovered as language-dependent.
翻訳日:2023-06-21 18:17:34 公開日:2023-06-19
# $\texttt{causalAssembly}$: ベンチマークによる因果発見のための実運用データの生成

$\texttt{causalAssembly}$: Generating Realistic Production Data for Benchmarking Causal Discovery ( http://arxiv.org/abs/2306.10816v1 )

ライセンス: Link先を確認
Konstantin G\"obler, Tobias Windisch, Tim Pychynski, Steffen Sonntag, Martin Roth, Mathias Drton(参考訳) 因果発見のためのアルゴリズムは、最近急速に進歩し、複雑なデータを処理するためのフレキシブルな非パラメトリックな手法に着目している。 これらの進歩により、異なるアルゴリズムによって学習された因果関係の適切な実証的検証が必要となる。 しかし、ほとんどの実データソースでは真の因果関係は不明である。 この問題は、適切な高品質データのリリースに関するプライバシーの懸念によってさらに複雑になっている。 これらの課題に対処するのに役立ち、製造コンテキストのアセンブリラインから測定値を含む複雑なデータセットを収集する。 この線は、基礎となる物理学の詳細な研究に基づいて、基礎となる真理の因果関係を提供できる多くの物理過程からなる。 我々は,集合線データと関連する基底真理情報を用いて,因果発見手法のベンチマークを支援する半合成的製造データを生成するシステムを構築する。 これを実現するために,我々は,観測変数の因果モデルに厳密に固執する連接分布に組み合わさった条件分布を柔軟に推定し,表現するために分布ランダム林を用いる。 データ生成のための推定条件とツールは、Pythonライブラリ $\texttt{causalAssembly}$で利用可能です。 このライブラリを用いて、よく知られた因果探索アルゴリズムをベンチマークする方法を示す。

Algorithms for causal discovery have recently undergone rapid advances and increasingly draw on flexible nonparametric methods to process complex data. With these advances comes a need for adequate empirical validation of the causal relationships learned by different algorithms. However, for most real data sources true causal relations remain unknown. This issue is further compounded by privacy concerns surrounding the release of suitable high-quality data. To help address these challenges, we gather a complex dataset comprising measurements from an assembly line in a manufacturing context. This line consists of numerous physical processes for which we are able to provide ground truth causal relationships on the basis of a detailed study of the underlying physics. We use the assembly line data and associated ground truth information to build a system for generation of semisynthetic manufacturing data that supports benchmarking of causal discovery methods. To accomplish this, we employ distributional random forests in order to flexibly estimate and represent conditional distributions that may be combined into joint distributions that strictly adhere to a causal model over the observed variables. The estimated conditionals and tools for data generation are made available in our Python library $\texttt{causalAssembly}$. Using the library, we showcase how to benchmark several well-known causal discovery algorithms.
翻訳日:2023-06-21 18:17:05 公開日:2023-06-19
# 実用的な一階ベイズ最適化アルゴリズム

Practical First-Order Bayesian Optimization Algorithms ( http://arxiv.org/abs/2306.10815v1 )

ライセンス: Link先を確認
Utkarsh Prakash, Aryan Chollera, Kushagra Khatwani, Prabuchandran K. J. and Tejas Bodas(参考訳) 第一次ベイズ最適化 (first order bayesian optimization, fobo) は、関数とその勾配評価を適切に問合せすることにより、高価なブラックボックス目的関数の最大値を求めるためのサンプル効率的な逐次手法である。 このような方法では、関数とその勾配の両方に対してガウス過程(GP)モデルを仮定し、次のクエリポイントを識別する取得関数を構築する。 本稿では,勾配gpからの情報を効率的に活用し,勾配ゼロの潜在的問合せ点を同定する,実用的なfoboアルゴリズムのクラスを提案する。 まず,複数のリスタートを伴う下位レベル獲得関数を最適化し,勾配値ゼロの潜在的クエリポイントを識別するマルチレベル取得関数を構築する。 次に、上位レベル取得関数を使用して、これらのクエリポイントを関数値に基づいてランク付けし、大域的最大度を潜在的に識別する。 最後のステップとして、maxamaの潜在的なポイントを実際のクエリポイントとして選択する。 提案するアルゴリズムの性能を複数のテスト関数で検証し,本アルゴリズムがfoboアルゴリズムよりも優れていることを示す。 また,機械学習におけるハイパーパラメータの最適集合の発見や,強化学習タスクにおける最適ポリシーの学習におけるアルゴリズムの適用について述べる。

First Order Bayesian Optimization (FOBO) is a sample efficient sequential approach to find the global maxima of an expensive-to-evaluate black-box objective function by suitably querying for the function and its gradient evaluations. Such methods assume Gaussian process (GP) models for both, the function and its gradient, and use them to construct an acquisition function that identifies the next query point. In this paper, we propose a class of practical FOBO algorithms that efficiently utilizes the information from the gradient GP to identify potential query points with zero gradients. We construct a multi-level acquisition function where in the first step, we optimize a lower level acquisition function with multiple restarts to identify potential query points with zero gradient value. We then use the upper level acquisition function to rank these query points based on their function values to potentially identify the global maxima. As a final step, the potential point of maxima is chosen as the actual query point. We validate the performance of our proposed algorithms on several test functions and show that our algorithms outperform state-of-the-art FOBO algorithms. We also illustrate the application of our algorithms in finding optimal set of hyper-parameters in machine learning and in learning the optimal policy in reinforcement learning tasks.
翻訳日:2023-06-21 18:16:44 公開日:2023-06-19
# instruct-neuraltalker: 命令による音声駆動発声野の編集

Instruct-NeuralTalker: Editing Audio-Driven Talking Radiance Fields with Instructions ( http://arxiv.org/abs/2306.10813v1 )

ライセンス: Link先を確認
Yuqi Sun, Reian He, Weimin Tan and Bo Yan(参考訳) 最近のニューラルな話し声場法は、フォトリアリスティックな音声駆動音声合成において大きな成功を収めている。 本稿では,人間の指示を利用して暗黙的表現を編集し,リアルタイムな対話型顔生成を実現する対話型フレームワークを提案する。 短い音声ビデオが与えられたら、まず効率的な発声場を構築し、与えられた指示に基づいて最新の条件拡散モデルを画像編集に適用し、暗黙的表現最適化を編集対象に導く。 編集過程における音声-リップ同期を確保するため,反復的なデータセット更新戦略を提案し,唇領域の変化を抑制するためにリップエッジロスを利用する。 また,画像細部を補完し,最終的なレンダリング画像で制御可能な細部生成を実現する軽量な細部ネットワークを提案する。 また,コンシューマハードウェア上で最大30FPSのリアルタイムレンダリングを可能にする。 複数のメトリクスとユーザ検証によって、このアプローチは最先端のメソッドに比べてレンダリング品質が大幅に向上することを示している。

Recent neural talking radiance field methods have shown great success in photorealistic audio-driven talking face synthesis. In this paper, we propose a novel interactive framework that utilizes human instructions to edit such implicit neural representations to achieve real-time personalized talking face generation. Given a short speech video, we first build an efficient talking radiance field, and then apply the latest conditional diffusion model for image editing based on the given instructions and guiding implicit representation optimization towards the editing target. To ensure audio-lip synchronization during the editing process, we propose an iterative dataset updating strategy and utilize a lip-edge loss to constrain changes in the lip region. We also introduce a lightweight refinement network for complementing image details and achieving controllable detail generation in the final rendered image. Our method also enables real-time rendering at up to 30FPS on consumer hardware. Multiple metrics and user verification show that our approach provides a significant improvement in rendering quality compared to state-of-the-art methods.
翻訳日:2023-06-21 18:16:23 公開日:2023-06-19
# ドメイン一般化のための形状誘導勾配投票

Shape Guided Gradient Voting for Domain Generalization ( http://arxiv.org/abs/2306.10809v1 )

ライセンス: Link先を確認
Jiaqi Xu, Yuwang Wang, Xuejin Chen(参考訳) ドメインの一般化は、トレーニングとテストデータのドメインシフトに対処することを目的としている。 ドメイン不変表現を学ぶために、モデルは通常、複数のドメインで訓練される。 特定のタスク損失に対するネットワーク重みの勾配は,タスク自体を特徴付けることができることがわかった。 本研究では,分類タスクにおける特定の領域サンプルの勾配が領域の性質を反映できるという前提のもと,領域一般化のための形状誘導勾配投票法(Shape Guided Gradient Voting, SGGV)を提案する。 まず,ネットワークの余分な入力によって先行した形状を導入し,より一般化した形状バイアス方向の勾配を導出する。 第2に,形状指導の有無でロバスト最適化のための外れ値を除去するための新しい勾配投票戦略を提案する。 形状指導のために,トレーニングデータから抽出したエッジ/スケッチを明示的な方法で追加し,テクスチャのイメージを暗黙的な方法で使用する。 画像分類タスクにおいて,いくつかの一般的なドメイン一般化データセットについて実験を行い,形状案内勾配更新戦略が一般化の大幅な改善をもたらすことを示す。

Domain generalization aims to address the domain shift between training and testing data. To learn the domain invariant representations, the model is usually trained on multiple domains. It has been found that the gradients of network weight relative to a specific task loss can characterize the task itself. In this work, with the assumption that the gradients of a specific domain samples under the classification task could also reflect the property of the domain, we propose a Shape Guided Gradient Voting (SGGV) method for domain generalization. Firstly, we introduce shape prior via extra inputs of the network to guide gradient descending towards a shape-biased direction for better generalization. Secondly, we propose a new gradient voting strategy to remove the outliers for robust optimization in the presence of shape guidance. To provide shape guidance, we add edge/sketch extracted from the training data as an explicit way, and also use texture augmented images as an implicit way. We conduct experiments on several popular domain generalization datasets in image classification task, and show that our shape guided gradient updating strategy brings significant improvement of the generalization.
翻訳日:2023-06-21 18:16:06 公開日:2023-06-19
# ノイズグルーバーアルゴリズムの量子効果

Quantum Advantage of Noisy Grover's Algorithm ( http://arxiv.org/abs/2306.10855v1 )

ライセンス: Link先を確認
Jian Leng, Fan Yang, Xiang-Bin Wang(参考訳) 量子優位性は量子コンピューティングのコアである。 グローバーの探索アルゴリズムは、古典的探索アルゴリズムの利点が証明された唯一の量子アルゴリズムである。 しかし、グローバーのアルゴリズムはノイズに非常に敏感であるため、実際にこの量子優位性を実現することは極めて難しい。 本稿では,groverアルゴリズムの雑音閾値を指数関数的に改善する雑音耐性法を提案する。 時間非依存雑音下でのO(log D log D)コストを持つ任意の量子回路の平均忠実度は、D はヒルベルト空間の次元である。 この有界値に基づいて、Groverのアルゴリズムに適用されるイテレートの数を決定する。 数値シミュレーションにより, グルーバーアルゴリズムの量子長所の雑音閾値は, 量子ビット量が増加する指数係数によって向上することを示した。

Quantum advantage is the core of quantum computing. Grover's search algorithm is the only quantum algorithm with proven advantage to any possible classical search algorithm. However, realizing this quantum advantage in practice is quite challenging since Grover's algorithm is very sensitive to noise. Here we present a noise-tolerant method that exponentially improves the noise threshold of Grover's algorithm. We present a lower bound for average fidelity of any quantum circuit with O(log D log D) cost under time-independent noise, where D is the dimension of Hilbert space. According to this bound value, we determine the number of iterates which will be applied in Grover's algorithm. Numerical simulation shows that the noise threshold of quantum advantage of Grover's algorithm by our noise-tolerant method is improved by an exponential factor with qubit amount rise.
翻訳日:2023-06-21 18:08:28 公開日:2023-06-19
# 同タスクeeg-fmriデータ融合とバイモーダルモデルを用いたデータ駆動内音声復号法の性能

Performance of data-driven inner speech decoding with same-task EEG-fMRI data fusion and bimodal models ( http://arxiv.org/abs/2306.10854v1 )

ライセンス: Link先を確認
Holly Wilson, Scott Wellington, Foteini Simistira Liwicki, Vibha Gupta, Rajkumar Saini, Kanjar De, Nosheen Abid, Sumit Rakesh, Johan Eriksson, Oliver Watts, Xi Chen, Mohammad Golbabaee, Michael J. Proulx, Marcus Liwicki, Eamonn O'Neill, Benjamin Metcalfe(参考訳) fmriと脳波データのハイブリダイゼーションを通じて脳信号から内部音声を復号し、単調モデルに対する性能上の利点について検討した。 ユニモーダルfmriと脳波機械学習モデルから出力される確率ベクトルの結合と、機能工学によるデータ融合の2つの異なるバイモーダル融合法を検討した。 課題内音声データを4人の参加者から記録し、前任のハイブリダイゼーション手法と異なる処理戦略を比較し、対比する。 参加者間のデータは、異なる基盤構造を符号化し、対象に依存した融合モデル間で異なる復号性能をもたらす。 データが基盤構造を示す場合、バイモーダルfMRI-EEG融合戦略を追求する場合、復号性能は改善される。

Decoding inner speech from the brain signal via hybridisation of fMRI and EEG data is explored to investigate the performance benefits over unimodal models. Two different bimodal fusion approaches are examined: concatenation of probability vectors output from unimodal fMRI and EEG machine learning models, and data fusion with feature engineering. Same task inner speech data are recorded from four participants, and different processing strategies are compared and contrasted to previously-employed hybridisation methods. Data across participants are discovered to encode different underlying structures, which results in varying decoding performances between subject-dependent fusion models. Decoding performance is demonstrated as improved when pursuing bimodal fMRI-EEG fusion strategies, if the data show underlying structure.
翻訳日:2023-06-21 18:08:15 公開日:2023-06-19
# 例外曲面に沿って高次例外点へ移動する

Moving along an exceptional surface towards a higher-order exceptional point ( http://arxiv.org/abs/2306.10851v1 )

ライセンス: Link先を確認
Jan Wiersig(参考訳) 例外点と呼ばれる非エルミート的縮退性を持つ開系は、小さな摂動によって引き起こされる大きなエネルギー分裂の観点で摂動に対する顕著な反応を示す。 この反応は例外点のスペクトル応答強度によって定量することができる。 基礎となる理論をヒルベルト空間の次元が例外点の次数よりも大きい一般の場合まで拡張する。 この一般化により、興味深い現象が示せる:例外点のスペクトル応答強度は大幅に増大し、最終的に例外点の次数を増加させるパラメータ変動の下で無限に分岐する。 この劇的な振る舞いは一般にエネルギー固有値の発散を伴わず、例外点に近いピーターマン因子のよく知られた発散と関係があることが示されている。 最後に, 一般理論と残差計算に基づくスペクトル応答強度の計算法について, 高精度でロバストな数値計算法を提案する。

Open systems with non-Hermitian degeneracies called exceptional points show a significantly enhanced response to perturbations in terms of large energy splittings induced by a small perturbation. This reaction can be quantified by the spectral response strength of the exceptional point. We extend the underlying theory to the general case where the dimension of the Hilbert space is larger than the order of the exceptional point. This generalization allows us to demonstrate an intriguing phenomenon: The spectral response strength of an exceptional point increases considerably and may even diverge to infinity under a parameter variation that eventually increases the order of the exceptional point. This dramatic behavior is in general not accompanied by a divergence of the energy eigenvalues and is shown to be related to the well-known divergence of Petermann factors near exceptional points. Finally, an accurate and robust numerical scheme for the computation of the spectral response strength based on the general theory and residue calculus is presented.
翻訳日:2023-06-21 18:08:00 公開日:2023-06-19
# 説明可能なAIを用いたセンサ・センサ間変動の検出

Detection of Sensor-To-Sensor Variations using Explainable AI ( http://arxiv.org/abs/2306.10850v1 )

ライセンス: Link先を確認
Sarah Seifi, Sebastian A. Schober, Cecilia Carbonelli, Lorenzo Servadei, Robert Wille(参考訳) 大気の質や人間の健康への影響に対する懸念が高まり、環境ガスモニタリングへの関心が高まっている。 しかし,化学抵抗性ガス検知装置は製造中のセンサ再現性の問題に悩まされている。 本研究は,シェープリー添加説明法(shap)のxai法を用いて,センサからセンサへの変動を検出する新しい手法を提案する。 これは、機械学習による環境ガス濃度推定に最も寄与するセンサーを特定し、センサ間の特徴ランクと偏差や外れ値との類似度を測定することで達成される。 本手法は,GRU(Gated Recurrent Unit)モデルをトレーニングするために,人工および現実的なオゾン濃度プロファイルを用いて試験する。 実験では、列車データセットにおけるセンサの誤動作の検出と、テストデータセットにおける逸脱の検出という2つの応用が検討された。 gruをpruned trainデータセットでトレーニングすることで、モデルパフォーマンスを改善しながら計算コストを削減できる。 その結果,センサの動作の理解が向上し,通常の動作から5~10%までのセンサ偏差が検出され,モデル作成や校正の効率化が期待できることがわかった。 本手法は、ハードウェアの不整合をaiモデルレベルで製造プロセスにおけるセンサとセンサのバリエーションに結びつけ、逸脱するセンサを識別するための新しいソリューションを提供する。

With the growing concern for air quality and its impact on human health, interest in environmental gas monitoring has increased. However, chemi-resistive gas sensing devices are plagued by issues of sensor reproducibility during manufacturing. This study proposes a novel approach for detecting sensor-to-sensor variations in sensing devices using the explainable AI (XAI) method of SHapley Additive exPlanations (SHAP). This is achieved by identifying sensors that contribute the most to environmental gas concentration estimation via machine learning, and measuring the similarity of feature rankings between sensors to flag deviations or outliers. The methodology is tested using artificial and realistic Ozone concentration profiles to train a Gated Recurrent Unit (GRU) model. Two applications were explored in the study: the detection of wrong behaviors of sensors in the train dataset, and the detection of deviations in the test dataset. By training the GRU with the pruned train dataset, we could reduce computational costs while improving the model performance. Overall, the results show that our approach improves the understanding of sensor behavior, successfully detects sensor deviations down to 5-10% from the normal behavior, and leads to more efficient model preparation and calibration. Our method provides a novel solution for identifying deviating sensors, linking inconsistencies in hardware to sensor-to-sensor variations in the manufacturing process on an AI model-level.
翻訳日:2023-06-21 18:07:47 公開日:2023-06-19
# 分散データによるスケーラブル機械学習のためのエッジ・ツー・クラウド・コンティニュムの活用

Leveraging The Edge-to-Cloud Continuum for Scalable Machine Learning on Decentralized Data ( http://arxiv.org/abs/2306.10848v1 )

ライセンス: Link先を確認
Ahmed M. Abdelmoniem(参考訳) モバイル、IoT、センサーデバイスが私たちの生活で広く普及し、エッジコンピュータインテリジェンス(Edge AI/MLなど)の最近の進歩により、AI/MLモデルをトレーニングする従来の方法が、特にプライバシとセキュリティに関する懸念が高まるにつれて、時代遅れになっていることが判明した。 この研究は、特に大規模なシナリオにおいて、Edge AI/MLがさまざまなセクターで広く採用されることを妨げる重要な課題を強調している。 そこで本研究では,既存手法の採用障壁として働く主な課題に注目し,現在の不適切なアプローチから大きく移行した設計を提案する。 新しいデザインは、訓練されたモデルを分散環境での協調学習の交換ダイナミクスを駆動するコモディティとして扱うモデル中心となることを想定している。 この設計は、大規模で効率的な協調学習のための分散フレームワークを提供することが期待されている。

With mobile, IoT and sensor devices becoming pervasive in our life and recent advances in Edge Computational Intelligence (e.g., Edge AI/ML), it became evident that the traditional methods for training AI/ML models are becoming obsolete, especially with the growing concerns over privacy and security. This work tries to highlight the key challenges that prohibit Edge AI/ML from seeing wide-range adoption in different sectors, especially for large-scale scenarios. Therefore, we focus on the main challenges acting as adoption barriers for the existing methods and propose a design with a drastic shift from the current ill-suited approaches. The new design is envisioned to be model-centric in which the trained models are treated as a commodity driving the exchange dynamics of collaborative learning in decentralized settings. It is expected that this design will provide a decentralized framework for efficient collaborative learning at scale.
翻訳日:2023-06-21 18:07:27 公開日:2023-06-19
# Sterile Insect Technique プログラムにおける放流容器内AI技術を用いた女性の蚊検出

Female mosquito detection by means of AI techniques inside release containers in the context of a Sterile Insect Technique program ( http://arxiv.org/abs/2306.10843v1 )

ライセンス: Link先を確認
Javier Naranjo-Alcazar, Jordi Grau-Haro, David Almenar and Pedro Zuccarello(参考訳) 滅菌害虫防除技術 (sit: sterile insect technique) は, 個体群を制御すべき昆虫種の滅菌雄の環境への放散に基づく生物害虫防除技術である。 SITプロセス全体は、バイオファクトリー内での大量採取、性別による標本の選別、殺菌、およびその後の不妊雄の環境への放出を含む。 雌の検体が放たれるのを避ける理由は、オスとは異なり、メスが噛みつき、その後の感染のリスクがあるためである。 sit のための aedes 蚊の生体因子の場合、プロセス全体のキーポイントは性分離である。 このプロセスは現在、機械装置とaiベースのビジョンシステムの組み合わせによって実行される。 しかし、偽陰性の可能性はまだ残っているため、環境に放出する前には検証の最終段階が必要である。 成体の雄蚊の羽ばたきによる音は雌の鳴き声とは異なることが知られており、この特徴は環境放出前の容器内のメスの存在を検出するのに利用できる。 本報告では,SITプログラム用蚊放流槽におけるメスの発見について述べる。 使用容器はpvcの直径8.8cm、高さ12.5cmの管状設計であった。 容器は実験装置に収められ、内部の蚊の飛行音を録音することができた。 各容器には250個の標本が詰め込まれており (i)雄の蚊のみ。 (ii)雌蚊のみ、 (iii)男性75%、女性25%。 ケース (i)訓練・試験に用いられたが、例 (ii)および (iii)は試験にのみ用いられた。 メスの蚊の検出には,iforest (unsupervised outlier detection algorithm) とsvm (one-class svm) という2つのアルゴリズムが実装された。

The Sterile Insect Technique (SIT) is a biological pest control technique based on the release into the environment of sterile males of the insect species whose population is to be controlled. The entire SIT process involves mass-rearing within a biofactory, sorting of the specimens by sex, sterilization, and subsequent release of the sterile males into the environment. The reason for avoiding the release of female specimens is because, unlike males, females bite, with the subsequent risk of disease transmission. In the case of Aedes mosquito biofactories for SIT, the key point of the whole process is sex separation. This process is nowadays performed by a combination of mechanical devices and AI-based vision systems. However, there is still a possibility of false negatives, so a last stage of verification is necessary before releasing them into the environment. It is known that the sound produced by the flapping of adult male mosquitoes is different from that produced by females, so this feature can be used to detect the presence of females in containers prior to environmental release. This paper presents a study for the detection of females in Aedes mosquito release vessels for SIT programs. The containers used consist of PVC a tubular design of 8.8cm diameter and 12.5cm height. The containers were placed in an experimental setup that allowed the recording of the sound of mosquito flight inside of them. Each container was filled with 250 specimens considering the cases of (i) only male mosquitoes, (ii) only female mosquitoes, and (iii) 75% males and 25% females. Case (i) was used for training and testing, whereas cases (ii) and (iii) were used only for testing. Two algorithms were implemented for the detection of female mosquitoes: an unsupervised outlier detection algorithm (iForest) and a one-class SVM trained with male-only recordings.
翻訳日:2023-06-21 18:07:09 公開日:2023-06-19
# ブロックチェーン対応の連合学習: didアクセスシステムを含む参照アーキテクチャ

Blockchain-Enabled Federated Learning: A Reference Architecture Incorporating a DID Access System ( http://arxiv.org/abs/2306.10841v1 )

ライセンス: Link先を確認
Eunsu Goh, Daeyeol Kim, Do-Yup Kim, Kwangkee Lee(参考訳) 近年,連合学習とブロックチェーン技術の利点を組み合わせた革新的アプローチであるbcfl(blockchain-enabled federated learning)が注目されている。 フェデレートラーニング(FL)は、複数の参加者がデータのプライバシとセキュリティを維持しながら、分散的に機械学習モデルをトレーニングすることを可能にする。 本稿では,複数のエンティティがデータのプライバシとセキュリティを維持しつつ,機械学習モデルを協調的にトレーニングすることを可能にする,ブロックチェーン対応のフェデレーション学習のためのリファレンスアーキテクチャを提案する。 このアーキテクチャの重要なコンポーネントは、分散識別子(DID)ベースのアクセスシステムの実装である。 DIDは、中央機関とは独立して、参加者が自分のIDを管理することができる分散自己主権ID管理システムを導入している。 このアーキテクチャでは、参加者はブロックチェーン上にセキュアに保存されたDIDを通じて、フェデレートされた学習プラットフォームを認証し、アクセスすることができる。 アクセスシステムはスマートコントラクトの実行を通じてアクセス制御と権限を管理し、システムのセキュリティと分散化をさらに強化する。 このアプローチは、ブロックチェーン対応の連合学習をdidアクセスシステムに統合し、分散かつセキュアな方法で協調機械学習のための堅牢なソリューションを提供する。 その結果、参加者は、ローカルデータを共有することなく、データのプライバシとid管理を維持しながら、グローバルモデルのトレーニングに貢献できる。 これらのDIDはブロックチェーンに格納され、アクセスシステムはスマートコントラクトを使用してアクセス制御とパーミッションを管理する。 ソースコードはまもなく一般公開される予定だ。

Recently, Blockchain-Enabled Federated Learning (BCFL), an innovative approach that combines the advantages of Federated Learning and Blockchain technology, is receiving great attention. Federated Learning (FL) allows multiple participants to jointly train machine learning models in a decentralized manner while maintaining data privacy and security. This paper proposes a reference architecture for blockchain-enabled federated learning, which enables multiple entities to collaboratively train machine learning models while preserving data privacy and security. A critical component of this architecture is the implementation of a decentralized identifier (DID)-based access system. DID introduces a decentralized, self-sovereign identity (ID) management system that allows participants to manage their IDs independently of central authorities. Within this proposed architecture, participants can authenticate and gain access to the federated learning platform via their DIDs, which are securely stored on the blockchain. The access system administers access control and permissions through the execution of smart contracts, further enhancing the security and decentralization of the system. This approach, integrating blockchain-enabled federated learning with a DID access system, offers a robust solution for collaborative machine learning in a distributed and secure manner. As a result, participants can contribute to global model training while maintaining data privacy and identity control without the need to share local data. These DIDs are stored on the blockchain and the access system uses smart contracts to manage access control and permissions. The source code will be available to the public soon.
翻訳日:2023-06-21 18:06:42 公開日:2023-06-19
# ロードバーローツイン:道路環境記述子の冗長性低減と動き予測

Road Barlow Twins: Redundancy Reduction for Road Environment Descriptors and Motion Prediction ( http://arxiv.org/abs/2306.10840v1 )

ライセンス: Link先を確認
Royden Wagner, Omer Sahin Tas, Marvin Klemp, Carlos Fernandez Lopez(参考訳) 自動運転車の安全な運転を確保するためには、交通機関の将来の動きを予測することが不可欠だ。 本稿では,動き予測のためのトランスフォーマーモデルとともに,自己教師付き事前学習手法を提案する。 提案手法はBarlow Twinsに基づいており,HDマップからの埋め込みに冗長性低減原理を適用している。 さらに,道路環境記述子(RED)の固定サイズの集合に,潜在的に大規模かつ可変な道路環境トークンを変換する冗長性低減手法を提案する。 実験により,提案手法はミネードとミンフデを12%,15%改善し,半教師付き環境ではpretramとsimclrによるコントラスト学習よりも優れることが明らかになった。 我々のREDMotionモデルは、MultiPath++やScene Transformerといった最近の関連するメソッドと競合する結果を得る。 コードは、https://github.com/kit-mrt/road-barlow-twinsで入手できる。

Anticipating the future motion of traffic agents is vital for self-driving vehicles to ensure their safe operation. We introduce a novel self-supervised pre-training method as well as a transformer model for motion prediction. Our method is based on Barlow Twins and applies the redundancy reduction principle to embeddings generated from HD maps. Additionally, we introduce a novel approach for redundancy reduction, where a potentially large and variable set of road environment tokens is transformed into a fixed-size set of road environment descriptors (RED). Our experiments reveal that the proposed pre-training method can improve minADE and minFDE by 12% and 15% and outperform contrastive learning with PreTraM and SimCLR in a semi-supervised setting. Our REDMotion model achieves results that are competitive with those of recent related methods such as MultiPath++ or Scene Transformer. Code is available at: https://github.com/kit-mrt/road-barlow-twins
翻訳日:2023-06-21 18:06:18 公開日:2023-06-19
# オンライン動的サブモジュラー最適化

Online Dynamic Submodular Optimization ( http://arxiv.org/abs/2306.10835v1 )

ライセンス: Link先を確認
Antoine Lesage-Landry and Julien Pallage(参考訳) 一般的な制約と動的設定を主とするオンラインバイナリ最適化のための性能を証明可能な新しいアルゴリズムを提案する。 対象関数が部分モジュラーである問題の部分集合を考える。 本稿では,前ラウンドの損失関数の近似を最適に解き,元の問題のNP硬さを回避するオンラインサブモジュラーグリードアルゴリズム(OSGA)を提案する。 我々はOSGAを一般的な近似関数に拡張する。 我々は,OSGAがオンライン凸最適化において最も厳密な境界に類似した動的後悔境界を有することを示す。 近似が存在しない場合や計算学的に単純な実装が望まれる場合、Lov\'asz拡張を利用してオンラインのサブモジュラー射影勾配勾配(OSPGD)を設計する。 我々は,従来のオンライン勾配降下法(ogd)に類似した後悔境界を求める。 最後に、我々のアルゴリズムを高速な需要応答とリアルタイム分散ネットワーク再構成の2つのパワーシステムアプリケーションで数値的にテストする。

We propose new algorithms with provable performance for online binary optimization subject to general constraints and in dynamic settings. We consider the subset of problems in which the objective function is submodular. We propose the online submodular greedy algorithm (OSGA) which solves to optimality an approximation of the previous round's loss function to avoid the NP-hardness of the original problem. We extend OSGA to a generic approximation function. We show that OSGA has a dynamic regret bound similar to the tightest bounds in online convex optimization. For instances where no approximation exists or a computationally simpler implementation is desired, we design the online submodular projected gradient descent (OSPGD) by leveraging the Lov\'asz extension. We obtain a regret bound that is akin to the conventional online gradient descent (OGD). Finally, we numerically test our algorithms in two power system applications: fast-timescale demand response and real-time distribution network reconfiguration.
翻訳日:2023-06-21 18:06:03 公開日:2023-06-19
# 無秩序モザイク格子におけるモビリティエッジ以外のワニエスタークラダーの観察

Observation of Wannier-Stark ladder beyond mobility edge in disorder-free mosaic lattices ( http://arxiv.org/abs/2306.10831v1 )

ライセンス: Link先を確認
Jun Gao, Ivan M. Khaymovich, Adrian Iovan, Xiao-Wei Wang, Govind Krishna, Ze-Sheng Xu, Emrah Tortumlu, Alexander V. Balatsky, Val Zwiller, Ali W. Elshaari(参考訳) 量子輸送と局在は凝縮物質物理学の基本的な概念である。 一次元システムでは、モビリティ・エッジの存在は障害に大きく依存していると考えられている。 近年の理論的研究により、変調モザイクモデルがクエンチド障害がなくても正確なモビリティーエッジを示すことが示されている。 本稿では,シリコンフォトニクスプラットフォームを用いたモザイクフォトニック格子を実験的に実装した。 合成電場を作ることにより、システム内の拡張状態と局所状態の両方のエネルギー依存的共存を観察できる。 ワニエ・スターク・はしごは、結果として生じるポテンシャルが十分に強いときに現れ、格子の異なる空間モードによって直接探査することができる。 本研究は,モビリティエッジとwannier-stark局在とのギャップを橋渡しする。 我々の開発したフォトニックデバイスは、コンパクトでロバストな構造を持つ高次元量子資源を符号化する可能性を持っている

Quantum transport and localization are fundamental concepts in condensed matter physics. It is commonly believed that in one-dimensional systems, the existence of mobility edges is highly dependent on disorder. Recent theoretical works have shown that a modulated mosaic model could manifest an exact mobility edge even without quenched disorder. Here, we experimentally implement such disorder-free mosaic photonic lattices using silicon photonics platform. By creating a synthetic electric field, we could observe energy-dependent coexistence of both extended and localized states in the system. The Wannier-Stark ladder emerges when the resulting potential is strong enough, and can be directly probed by exciting different spatial modes of the lattice. Our studies bridge the gap between mobility edge and Wannier-Stark localization. Our developed photonic devices hold the potential to encode high dimensional quantum resources with compact and robust structures
翻訳日:2023-06-21 18:05:48 公開日:2023-06-19
# 独立に解釈可能なCNNと視覚変換器のためのB-cosアライメント

B-cos Alignment for Inherently Interpretable CNNs and Vision Transformers ( http://arxiv.org/abs/2306.10898v1 )

ライセンス: Link先を確認
Moritz B\"ohle, Navdeeppal Singh, Mario Fritz, Bernt Schiele(参考訳) 本稿では,トレーニング中の重み入力アライメントを促進することにより,深層ニューラルネットワーク(dnn)の解釈性を高めるための新しい方向を提案する。 そこで我々は,新しいB-cos変換によりDNNの線形変換を置き換えることを提案する。 このような変換のシーケンス(ネットワーク)は、モデル全体の計算を忠実に要約する単一の線形変換を誘導する。 さらに、B-cos変換は、最適化中に重みが関連する信号と一致するように設計されている。 その結果、これらの線形変換は高度に解釈可能となり、タスク関連の特徴を強調している。 重要なことに、B-cos変換は既存のアーキテクチャと互換性があるように設計されており、ImageNetで同様の精度を維持しながら、B-cosベースの説明と正規化と注意層を組み合わせることで、ResNets、DenseNets、ConvNextモデルといった最新のコンピュータビジョンモデルに簡単に統合できることを示します。 最後に、得られた説明は視覚的品質が高く、定量的解釈可能性の指標下では良好に機能することを示す。

We present a new direction for increasing the interpretability of deep neural networks (DNNs) by promoting weight-input alignment during training. For this, we propose to replace the linear transformations in DNNs by our novel B-cos transformation. As we show, a sequence (network) of such transformations induces a single linear transformation that faithfully summarises the full model computations. Moreover, the B-cos transformation is designed such that the weights align with relevant signals during optimisation. As a result, those induced linear transformations become highly interpretable and highlight task-relevant features. Importantly, the B-cos transformation is designed to be compatible with existing architectures and we show that it can easily be integrated into virtually all of the latest state of the art models for computer vision - e.g. ResNets, DenseNets, ConvNext models, as well as Vision Transformers - by combining the B-cos-based explanations with normalisation and attention layers, all whilst maintaining similar accuracy on ImageNet. Finally, we show that the resulting explanations are of high visual quality and perform well under quantitative interpretability metrics.
翻訳日:2023-06-21 17:59:37 公開日:2023-06-19
# ディラトン誘起オープン量子力学

Dilaton-induced open quantum dynamics ( http://arxiv.org/abs/2306.10896v1 )

ライセンス: Link先を確認
Christian K\"ading, Mario Pitschmann, Caroline Voith(参考訳) 現代の宇宙論において、スクリーニング機構を持つスカラー場は、ダークエネルギーやダークマターのような現象の説明としてしばしば用いられる。 モデル動物園の中で、ポリアコフ・ダマー機構によって遮蔽される環境依存のディラトンは、最も制約の少ないものの1つである。 最近開発された密度行列の直接計算のための経路積分ツールを用いて、ディラトンのゆらぎを含む環境との相互作用によって引き起こされる別の実スカラー場によってモデル化されたプローブの開量子力学を研究する。 主効果として、周波数シフトとして観測できるプローブのユニタリ進化の補正を抽出する。 スカラープローブが物質波干渉法で冷原子を近似すると仮定すると、2つの実験的に異なるセットアップで予測される周波数シフトを比較すると、ディラトンパラメータ空間の大部分を除外できる可能性がある。

In modern cosmology, scalar fields with screening mechanisms are often used as explanations for phenomena like dark energy or dark matter. Amongst a zoo of models, the environment dependent dilaton, screened by the Polyakov-Damour mechanism, is one of the least constrained ones. Using recently developed path integral tools for directly computing reduced density matrices, we study the open quantum dynamics of a probe, modelled by another real scalar field, induced by interactions with an environment comprising fluctuations of a dilaton. As the leading effect, we extract a correction to the probe's unitary evolution, which can be observed as a frequency shift. Assuming the scalar probe to roughly approximate a cold atom in matter wave interferometry, we show that comparing the predicted frequency shifts in two experimentally distinct setups has the potential to exclude large parts of the dilaton parameter space.
翻訳日:2023-06-21 17:59:15 公開日:2023-06-19
# 複数負荷時系列予測のための変圧器訓練戦略

Transformer Training Strategies for Forecasting Multiple Load Time Series ( http://arxiv.org/abs/2306.10891v1 )

ライセンス: Link先を確認
Matthias Hertel, Maximilian Beichter, Benedikt Heidrich, Oliver Neumann, Benjamin Sch\"afer, Ralf Mikut, Veit Hagenmeyer(参考訳) 最近の研究では、データリッチドメインにおけるシーケンスモデリングタスクの最先端であるロード予測にTransformerを使用している。 将来のスマートグリッドでは、エネルギー供給者の個々のクライアントのレベルで正確な負荷予測が提供されなければならない。 エネルギー供給者の利用可能な電力負荷データの総量は、現在進行中のスマートメーターのロールアウトによって増加するが、クライアント毎のデータ量は、常に制限される。 我々は、グローバルモデルが複数のクライアントからの負荷時系列データに基づいてトレーニングされる、トランスフォーマーが転送学習戦略の恩恵を受けるかどうかをテストする。 グローバルモデルは,多変量モデルと局所モデルという,関連する作業で一般的に使用される2つのトレーニング戦略よりも優れていることがわかった。 線形モデルと多層パーセプトロンとの比較により、トランスフォーマーは正しい戦略で訓練されたときに電気的負荷予測に有効であることが示された。

Recent work uses Transformers for load forecasting, which are the state of the art for sequence modeling tasks in data-rich domains. In the smart grid of the future, accurate load forecasts must be provided on the level of individual clients of an energy supplier. While the total amount of electrical load data available to an energy supplier will increase with the ongoing smart meter rollout, the amount of data per client will always be limited. We test whether the Transformer benefits from a transfer learning strategy, where a global model is trained on the load time series data from multiple clients. We find that the global model is superior to two other training strategies commonly used in related work: multivariate models and local models. A comparison to linear models and multi-layer perceptrons shows that Transformers are effective for electrical load forecasting when they are trained with the right strategy.
翻訳日:2023-06-21 17:59:00 公開日:2023-06-19
# AdaStop:Deep RLエージェントの効率的かつ信頼性比較のためのシーケンシャルテスト

AdaStop: sequential testing for efficient and reliable comparisons of Deep RL Agents ( http://arxiv.org/abs/2306.10882v1 )

ライセンス: Link先を確認
Timoth\'ee Mathieu, Riccardo Della Vecchia, Alena Shilova, Matheus Centa de Medeiros, Hector Kohler, Odalric-Ambrym Maillard, Philippe Preux(参考訳) 深層強化学習における多くの実験結果の再現性は疑問視されている。 この再現性危機を解決するために,複数のDeep RLアルゴリズムを比較する理論的に健全な手法を提案する。 Deep RLアルゴリズムの1つの実行のパフォーマンスはランダムであり、それを評価するために独立した実行が必要である。 複数のrlアルゴリズムを比較する場合、大きな疑問は、実行回数と、その比較の結果が理論的に正しいことをどうやって保証できるかである。 Deep RLの研究者たちは、アルゴリズムの比較に5つ未満の独立した実行を使用することが多い。 さらに、複数のアルゴリズムを一度に比較する場合、各比較の誤差は蓄積され、低いエラー保証を維持するために複数のテスト手順を考慮する必要がある。 統計的に健全な方法でこの問題に対処するため,複数グループ連続試験に基づく新しい統計テストであるAdaStopを導入する。 アルゴリズムを比較するとき、adastopはできるだけ早く停止する実行数に適応し、統計的に有意な方法で他のアルゴリズムよりも優れた性能を持つアルゴリズムを識別するのに十分な情報を確保します。 我々はAdaStopが誤りを犯す確率が低いことを理論的および実証的に証明する(Family-Wise Error)。 最後に、おもちゃの例やMujoco環境のような難しい事例を含む複数のユースケースでAdaStopの有効性を説明する。

The reproducibility of many experimental results in Deep Reinforcement Learning (RL) is under question. To solve this reproducibility crisis, we propose a theoretically sound methodology to compare multiple Deep RL algorithms. The performance of one execution of a Deep RL algorithm is random so that independent executions are needed to assess it precisely. When comparing several RL algorithms, a major question is how many executions must be made and how can we assure that the results of such a comparison is theoretically sound. Researchers in Deep RL often use less than 5 independent executions to compare algorithms: we claim that this is not enough in general. Moreover, when comparing several algorithms at once, the error of each comparison accumulates and must be taken into account with a multiple tests procedure to preserve low error guarantees. To address this problem in a statistically sound way, we introduce AdaStop, a new statistical test based on multiple group sequential tests. When comparing algorithms, AdaStop adapts the number of executions to stop as early as possible while ensuring that we have enough information to distinguish algorithms that perform better than the others in a statistical significant way. We prove both theoretically and empirically that AdaStop has a low probability of making an error (Family-Wise Error). Finally, we illustrate the effectiveness of AdaStop in multiple use-cases, including toy examples and difficult cases such as Mujoco environments.
翻訳日:2023-06-21 17:58:46 公開日:2023-06-19
# shapley値の分解によるモデルと特徴依存性の説明

Explaining the Model and Feature Dependencies by Decomposition of the Shapley Value ( http://arxiv.org/abs/2306.10880v1 )

ライセンス: Link先を確認
Joran Michiels, Maarten De Vos, Johan Suykens(参考訳) shapleyの値は、エンドユーザーに複雑なモデルを説明するためのgo-toメソッドの1つになっている。 ゲーム理論の基礎として、目的関数(複雑な機械学習モデルの出力)におけるプレイヤーの価値(機械学習、特徴値)について、モデルに依存しない事後説明を提供する。 欠点のひとつは、いくつかの機能が欠けている場合、常にモデルの出力を必要とすることだ。 これらは通常、欠落した機能に対する期待を捉えて計算される。 しかし、これは非自明な選択をもたらす: 未知の機能に条件を付けるか、しないか? 本稿では、この疑問を考察し、それらが異なるエンドユーザーに対して有効な2つの異なる説明を表現していると主張する。 本稿では,2つの説明を組み合わせ,選択の負担を取り除き,Shapley値の説明力を高めるアルゴリズムを提案し,簡単な問題に対して直感的な結果が得られることを示す。 本手法を実世界の2つのデータセットに適用し,その説明について議論する。 最後に、本手法が最先端のshapley値の実装と同等か優れているかを示し、同時にモデル-データ構造に関する洞察を高めることを可能にする。

Shapley values have become one of the go-to methods to explain complex models to end-users. They provide a model agnostic post-hoc explanation with foundations in game theory: what is the worth of a player (in machine learning, a feature value) in the objective function (the output of the complex machine learning model). One downside is that they always require outputs of the model when some features are missing. These are usually computed by taking the expectation over the missing features. This however introduces a non-trivial choice: do we condition on the unknown features or not? In this paper we examine this question and claim that they represent two different explanations which are valid for different end-users: one that explains the model and one that explains the model combined with the feature dependencies in the data. We propose a new algorithmic approach to combine both explanations, removing the burden of choice and enhancing the explanatory power of Shapley values, and show that it achieves intuitive results on simple problems. We apply our method to two real-world datasets and discuss the explanations. Finally, we demonstrate how our method is either equivalent or superior to state-to-of-art Shapley value implementations while simultaneously allowing for increased insight into the model-data structure.
翻訳日:2023-06-21 17:58:24 公開日:2023-06-19
# クラウドソースアノテーションによる手書き文字認識

Handwritten Text Recognition from Crowdsourced Annotations ( http://arxiv.org/abs/2306.10878v1 )

ライセンス: Link先を確認
Sol\`ene Tarride, Tristan Faine, M\'elodie Boillet, Harold Mouch\`ere, Christopher Kermorvant(参考訳) 本稿では,複数の不完全あるいはノイズのある書き起こしが利用可能である場合,手書き文字認識のためのモデルをトレーニングする方法の相違について検討する。 単一の書き起こしの選択、すべての書き起こしの保持、利用可能なアノテーションから集約された書き起こしの計算など、さまざまなトレーニング構成を検討する。 また,学習セットから低一致のサンプルを除去した品質に基づくデータ選択の影響を評価する。 我々の実験は1790年から1946年にかけてベルフォート市(フランス)の市登録簿で実施された。 %の結果,コンセンサス文字の計算や複数文字のトレーニングがよい代替手段であることがわかった。 しかし、アノテーション間の一致度に基づいてトレーニングサンプルを選択すると、トレーニングデータにバイアスが生じ、結果が改善されない。 データセットはZenodoで公開されています。

In this paper, we explore different ways of training a model for handwritten text recognition when multiple imperfect or noisy transcriptions are available. We consider various training configurations, such as selecting a single transcription, retaining all transcriptions, or computing an aggregated transcription from all available annotations. In addition, we evaluate the impact of quality-based data selection, where samples with low agreement are removed from the training set. Our experiments are carried out on municipal registers of the city of Belfort (France) written between 1790 and 1946. % results The results show that computing a consensus transcription or training on multiple transcriptions are good alternatives. However, selecting training samples based on the degree of agreement between annotators introduces a bias in the training data and does not improve the results. Our dataset is publicly available on Zenodo: https://zenodo.org/record/8041668.
翻訳日:2023-06-21 17:58:06 公開日:2023-06-19
# 注意マップ幻覚とffn圧縮を用いた視覚トランスフォーマー

Vision Transformer with Attention Map Hallucination and FFN Compaction ( http://arxiv.org/abs/2306.10875v1 )

ライセンス: Link先を確認
Haiyang Xu, Zhichao Zhou, Dongliang He, Fu Li, Jingdong Wang(参考訳) Vision Transformer(ViT)は今や多くのビジョンタスクを支配している。 トークン・ワイド・マルチヘッド・セルフアテンション(MHSA)の2次複雑さの欠点は、トークンスペーシフィケーションまたは次元縮小(空間またはチャネル)を通じて広範囲に対処される。 しかし、MHSAの冗長性は通常見過ごされ、フィードフォワードネットワーク(FFN)も同様である。 そこで本研究では,空白を埋めるために注意マップの幻覚とFFNのコンパクト化を提案する。 特に,vanilla vit に類似した注意マップが存在することを観察し,より安価な操作でアテンションマップの半分を割くことを提案している(hallucinated-mhsa (hmhsa))。 FFNについては、その隠れ出力プロジェクション行列を分解し、再パラメータ化技術を利用してその能力を強化し、コンパクトFFN(cFFN)となる。 提案するモジュールでは,直列(DeiT),ハイブリッド(NextViT),階層構造(PVT)など,さまざまなViTベースのバックボーンに対して,浮動小数点演算(FLOP)とパラメータ(Params)の10$\%$-20$\%の削減を実現している。

Vision Transformer(ViT) is now dominating many vision tasks. The drawback of quadratic complexity of its token-wise multi-head self-attention (MHSA), is extensively addressed via either token sparsification or dimension reduction (in spatial or channel). However, the therein redundancy of MHSA is usually overlooked and so is the feed-forward network (FFN). To this end, we propose attention map hallucination and FFN compaction to fill in the blank. Specifically, we observe similar attention maps exist in vanilla ViT and propose to hallucinate half of the attention maps from the rest with much cheaper operations, which is called hallucinated-MHSA (hMHSA). As for FFN, we factorize its hidden-to-output projection matrix and leverage the re-parameterization technique to strengthen its capability, making it compact-FFN (cFFN). With our proposed modules, a 10$\%$-20$\%$ reduction of floating point operations (FLOPs) and parameters (Params) is achieved for various ViT-based backbones, including straight (DeiT), hybrid (NextViT) and hierarchical (PVT) structures, meanwhile, the performances are quite competitive.
翻訳日:2023-06-21 17:57:53 公開日:2023-06-19
# 再帰的ニューラルネットワークを用いたスウェーデン語の文法的性別予測

Grammatical gender in Swedish is predictable using recurrent neural networks ( http://arxiv.org/abs/2306.10869v1 )

ライセンス: Link先を確認
Edvin Listo Zec, Olof Mogren(参考訳) スウェーデンの名詞の文法的性別はミステリーである。 ある程度の確実性をもって性別を示すことができる規則は少ないが、一般的には単語の意味や構造には依存しない。 本稿では,スウェーデン語名詞の文法的性別を,文脈情報を用いずに,単語の生の文字配列を扱うrecurrent neural network(rnn)を用いて高精度に予測できることを実証する。

The grammatical gender of Swedish nouns is a mystery. While there are few rules that can indicate the gender with some certainty, it does in general not depend on either meaning or the structure of the word. In this paper we demonstrate the surprising fact that grammatical gender for Swedish nouns can be predicted with high accuracy using a recurrent neural network (RNN) working on the raw character sequence of the word, without using any contextual information.
翻訳日:2023-06-21 17:57:26 公開日:2023-06-19
# FHA-Kitchens: キッチンシーンにおける手の動き認識のための新しいデータセット

FHA-Kitchens: A Novel Dataset for Fine-Grained Hand Action Recognition in Kitchen Scenes ( http://arxiv.org/abs/2306.10858v1 )

ライセンス: Link先を確認
Ting Zhe, Yongqian Li, Jing Zhang, Yong Luo, Han Hu, Bo Du, Yonggang Wen, Dacheng Tao(参考訳) ビデオ理解の分野で典型的なタスクは手の動き認識であり、幅広い応用がある。 既存の作業は主にフルボディアクションに焦点を当てるか、定義されたアクションカテゴリは比較的粗い粒度である。 本稿では,キッチンシーンにおける手の動きのきめ細かいデータセットであるFHA-Kitchensを提案する。 特に,人間の手操作領域に着目し,手動作情報やインタラクション領域をさらに洗練するための深層掘削を行う。 fha-kitchensデータセットは,8種類の食器から収集した2,377種類のビデオクリップと30,047枚の画像からなり,各画像のハンドインタラクション領域は高品質な細粒度アクションクラスとバウンディングボックスでラベル付けされる。 我々は,各手操作領域の動作情報を三重項として表現し,その結果,合計878個のアクション三重項が得られた。 構築したデータセットに基づいて,(1)ハンドインタラクション領域とオブジェクト検出のための教師付き学習,(2)細粒度ハンドアクション認識のための教師付き学習,(3)ハンドインタラクション領域検出のためのクラス内およびクラス間ドメイン一般化の3つのトラック上で,代表動作認識と検出モデルをベンチマークした。 実験の結果は、手の動き認識に固有の課題を強調しつつ、特に事前学習戦略、モデル設計、ドメインの一般化に関して、将来の研究の潜在的な道筋に光を当てている。 データセットはhttps://github.com/tingZ123/FHA-Kitchensでリリースされる。

A typical task in the field of video understanding is hand action recognition, which has a wide range of applications. Existing works either mainly focus on full-body actions, or the defined action categories are relatively coarse-grained. In this paper, we propose FHA-Kitchens, a novel dataset of fine-grained hand actions in kitchen scenes. In particular, we focus on human hand interaction regions and perform deep excavation to further refine hand action information and interaction regions. Our FHA-Kitchens dataset consists of 2,377 video clips and 30,047 images collected from 8 different types of dishes, and all hand interaction regions in each image are labeled with high-quality fine-grained action classes and bounding boxes. We represent the action information in each hand interaction region as a triplet, resulting in a total of 878 action triplets. Based on the constructed dataset, we benchmark representative action recognition and detection models on the following three tracks: (1) supervised learning for hand interaction region and object detection, (2) supervised learning for fine-grained hand action recognition, and (3) intra- and inter-class domain generalization for hand interaction region detection. The experimental results offer compelling empirical evidence that highlights the challenges inherent in fine-grained hand action recognition, while also shedding light on potential avenues for future research, particularly in relation to pre-training strategy, model design, and domain generalization. The dataset will be released at https://github.com/tingZ123/FHA-Kitchens.
翻訳日:2023-06-21 17:57:17 公開日:2023-06-19
# グラフにおける異常検出のためのパターンマイニング:公共調達における詐欺への応用

Pattern Mining for Anomaly Detection in Graphs: Application to Fraud in Public Procurement ( http://arxiv.org/abs/2306.10857v1 )

ライセンス: Link先を確認
Lucas Potin (LIA), Rosa Figueiredo (LIA), Vincent Labatut (LIA), Christine Largeron (LHC)(参考訳) 公的調達の文脈では、不正リスクを推定するために赤旗と呼ばれるいくつかの指標が使用される。 それらは特定の契約属性に従って計算され、従って契約の適切な充足と通知に依存します。 しかし、これらの属性は実際には欠落しており、赤旗の計算を禁止している。 従来の詐欺検出アプローチは、各契約を別々に考慮し、表データのみに焦点を当てているため、この問題に非常に敏感である。 本研究では,契約間の関係を活用し,欠落した属性を補償するグラフベース手法を採用する。 PANG(Pattern-based Anomaly Detection in Graphs)は,属性グラフの集合内の異常グラフを検出するパターン抽出に依存する一般的なフレームワークである。 特に、文献で広く見落とされたパターンである、誘発された部分グラフを識別することができる。 標準データセットでベンチマークすると、その予測性能は最先端のメソッドと同等であり、説明可能なメリットもある。 これらの実験は、誘導されたパターンが特定のデータセットに対してより識別的であることも示している。 PANGを公共の調達データに適用する場合、予測は他の手法よりも優れており、不正行為に特徴的なサブグラフパターンを特定し、不正行為をよりよく理解できるようにする。

In the context of public procurement, several indicators called red flags are used to estimate fraud risk. They are computed according to certain contract attributes and are therefore dependent on the proper filling of the contract and award notices. However, these attributes are very often missing in practice, which prohibits red flags computation. Traditional fraud detection approaches focus on tabular data only, considering each contract separately, and are therefore very sensitive to this issue. In this work, we adopt a graph-based method allowing leveraging relations between contracts, to compensate for the missing attributes. We propose PANG (Pattern-Based Anomaly Detection in Graphs), a general supervised framework relying on pattern extraction to detect anomalous graphs in a collection of attributed graphs. Notably, it is able to identify induced subgraphs, a type of pattern widely overlooked in the literature. When benchmarked on standard datasets, its predictive performance is on par with state-of-the-art methods, with the additional advantage of being explainable. These experiments also reveal that induced patterns are more discriminative on certain datasets. When applying PANG to public procurement data, the prediction is superior to other methods, and it identifies subgraph patterns that are characteristic of fraud-prone situations, thereby making it possible to better understand fraudulent behavior.
翻訳日:2023-06-21 17:56:47 公開日:2023-06-19
# TeleViT:テレコネクト駆動トランスフォーマーは季節別ワイルドファイア予測を改善する

TeleViT: Teleconnection-driven Transformers Improve Subseasonal to Seasonal Wildfire Forecasting ( http://arxiv.org/abs/2306.10940v1 )

ライセンス: Link先を確認
Ioannis Prapas, Nikolaos Ioannis Bountos, Spyros Kondylatos, Dimitrios Michail, Gustau Camps-Valls, Ioannis Papoutsis(参考訳) 気候変動の結果、森林火災はますます悪化し、効果的な緩和のための先進的な対策が必要である。 森林燃料管理・資源調達・配分計画に先立って、数週間・数ヶ月の山火事を予報することが重要である。 このような正確な長期予測を地球規模で達成するには、地球系固有の時空間相互作用(メモリ効果やテレコネクションなど)を考慮したモデルを採用することが不可欠である。 本研究では,地球を一つの相互接続システムとして扱うことのできるテレコネクション駆動型視覚トランス(televit)を提案する。 総合的な実験を通じて,TeleViTは,予報窓における全焼面積パターンを正確に予測する上で,最大4ヶ月前に優位性を示す。 この増加は特に大きな予測窓で顕著であり、地球系の力学を捉えるために遠隔接続を利用するディープラーニングモデルの能力の向上を実証している。 コードはhttps://github.com/orion-ai-lab/televit。

Wildfires are increasingly exacerbated as a result of climate change, necessitating advanced proactive measures for effective mitigation. It is important to forecast wildfires weeks and months in advance to plan forest fuel management, resource procurement and allocation. To achieve such accurate long-term forecasts at a global scale, it is crucial to employ models that account for the Earth system's inherent spatio-temporal interactions, such as memory effects and teleconnections. We propose a teleconnection-driven vision transformer (TeleViT), capable of treating the Earth as one interconnected system, integrating fine-grained local-scale inputs with global-scale inputs, such as climate indices and coarse-grained global variables. Through comprehensive experimentation, we demonstrate the superiority of TeleViT in accurately predicting global burned area patterns for various forecasting windows, up to four months in advance. The gain is especially pronounced in larger forecasting windows, demonstrating the improved ability of deep learning models that exploit teleconnections to capture Earth system dynamics. Code available at https://github.com/Orion-Ai-Lab/TeleViT.
翻訳日:2023-06-21 17:48:36 公開日:2023-06-19
# 対角線はループ量子宇宙論の一般的な図像か?

Is the diagonal case a general picture for Loop Quantum Cosmology? ( http://arxiv.org/abs/2306.10934v1 )

ライセンス: Link先を確認
Matteo Bruno and Giovanni Montani(参考訳) ループ量子重力の初期の均質宇宙への正しい実装は、su(2)対称性が適切に保持できないため、文献において長い議論の対象となっている。 この対称性の役割はガウス制約によって表される。 ここで、バニッシュでないガウス制約が見つかる。 しかし、適切な変数を用いて3つのアベリア制約に再キャストできることを示し、ループ量子宇宙論においてそのような対称性が存在しないことを正当化する。

The correct implementation of the Loop Quantum Gravity to the early homogeneous Universe has been the subject of a long debate in the literature because the SU(2) symmetry cannot be properly retained. The role of this symmetry is expressed by the Gauss constraint. Here, a non-vanishing Gauss constraint is found. However, we show that using suitable variables, it can be recast into three Abelian constraints, justifying the absence of such a symmetry in Loop Quantum Cosmology.
翻訳日:2023-06-21 17:48:15 公開日:2023-06-19
# 単純な中心パターン生成器の挙動を模倣するエコー状態ネットワークによる発振活動の生成

Generating Oscillation Activity with Echo State Network to Mimic the Behavior of a Simple Central Pattern Generator ( http://arxiv.org/abs/2306.10927v1 )

ライセンス: Link先を確認
Tham Yik Foong and Danilo Vasconcellos Vargas(参考訳) 本稿では,改良型エコー状態ネットワーク(ESN)を用いた単純な中央パターン生成器(CPG)の再生手法を提案する。 従来、動的貯水池は、記憶の安定と保存のために減衰する必要がある。 しかし, 外部励起を伴わない振動活性を発現する貯水池は, 生体系における単純なCPGの挙動を模倣できることがわかった。 貯水池で発振を発生させるために必要な特定のニューロンアンサンブルを定義し, 漏洩速度, スペクトル半径, トポロジー, 集団サイズに対する調整が, それらの発振を再現する確率をいかに高めるかを示す。 時系列シミュレーションタスクで実施された実験の結果、ESNは入力なしで所望の波形を生成することができることを示した。 このアプローチは、ロボットシステムのためのバイオインスパイアされたコントローラの開発に有望なソリューションを提供する。

This paper presents a method for reproducing a simple central pattern generator (CPG) using a modified Echo State Network (ESN). Conventionally, the dynamical reservoir needs to be damped to stabilize and preserve memory. However, we find that a reservoir that develops oscillatory activity without any external excitation can mimic the behaviour of a simple CPG in biological systems. We define the specific neuron ensemble required for generating oscillations in the reservoir and demonstrate how adjustments to the leaking rate, spectral radius, topology, and population size can increase the probability of reproducing these oscillations. The results of the experiments, conducted on the time series simulation tasks, demonstrate that the ESN is able to generate the desired waveform without any input. This approach offers a promising solution for the development of bio-inspired controllers for robotic systems.
翻訳日:2023-06-21 17:48:07 公開日:2023-06-19
# 深度マップの段階的理解:単眼3次元物体検出のための適応距離間隔分離

Understanding Depth Map Progressively: Adaptive Distance Interval Separation for Monocular 3d Object Detection ( http://arxiv.org/abs/2306.10921v1 )

ライセンス: Link先を確認
Xianhui Cheng, Shoumeng Qiu, Zhikang Zou, Jian Pu and Xiangyang Xue(参考訳) モノクロ3Dオブジェクト検出は、単一の画像で異なるシーンのオブジェクトを見つけることを目的としている。 深度情報がないため、深度推定タスクからの補助深度マップに依存する複数の単眼3D検出技術が出現している。 深度マップの表現を理解するには、擬似LiDAR点雲として扱うこと、深度情報の暗黙のエンドツーエンド学習を活用すること、イメージ入力として考慮することなど、複数のアプローチがある。 しかし, これらの手法は, 推定深度マップの精度や, 画像による深度マップの最適利用など, ある程度の欠点がある。 LiDARベースの手法と畳み込みニューラルネットワーク(CNN)は、それぞれ擬似点雲と深度マップに利用できるが、常に代替手段である。 本稿では,LiDARと画像の間に位置する形式として,深度マップの新たな視点を取り入れたAdaptive Distance Interval Separation Network (ADISN) というフレームワークを提案する。 本研究では,深度マップを各部分グラフに分割し,各部分グラフを特徴抽出のための個別画像として扱う適応的分離手法を提案する。 適応分離後、各サブグラフは学習区間範囲内の画素のみを含む。 この範囲内に被写体が存在する場合、明らかな湾曲エッジが現れ、CNNを用いたテクスチャ抽出に活用してピクセルの深度情報を得ることができる。 一方,深度推定の不正確さを軽減するため,不確実性モジュールを設計した。 画像と深度マップの両方を活用するために,異なる枝を使って位置検出タスクと出現タスクを別々に学習する。

Monocular 3D object detection aims to locate objects in different scenes with just a single image. Due to the absence of depth information, several monocular 3D detection techniques have emerged that rely on auxiliary depth maps from the depth estimation task. There are multiple approaches to understanding the representation of depth maps, including treating them as pseudo-LiDAR point clouds, leveraging implicit end-to-end learning of depth information, or considering them as an image input. However, these methods have certain drawbacks, such as their reliance on the accuracy of estimated depth maps and suboptimal utilization of depth maps due to their image-based nature. While LiDAR-based methods and convolutional neural networks (CNNs) can be utilized for pseudo point clouds and depth maps, respectively, it is always an alternative. In this paper, we propose a framework named the Adaptive Distance Interval Separation Network (ADISN) that adopts a novel perspective on understanding depth maps, as a form that lies between LiDAR and images. We utilize an adaptive separation approach that partitions the depth map into various subgraphs based on distance and treats each of these subgraphs as an individual image for feature extraction. After adaptive separations, each subgraph solely contains pixels within a learned interval range. If there is a truncated object within this range, an evident curved edge will appear, which we can leverage for texture extraction using CNNs to obtain rich depth information in pixels. Meanwhile, to mitigate the inaccuracy of depth estimation, we designed an uncertainty module. To take advantage of both images and depth maps, we use different branches to learn localization detection tasks and appearance tasks separately.
翻訳日:2023-06-21 17:47:51 公開日:2023-06-19
# 生体認証におけるバイアス評価のための公平性指標

Fairness Index Measures to Evaluate Bias in Biometric Recognition ( http://arxiv.org/abs/2306.10919v1 )

ライセンス: Link先を確認
Ketan Kotwal and Sebastien Marcel(参考訳) バイオメトリックシステムの人口格差は、その社会的影響と、そのようなシステムを民間および公共のドメインで適用する可能性に関する深刻な懸念を引き起こした。 人口統計学的フェアネスの定量的評価は、生体計測応用における人口統計バイアスの理解、評価、緩和のための重要なステップである。 既存の公正度尺度はバイオメトリックシステムの後決定データ(検証精度など)に基づくものはほとんどないが、事前決定データ(スコア分布)が人口統計学的公正性にどのように役立つかについて議論する。 本稿では,総称生体認証システムの人口統計学的公平性を評価するために,スコア分布の統計的特徴に基づく複数の尺度を提案する。 また,各公平度尺度に対して,構成的集団群からの貢献度と最終尺度への貢献度の違いについて検討した。 いずれの場合においても、測定値の挙動は合成データ上で数値的およびグラフィカルに示されてきた。 ベンチマークデータセットの人口不均衡は、フェアネスアセスメント中にしばしば見過ごされる。 人口集団のサンプルサイズの非線形関数を通じて、このような不均衡の影響を低減するための新しい重み付け戦略を提案する。 提案手法はバイオメトリックモダリティとは独立しており、一般的に使用されるバイオメトリックモダリティ(顔、指紋など)にも適用できる。

The demographic disparity of biometric systems has led to serious concerns regarding their societal impact as well as applicability of such systems in private and public domains. A quantitative evaluation of demographic fairness is an important step towards understanding, assessment, and mitigation of demographic bias in biometric applications. While few, existing fairness measures are based on post-decision data (such as verification accuracy) of biometric systems, we discuss how pre-decision data (score distributions) provide useful insights towards demographic fairness. In this paper, we introduce multiple measures, based on the statistical characteristics of score distributions, for the evaluation of demographic fairness of a generic biometric verification system. We also propose different variants for each fairness measure depending on how the contribution from constituent demographic groups needs to be combined towards the final measure. In each case, the behavior of the measure has been illustrated numerically and graphically on synthetic data. The demographic imbalance in benchmarking datasets is often overlooked during fairness assessment. We provide a novel weighing strategy to reduce the effect of such imbalance through a non-linear function of sample sizes of demographic groups. The proposed measures are independent of the biometric modality, and thus, applicable across commonly used biometric modalities (e.g., face, fingerprint, etc.).
翻訳日:2023-06-21 17:47:22 公開日:2023-06-19
# 初期コヒーレンスの存在下での量子研究への準確率的アプローチの探求:マーゲナウ・ヒル分布の利点

Exploring quasiprobability approach to quantum work in the presence of initial coherence: Advantages of the Margenau-Hill distribution ( http://arxiv.org/abs/2306.10917v1 )

ライセンス: Link先を確認
Ji-Hui Pei, Jin-Fu Chen, H. T. Quan(参考訳) 量子熱力学において、二射影測度(TPM)スキームは、初期量子コヒーレンスが欠如している場合にのみ確率的作業の記述が成功する。 量子ワーク分布を準確率に拡張することは、初期コヒーレンスの存在下で仕事のゆらぎを特徴付ける一般的なアプローチである。 しかし、多くの異なる定義の中で、最も適切な仕事の準確率についてのコンセンサスはない。 本稿では,熱力学の第一法則,時間反転対称性,二階モーメントの肯定性,作業分布の支持条件など,物理的に合理的な要件を列挙する。 これらの要求を満たす唯一の定義は、仕事の準確率であるマーゲナウ・ヒル(MH)である。 この意味では、仕事の MH 準確率は他の定義よりも有利である。 例示として,初期圧縮状態を持つ呼吸調和振動子のmh作業分布を計算し,古典的極限における古典的作業分布への収束を示す。

In quantum thermodynamics, the two-projective-measurement (TPM) scheme provides a successful description of stochastic work only in the absence of initial quantum coherence. Extending the quantum work distribution to quasiprobability is a general approach to characterize work fluctuation in the presence of initial coherence. However, among a large number of different definitions, there is no consensus on the most appropriate work quasiprobability. In this article, we list several physically reasonable requirements including the first law of thermodynamics, time-reversal symmetry, positivity of second-order moment, and a support condition for the work distribution. We prove that the only definition that satisfies all these requirements is the Margenau-Hill (MH) quasiprobability of work. In this sense, the MH quasiprobability of work shows its advantages over other definitions. As an illustration, we calculate the MH work distribution of a breathing harmonic oscillator with initial squeezed states and show the convergence to classical work distribution in the classical limit.
翻訳日:2023-06-21 17:47:00 公開日:2023-06-19
# 関係条件付きニューラルプロセスによる実用的等分散

Practical Equivariances via Relational Conditional Neural Processes ( http://arxiv.org/abs/2306.10915v1 )

ライセンス: Link先を確認
Daolang Huang, Manuel Haussmann, Ulpu Remes, ST John, Gr\'egoire Clart\'e, Kevin Sebastian Luck, Samuel Kaski, Luigi Acerbi(参考訳) 条件付きニューラル・プロセス(CNP)は、償却推論の実行効率と確実な不確実性定量化を組み合わせたメタラーニングモデルである。 時空間モデリング、ベイズ最適化、連続制御など、関連する機械学習タスクの多くは、モデルが最大限のパフォーマンスを活用できる同分散を含む。 しかし、CNPに等価性を含む以前の試みは、2つの入力次元を超えて効果的にスケールしない。 本研究では,任意のニューラルプロセスモデルに等価性を導入するための効果的な手法であるrelational conditional neural process (rcnps)を提案する。 提案手法は、同変ニューラルプロセスの適用性と影響を高次元に拡張する。 本研究では,自然に同値を含むタスク列上でのRCNPの競合性能を実証的に実証する。

Conditional Neural Processes (CNPs) are a class of metalearning models popular for combining the runtime efficiency of amortized inference with reliable uncertainty quantification. Many relevant machine learning tasks, such as spatio-temporal modeling, Bayesian Optimization and continuous control, contain equivariances -- for example to translation -- which the model can exploit for maximal performance. However, prior attempts to include equivariances in CNPs do not scale effectively beyond two input dimensions. In this work, we propose Relational Conditional Neural Processes (RCNPs), an effective approach to incorporate equivariances into any neural process model. Our proposed method extends the applicability and impact of equivariant neural processes to higher dimensions. We empirically demonstrate the competitive performance of RCNPs on a large array of tasks naturally containing equivariances.
翻訳日:2023-06-21 17:46:43 公開日:2023-06-19
# 拡張Bose-HubbardモデルにおけるSuper-Tonks-Girardeau Quench

Super-Tonks-Girardeau Quench in the Extended Bose-Hubbard Model ( http://arxiv.org/abs/2306.10910v1 )

ライセンス: Link先を確認
Maciej Marciniak, Maciej {\L}ebek, Jakub Kopyci\'nski, Wojciech G\'orecki, Rafa{\l} O{\l}dziejewski, Krzysztof Paw{\l}owski(参考訳) 本研究では, 強い局所相互作用を持つ一次元気体からのクエンチが, 超トンク・ジラルドー効果として知られる強誘電性ガスへ及ぼす影響について検討する。 光学格子と非局所相互作用の両方を組み込むことで、クエンチ中の状態の破壊が特定の範囲の相互作用内に存在することを発見した。 本研究は, 2つの原子の分析結果から始まり, 正確な対角化法, DMRG法, TDVP法を応用した少数体系まで, 様々なシステムサイズに拡張されたボース・ハッバードモデルを用いている。 最後に、局所密度近似の数値的な実装を用いて、原子のマクロな数を求める。 一貫して, スーパートンクス・ジラルドー・クエンチにより, 初期自己結合構造が拡大する領域が明らかとなった。 高速蒸発は、実験において位相図を特徴づける道具として用いられる。

We investigate the effect of a quench from a one-dimensional gas with strong and repulsive local interactions to a strongly attractive one, known as the super-Tonks-Girardeau effect. By incorporating both an optical lattice and non-local interactions, we discover a previously unexplored phenomenon: the disruption of the state during the quench, but within a specific range of interactions. Our study employs the extended Bose-Hubbard model across various system sizes, starting with analytical results for two atoms and progressing to few-body systems using exact diagonalization, DMRG and TDVP methods. Finally, we use a numerical implementation of the local density approximation for a macroscopic number of atoms. Consistently, our findings unveil a region where the initially self-bound structure expands due to the super-Tonks-Girardeau quench. The fast evaporation can be used as a tool to characterize the phase diagram in an experiment.
翻訳日:2023-06-21 17:46:30 公開日:2023-06-19
# ダイナミクスと量子最適輸送:量子エントロピーと量子マルコフ半群に関する3つの講義

Dynamics and Quantum Optimal Transport: Three lectures on quantum entropy and quantum Markov semigroups ( http://arxiv.org/abs/2306.10903v1 )

ライセンス: Link先を確認
Eric Carlen(参考訳) この文書は、ハンガリーのブダペストにあるErd\H{o}s Center School ``Optimal Transport on Quantum Structures', Septemer 19-23, 2022の3つの講義の内容を示している。 これは、現在の研究の活発な話題について、かなり自己完結的な説明を示しており、この説明は、学校の講義に適するため、ほとんどの大学院生がアクセス可能であるべきである。 主な結果は知られているが、いくつかの新しい証明といくつかの新しい結果がある。

This document presents the contents of three lectures delivered by the author at the Erd\H{o}s Center School ``Optimal Transport on Quantum Structures'', Septemer 19-23, 2022 in Budapest, Hungary. It presents a fairly self contained account of an active topic of current research, and this account should be accessible to most graduate students, as befits lectures for a school. The main results are known, but there a number of new proofs and some new results.
翻訳日:2023-06-21 17:46:13 公開日:2023-06-19
# MotionGPT:精巧なLLMは汎用モーションジェネレータ

MotionGPT: Finetuned LLMs are General-Purpose Motion Generators ( http://arxiv.org/abs/2306.10900v1 )

ライセンス: Link先を確認
Yaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei Bai, Qi Chu, Nenghai Yu, Wanli Ouyang(参考訳) 与えられた行動記述からリアルな人間の動きを生成することは、デジタル人間の新たな要求のために大きな進歩を経験した。 最近の研究は、テキストによる動作記述から直接運動を生成するという印象的な成果を上げているが、それらはしばしば制御信号の単一のモダリティのみをサポートし、実際のデジタル人間産業での応用を制限する。 本稿では,大規模言語モデル(LLM)における特殊入力トークンとしてマルチモーダル信号を扱うことで,テキストやシングルフレームポーズなどのマルチモーダル制御信号を連続的な人間の動作を生成するためのMotionGPT(MotionGPT)を提案する。 具体的には、まずマルチモーダル制御信号を離散符号に量子化し、それらを統一的なプロンプト命令で定式化し、LSMに動作応答を生成する。 motiongpt は llm パラメータのわずか 0.4% をチューニングし,マルチモーダル制御信号を用いた統一的な動作生成モデルを示す。 私たちの知る限りでは、MotionGPTはマルチモーダル制御信号によって人間の動きを生成する最初の方法です。 規定は受理後に解除する。

Generating realistic human motion from given action descriptions has experienced significant advancements because of the emerging requirement of digital humans. While recent works have achieved impressive results in generating motion directly from textual action descriptions, they often support only a single modality of the control signal, which limits their application in the real digital human industry. This paper presents a Motion General-Purpose generaTor (MotionGPT) that can use multimodal control signals, e.g., text and single-frame poses, for generating consecutive human motions by treating multimodal signals as special input tokens in large language models (LLMs). Specifically, we first quantize multimodal control signals into discrete codes and then formulate them in a unified prompt instruction to ask the LLMs to generate the motion answer. Our MotionGPT demonstrates a unified human motion generation model with multimodal control signals by tuning a mere 0.4% of LLM parameters. To the best of our knowledge, MotionGPT is the first method to generate human motion by multimodal control signals, which we hope can shed light on this new direction. Codes shall be released upon acceptance.
翻訳日:2023-06-21 17:46:00 公開日:2023-06-19
# キラル-ギアン-分子導波路-QED系におけるキラル及び非相互光子散乱

Chiral and nonreciprocal single-photon scattering in a chiral-giant-molecule waveguide-QED system ( http://arxiv.org/abs/2306.10957v1 )

ライセンス: Link先を確認
Juan Zhou, Xian-Li Yin, Jie-Qiao Liao(参考訳) カイラル-ギアン-分子導波路-QED系におけるキラルおよび非相互単光子散乱について検討した。 ここでは、2つの結合した2つの巨大原子が2つの線形導波路と相互作用し、4ポートの量子デバイスを形成する。 実空間法を用いて4つの散乱振幅の厳密な解析式を得る。 マルコフ限界の下では、単一光子散乱の挙動は、巨大原子と導波路の間の結合強度、二つの巨大原子間の結合強度、および結合点の間を移動する光子の位相蓄積に起因する非双極子効果によって決定される。 また、巨大分子と導波路の結合構造における対称性を破るためにキラルカップリングを導入することで、キラルおよび非相互光子散乱を実現することができる。 さらに、理想的なキラルエミッタ-導波路結合により、方向性の単一光子ルーティングが可能となる。 非マルコフ系では、散乱スペクトルは複数のピークとディップを持つより豊富な構造によって特徴づけられる。 特に、非マルコフ遅延効果が非相互単光子散乱を誘導できることを示す。 この結果は, 光学量子デバイスの設計に応用できる可能性があり, カイラル量子光学の研究に有効なプラットフォームを提供することができる。

We study chiral and nonreciprocal single-photon scattering in a chiral-giant-molecule waveguide-QED system. Here, the giant molecule consists of two coupled giant atoms, which interact with two linear waveguides, forming a four-port quantum device. We obtain the exact analytical expressions of the four scattering amplitudes using a real-space method. Under the Markovian limit, we find that the single-photon scattering behavior is determined by the coupling strength between the giant atoms and the waveguides, the coupling strength between the two giant atoms, and the nondipole effect caused by the phase accumulation of photons travelling between the coupling points. It is also found that chiral and nonreciprocal single-photon scattering can be realized by introducing the chiral coupling to break the symmetry in the coupling configuration between the giant molecule and the waveguides. In addition, an ideal chiral emitter-waveguide coupling enables a directional single-photon routing. In the non-Markovian regime, the scattering spectra are characterized by more abundant structures with multiple peaks and dips. In particular, we demonstrate that the non-Markovian retarded effect can induce the nonreciprocal single-photon scattering. Our results have potential applications in the design of optical quantum devices involving giant atoms, which can provide an efficient platform for studying chiral quantum optics.
翻訳日:2023-06-21 17:40:03 公開日:2023-06-19
# 非パラメトリック予測によるハイパースペクトル画像の半教師付き学習

Semi-Supervised Learning for hyperspectral images by non parametrically predicting view assignment ( http://arxiv.org/abs/2306.10955v1 )

ライセンス: Link先を確認
Shivam Pande, Nassim Ait Ali Braham, Yi Wang, Conrad M Albrecht, Biplab Banerjee, Xiao Xiang Zhu(参考訳) ハイパースペクトル画像(HSI)分類は、画像中のスペクトル情報が高いため、現在、多くの勢いを増している。 しかし、これらの画像は次元の呪いの問題に苦しんでおり、分類、特に教師付き設定などのタスクには大量のサンプルを必要とする。 近年,最小限のラベル付きサンプルでディープラーニングモデルを効果的にトレーニングするために,ラベルなしサンプルも自己教師付きおよび半教師付き設定で活用されている。 本研究では,半教師付き学習の概念を利用して,モデルの識別的自己教師型事前学習を支援する。 提案手法では,ラベルなしサンプルの異なる拡張ビューを入力として,下流タスクからラベル付きサンプルに対応する同じ擬似ラベルを割り当てる。 我々は、ヒューストンデータセット(データ融合コンテスト、2013年)とパヴィア大学データセットの2つのHSIデータセットでモデルをトレーニングし、提案手法が自己教師ありアプローチや教師ありトレーニングよりも優れていることを示す。

Hyperspectral image (HSI) classification is gaining a lot of momentum in present time because of high inherent spectral information within the images. However, these images suffer from the problem of curse of dimensionality and usually require a large number samples for tasks such as classification, especially in supervised setting. Recently, to effectively train the deep learning models with minimal labelled samples, the unlabeled samples are also being leveraged in self-supervised and semi-supervised setting. In this work, we leverage the idea of semi-supervised learning to assist the discriminative self-supervised pretraining of the models. The proposed method takes different augmented views of the unlabeled samples as input and assigns them the same pseudo-label corresponding to the labelled sample from the downstream task. We train our model on two HSI datasets, namely Houston dataset (from data fusion contest, 2013) and Pavia university dataset, and show that the proposed approach performs better than self-supervised approach and supervised training.
翻訳日:2023-06-21 17:39:41 公開日:2023-06-19
# 深層学習を用いたSEMGを用いた手指ジェスチャー認識

sEMG-based Hand Gesture Recognition with Deep Learning ( http://arxiv.org/abs/2306.10954v1 )

ライセンス: Link先を確認
Marcello Zanghieri(参考訳) 表面筋電図(semg)信号に基づく手のジェスチャー認識は、直感的なロボットインタフェースや多関節義手といった自然な制御を備えたヒューマンマシンインタフェース(hmis)の開発に有望なアプローチである。 しかし、現実の応用は、動作アーチファクト、姿勢および時間的変動、センサ再配置による信頼性の問題によって制限されている。 このマスター論文は、6つの手のジェスチャーを4つの腕の姿勢で実行する7人の有能な被験者の8つのセッションのデータを収集し、被験者、セッション、腕の姿勢の変動を探索する最初の公開segデータセットであるunibo-inailデータセットにおけるディープラーニングの最初の応用である。 近年の研究では、RBFカーネルSVMが最も精度の高い非深度機械学習分類器の姿勢間および日内一般化を改善する訓練セット構成に基づく戦略による可変性について論じている。 この研究で実現された深いアーキテクチャは、他の公開ベンチマークデータベースでうまく機能するように報告された2d-CNNにインスパイアされた1d-CNNである。 この1d-CNNでは、トレーニングセットの構成に基づく様々なトレーニング戦略を実装し、テストした。 マルチセッショントレーニングは、シングルセッショントレーニングよりも高いセッション間検証能力を持つことを証明している。 2姿勢トレーニングは、最高の姿勢訓練(複数の姿勢でのトレーニングの利点を示す)を証明し、81.2%の姿勢テスト精度を得る。 5日間のトレーニングは、最高の複数日間のトレーニングであり、75.9%の試験精度を持つ。 すべての結果はベースラインに近い。 さらに,複数日トレーニングの結果から,ユーザ適応現象が強調され,最近のデータも優先すべきであることが示唆された。 基準よりも優れているわけではないが、達成された分類精度は、さらなる研究の候補に1d-CNNを正しく配置している。

Hand gesture recognition based on surface electromyographic (sEMG) signals is a promising approach for developing Human-Machine Interfaces (HMIs) with a natural control, such as intuitive robot interfaces or poly-articulated prostheses. However, real-world applications are limited by reliability problems due to motion artefacts, postural and temporal variability, and sensor re-positioning. This master thesis is the first application of deep learning on the Unibo-INAIL dataset, the first public sEMG dataset exploring the variability between subjects, sessions and arm postures by collecting data over 8 sessions of each of 7 able-bodied subjects executing 6 hand gestures in 4 arm postures. Recent studies address variability with strategies based on training set composition, which improve inter-posture and inter-day generalization of non-deep machine learning classifiers, among which the RBF-kernel SVM yields the highest accuracy. The deep architecture realized in this work is a 1d-CNN inspired by a 2d-CNN reported to perform well on other public benchmark databases. On this 1d-CNN, various training strategies based on training set composition were implemented and tested. Multi-session training proves to yield higher inter-session validation accuracies than single-session training. Two-posture training proves the best postural training (proving the benefit of training on more than one posture) and yields 81.2% inter-posture test accuracy. Five-day training proves the best multi-day training, yielding 75.9% inter-day test accuracy. All results are close to the baseline. Moreover, the results of multi-day training highlight the phenomenon of user adaptation, indicating that training should also prioritize recent data. Though not better than the baseline, the achieved classification accuracies rightfully place the 1d-CNN among the candidates for further research.
翻訳日:2023-06-21 17:39:24 公開日:2023-06-19
# オンラインポートフォリオ管理における深層強化学習のロバスト性

Benchmarking Robustness of Deep Reinforcement Learning approaches to Online Portfolio Management ( http://arxiv.org/abs/2306.10950v1 )

ライセンス: Link先を確認
Marc Velay, Bich-Li\^en Doan, Arpad Rimmel, Fabrice Popineau, Fabrice Daniel(参考訳) オンラインポートフォリオ選択に対する深層強化学習アプローチは近年人気が高まっている。 強化学習エージェント(Reinforcement Learning agent)は、市場表現、行動目的、トレーニングプロセスにおいて、かつての成果に欠ける広範囲な取り組みの必要性を示唆している。 ポートフォリオ管理のための従来のDRLアルゴリズムの性能を評価するためのトレーニングおよび評価プロセスを提案する。 深い強化学習アルゴリズムの多くは頑健ではなく、戦略の一般化が貧弱で、バックテスト中に急速に劣化することが分かりました。

Deep Reinforcement Learning approaches to Online Portfolio Selection have grown in popularity in recent years. The sensitive nature of training Reinforcement Learning agents implies a need for extensive efforts in market representation, behavior objectives, and training processes, which have often been lacking in previous works. We propose a training and evaluation process to assess the performance of classical DRL algorithms for portfolio management. We found that most Deep Reinforcement Learning algorithms were not robust, with strategies generalizing poorly and degrading quickly during backtesting.
翻訳日:2023-06-21 17:38:52 公開日:2023-06-19
# 率関数を用いた補間規則の一般化の理解

Understanding Generalization in the Interpolation Regime using the Rate Function ( http://arxiv.org/abs/2306.10947v1 )

ライセンス: Link先を確認
Andr\'es R. Masegosa and Luis A. Ortega(参考訳) 本稿では,大偏差理論の基本原理に基づくモデルの滑らかさの新たな評価法を提案する。 従来の研究とは対照的に、モデルの滑らかさは通常実値(例えば重みのノルム)によって特徴づけられるが、滑らかさは単純な実数値関数によって記述できることを示す。 この平滑性の概念に基づき、いくつかの補間器が著しくよく一般化する理由と、それらを見つけることができる広範囲の現代の学習技術(確率的勾配降下、$\ell_2$-norm正規化、データ拡張、不変アーキテクチャ、および過パラメータ)の統一的な理論的説明を提案する。 創発的な結論は、これらの手法はすべてオプティマイザをより滑らかな補間器に偏らせる補完的手順を提供しており、この理論解析によれば、より一般化誤差のある方法である。

In this paper, we present a novel characterization of the smoothness of a model based on basic principles of Large Deviation Theory. In contrast to prior work, where the smoothness of a model is normally characterized by a real value (e.g., the weights' norm), we show that smoothness can be described by a simple real-valued function. Based on this concept of smoothness, we propose an unifying theoretical explanation of why some interpolators generalize remarkably well and why a wide range of modern learning techniques (i.e., stochastic gradient descent, $\ell_2$-norm regularization, data augmentation, invariant architectures, and overparameterization) are able to find them. The emergent conclusion is that all these methods provide complimentary procedures that bias the optimizer to smoother interpolators, which, according to this theoretical analysis, are the ones with better generalization error.
翻訳日:2023-06-21 17:38:43 公開日:2023-06-19
# 意識的知識グラフ畳み込みネットワークに基づく観光客の推薦

Tourist Attractions Recommendation based on Attention Knowledge Graph Convolution Network ( http://arxiv.org/abs/2306.10946v1 )

ライセンス: Link先を確認
Ahmad A. Mubarak and Afifa Kahled(参考訳) 知識グラフに基づく推薦アルゴリズムは比較的成熟した段階にある。 しかし、特定の分野の推薦にはいくつかの問題がある。 例えば、観光分野では、観光アトラクションの推奨基盤として、適切な観光アトラクション属性の選択プロセスが複雑である。 本稿では,対象の景観スポットの近傍のエンティティを自動的に意味的に発見する改良された意識知識グラフ畳み込みネットワークモデル(Att-KGCN)を提案する。 注意層は比較的類似した位置を集約し、隣接するベクトルでそれらを表現する。 そして、観光客の好む選択により、類似点の確率を推薦システムとして予測する。 Socotra Island-Yemenの観光データに基づく観光名所の知識グラフデータセット 実験により,アテンションナレッジグラフ畳み込みネットワークが観光名所のレコメンデーションに良い影響を与え,観光客の選択により多くのレコメンデーションをすることができることを確認した。

The recommendation algorithm based on knowledge graphs is at a relatively mature stage. However, there are still some problems in the recommendation of specific areas. For example, in the tourism field, selecting suitable tourist attraction attributes process is complicated as the recommendation basis for tourist attractions. In this paper, we propose the improved Attention Knowledge Graph Convolution Network model, named (Att-KGCN), which automatically discovers the neighboring entities of the target scenic spot semantically. The attention layer aggregates relatively similar locations and represents them with an adjacent vector. Then, according to the tourist's preferred choices, the model predicts the probability of similar spots as a recommendation system. A knowledge graph dataset of tourist attractions used based on tourism data on Socotra Island-Yemen. Through experiments, it is verified that the Attention Knowledge Graph Convolution Network has a good effect on the recommendation of tourist attractions and can make more recommendations for tourists' choices.
翻訳日:2023-06-21 17:38:25 公開日:2023-06-19
# FDTI: ロードネット強化グラフを用いたきめ細かいトラフィック推論

FDTI: Fine-grained Deep Traffic Inference with Roadnet-enriched Graph ( http://arxiv.org/abs/2306.10945v1 )

ライセンス: Link先を確認
Zhanyu Liu, Chumeng Liang, Guanjie Zheng, Hua Wei(参考訳) 本稿では,トラヒック関連下流アプリケーションにおいて不可欠な細粒度トラヒック予測タスク(データポイント間の間隔は1分)を提案する。 この設定下では、トラフィックフローは交通信号に強く影響され、トラフィックノード間の相関は動的である。 その結果、トラフィックデータはノード間の非平滑であり、スムーズなトラフィックデータにフォーカスする従来の手法を利用できない。 この問題に対処するため、我々はFDTIと呼ばれる詳細なディープトラフィック推論を提案する。 具体的には,道路間関係をモデル化するために,交通信号に基づく細粒度トラヒックグラフを構築する。 次に, 物理的に解釈可能な動的モビリティ畳み込みモジュールを提案し, トラヒック信号によって制御される車両移動ダイナミクスを捉える。 さらに、将来の容積を正確に推定するために、交通流の保存を導入する。 大規模な実験により,本手法は最先端の性能と,良好な特性を持つ学習トラフィックダイナミクスを実現することを示す。 我々の知る限りでは、我々は都市レベルのきめ細かい交通予測を行う最初の人物である。

This paper proposes the fine-grained traffic prediction task (e.g. interval between data points is 1 minute), which is essential to traffic-related downstream applications. Under this setting, traffic flow is highly influenced by traffic signals and the correlation between traffic nodes is dynamic. As a result, the traffic data is non-smooth between nodes, and hard to utilize previous methods which focus on smooth traffic data. To address this problem, we propose Fine-grained Deep Traffic Inference, termed as FDTI. Specifically, we construct a fine-grained traffic graph based on traffic signals to model the inter-road relations. Then, a physically-interpretable dynamic mobility convolution module is proposed to capture vehicle moving dynamics controlled by the traffic signals. Furthermore, traffic flow conservation is introduced to accurately infer future volume. Extensive experiments demonstrate that our method achieves state-of-the-art performance and learned traffic dynamics with good properties. To the best of our knowledge, we are the first to conduct the city-level fine-grained traffic prediction.
翻訳日:2023-06-21 17:38:10 公開日:2023-06-19
# 生成逆数ネットワークにおける実・実データ統計量の確率的マッチング

Probabilistic matching of real and generated data statistics in generative adversarial networks ( http://arxiv.org/abs/2306.10943v1 )

ライセンス: Link先を確認
Philipp Pilar, Niklas Wahlstr\"om(参考訳) 生成逆ネットワークは生成モデリングに対する強力なアプローチを構成する。 生成されたサンプルは実データと区別できないことが多いが、真のデータ分布に従う保証はない。 本研究では,生成されたデータ統計の分布が実データの分布と一致していることを保証する手法を提案する。 これを達成するために、生成元損失関数にKullback-Leibler項を追加し、条件エネルギーベースモデルで表される真の分布と、各イテレーションでミニバッチ値から得られた対応する分布との間にKLの発散を取らせる。 本手法は,合成データセットと実世界の2つのデータセットで評価し,性能の向上を示す。

Generative adversarial networks constitute a powerful approach to generative modeling. While generated samples often are indistinguishable from real data, there is no guarantee that they will follow the true data distribution. In this work, we propose a method to ensure that the distributions of certain generated data statistics coincide with the respective distributions of the real data. In order to achieve this, we add a Kullback-Leibler term to the generator loss function: the KL divergence is taken between the true distributions as represented by a conditional energy-based model, and the corresponding generated distributions obtained from minibatch values at each iteration. We evaluate the method on a synthetic dataset and two real-world datasets and demonstrate improved performance of our method.
翻訳日:2023-06-21 17:37:53 公開日:2023-06-19
# 知識伝達駆動型Few-Shotクラスインクリメンタルラーニング

Knowledge Transfer-Driven Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2306.10942v1 )

ライセンス: Link先を確認
Ye Wang, Yaxiong Wang, Guoshuai Zhao, and Xueming Qian(参考訳) FSCIL(Few-shot class-incremental Learning)は、古いクラスを忘れずにいくつかのサンプルを使用して新しいクラスを継続的に学習することを目的としている。 このタスクの鍵は、ベースセッションからインクリメンタルセッションへの効果的な知識転送である。 既存のFSCIL手法の進歩にもかかわらず、モデルの可塑性の最適化が不十分なため、提案手法は準最適である。 この問題に対処するために,多種多様な擬似増分課題をエージェントとして生かし,知識伝達を実現するランダム・エピソードサンプリング・拡張(RESA)戦略を提案する。 具体的には、RESAは実際のインクリメンタルな設定を模倣し、グローバルな擬似的なインクリメンタルなタスクをFSCILの学習目的に合わせて設計し、ローカルな擬似インクリメンタルなタスクをモデルの可塑性を改善するために設計する。 さらに,逐次予測を説得するために,二乗ユークリッド距離分類器を補助モジュールとする補完モデルを導入し,広範に使用されるコサイン分類器と結合してアーキテクチャ全体を形成する。 このように、モデル分離戦略を備えて、モデルの可塑性を高めながら、モデルの安定性を維持することができる。 3つのfscilベンチマークデータセットに関する広範囲な定量的・定性的実験により,提案手法であるkt-rcnetが従来の手法よりも優れていた。 より正確には、提案したKT-RCNetの平均精度は、miniImageNet、CIFAR100、CUB200でそれぞれ5.26%、3.49%、および2.25%のマージンで2番目に良い方法より優れている。 私たちのコードはhttps://github.com/YeZiLaiXi/KT-RCNet.gitで公開されています。

Few-shot class-incremental learning (FSCIL) aims to continually learn new classes using a few samples while not forgetting the old classes. The key of this task is effective knowledge transfer from the base session to the incremental sessions. Despite the advance of existing FSCIL methods, the proposed knowledge transfer learning schemes are sub-optimal due to the insufficient optimization for the model's plasticity. To address this issue, we propose a Random Episode Sampling and Augmentation (RESA) strategy that relies on diverse pseudo incremental tasks as agents to achieve the knowledge transfer. Concretely, RESA mimics the real incremental setting and constructs pseudo incremental tasks globally and locally, where the global pseudo incremental tasks are designed to coincide with the learning objective of FSCIL and the local pseudo incremental tasks are designed to improve the model's plasticity, respectively. Furthermore, to make convincing incremental predictions, we introduce a complementary model with a squared Euclidean-distance classifier as the auxiliary module, which couples with the widely used cosine classifier to form our whole architecture. By such a way, equipped with model decoupling strategy, we can maintain the model's stability while enhancing the model's plasticity. Extensive quantitative and qualitative experiments on three popular FSCIL benchmark datasets demonstrate that our proposed method, named Knowledge Transfer-driven Relation Complementation Network (KT-RCNet), outperforms almost all prior methods. More precisely, the average accuracy of our proposed KT-RCNet outperforms the second-best method by a margin of 5.26%, 3.49%, and 2.25% on miniImageNet, CIFAR100, and CUB200, respectively. Our code is available at https://github.com/YeZiLaiXi/KT-RCNet.git.
翻訳日:2023-06-21 17:37:41 公開日:2023-06-19
# 擬似光コヒーレンストモグラフィーによるヒトのアノテーションを伴わない詳細な網膜血管分割

Detailed retinal vessel segmentation without human annotations using simulated optical coherence tomography angiographs ( http://arxiv.org/abs/2306.10941v1 )

ライセンス: Link先を確認
Linus Kreitner, Johannes C. Paetzold, Nikolaus Rauch, Chen Chen, Ahmed M. Hagag, Alaa E. Fayed, Sobha Sivaprasad, Sebastian Rausch, Julian Weichsel, Bjoern H. Menze, Matthias Harders, Benjamin Knier, Daniel Rueckert and Martin J. Menten(参考訳) 光コヒーレンストモグラフィー(OCTA)は、非侵襲的な画像モダリティであり、網膜血管の高解像度の容積を取得し、眼・神経・心臓疾患の診断を助ける。 これらの画像から定量的バイオマーカーを抽出する際、可視血管の分画は一般的な第一歩である。 閾値に基づく古典的セグメンテーションアルゴリズムは、画像アーティファクトと限られた信号-雑音比の影響を強く受けている。 最新の深層学習に基づくセグメンテーション法の使用は、血管の詳細なアノテーションを持つ大規模なデータセットの欠如によって妨げられている。 この問題に対処するため、近年の研究では、セグメンテーションネットワークを合成OCTA画像に基づいてトレーニングし、実データに適用するトランスファーラーニングが採用されている。 しかし, 従来のシミュレーションモデルでは網膜血管を忠実にモデル化することはできず, 効果的な領域適応は得られない。 このため、現在の方法では網膜血管、特に最小の毛細血管を完全に分割することはできない。 本研究では,より高速でリアルなOCTA合成のために,空間コロニー化に基づく網膜血管網の軽量なシミュレーションを行う。 さらに,実画像と人工画像の領域ギャップを低減するために,コントラスト適応パイプラインを3つ導入する。 提案手法を従来のコンピュータビジョンアルゴリズムと比較し,人間のアノテーションを用いた教師付きトレーニングを行う3つの公開データセットの定量的・定性的実験において,我々のアプローチの優れた性能を示す。 最後に、ソースコード、事前トレーニングされたモデル、合成オクタイメージの大規模なデータセットなど、パイプライン全体を公開しています。

Optical coherence tomography angiography (OCTA) is a non-invasive imaging modality that can acquire high-resolution volumes of the retinal vasculature and aid the diagnosis of ocular, neurological and cardiac diseases. Segmentation of the visible blood vessels is a common first step when extracting quantitative biomarkers from these images. Classical segmentation algorithms based on thresholding are strongly affected by image artifacts and limited signal-to-noise ratio. The use of modern, deep learning-based segmentation methods has been inhibited by a lack of large datasets with detailed annotations of the blood vessels. To address this issue, recent work has employed transfer learning, where a segmentation network is trained on synthetic OCTA images and is then applied to real data. However, the previously proposed simulation models are incapable of faithfully modeling the retinal vasculature and do not provide effective domain adaptation. Because of this, current methods are not able to fully segment the retinal vasculature, in particular the smallest capillaries. In this work, we present a lightweight simulation of the retinal vascular network based on space colonization for faster and more realistic OCTA synthesis. Moreover, we introduce three contrast adaptation pipelines to decrease the domain gap between real and artificial images. We demonstrate the superior performance of our approach in extensive quantitative and qualitative experiments on three public datasets that compare our method to traditional computer vision algorithms and supervised training using human annotations. Finally, we make our entire pipeline publicly available, including the source code, pretrained models, and a large dataset of synthetic OCTA images.
翻訳日:2023-06-21 17:37:09 公開日:2023-06-19
# 政策一般化における効果不変メカニズム

Effect-Invariant Mechanisms for Policy Generalization ( http://arxiv.org/abs/2306.10983v1 )

ライセンス: Link先を確認
Sorawit Saengkyongam, Niklas Pfister, Predrag Klasnja, Susan Murphy, Jonas Peters(参考訳) 政策学習は多くの現実世界の学習システムの重要な要素である。 ポリシー学習における大きな課題は、未知の環境やタスクに効率的に適応する方法である。 近年,不変条件分布を活用して,未知環境に一般化したモデルを学ぶことが提案されている。 しかし、条件分布全体の不変性(フル不変性と呼ぶ)を仮定すると、実際には仮定が強すぎるかもしれない。 本稿では,効果不変性(e-invariance,略してe-invariance)と呼ばれる完全不変性の緩和を導入する。 また、テスト環境から小さなサンプルを得た場合、e-invarianceを利用する拡張についても論じる。 我々の研究は、基礎となる因果グラフや、そのデータが構造的因果モデルによって生成されると仮定していない。 本手法の有効性を示すために,シミュレーションデータとモバイルヘルス介入データセットを用いて実験結果を示す。

Policy learning is an important component of many real-world learning systems. A major challenge in policy learning is how to adapt efficiently to unseen environments or tasks. Recently, it has been suggested to exploit invariant conditional distributions to learn models that generalize better to unseen environments. However, assuming invariance of entire conditional distributions (which we call full invariance) may be too strong of an assumption in practice. In this paper, we introduce a relaxation of full invariance called effect-invariance (e-invariance for short) and prove that it is sufficient, under suitable assumptions, for zero-shot policy generalization. We also discuss an extension that exploits e-invariance when we have a small sample from the test environment, enabling few-shot policy generalization. Our work does not assume an underlying causal graph or that the data are generated by a structural causal model; instead, we develop testing procedures to test e-invariance directly from data. We present empirical results using simulated data and a mobile health intervention dataset to demonstrate the effectiveness of our approach.
翻訳日:2023-06-21 17:29:25 公開日:2023-06-19
# MIMOのフェイディングチャンネル上での個人的オーバーエアフェデレーション学習

Differentially Private Over-the-Air Federated Learning Over MIMO Fading Channels ( http://arxiv.org/abs/2306.10982v1 )

ライセンス: Link先を確認
Hang Liu, Jia Yan, and Ying-Jun Angela Zhang(参考訳) フェデレートラーニング(FL)は、エッジデバイスが直接データアップロードを置き換えるモデル通信によって、機械学習モデルを協調的にトレーニングすることを可能にする。 無線によるモデル集約は通信効率を向上させるが、無線ネットワーク上のエッジサーバへのモデルアップロードはプライバシのリスクをもたらす可能性がある。 differential privacy (dp) は fl における統計データプライバシーを測定するために広く用いられている定量的手法である。 従来,ユーザレベルのDPを高めるために通信ノイズを活用する単一アンテナサーバを用いた無線FLに重点を置いてきた。 この手法は, 送電電力を制御し, 人工雑音などのデバイスにDP保存機構を導入することにより, いわゆる「自由DP」を実現する。 本稿では,マルチ入力多重出力(mimo)フェージングチャネル上での空気中flについて検討する。 複数のアンテナサーバとのflモデル通信は、モデル集約と情報推論のために別々の受信の組み合わせを用いるため、プライバシリークを増幅する。 したがって、マルチインプット単一出力システムにおける通信ノイズのみに依存して高いプライバシー要件を満たすことができず、最適なDP設計にはデバイス側プライバシ保護機構が必要である。 本研究では,flシステムの学習収束とプライバシー損失を分析し,交互最適化に基づくトランシーバ設計アルゴリズムを提案する。 計算結果から,提案手法は従来の作業よりも優れたプライバシー学習トレードオフを実現することが示された。

Federated learning (FL) enables edge devices to collaboratively train machine learning models, with model communication replacing direct data uploading. While over-the-air model aggregation improves communication efficiency, uploading models to an edge server over wireless networks can pose privacy risks. Differential privacy (DP) is a widely used quantitative technique to measure statistical data privacy in FL. Previous research has focused on over-the-air FL with a single-antenna server, leveraging communication noise to enhance user-level DP. This approach achieves the so-called "free DP" by controlling transmit power rather than introducing additional DP-preserving mechanisms at devices, such as adding artificial noise. In this paper, we study differentially private over-the-air FL over a multiple-input multiple-output (MIMO) fading channel. We show that FL model communication with a multiple-antenna server amplifies privacy leakage as the multiple-antenna server employs separate receive combining for model aggregation and information inference. Consequently, relying solely on communication noise, as done in the multiple-input single-output system, cannot meet high privacy requirements, and a device-side privacy-preserving mechanism is necessary for optimal DP design. We analyze the learning convergence and privacy loss of the studied FL system and propose a transceiver design algorithm based on alternating optimization. Numerical results demonstrate that the proposed method achieves a better privacy-learning trade-off compared to prior work.
翻訳日:2023-06-21 17:29:07 公開日:2023-06-19
# クロスエンコーダにおける多次元関連文書の強化

Enhancing Documents with Multidimensional Relevance Statements in Cross-encoder Re-ranking ( http://arxiv.org/abs/2306.10979v1 )

ライセンス: Link先を確認
Rishabh Upadhyay, Arian Askari, Gabriella Pasi and Marco Viviani(参考訳) 本稿では,クロスエンコーダの再ランキングにおいて,トピック性を超えて関連性の多次元を考えるための新しい手法を提案する。 On the one hand, current multidimensional retrieval models often use na\"ive solutions at the re-ranking stage to aggregate multiple relevance scores into an overall one. On the other hand, cross-encoder re-rankers are effective in considering topicality but are not designed to straightforwardly account for other relevance dimensions. To overcome these issues, we envisage enhancing the candidate documents -- which are retrieved by a first-stage lexical retrieval model -- with "relevance statements" related to additional dimensions of relevance and then performing a re-ranking on them with cross-encoders. 特に、ここでは話題性を超えて、信頼性という追加の関連次元を考える。 消費者健康検索タスクのコンテキストにおいて、公開データセットを考慮したソリューションの有効性を検証する。 提案手法は,アグリゲーションベースとクロスエンコーダリランカの両方で統計的に優れていた。

In this paper, we propose a novel approach to consider multiple dimensions of relevance beyond topicality in cross-encoder re-ranking. On the one hand, current multidimensional retrieval models often use na\"ive solutions at the re-ranking stage to aggregate multiple relevance scores into an overall one. On the other hand, cross-encoder re-rankers are effective in considering topicality but are not designed to straightforwardly account for other relevance dimensions. To overcome these issues, we envisage enhancing the candidate documents -- which are retrieved by a first-stage lexical retrieval model -- with "relevance statements" related to additional dimensions of relevance and then performing a re-ranking on them with cross-encoders. In particular, here we consider an additional relevance dimension beyond topicality, which is credibility. We test the effectiveness of our solution in the context of the Consumer Health Search task, considering publicly available datasets. Our results show that the proposed approach statistically outperforms both aggregation-based and cross-encoder re-rankers.
翻訳日:2023-06-21 17:28:41 公開日:2023-06-19
# 縦続追跡・再サンプリング法における希少事象の予測モデル

Prediction model for rare events in longitudinal follow-up and resampling methods ( http://arxiv.org/abs/2306.10977v1 )

ライセンス: Link先を確認
Pierre Druilhet and Mathieu Berthe and St\'ephanie L\'eger(参考訳) 縦続追跡研究において,レアイベント予測のためのモデル構築の問題を考える。 本稿では,実例で標準回帰モデルを改善するために,いくつかの再サンプリング手法を比較する。 我々は,サンプリングレートがモデルの予測性能に与える影響を評価する。 長手モデルの予測性能を評価するために,実生活における実際の利用に対応する時間を考慮した検証手法を検討する。

We consider the problem of model building for rare events prediction in longitudinal follow-up studies. In this paper, we compare several resampling methods to improve standard regression models on a real life example. We evaluate the effect of the sampling rate on the predictive performances of the models. To evaluate the predictive performance of a longitudinal model, we consider a validation technique that takes into account time and corresponds to the actual use in real life.
翻訳日:2023-06-21 17:28:29 公開日:2023-06-19
# 科学書記支援のための微調整言語モデル

Fine-Tuning Language Models for Scientific Writing Support ( http://arxiv.org/abs/2306.10974v1 )

ライセンス: Link先を確認
Justin M\"ucke and Daria Waldow and Luise Metzger and Philipp Schauz and Marcel Hoffman and Nicolas Lell and Ansgar Scherp(参考訳) 我々は、文が科学的であるか否かを判断する科学作家を支援し、文を改善するためにパラフレーズを提案する。 まず,ピアレビューされた科学論文と非科学テキストから抽出された科学文のコーパスに基づいて学習した回帰モデルを提案する。 このスコアに方程式と引用が与える影響を調査し、潜在的なバイアスのモデルをテストする。 次に、セクションタイトルをAIと機械学習の標準的な紙レイアウトにマッピングして、文を最も可能性の高いセクションに分類する。 文脈, 周囲の文が区間分類性能に及ぼす影響について検討した。 最後に、単語置換、文の追加、文体を改善するための構造変更を含む、与えられた文の代替案を提案するパラフレーザーを提案する。 我々は、A*、A、B、Cランキングで査読され、出版されたarXiv論文から抽出された文に基づいて、様々な大きな言語モデルを訓練する。 科学的タスクでは、すべてのモデルがMSEを$2\%以下で達成する。 セクション分類では、BERT は WideMLP と Sci\-BERT より優れている。 文脈を用いることで文の分類が向上し、最大$90\%$ f1-scoreとなることを示す。 パラフレーズ化モデルは比較的わずかな変更を施すが、金標準に近い出力文を生成する。 入力文とゴールド標準の差異の様々な尺度を考慮した実験において、t5 largeのような大きな微調整モデルが最もよく機能する。 コードは \url{https://github.com/justinmuecke/scisen} で提供される。

We support scientific writers in determining whether a written sentence is scientific, to which section it belongs, and suggest paraphrasings to improve the sentence. Firstly, we propose a regression model trained on a corpus of scientific sentences extracted from peer-reviewed scientific papers and non-scientific text to assign a score that indicates the scientificness of a sentence. We investigate the effect of equations and citations on this score to test the model for potential biases. Secondly, we create a mapping of section titles to a standard paper layout in AI and machine learning to classify a sentence to its most likely section. We study the impact of context, \ie surrounding sentences, on the section classification performance. Finally, we propose a paraphraser, which suggests an alternative for a given sentence that includes word substitutions, additions to the sentence, and structural changes to improve the writing style. We train various large language models on sentences extracted from arXiv papers that were peer reviewed and published at A*, A, B, and C ranked conferences. On the scientificness task, all models achieve an MSE smaller than $2\%$. For the section classification, BERT outperforms WideMLP and Sci\-BERT in most cases. We demonstrate that using context enhances the classification of a sentence, achieving up to a $90\%$ F1-score. Although the paraphrasing models make comparatively few alterations, they produce output sentences close to the gold standard. Large fine-tuned models such as T5 Large perform best in experiments considering various measures of difference between input sentence and gold standard. Code is provided: \url{https://github.com/JustinMuecke/SciSen}.
翻訳日:2023-06-21 17:28:22 公開日:2023-06-19
# 企業におけるデザイン思考の定量的ダイナミクスと創造的視点

Quantitative dynamics of design thinking and creativity perspectives in company context ( http://arxiv.org/abs/2306.10971v1 )

ライセンス: Link先を確認
Georgi V. Georgiev, Danko D. Georgiev(参考訳) この研究は、デザイン思考と創造性の問題がどのように理解され、企業コンテキストにおけるデザイン議論の過程で進化するかについての深い洞察を提供することを目的としている。 その目的のために,デザイン思考研究シンポジウム12(DTRS12)データセット「技術中心型デザイン思考:アジアからの視点」のセミナーを,韓国企業がデザイン思考をどのように実装し,現在どのような役割を担っているのかを主眼として用いている。 構築された動的セマンティックネットワークに基づく新しい情報処理手法を用いて,企業代表者や企業規模に応じたセミナーディスカッションを行った。 2つのセミナーの量的ダイナミクスを比較した。最初の4つの企業のマネージャ代表者,そして2つ目は,1つの企業のデザインセンターの専門デザイナーとマネジメントである。 動的意味ネットワークに基づいて, 設計思考過程を時系列的に再構築し, 抽象, ポリセミー, 情報内容, ペアワイズワードの類似度という4つの意味尺度の変化を定量化した。 統計分析の結果,4社のセミナーにおけるデザイン思考は,1社のデザインセンターとのセミナーと比較して,抽象化,ポリセミー,情報内容のダイナミクスに有意差が認められた。 4社によるセミナーにおいて、多義性と抽象化の低下と、個々のデザイン思考プロセスにおける情報コンテンツの増加は、デザインマネージャがより具体的なデザイン問題に集中していることを示している。 対照的に、特殊デザイナーはより抽象的な思考を示し、デザインプロセスに多少の差があるように見える。

This study is intended to provide in-depth insights into how design thinking and creativity issues are understood and possibly evolve in the course of design discussions in a company context. For that purpose, we use the seminar transcripts of the Design Thinking Research Symposium 12 (DTRS12) dataset "Tech-centred Design Thinking: Perspectives from a Rising Asia," which are primarily concerned with how Korean companies implement design thinking and what role designers currently play. We employed a novel method of information processing based on constructed dynamic semantic networks to investigate the seminar discussions according to company representatives and company size. We compared the quantitative dynamics in two seminars: the first involved managerial representatives of four companies, and the second involved specialized designers and management of a design center of single company. On the basis of dynamic semantic networks, we quantified the changes in four semantic measures -- abstraction, polysemy, information content, and pairwise word similarity -- in chronologically reconstructed individual design-thinking processes. Statistical analyses show that design thinking in the seminar with four companies, exhibits significant differences in the dynamics of abstraction, polysemy, and information content, compared to the seminar with the design center of single company. Both the decrease in polysemy and abstraction and the increase in information content in the individual design-thinking processes in the seminar with four companies indicate that design managers are focused on more concrete design issues, with more information and less ambiguous content to the final design product. By contrast, specialized designers manifest more abstract thinking and appear to exhibit a slightly higher level of divergence in their design processes.
翻訳日:2023-06-21 17:28:00 公開日:2023-06-19
# BayLing:大規模言語モデルの対話的翻訳による言語間アライメントと指示のブリッジ

BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models ( http://arxiv.org/abs/2306.10968v1 )

ライセンス: Link先を確認
Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng(参考訳) 大規模言語モデル (LLM) は言語理解と生成において顕著な進歩を見せている。 基礎的な LLM から命令に従う LLM への進化により、命令チューニングは LLM を人間の好みに合わせる上で重要な役割を果たす。 しかし、既存のllmは通常英語に焦点を当てており、非英語言語のパフォーマンスは低下している。 英語以外の言語の性能を向上させるためには,LLMの基礎となる言語固有の学習データを収集し,言語固有の指導命令を構築する必要がある。 人間の作業量を最小限に抑えるため,対話型翻訳タスクを通じて,言語生成能力と指示文を他の言語に伝達することを提案する。 我々は,LLaMAを基礎LLMとして活用し,学習指導のための対話型翻訳命令を自動構築する,命令追従LLMのBayLingを開発した。 非常に小さなパラメータサイズがわずか13億であるにもかかわらず、ベイリングはGPT-3.5-turboに匹敵する性能を示した。 翻訳タスクに関する実験結果から,ベイリングは自動評価によるGPT-4と比較して95%,対話型翻訳能力は96%,人的評価によるGPT-3.5-turboと比較して95%を実現していることがわかった。 一般タスクの性能を推定するために,BayLing-80と呼ばれるマルチターン命令セットを開発した。 bayling-80の実験結果はgpt-3.5-turboと比較して89%の性能を達成したことを示している。 ベイリングはまた、中国語のガオカオと英語のSATの知識評価に際し卓越した性能を示した。 BayLingのデモ、ホームページ、コード、モデルが利用可能だ。

Large language models (LLMs) have demonstrated remarkable prowess in language understanding and generation. Advancing from foundation LLMs to instructionfollowing LLMs, instruction tuning plays a vital role in aligning LLMs to human preferences. However, the existing LLMs are usually focused on English, leading to inferior performance in non-English languages. In order to improve the performance for non-English languages, it is necessary to collect language-specific training data for foundation LLMs and construct language-specific instructions for instruction tuning, both of which are heavy loads. To minimize human workload, we propose to transfer the capabilities of language generation and instruction following from English to other languages through an interactive translation task. We have developed BayLing, an instruction-following LLM by utilizing LLaMA as the foundation LLM and automatically constructing interactive translation instructions for instructing tuning. Extensive assessments demonstrate that BayLing achieves comparable performance to GPT-3.5-turbo, despite utilizing a considerably smaller parameter size of only 13 billion. Experimental results on translation tasks show that BayLing achieves 95% of single-turn translation capability compared to GPT-4 with automatic evaluation and 96% of interactive translation capability compared to GPT-3.5-turbo with human evaluation. To estimate the performance on general tasks, we created a multi-turn instruction test set called BayLing-80. The experimental results on BayLing-80 indicate that BayLing achieves 89% of performance compared to GPT-3.5-turbo. BayLing also demonstrates outstanding performance on knowledge assessment of Chinese GaoKao and English SAT, second only to GPT-3.5-turbo among a multitude of instruction-following LLMs. Demo, homepage, code and models of BayLing are available.
翻訳日:2023-06-21 17:27:30 公開日:2023-06-19
# 言語モデル検索による多言語マイナショット学習

Multilingual Few-Shot Learning via Language Model Retrieval ( http://arxiv.org/abs/2306.10964v1 )

ライセンス: Link先を確認
Genta Indra Winata, Liang-Kang Huang, Soumya Vadlamannati, Yash Chandarana(参考訳) トランスフォーマティブベースの言語モデルは、数回のインコンテキスト学習で著しく成功し、多くの研究の関心を集めている。 しかし、これらのモデルの性能はサンプルプロンプトの選択に大きく依存し、サンプルの選択方法によっても高い変動性を持つ。 本稿では,意味論的に類似した複数ショットサンプルを検索し,それをコンテキストとして使用するという包括的研究を行い,多言語・言語間設定の勾配更新を伴わずに,モデルが正しいラベルを決定するのに役立てる。 提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。 提案手法は、非英語言語における単言語および言語間タスクにおけるランダムサンプリングを一貫して上回る。

Transformer-based language models have achieved remarkable success in few-shot in-context learning and drawn a lot of research interest. However, these models' performance greatly depends on the choice of the example prompts and also has high variability depending on how samples are chosen. In this paper, we conduct a comprehensive study of retrieving semantically similar few-shot samples and using them as the context, as it helps the model decide the correct label without any gradient update in the multilingual and cross-lingual settings. We evaluate the proposed method on five natural language understanding datasets related to intent detection, question classification, sentiment analysis, and topic classification. The proposed method consistently outperforms random sampling in monolingual and cross-lingual tasks in non-English languages.
翻訳日:2023-06-21 17:26:58 公開日:2023-06-19
# eigenpatches -- 主コンポーネントからの反対パッチ

Eigenpatches -- Adversarial Patches from Principal Components ( http://arxiv.org/abs/2306.10963v1 )

ライセンス: Link先を確認
Jens Bayer and Stefan Becker and David M\"unch and Michael Arens(参考訳) 敵のパッチは、まだシンプルで強力なホワイトボックス攻撃であり、検出の可能性を抑えることで物体検出器を騙すことができる。 これらのいわゆる回避攻撃のパッチは計算コストが高く、攻撃された検出器への完全なアクセスを必要とする。 本稿では,375個の生成パッチを解析し,それらの主成分を計算し,その結果の「固有パッチ」の線形結合により物体検出をうまく騙すことができることを示す。

Adversarial patches are still a simple yet powerful white box attack that can be used to fool object detectors by suppressing possible detections. The patches of these so-called evasion attacks are computational expensive to produce and require full access to the attacked detector. This paper addresses the problem of computational expensiveness by analyzing 375 generated patches, calculating the principal components of these and show, that linear combinations of the resulting "eigenpatches" can be used to fool object detections successfully.
翻訳日:2023-06-21 17:26:44 公開日:2023-06-19
# RaViTT:ランダムビジョントランスフォーマーのトークン

RaViTT: Random Vision Transformer Tokens ( http://arxiv.org/abs/2306.10959v1 )

ライセンス: Link先を確認
Felipe A. Quezada, Carlos F. Navarro, Cristian Mu\~noz, Manuel Zamorano, Jorge Jara-Wilde, Violeta Chang, Crist\'obal A. Navarro, Mauricio Cerda(参考訳) 視覚変換器(ViT)は、大きな注釈付きデータセットが利用できる画像分類問題にうまく適用されている。 一方, 生体医学的応用など, アノテーションが少ない場合には, 画像のバリエーションや組合せの導入などの画像拡張技術が提案されている。 しかし、ViTパッチのサンプリングに関して、グリッドベースの戦略の外での調査は少ない。 本研究では,既存のViTに組み込むランダムなパッチサンプリング戦略であるRaViTTを提案する。 画像分類のためのRaViTTを,ImageNet-1kやCIFAR-100を含む4つのデータセットのベースラインViTとSOTA(State-of-the-art)拡張技術と比較した。 結果は、RaViTTが全てのデータセットのベースラインの精度を高め、4つのデータセットのうち3つでSOTA増強テクニックを、有意なマージン+1.23%から+4.32%で上回っていることを示している。 興味深いことに、RaViTTの精度改善はトークンが少なくても達成できるため、与えられた精度値に対する任意のViTモデルの計算負荷を低減できる。

Vision Transformers (ViTs) have successfully been applied to image classification problems where large annotated datasets are available. On the other hand, when fewer annotations are available, such as in biomedical applications, image augmentation techniques like introducing image variations or combinations have been proposed. However, regarding ViT patch sampling, less has been explored outside grid-based strategies. In this work, we propose Random Vision Transformer Tokens (RaViTT), a random patch sampling strategy that can be incorporated into existing ViTs. We experimentally evaluated RaViTT for image classification, comparing it with a baseline ViT and state-of-the-art (SOTA) augmentation techniques in 4 datasets, including ImageNet-1k and CIFAR-100. Results show that RaViTT increases the accuracy of the baseline in all datasets and outperforms the SOTA augmentation techniques in 3 out of 4 datasets by a significant margin +1.23% to +4.32%. Interestingly, RaViTT accuracy improvements can be achieved even with fewer tokens, thus reducing the computational load of any ViT model for a given accuracy value.
翻訳日:2023-06-21 17:26:34 公開日:2023-06-19
# ArctyrEX : 汎用アプリケーションの高速化された暗号化実行

ArctyrEX : Accelerated Encrypted Execution of General-Purpose Applications ( http://arxiv.org/abs/2306.11006v1 )

ライセンス: Link先を確認
Charles Gouert, Vinu Joseph, Steven Dalton, Cedric Augonnet, Michael Garland, Nektarios Georgios Tsoutsos(参考訳) FHE(Fully Homomorphic Encryption)は、計算中のユーザデータのプライバシーとセキュリティを保証する暗号化手法である。 fheアルゴリズムは暗号化されたデータを直接暗号化することなく無制限の算術演算を行うことができる。 したがって、信頼できないシステムによって処理された場合でも、機密データが公開されることはない。 本研究では,暗号化実行を高速化する新しい手法を開発し,その性能上の利点を実証する。 我々は,暗号化領域における任意の関数を評価するための現在の最先端手法であるtorus(cggi)スキーム上の完全準同型暗号に注目する。 CGGIは、ホモモルフィック論理ゲートのグラフとして計算を表現し、平文の各ビットを暗号化ドメインの多項式に変換する。 そのようなデータの演算は非常に高価になり、ビット上の演算は多項式全体の演算となる。 したがって、シグモノイドのような比較的単純な非線形関数の評価は、1つのCPUスレッドで何千秒もかかる。 arctyrexと呼ばれる、エンドツーエンドで高速化された暗号化実行のための新しいフレームワークを使って、複雑なfheライブラリを知らない開発者は、単に計算を、nvidia dgx a100で40\times$、256スレッドのcpuベースラインに対して1つのa100で6\times$で評価されるcプログラムとして記述することができます。

Fully Homomorphic Encryption (FHE) is a cryptographic method that guarantees the privacy and security of user data during computation. FHE algorithms can perform unlimited arithmetic computations directly on encrypted data without decrypting it. Thus, even when processed by untrusted systems, confidential data is never exposed. In this work, we develop new techniques for accelerated encrypted execution and demonstrate the significant performance advantages of our approach. Our current focus is the Fully Homomorphic Encryption over the Torus (CGGI) scheme, which is a current state-of-the-art method for evaluating arbitrary functions in the encrypted domain. CGGI represents a computation as a graph of homomorphic logic gates and each individual bit of the plaintext is transformed into a polynomial in the encrypted domain. Arithmetic on such data becomes very expensive: operations on bits become operations on entire polynomials. Therefore, evaluating even relatively simple nonlinear functions, such as a sigmoid, can take thousands of seconds on a single CPU thread. Using our novel framework for end-to-end accelerated encrypted execution called ArctyrEX, developers with no knowledge of complex FHE libraries can simply describe their computation as a C program that is evaluated over $40\times$ faster on an NVIDIA DGX A100 and $6\times$ faster with a single A100 relative to a 256-threaded CPU baseline.
翻訳日:2023-06-21 17:21:39 公開日:2023-06-19
# 量子コンピューティング実証アンサッツのためのWAHTORアルゴリズムの最適化戦略:比較研究

Optimization strategies in WAHTOR algorithm for quantum computing empirical ansatz: a comparative study ( http://arxiv.org/abs/2306.11002v1 )

ライセンス: Link先を確認
Leonardo Ratini, Chiara Capecci, Leonardo Guidoni(参考訳) 軌道のユニタリ変換により分子ハミルトニアンの不均一性を利用することにより、波動関数適応ハミルトニアン軌道回転(WAHTOR)アルゴリズムを用いて変分量子固有解法(VQE)アルゴリズムにおける変分回路の深さを著しく短縮することができる。 本研究は、wahtorアルゴリズムの非断熱バージョンを導入し、その効率を3つの実装と比較し、量子処理ユニット(qpu)リソースを原型ベンチマークシステムで推定する。 固定されたVQEパラメータでハミルトニアンの第1次および第2次微分を計算することは、重要なQPUオーバーロードを導入せず、非断熱ニュートン・ラフソン法がより便利な選択であることを示す小さな分子に結果をもたらす。 逆に,ハバードモデルシステムの場合,信頼領域非断熱最適化の方が効率的であることが判明した。 したがって、事前セットの作業は経験的変分関数の最適最適化戦略を示し、量子計算のための大きな変分波動関数の最適化を容易にする。

By exploiting the invariance of the molecular Hamiltonian by a unitary transformation of the orbitals it is possible to significantly shorter the depth of the variational circuit in the Variational Quantum Eigensolver (VQE) algorithm by using the Wavefunction Adapted Hamiltonian Through Orbital Rotation (WAHTOR) algorithm. This work introduces a non-adiabatic version of the WAHTOR algorithm and compares its efficiency with three implementations by estimating Quantum Processing Unit (QPU) resources in prototypical benchmarking systems. Calculating first and second-order derivatives of the Hamiltonian at fixed VQE parameters does not introduce a significant QPU overload, leading to results on small molecules that indicate the non-adiabatic Newton-Raphson method as the more convenient choice. On the contrary, we find out that in the case of Hubbard model systems the trust region non-adiabatic optimization is more efficient. The preset work therefore clearly indicates the best optimization strategies for empirical variational ansatzes, facilitating the optimization of larger variational wavefunctions for quantum computing.
翻訳日:2023-06-21 17:21:16 公開日:2023-06-19
# 概念外挿:概念的プライマー

Concept Extrapolation: A Conceptual Primer ( http://arxiv.org/abs/2306.10999v1 )

ライセンス: Link先を確認
Matija Franklin, Rebecca Gorman, Hal Ashton, Stuart Armstrong(参考訳) この記事では、概念外挿(concept extrapolation)の原動力として、あるコンテキストで定義された概念、機能、あるいは目標を、より一般的なコンテキストに安全に外挿する能力について述べます。 概念の外挿は、世界が時間とともに変化するにつれて、機能や概念が変化するユビキタスな出来事であるモデルスプリッタリングを解決することを目的としています。 価値の散開と価値の補間について議論することで、論文は人工知能のアライメントには概念の補間が必要であると主張している。

This article is a primer on concept extrapolation - the ability to take a concept, a feature, or a goal that is defined in one context and extrapolate it safely to a more general context. Concept extrapolation aims to solve model splintering - a ubiquitous occurrence wherein the features or concepts shift as the world changes over time. Through discussing value splintering and value extrapolation the article argues that concept extrapolation is necessary for Artificial Intelligence alignment.
翻訳日:2023-06-21 17:20:47 公開日:2023-06-19
# RepoFusion: リポジトリを理解するためのコードモデルトレーニング

RepoFusion: Training Code Models to Understand Your Repository ( http://arxiv.org/abs/2306.10998v1 )

ライセンス: Link先を確認
Disha Shrivastava, Denis Kocetkov, Harm de Vries, Dzmitry Bahdanau, Torsten Scholak(参考訳) GitHub CopilotのようなコーディングアシスタントにおけるLLM(Large Language Models)の成功にもかかわらず、これらのモデルはリポジトリに存在するコンテキスト(インポート、親クラス、同様の名前のファイルなど)を理解するのに苦労し、不正確なコード補完を生成する。 この効果は、プロプライエタリなソフトウェアやプログレッシブなコードプロジェクトなど、トレーニング中にモデルが見ていないリポジトリにこれらのアシスタントを使用することでより顕著になる。 最近の研究は、推論中にリポジトリからコンテキストを使用するという約束を示している。 本稿では、このアイデアを拡張し、関連するリポジトリコンテキストを組み込むためにモデルをトレーニングするフレームワークであるrepofusionを提案する。 単一行のコード補完実験では、repository contextでトレーニングされたモデルは、codegen-16b-multi (\sim73\times$ large) よりもずっと大きなコードモデルを大きく上回っており、$\sim 70\times$ より大きなstarcoderbaseモデルのパフォーマンスに非常に近いことが分かりました。 これらの結果は、リポジトリコンテキストによるトレーニングがもたらす利益の、新しくて説得力のある実証だと考えています。 我々は,コンテキストタイプ,コンテキスト数,コンテキスト長,フレームワーク内の初期化といった設計選択の影響を調べるために,広範なアブレーション研究を行う。 最後に、私たちは、許容ライセンスと3種類のリポジトリコンテキストで拡張されたほぼ重複したファイルを持つ200のjavaリポジトリのデータセットであるstack-repoをリリースします。 さらに、私たちは仕事のためにコードとトレーニング済みのチェックポイントを公開しています。 リリースしたリソースは \url{https://huggingface.co/RepoFusion} で確認できます。

Despite the huge success of Large Language Models (LLMs) in coding assistants like GitHub Copilot, these models struggle to understand the context present in the repository (e.g., imports, parent classes, files with similar names, etc.), thereby producing inaccurate code completions. This effect is more pronounced when using these assistants for repositories that the model has not seen during training, such as proprietary software or work-in-progress code projects. Recent work has shown the promise of using context from the repository during inference. In this work, we extend this idea and propose RepoFusion, a framework to train models to incorporate relevant repository context. Experiments on single-line code completion show that our models trained with repository context significantly outperform much larger code models as CodeGen-16B-multi ($\sim73\times$ larger) and closely match the performance of the $\sim 70\times$ larger StarCoderBase model that was trained with the Fill-in-the-Middle objective. We find these results to be a novel and compelling demonstration of the gains that training with repository context can bring. We carry out extensive ablation studies to investigate the impact of design choices such as context type, number of contexts, context length, and initialization within our framework. Lastly, we release Stack-Repo, a dataset of 200 Java repositories with permissive licenses and near-deduplicated files that are augmented with three types of repository contexts. Additionally, we are making available the code and trained checkpoints for our work. Our released resources can be found at \url{https://huggingface.co/RepoFusion}.
翻訳日:2023-06-21 17:20:31 公開日:2023-06-19
# 偏微分方程式における超解離スパース観測:物理制約畳み込みニューラルネットワークアプローチ

Super-resolving sparse observations in partial differential equations: A physics-constrained convolutional neural network approach ( http://arxiv.org/abs/2306.10990v1 )

ライセンス: Link先を確認
Daniel Kelshaw, Luca Magri(参考訳) 時空間および非線形偏微分方程式のスパース観測から高分解能解を推定する物理制約畳み込みニューラルネットワーク(PC-CNN)を提案する。 その結果, 溶液は高次元であり, 時空間スケールの微細なカオス流体運動が得られた。 CNNの事前の物理知識を制約することにより、トレーニングで高解像度のデータセットを使わずに未解決の物理力学を推測できることを示す。 これにより、実験データの超解像と低解像シミュレーションの機会が開かれる。

We propose the physics-constrained convolutional neural network (PC-CNN) to infer the high-resolution solution from sparse observations of spatiotemporal and nonlinear partial differential equations. Results are shown for a chaotic and turbulent fluid motion, whose solution is high-dimensional, and has fine spatiotemporal scales. We show that, by constraining prior physical knowledge in the CNN, we can infer the unresolved physical dynamics without using the high-resolution dataset in the training. This opens opportunities for super-resolution of experimental data and low-resolution simulations.
翻訳日:2023-06-21 17:19:22 公開日:2023-06-19
# ポストホックキャリブレーションにおけるクラス別トレーニング損失のスケーリング

Scaling of Class-wise Training Losses for Post-hoc Calibration ( http://arxiv.org/abs/2306.10989v1 )

ライセンス: Link先を確認
Seungjin Jung, Seungmo Seo, Yonghyun Jeong, Jongwon Choi(参考訳) クラス毎のトレーニング損失は,クラス内およびクラス間におけるさまざまな外観変動の結果,しばしばばらつきが生じ,クラス毎のトレーニング損失のばらつきが,その信頼性を伴わない予測を引き起こすことが判明した。 そこで本研究では,クラスレベルの学習損失を同期させるキャリブレーション手法を提案する。 複数のクラスワイドスケーリング因子を用いて、クラスワイドトレーニング損失の分散を軽減するために、新しいトレーニング損失を設計する。 本フレームワークは,過適合クラスと不適合クラスのトレーニング損失を補償できるため,統合的トレーニング損失を保存でき,モデル校正後の性能低下を防止できる。 さらに,本手法はポストホックキャリブレーション法に容易に適用でき,事前学習したモデルを初期モデルとして使用でき,モデルキャリブレーションのための追加計算を削減できる。 提案手法は, 精度を保ちながらキャリブレーション性能を向上する種々のポストホック校正手法を用いて検証し, 提案手法が不均衡なデータセットや未調整ハイパーパラメータと良好に動作することを示す。

The class-wise training losses often diverge as a result of the various levels of intra-class and inter-class appearance variation, and we find that the diverging class-wise training losses cause the uncalibrated prediction with its reliability. To resolve the issue, we propose a new calibration method to synchronize the class-wise training losses. We design a new training loss to alleviate the variance of class-wise training losses by using multiple class-wise scaling factors. Since our framework can compensate the training losses of overfitted classes with those of under-fitted classes, the integrated training loss is preserved, preventing the performance drop even after the model calibration. Furthermore, our method can be easily employed in the post-hoc calibration methods, allowing us to use the pre-trained model as an initial model and reduce the additional computation for model calibration. We validate the proposed framework by employing it in the various post-hoc calibration methods, which generally improves calibration performance while preserving accuracy, and discover through the investigation that our approach performs well with unbalanced datasets and untuned hyperparameters.
翻訳日:2023-06-21 17:19:05 公開日:2023-06-19
# 野生のカメラを為す:野生のモノクロカメラのキャリブレーション

Tame a Wild Camera: In-the-Wild Monocular Camera Calibration ( http://arxiv.org/abs/2306.10988v1 )

ライセンス: Link先を確認
Shengjie Zhu, Abhinav Kumar, Masa Hu and Xiaoming Liu(参考訳) 例えば、深度推定や3次元物体検出といった単眼画像の3Dセンシングの重要性が高まっている。 しかし、未知の固有のパラメータは、開発とデプロイメントを妨げる。 単眼カメラのキャリブレーションの以前の方法は、チェッカーボードの使用やマンハッタンワールドの仮定の強制など、特定の3dオブジェクトや強い幾何学に先立って依存していた。 この研究は、モノクル3Dを前もって利用することで、問題を他の視点から解決する。 提案手法は仮定自由であり,dof(dof)内在パラメータを4ドルに満たしている。 まず,本質的解は2つのよく研究された単眼前駆体,すなわち単眼深度マップと表面正規写像から解くことを実証する。 しかし、この解は深さ推定の低バイアスかつ低分散要求を課す。 あるいは、3次元空間の点と2次元イメージング平面の画素の間の入射光として定義される新しい単分子3D前兆、入射場を導入する。 入射場は、画像のトリミングと再サイズに固有の不変量の画素単位のパラメトリゼーションである。 推定推定入射場により、ロバストなRANSACアルゴリズムが本質的に回復する。 合成およびゼロショットテストデータセットにおいて優れた性能を示すことにより,本手法の有効性を示す。 キャリブレーション以外にも,画像操作検出と復元,アンキャリブド2視点ポーズ推定,および3次元センシングにおける下流の応用例を示す。 コード、モデル、データはhttps://github.com/shngjz/wildcameraに保持される。

3D sensing for monocular in-the-wild images, e.g., depth estimation and 3D object detection, has become increasingly important. However, the unknown intrinsic parameter hinders their development and deployment. Previous methods for the monocular camera calibration rely on specific 3D objects or strong geometry prior, such as using a checkerboard or imposing a Manhattan World assumption. This work solves the problem from the other perspective by exploiting the monocular 3D prior. Our method is assumption-free and calibrates the complete $4$ Degree-of-Freedom (DoF) intrinsic parameters. First, we demonstrate intrinsic is solved from two well-studied monocular priors, i.e., monocular depthmap, and surface normal map. However, this solution imposes a low-bias and low-variance requirement for depth estimation. Alternatively, we introduce a novel monocular 3D prior, the incidence field, defined as the incidence rays between points in 3D space and pixels in the 2D imaging plane. The incidence field is a pixel-wise parametrization of the intrinsic invariant to image cropping and resizing. With the estimated incidence field, a robust RANSAC algorithm recovers intrinsic. We demonstrate the effectiveness of our method by showing superior performance on synthetic and zero-shot testing datasets. Beyond calibration, we demonstrate downstream applications in image manipulation detection & restoration, uncalibrated two-view pose estimation, and 3D sensing. Codes, models, and data will be held in https://github.com/ShngJZ/WildCamera.
翻訳日:2023-06-21 17:18:42 公開日:2023-06-19
# サンプル多変量エクストリームに対するVAEアプローチ

A VAE Approach to Sample Multivariate Extremes ( http://arxiv.org/abs/2306.10987v1 )

ライセンス: Link先を確認
Nicolas Lafon, Philippe Naveau, Ronan Fablet(参考訳) 観測データセットから正確な極端を生成することは、既に観測されているよりも大きい将来の極端の発生に関連するリスクを推定するために重要である。 応用範囲は自然災害発生から金融クラッシュまで多岐にわたる。 機械学習コミュニティからの生成的アプローチは、注意深い適応なしに極端なサンプルには適用されない。 さらに、極値理論(EVT)による漸近的な結果は、特に多変量正規変動の概念を通じて、多変量極端事象をモデル化する理論的枠組みを与える。 これら2つの分野を組み合わせることで、多変量重み付き分布をサンプリングするための変分オートエンコーダ(VAE)アプローチについて詳述する。 本研究は,ドナウ川流域における総合データ集合と実データ集合について,本手法の妥当性について述べる。 後者は,洪水リスク評価へのアプローチの可能性を示している。 テストデータセットの標準VAEよりも優れているだけでなく、競合するEVTベースの生成手法との比較も提供する。 テストケースでは,極端間の依存関係構造の学習を改善する。

Generating accurate extremes from an observational data set is crucial when seeking to estimate risks associated with the occurrence of future extremes which could be larger than those already observed. Applications range from the occurrence of natural disasters to financial crashes. Generative approaches from the machine learning community do not apply to extreme samples without careful adaptation. Besides, asymptotic results from extreme value theory (EVT) give a theoretical framework to model multivariate extreme events, especially through the notion of multivariate regular variation. Bridging these two fields, this paper details a variational autoencoder (VAE) approach for sampling multivariate heavy-tailed distributions, i.e., distributions likely to have extremes of particularly large intensities. We illustrate the relevance of our approach on a synthetic data set and on a real data set of discharge measurements along the Danube river network. The latter shows the potential of our approach for flood risks' assessment. In addition to outperforming the standard VAE for the tested data sets, we also provide a comparison with a competing EVT-based generative approach. On the tested cases, our approach improves the learning of the dependency structure between extremes.
翻訳日:2023-06-21 17:18:16 公開日:2023-06-19
# larg, 言語に基づく自動報酬とゴール生成

LARG, Language-based Automatic Reward and Goal Generation ( http://arxiv.org/abs/2306.10985v1 )

ライセンス: Link先を確認
Julien Perez and Denys Proux and Claude Roux and Michael Niemaz(参考訳) 目標条件付きマルチタスク強化学習(GCRLとMTRL)は、移動、ナビゲーション、操作シナリオを含む、ロボット学習に関連する多くの問題に対処する。 言語定義のロボット操作タスクに焦点を当てた最近の研究は、トラジェクトリに関連するテキスト記述のデータセットを作成するために、巨大な人間のアノテーションを退屈に作成するに至った。 テキストベースのタスク記述による強化学習を活用するためには,個々のタスクに関連する報酬関数をスケーラブルに生成する必要がある。 本稿では,近年の大規模言語モデル (llms) の機能を活用して,テキストベースのタスク記述を対応する報酬と目標生成関数に変換する手法である \larg,言語ベースの自動報酬と目標生成を導入する。

Goal-conditioned and Multi-Task Reinforcement Learning (GCRL and MTRL) address numerous problems related to robot learning, including locomotion, navigation, and manipulation scenarios. Recent works focusing on language-defined robotic manipulation tasks have led to the tedious production of massive human annotations to create dataset of textual descriptions associated with trajectories. To leverage reinforcement learning with text-based task descriptions, we need to produce reward functions associated with individual tasks in a scalable manner. In this paper, we leverage recent capabilities of Large Language Models (LLMs) and introduce \larg, Language-based Automatic Reward and Goal Generation, an approach that converts a text-based task description into its corresponding reward and goal-generation functions We evaluate our approach for robotic manipulation and demonstrate its ability to train and execute policies in a scalable manner, without the need for handcrafted reward functions.
翻訳日:2023-06-21 17:17:58 公開日:2023-06-19
# 球殻の重ね合わせにおける重力量子スイッチ

Gravitational quantum switch on a superposition of spherical shells ( http://arxiv.org/abs/2306.10984v1 )

ライセンス: Link先を確認
Nat\'alia S. M\'oller, Bruna Sahdo, Nelson Yokomizo(参考訳) 異なる時空幾何学の量子重ね合わせを記述する状態の存在は、一般に量子重力の理論で期待される特徴である。 現象論的モデルは、不定順序のプロセスの発生を含む、ジオメトリーの重畳による影響の解析のために最近研究されている。 重力量子スイッチでは、特に、ターゲット系上の2つのエージェントによって適用される操作の順序は、幾何学の状態と絡み合っている。 球状質量殻の異なる配置によって生成される幾何学の重ね合わせを記述するモデルを検討し、重力量子スイッチの実装のためのプロトコルをそのような系で定式化できることを示す。 重ね合わせのジオメトリは、所定の半径外の外部領域において同一であり、そのような半径内で異なる。 外界領域は、内部領域における幾何学の重ね合わせを調査できる古典的なフレームを提供する。 エージェントの1つは内部領域を横断し、量子スイッチの実装のリソースとして探索される幾何学と絡み合う。 このプロトコルの新たな特徴は、非等尺幾何学の重ね合わせ、一定の幾何学を持つ領域の存在、および幾何学の重ね合わせを経験するエージェントが自由落下であるという事実であり、その実験室から得られる大域幾何学に関する情報を妨げている。

The existence of states describing quantum superpositions of distinct spacetime geometries is a feature that is generally expected in theories of quantum gravity. Phenomenological models have recently been explored for the analysis of possible effects due to a superposition of geometries, including the occurrence of processes with indefinite order. In a gravitational quantum switch, in particular, the order of operations applied by two agents on a target system is entangled with the state of the geometry. We consider a model describing the superposition of geometries produced by distinct arrangements of spherical mass shells, and show that a protocol for the implementation of a gravitational quantum switch can be formulated in such a system. The geometries in superposition are identical in an exterior region outside a given radius, and differ within such a radius. The exterior region provides a classical frame from which the superposition of geometries in the interior region can be probed. One of the agents crosses the interior region and becomes entangled with the geometry, which is explored as a resource for the implementation of the quantum switch. Novel features of the protocol include the superposition of nonisometric geometries, the existence of a region with a definite geometry, and the fact that the agent that experiences the superposition of geometries is in free fall, preventing information on the global geometry to be obtained from within its laboratory.
翻訳日:2023-06-21 17:17:40 公開日:2023-06-19
# 線形アレイ光音響/超音波画像における学習に基づく音速再構成と収差補正

Learning-based sound speed reconstruction and aberration correction in linear-array photoacoustic/ultrasound imaging ( http://arxiv.org/abs/2306.11034v1 )

ライセンス: Link先を確認
Mengjie Shi, Tom Vercauteren, and Wenfeng Xia(参考訳) 光音響(PA)画像再構成は、伝搬媒質内の音速(SoS)の仕様を必要とする音響インバージョンを含む。 異種軟組織内におけるsosの空間分布に関する情報の欠如により、超音波画像(us画像)と同様のpa画像再構成において、均質なsos分布(例えば1540m/s)が仮定される。 SoSの変動を補うのに失敗すると収差アーチファクトが発生し、画質が低下する。 本研究では,sos再構成とその後の収差補正のための深層学習フレームワークを,米国臨床プローブを共用するデュアルモーダルpa/usイメージングシステムで開発した。 PAとUSのデータは本質的に共登録されているため、ディープニューラルネットワークを用いたUSチャネルデータから再構成されたSoS分布は、正確なPA画像再構成に利用された。 数値および組織模倣ファントムにおいて、この枠組みは、従来のアプローチ(0.6096, 0.5985)と比較して、最大0.8109 と 0.8128 の構造類似度指数測度(ssim)を用いて、我々の収差アーティファクトを著しく抑制することができた。 シミュレーションされた米国データのみに基づいてトレーニングされたこのネットワークは、健康な人間のボランティアの生体外組織や手首、指のデータに対する優れた一般化能力を示しており、pa画像再構成のための様々な生体内応用に有用であった。

Photoacoustic (PA) image reconstruction involves acoustic inversion that necessitates the specification of the speed of sound (SoS) within the medium of propagation. Due to the lack of information on the spatial distribution of the SoS within heterogeneous soft tissue, a homogeneous SoS distribution (such as 1540 m/s) is typically assumed in PA image reconstruction, similar to that of ultrasound (US) imaging. Failure to compensate the SoS variations leads to aberration artefacts, deteriorating the image quality. In this work, we developed a deep learning framework for SoS reconstruction and subsequent aberration correction in a dual-modal PA/US imaging system sharing a clinical US probe. As the PA and US data were inherently co-registered, the reconstructed SoS distribution from US channel data using deep neural networks was utilised for accurate PA image reconstruction. On a numerical and a tissue-mimicking phantom, this framework was able to significantly suppress US aberration artefacts, with the structural similarity index measure (SSIM) of up to 0.8109 and 0.8128 as compared to the conventional approach (0.6096 and 0.5985, respectively). The networks, trained only on simulated US data, also demonstrated a good generalisation ability on data from ex vivo tissues and the wrist and fingers of healthy human volunteers, and thus could be valuable in various in vivo applications to enhance PA image reconstruction.
翻訳日:2023-06-21 17:10:53 公開日:2023-06-19
# RemoteCLIP:リモートセンシングのためのビジョン言語基礎モデル

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing ( http://arxiv.org/abs/2306.11029v1 )

ライセンス: Link先を確認
Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Jun Zhou(参考訳) 汎用基礎モデルは人工知能の分野でますます重要になっている。 自己教師付き学習 (SSL) と Masked Image Modeling (MIM) は、リモートセンシングのための基礎モデルを構築する上で有望な結果をもたらしたが、これらのモデルは、主に低レベルの特徴を学習し、微調整のために注釈付きデータを必要とし、言語理解の欠如のために検索やゼロショットアプリケーションには適用できない。 これらの制約に対応するために,我々は,リモートセンシングのための最初の視覚言語基盤モデルであるremoteclipを提案する。 事前学習データの不足に対処するため、データスケーリングを活用し、Box-to-Caption(B2C)とMask-to-Box(M2B)の変換に基づく異種アノテーションを変換し、さらにUAVイメージを取り入れ、12倍の事前学習データセットを生成する。 リモートCLIPは、ゼロショット画像分類、線形探索、k-NN分類、少数ショット分類、画像テキスト検索、オブジェクトカウントなど、さまざまな下流タスクに適用できる。 オブジェクトカウント能力をテストするために新たに導入されたRemoteCountベンチマークを含む16のデータセットの評価によると、RemoteCLIPは、さまざまなモデルスケールでベースライン基盤モデルを一貫して上回っている。 驚くべきことに、RemoteCLIPは以前のSoTAを9.14%上回り、RSICDデータセットでは8.92%上回った。 ゼロショット分類では、RemoteCLIPは12の下流データセットでCLIPベースラインを最大6.39%上回っている。

General-purpose foundation models have become increasingly important in the field of artificial intelligence. While self-supervised learning (SSL) and Masked Image Modeling (MIM) have led to promising results in building such foundation models for remote sensing, these models primarily learn low-level features, require annotated data for fine-tuning, and not applicable for retrieval and zero-shot applications due to the lack of language understanding. In response to these limitations, we propose RemoteCLIP, the first vision-language foundation model for remote sensing that aims to learn robust visual features with rich semantics, as well as aligned text embeddings for seamless downstream application. To address the scarcity of pre-training data, we leverage data scaling, converting heterogeneous annotations based on Box-to-Caption (B2C) and Mask-to-Box (M2B) conversion, and further incorporating UAV imagery, resulting a 12xlarger pretraining dataset. RemoteCLIP can be applied to a variety of downstream tasks, including zero-shot image classification, linear probing, k-NN classification, few-shot classification, image-text retrieval, and object counting. Evaluations on 16 datasets, including a newly introduced RemoteCount benchmark to test the object counting ability, show that RemoteCLIP consistently outperforms baseline foundation models across different model scales. Impressively, RemoteCLIP outperform previous SoTA by 9.14% mean recall on RSICD dataset and by 8.92% on RSICD dataset. For zero-shot classification, our RemoteCLIP outperform CLIP baseline by up to 6.39% average accuracy on 12 downstream datasets.
翻訳日:2023-06-21 17:10:25 公開日:2023-06-19
# 量子ノイズ限定進行波パラメトリック増幅器の実証

Demonstration of a Quantum Noise Limited Traveling-Wave Parametric Amplifier ( http://arxiv.org/abs/2306.11028v1 )

ライセンス: Link先を確認
Nikita Klimovich, Peter Day, Shibo Shu, Byeong Ho Eom, Jenry Leduc, and Andrew Beyer(参考訳) 量子コンピューティングの最近の進歩と天体物理学の新しい検出器技術の発展により、高利得、広帯域、量子制限増幅器の必要性が高まっている。 逆NbTiNマイクロストリップとアモルファスシリコン誘電体を用いた純進行波パラメトリック増幅器(TWPA)を提案する。 分散工学により、50〜\Omega$インピーダンスマッチングを得ることができ、様々な周波数で3波混合増幅を位相マッチングしながら、望ましくないパラメトリック過程を抑えることができる。 その結果、20dBゲインと20mKの量子制限ノイズ性能を備えたブロードバンド増幅器が動作した。 さらに、増幅器が位相感度の高い単一周波数において、真空ノイズの8dBを更に実証する。

Recent progress in quantum computing and the development of novel detector technologies for astrophysics is driving the need for high-gain, broadband, and quantum-limited amplifiers. We present a purely traveling-wave parametric amplifier (TWPA) using an inverted NbTiN microstrip and amorphous Silicon dielectric. Through dispersion engineering, we are able to obtain $50~\Omega$ impedance matching and suppress undesired parametric processes while phase matching the three-wave-mixing amplification across a large range of frequencies. The result is a broadband amplifier operating with 20 dB gain and quantum-limited noise performance at 20 mK. At the single frequency where the amplifier is phase sensitive, we further demonstrate 8 dB of vacuum noise squeezing.
翻訳日:2023-06-21 17:09:53 公開日:2023-06-19
# jiuzhang 2.0:マルチタスク数学問題解決のための統一中国語事前学習言語モデル

JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for Multi-task Mathematical Problem Solving ( http://arxiv.org/abs/2306.11027v1 )

ライセンス: Link先を確認
Wayne Xin Zhao, Kun Zhou, Beichen Zhang, Zheng Gong, Zhipeng Chen, Yuanhang Zhou, Ji-Rong Wen, Jing Sha, Shijin Wang, Cong Liu, Guoping Hu(参考訳) 事前学習された言語モデル~(PLM)は、最近、数学的推論の研究の進歩を進展させてきたが、それらは有能なマルチタスクソルバとして特別に設計されておらず、マルチタスクデプロイメントのコストが高い(タスクのモデルコピーを除外)。 そこで本稿では,マルチタスク数理問題解決を専門とする中国統一plmである \textbf{jiuzhang~2.0} を提案する。 私たちのアイデアは、中規模のモデルを維持し、マルチタスク環境でモデル能力を改善するために \emph{cross-task knowledge sharing} を採用することです。 特に,数学テキストをモデル化するためのMixture-of-Experts〜(MoE)アーキテクチャを構築し,タスク間の共通的な数学的知識を捉える。 MoEアーキテクチャを最適化するために、マルチタスク適応のための \emph{multi-task continual pre-training} と \emph{multi-task fine-tuning} 戦略を設計する。 これらのトレーニング戦略は、タスクデータから知識を効果的に分解し、エキスパートネットワークを介してタスク間の共有を確立する。 異なる複雑なタスクを解くための一般的な能力を改善するために、我々は大規模言語モデル~〜(LLM)を補完モデルとして活用し、文脈内学習を通じて PLM が生成したソリューションを反復的に洗練する。 広範な実験により,本モデルの有効性が実証された。

Although pre-trained language models~(PLMs) have recently advanced the research progress in mathematical reasoning, they are not specially designed as a capable multi-task solver, suffering from high cost for multi-task deployment (\eg a model copy for a task) and inferior performance on complex mathematical problems in practical applications. To address these issues, in this paper, we propose \textbf{JiuZhang~2.0}, a unified Chinese PLM specially for multi-task mathematical problem solving. Our idea is to maintain a moderate-sized model and employ the \emph{cross-task knowledge sharing} to improve the model capacity in a multi-task setting. Specially, we construct a Mixture-of-Experts~(MoE) architecture for modeling mathematical text, so as to capture the common mathematical knowledge across tasks. For optimizing the MoE architecture, we design \emph{multi-task continual pre-training} and \emph{multi-task fine-tuning} strategies for multi-task adaptation. These training strategies can effectively decompose the knowledge from the task data and establish the cross-task sharing via expert networks. In order to further improve the general capacity of solving different complex tasks, we leverage large language models~(LLMs) as complementary models to iteratively refine the generated solution by our PLM, via in-context learning. Extensive experiments have demonstrated the effectiveness of our model.
翻訳日:2023-06-21 17:09:41 公開日:2023-06-19
# テンポラルデータとLCM-説明可能な金融時系列予測

Temporal Data Meets LLM -- Explainable Financial Time Series Forecasting ( http://arxiv.org/abs/2306.11025v1 )

ライセンス: Link先を確認
Xinli Yu, Zheng Chen, Yuan Ling, Shujing Dong, Zongyi Liu, Yanbin Lu(参考訳) 本稿では,Large Language Models (LLM) の卓越した知識と推論能力を利用した財務時系列予測手法を提案する。 金融時系列への機械学習モデルの応用には、クロスシーケンス推論と推論の難しさ、歴史ニュースからのマルチモーダル信号を取り込むことの難しさ、財務知識グラフなど、モデル結果の解釈と説明の問題など、いくつかの課題がある。 本稿では,NASDAQ-100の株価データ,企業メタデータ,歴史経済・金融ニュースを活用したNASDAQ-100株に着目した。 上記の課題に対する統一的な解決策を提供する上で, LLM の可能性を示す実験を行う。 実験では, GPT-4を用いたゼロショット/ファウショット推論や, 公開LLMモデルOpen LLaMAによる命令ベース微調整などを行った。 従来のarma-garchモデルや勾配ブースティングツリーモデルなど,いくつかのベースラインよりも優れたアプローチを示す。 性能比較結果といくつかの例から、LLMはテキストニュースと価格時系列の両方の情報を引き合いに出し、洞察を抽出し、クロスシーケンス情報を活用し、LLMに埋め込まれた固有の知識を活用することで、十分な判断を下すことができる。 さらに,open-llamaなどの公開llmでは,gpt-4と比較して比較的劣っているものの,説明可能な予測を生成し,合理的な性能を実現するための指示を理解可能であることを示す。

This paper presents a novel study on harnessing Large Language Models' (LLMs) outstanding knowledge and reasoning abilities for explainable financial time series forecasting. The application of machine learning models to financial time series comes with several challenges, including the difficulty in cross-sequence reasoning and inference, the hurdle of incorporating multi-modal signals from historical news, financial knowledge graphs, etc., and the issue of interpreting and explaining the model results. In this paper, we focus on NASDAQ-100 stocks, making use of publicly accessible historical stock price data, company metadata, and historical economic/financial news. We conduct experiments to illustrate the potential of LLMs in offering a unified solution to the aforementioned challenges. Our experiments include trying zero-shot/few-shot inference with GPT-4 and instruction-based fine-tuning with a public LLM model Open LLaMA. We demonstrate our approach outperforms a few baselines, including the widely applied classic ARMA-GARCH model and a gradient-boosting tree model. Through the performance comparison results and a few examples, we find LLMs can make a well-thought decision by reasoning over information from both textual news and price time series and extracting insights, leveraging cross-sequence information, and utilizing the inherent knowledge embedded within the LLM. Additionally, we show that a publicly available LLM such as Open-LLaMA, after fine-tuning, can comprehend the instruction to generate explainable forecasts and achieve reasonable performance, albeit relatively inferior in comparison to GPT-4.
翻訳日:2023-06-21 17:09:11 公開日:2023-06-19
# PINQI: 定量的MRI再構成のための物理インフォームドアプローチ

PINQI: An End-to-End Physics-Informed Approach to Learned Quantitative MRI Reconstruction ( http://arxiv.org/abs/2306.11023v1 )

ライセンス: Link先を確認
Felix F Zimmermann, Christoph Kolbitsch, Patrick Schuenke, Andreas Kofler(参考訳) 定量的磁気共鳴イメージング(qMRI)は、生体物理パラメータの再現可能な測定を可能にする。 課題は、取得した生データから所望の組織パラメータマップを得るために、非線形で不適切な逆問題を解くことである。 様々な学習的および非学習的アプローチが提案されているが、既存の学習方法は基礎となるMR物理、すなわち信号モデルと取得モデルに関する事前知識を十分に活用することができない。 本稿では、信号、取得モデルに関する知識を統合し、単一エンドツーエンドのトレーニング可能なニューラルネットワークに正規化を学習する新しいqMRI再構成手法であるPINQIを提案する。 提案手法は, 線形および非線形の内的最適化タスクを解くために, 微分可能な最適化ブロックと, 中間定性的画像とパラメータマップの正規化のための畳み込み層を利用する。 この設計により、pinqiは信号モデルと学習正規化の両方の利点を活用できる。 提案したネットワークの性能を、シミュレーションされた脳データと、健康なボランティアから取得した実データの両方を用いて、高度にアンサンプされた$T_1$-mappingの文脈で最近発表されたアプローチと比較することにより評価した。 その結果,提案手法が既存手法よりも優れていることを示し,実世界シナリオにおける提案手法の有効性を強調した。

Quantitative Magnetic Resonance Imaging (qMRI) enables the reproducible measurement of biophysical parameters in tissue. The challenge lies in solving a nonlinear, ill-posed inverse problem to obtain the desired tissue parameter maps from acquired raw data. While various learned and non-learned approaches have been proposed, the existing learned methods fail to fully exploit the prior knowledge about the underlying MR physics, i.e. the signal model and the acquisition model. In this paper, we propose PINQI, a novel qMRI reconstruction method that integrates the knowledge about the signal, acquisition model, and learned regularization into a single end-to-end trainable neural network. Our approach is based on unrolled alternating optimization, utilizing differentiable optimization blocks to solve inner linear and non-linear optimization tasks, as well as convolutional layers for regularization of the intermediate qualitative images and parameter maps. This design enables PINQI to leverage the advantages of both the signal model and learned regularization. We evaluate the performance of our proposed network by comparing it with recently published approaches in the context of highly undersampled $T_1$-mapping, using both a simulated brain dataset, as well as real scanner data acquired from a physical phantom and in-vivo data from healthy volunteers. The results demonstrate the superiority of our proposed solution over existing methods and highlight the effectiveness of our method in real-world scenarios.
翻訳日:2023-06-21 17:08:43 公開日:2023-06-19
# マルチモーダル関係抽出のためのプレフィックスチューニング付きデュアルゲーテッド融合

Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction ( http://arxiv.org/abs/2306.11020v1 )

ライセンス: Link先を確認
Qian Li, Shu Guo, Cheng Ji, Xutan Peng, Shiyao Cui, and Jianxin Li(参考訳) マルチモーダル関係抽出(mmre)は、視覚手がかりを含むテキスト中の2つのエンティティ間の関係を識別することを目的としている。 リッチな視覚コンテンツはMMREタスクには有用であるが、既存の作品では様々なモダリティ間の微妙な関連性をうまくモデル化することができず、真に有用な視覚情報をキャプチャできず、関係抽出性能を制限できない。 本稿では、テキスト、エンティティペア、画像/オブジェクトのより深い相関を捉え、dgf-ptと呼ばれるタスクのより有用な情報を発掘するための新しいmmreフレームワークを提案する。 まず,タスクに関連するモーダル内特徴とモーダル間特徴の関連を,エンティティ指向プレフィックスとオブジェクト指向プレフィックスによって構築する,プロンプトベースの自己回帰エンコーダを提案する。 有効な視覚情報を統合するため,画像・オブジェクトの重要性を識別し,さらにリッチなテキスト表現を実現するために,デュアルゲート融合モジュールを設計する。 さらに、生成デコーダを導入し、関係性に関するエンティティタイプ制限を設け、候補をフィルタリングする。 ベンチマークデータセットで行った広範囲な実験により,我々のアプローチは,ごくわずかな状況でも,強力な競争相手と比較して優れた性能を達成できることが示された。

Multi-Modal Relation Extraction (MMRE) aims at identifying the relation between two entities in texts that contain visual clues. Rich visual content is valuable for the MMRE task, but existing works cannot well model finer associations among different modalities, failing to capture the truly helpful visual information and thus limiting relation extraction performance. In this paper, we propose a novel MMRE framework to better capture the deeper correlations of text, entity pair, and image/objects, so as to mine more helpful information for the task, termed as DGF-PT. We first propose a prompt-based autoregressive encoder, which builds the associations of intra-modal and inter-modal features related to the task, respectively by entity-oriented and object-oriented prefixes. To better integrate helpful visual information, we design a dual-gated fusion module to distinguish the importance of image/objects and further enrich text representations. In addition, a generative decoder is introduced with entity type restriction on relations, better filtering out candidates. Extensive experiments conducted on the benchmark dataset show that our approach achieves excellent performance compared to strong competitors, even in the few-shot situation.
翻訳日:2023-06-21 17:08:18 公開日:2023-06-19
# スパーシティのない高次元コンテキストバンディット問題

High-dimensional Contextual Bandit Problem without Sparsity ( http://arxiv.org/abs/2306.11017v1 )

ライセンス: Link先を確認
Junpei Komiyama and Masaaki Imaizumi(参考訳) 本研究では,高次元線形文脈バンドイット問題について検討する。例えば,$p$が予算$T$よりも大きい場合,あるいは無限である場合などである。 この分野における以前の研究の大多数から逸脱し、回帰係数にスパーシティを課すことはない。 代わりに、データ分布が有効なランクが小さい場合に最小ノルム補間推定器のパフォーマンスを解析できるオーバーパラメータモデルに関する最近の知見に頼る。 本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。 解析により,ETCアルゴリズムの最適レートを$T$で導出し,探索と搾取のバランスをとることで,このレートを実現できることを示す。 さらに,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを導入する。 提案アルゴリズムの性能を一連のシミュレーションにより評価する。

In this research, we investigate the high-dimensional linear contextual bandit problem where the number of features $p$ is greater than the budget $T$, or it may even be infinite. Differing from the majority of previous works in this field, we do not impose sparsity on the regression coefficients. Instead, we rely on recent findings on overparameterized models, which enables us to analyze the performance the minimum-norm interpolating estimator when data distributions have small effective ranks. We propose an explore-then-commit (EtC) algorithm to address this problem and examine its performance. Through our analysis, we derive the optimal rate of the ETC algorithm in terms of $T$ and show that this rate can be achieved by balancing exploration and exploitation. Moreover, we introduce an adaptive explore-then-commit (AEtC) algorithm that adaptively finds the optimal balance. We assess the performance of the proposed algorithms through a series of simulations.
翻訳日:2023-06-21 17:07:56 公開日:2023-06-19
# 高速・高分解能走査コヒーレント回折再構成のための無教師深層学習の物理学的制約

Physics Constrained Unsupervised Deep Learning for Rapid, High Resolution Scanning Coherent Diffraction Reconstruction ( http://arxiv.org/abs/2306.11014v1 )

ライセンス: Link先を確認
Oliver Hoidn, Aashwin Ananda Mishra, Apurva Mehta(参考訳) 光の解像度制限を回避することで、コヒーレント・ディファレント・イメージング(CDI)とポチコグラフィーはX線イメージングから天文学まで科学分野に進出している。 しかし、反復的な位相回復に要する時間の必要性は、リアルタイムな画像撮影である。 教師付きディープラーニング戦略は再構築速度を高める一方で、画質を犠牲にしている。 さらに, ラベル付きトレーニングデータに対するこれらの手法の需要は, 実験的に重荷となる。 本稿では,非教師付き物理形ニューラルネットワーク再構成法であるptychopinnを提案し,重複測定から実空間制約と回折フォワードマップを組み合わせることで,深層学習に基づく再構成の固有速度を保ちながら再構成品質を向上させる。 特に、PtychoPINNは一般化可能性、精度(PSNRの10dB増加による)、線形分解能(3倍から6倍のゲイン)を著しく向上させる。 この性能と速度のブレンドは、X線自由電子レーザー(XFEL)や回折制限光源のような高出力環境での高分解能リアルタイムイメージングのエキサイティングな展望を提供する。

By circumventing the resolution limitations of optics, coherent diffractive imaging (CDI) and ptychography are making their way into scientific fields ranging from X-ray imaging to astronomy. Yet, the need for time consuming iterative phase recovery hampers real-time imaging. While supervised deep learning strategies have increased reconstruction speed, they sacrifice image quality. Furthermore, these methods' demand for extensive labeled training data is experimentally burdensome. Here, we propose an unsupervised physics-informed neural network reconstruction method, PtychoPINN, that retains the intrinsic speed of deep learning-based reconstruction while improving reconstruction quality by combining the diffraction forward map with real-space constraints from overlapping measurements. In particular, PtychoPINN significantly advances generalizability, accuracy (evidenced by a 10 dB PSNR increase), and linear resolution (with a 3- to 6-fold gain). This blend of performance and speed offers exciting prospects for high-resolution real-time imaging in high-throughput environments such as X-ray free electron lasers (XFELs) and diffraction-limited light sources.
翻訳日:2023-06-21 17:07:42 公開日:2023-06-19
# グラフ知識に制限のあるマルコフ同値を超えたフロントドア調整

Front-door Adjustment Beyond Markov Equivalence with Limited Graph Knowledge ( http://arxiv.org/abs/2306.11008v1 )

ライセンス: Link先を確認
Abhin Shah, Karthikeyan Shanmugam, Murat Kocaoglu(参考訳) データからの因果効果の推定は通常、パールフレームワーク内の因果グラフ構造という形で明示的に、または潜在的な結果フレームワーク内の反事実変数間の(条件付き)独立ステートメントの観点から暗黙的に、因果効果関係についての仮定を必要とする。 処理変数と結果変数とが合わさった場合、前ドア調整は、グラフが与えられると、処理後変数を用いて対象に対する処理の因果効果を推定できる重要な特別なケースである。 しかし、フロントドア調整の正確な公式はグラフの構造に依存するため、実際に学ぶことは困難である。 本研究は, 限定された構造側情報の下でのグラフを知らずに, 正面調整を用いて因果効果を計算するための検証可能な条件独立文を提供する。 本手法は,マルコフ同値クラスを知ることが因果効果推定に十分でない場合に適用可能であることを示す。 本稿では,ランダムグラフのクラスと実因果的公平性ベンチマークを用いて,本手法の有効性を示す。

Causal effect estimation from data typically requires assumptions about the cause-effect relations either explicitly in the form of a causal graph structure within the Pearlian framework, or implicitly in terms of (conditional) independence statements between counterfactual variables within the potential outcomes framework. When the treatment variable and the outcome variable are confounded, front-door adjustment is an important special case where, given the graph, causal effect of the treatment on the target can be estimated using post-treatment variables. However, the exact formula for front-door adjustment depends on the structure of the graph, which is difficult to learn in practice. In this work, we provide testable conditional independence statements to compute the causal effect using front-door-like adjustment without knowing the graph under limited structural side information. We show that our method is applicable in scenarios where knowing the Markov equivalence class is not sufficient for causal effect estimation. We demonstrate the effectiveness of our method on a class of random graphs as well as real causal fairness benchmarks.
翻訳日:2023-06-21 17:07:20 公開日:2023-06-19
# PCAとt-SNEによるQAOAの絡み合いおよび非絡み合い混合作用素の研究

PCA and t-SNE analysis in the study of QAOA entangled and non-entangled mixing operators ( http://arxiv.org/abs/2306.11060v1 )

ライセンス: Link先を確認
Brian Garc\'ia Sarmina, Guo-Hua Sun and Shi-Hai Dong(参考訳) 本稿では, pcaおよびt-sne解析を用いて, 量子近似最適化アルゴリズム (qaoa) における絡み合いおよび非絡み合い混合作用素の挙動について, 深い知見を得る。 本研究では,QAOAにおけるRandom Restarts最適化手法を用いたStochastic Hill Climbingを用いて,最大カット問題に対して生成したパラメータのデータセットを利用する。 具体的には、QAOAモデル内の$RZ$、$RX$、$RY$パラメータを、混合演算子内での絡み合いの段階が無くとも1L$、$2L$、$3L$の深さで検討する。 その結果,pca と t-sne を用いて各実験の最終的なパラメータを処理した場合,特に 2l$ および 3l$ の qaoa モデルが絡み合うと,マッピングに保存可能な情報量が増加するという,異なる挙動が明らかになった。 さらに、ある絡み合ったQAOAグラフは、PCAとt-SNEの両方でクラスタリング効果を示す。 全体的に、t-sne における pca と kullback-leibler のばらつき(最適化後の)の説明による数値化により、エンタングルモデルと非エンタングルモデルの識別可能な違いを明確に示している。

In this paper, we employ PCA and t-SNE analysis to gain deeper insights into the behavior of entangled and non-entangled mixing operators within the Quantum Approximate Optimization Algorithm (QAOA) at varying depths. Our study utilizes a dataset of parameters generated for max-cut problems using the Stochastic Hill Climbing with Random Restarts optimization method in QAOA. Specifically, we examine the $RZ$, $RX$, and $RY$ parameters within QAOA models at depths of $1L$, $2L$, and $3L$, both with and without an entanglement stage inside the mixing operator. The results reveal distinct behaviors when we process the final parameters of each set of experiments with PCA and t-SNE, where in particular, entangled QAOA models with $2L$ and $3L$ present an increase in the amount of information that can be preserved in the mapping. Furthermore, certain entangled QAOA graphs exhibit clustering effects in both PCA and t-SNE. Overall, the mapping results clearly demonstrate a discernible difference between entangled and non-entangled models, quantified numerically through explained variance in PCA and Kullback-Leibler divergence (after optimization) in t-SNE, where some of these differences are also visually evident in the mapping data produced by both methods.
翻訳日:2023-06-21 17:01:44 公開日:2023-06-19
# 低予算アクティブラーニングにおける小サンプルバイアスの活用

Taming Small-sample Bias in Low-budget Active Learning ( http://arxiv.org/abs/2306.11056v1 )

ライセンス: Link先を確認
Linxin Song, Jieyu Zhang, Xiaotian Lu, Tianyi Zhou(参考訳) アクティブラーニング(al)は、モデルのトレーニングステージ毎にいくつかの有益な例をクエリするだけで、アノテーションコストを最小化することを目的としている。 しかし、いくつかのクエリー例でモデルをトレーニングすることは、小さなサンプルバイアスに悩まされる。 本稿では,モデル学習中にバイアスを低減できるfirth bias reductionと呼ばれる正規化子を探索することで,低予算alにおけるこの小さなサンプルバイアス問題に対処する。 そこで本研究では,各問合せラウンドの係数の調整を行う代わりに,学習プロセスに適応する係数を自動的に調整可能なカリキュラムfirth bias reduction (chain)を提案する。 ディープラーニングと線形モデル設定の両方の下で、いくつかの広く使用されているクエリ戦略とハイパーパラメータ検索メソッドを備えた3つのベンチマークデータセットの実験により、CHAINがより効率的なALの構築に利用でき、各アクティブな学習クエリによる進捗を大幅に改善できることが示された。

Active learning (AL) aims to minimize the annotation cost by only querying a few informative examples for each model training stage. However, training a model on a few queried examples suffers from the small-sample bias. In this paper, we address this small-sample bias issue in low-budget AL by exploring a regularizer called Firth bias reduction, which can provably reduce the bias during the model training process but might hinder learning if its coefficient is not adaptive to the learning progress. Instead of tuning the coefficient for each query round, which is sensitive and time-consuming, we propose the curriculum Firth bias reduction (CHAIN) that can automatically adjust the coefficient to be adaptive to the training process. Under both deep learning and linear model settings, experiments on three benchmark datasets with several widely used query strategies and hyperparameter searching methods show that CHAIN can be used to build more efficient AL and can substantially improve the progress made by each active learning query.
翻訳日:2023-06-21 17:01:19 公開日:2023-06-19
# 手術ビデオにおけるビデオ意味セグメンテーションのための時空間ネットワーク

A spatio-temporal network for video semantic segmentation in surgical videos ( http://arxiv.org/abs/2306.11052v1 )

ライセンス: Link先を確認
Maria Grammatikopoulou, Ricardo Sanchez-Matilla, Felix Bragman, David Owen, Lucy Culshaw, Karen Kerr, Danail Stoyanov, Imanol Luengo(参考訳) 手術ビデオのセマンティックセグメンテーションは術中指導、術後分析、外科教育に応用されている。 解剖学的構造の時間的不整合な識別は、使用性や患者の安全性を損なう可能性があるため、セグメンテーションモデルは正確かつ一貫した予測を提供する必要がある。 ビデオ情報は、臨床使用に適した信頼できるモデルにつながるこれらの課題を軽減することができる。 ビデオの時間関係をモデル化するための新しいアーキテクチャを提案する。 提案モデルは,フレーム間の時間的一貫性を改善し,映像意味セグメンテーションを可能にする時空間デコーダを含む。 エンコーダは個々のフレームを処理し、デコーダは隣接するフレームの時間バッチを処理する。 提案するデコーダは,任意のセグメンテーションエンコーダ上で時間的整合性を改善するために使用できる。 モデル性能はcholecseg8kデータセットとロボット部分腎摘出術のプライベートデータセットで評価した。 時間デコーダが両方のデータセットに適用されるとセグメンテーション性能が向上した。 提案モデルは時間的整合性も改善した。

Semantic segmentation in surgical videos has applications in intra-operative guidance, post-operative analytics and surgical education. Segmentation models need to provide accurate and consistent predictions since temporally inconsistent identification of anatomical structures can impair usability and hinder patient safety. Video information can alleviate these challenges leading to reliable models suitable for clinical use. We propose a novel architecture for modelling temporal relationships in videos. The proposed model includes a spatio-temporal decoder to enable video semantic segmentation by improving temporal consistency across frames. The encoder processes individual frames whilst the decoder processes a temporal batch of adjacent frames. The proposed decoder can be used on top of any segmentation encoder to improve temporal consistency. Model performance was evaluated on the CholecSeg8k dataset and a private dataset of robotic Partial Nephrectomy procedures. Segmentation performance was improved when the temporal decoder was applied across both datasets. The proposed model also displayed improvements in temporal consistency.
翻訳日:2023-06-21 17:00:59 公開日:2023-06-19
# 非配向点雲分解における凹凸誘起距離

Concavity-Induced Distance for Unoriented Point Cloud Decomposition ( http://arxiv.org/abs/2306.11051v1 )

ライセンス: Link先を確認
Ruoyu Wang, Yanfei Xue, Bharath Surianarayanan, Dong Tian, and Chen Feng(参考訳) 非向きの点雲内の一対の点間の相似性を測定する新しい方法として、凹凸誘導距離(cid)を提案する。 cidは、点雲として表される基礎となる形状の異なる凸部分に属する2つの点または2つの点の確率を示す。 メッシュ化や正規推定を必要とせず、cidがポイントクラウド分析にどのように役立つかを実証し、生のポイントクラウド観測を扱うロボットアプリケーションにとって有益であることを示す。 手動ラベリングのためのごく少数のポイントをランダムに選択することで、ラベル伝搬によるCIDベースのポイントクラウドインスタンスセグメンテーションは、S3DISおよびScanNetデータセット上の最近の教師付きディープラーニングアプローチと同等の平均精度を達成する。 さらに、CIDは、ロボット工学においてコンパクトなシーン表現として使用される凸部を略した凸部に分類することができ、グループ化品質の点で基準法よりも優れる。 プロジェクトのWebサイトは以下の通りである。

We propose Concavity-induced Distance (CID) as a novel way to measure the dissimilarity between a pair of points in an unoriented point cloud. CID indicates the likelihood of two points or two sets of points belonging to different convex parts of an underlying shape represented as a point cloud. After analyzing its properties, we demonstrate how CID can benefit point cloud analysis without the need for meshing or normal estimation, which is beneficial for robotics applications when dealing with raw point cloud observations. By randomly selecting very few points for manual labeling, a CID-based point cloud instance segmentation via label propagation achieves comparable average precision as recent supervised deep learning approaches, on S3DIS and ScanNet datasets. Moreover, CID can be used to group points into approximately convex parts whose convex hulls can be used as compact scene representations in robotics, and it outperforms the baseline method in terms of grouping quality. Our project website is available at: https://ai4ce.github.io/CID/
翻訳日:2023-06-21 17:00:41 公開日:2023-06-19
# UncLe-SLAM:Dense Neural SLAMのための不確実性学習

UncLe-SLAM: Uncertainty Learning for Dense Neural SLAM ( http://arxiv.org/abs/2306.11048v1 )

ライセンス: Link先を確認
Erik Sandstr\"om, Kevin Ta, Luc Van Gool, Martin R. Oswald(参考訳) 本稿では,slam(deep neural concurrent localization and mapping)のための不確実性学習フレームワークを提案する。 高密度SLAM法の深度入力に対する画素ワイド不確実性を推定することにより、SLAMに信頼性の高いより適切な情報を含む画像領域に対する追跡とマッピング損失を再検討することができる。 そこで本研究では,2次元入力データのみから自己教師ありで学習可能なセンサ不確かさ推定のためのオンラインフレームワークを提案する。 さらに,マルチセンサ入力における不確実性学習の利点についても論じる。 大規模な解析,実験,改善により,提案手法はマッピングと追跡の精度を向上し,地上の真理深度や3Dを必要とする代替手段よりも優れた性能を示すことが示されている。 実験の結果,TUM-RGBDデータセットでは,絶対軌道追跡誤差が38%,絶対軌道追跡誤差が27%低かった。 2種類の深度センサー上の一般的なReplicaデータセットでは、最近の最先端のニューラル暗黙のアプローチと比較して、RGBD SLAMの11%のF1スコア改善が報告されている。 ソースコードは利用可能になる予定です。

We present an uncertainty learning framework for dense neural simultaneous localization and mapping (SLAM). Estimating pixel-wise uncertainties for the depth input of dense SLAM methods allows to re-weigh the tracking and mapping losses towards image regions that contain more suitable information that is more reliable for SLAM. To this end, we propose an online framework for sensor uncertainty estimation that can be trained in a self-supervised manner from only 2D input data. We further discuss the advantages of the uncertainty learning for the case of multi-sensor input. Extensive analysis, experimentation, and ablations show that our proposed modeling paradigm improves both mapping and tracking accuracy and often performs better than alternatives that require ground truth depth or 3D. Our experiments show that we achieve a 38% and 27% lower absolute trajectory tracking error (ATE) on the 7-Scenes and TUM-RGBD datasets respectively. On the popular Replica dataset on two types of depth sensors we report an 11% F1-score improvement on RGBD SLAM compared to the recent state-of-the-art neural implicit approaches. Our source code will be made available.
翻訳日:2023-06-21 17:00:23 公開日:2023-06-19
# FSAR:適応的トポロジ構造と知識蒸留を用いた統合骨格型行動認識

FSAR: Federated Skeleton-based Action Recognition with Adaptive Topology Structure and Knowledge Distillation ( http://arxiv.org/abs/2306.11046v1 )

ライセンス: Link先を確認
Jingwen Guo, Hong Liu, Shitong Sun, Tianyu Guo, Min Zhang, Chenyang Si(参考訳) 既存の骨格に基づく行動認識手法は、典型的には集中学習パラダイムに従っており、人間関連のビデオを公開する際にプライバシー上の懸念を生じさせる。 federated learning (fl) は,プライバシ保護の優れたメリットから,多くの注目を集めている。 しかし、骨格ビデオに直接FLアプローチを適用することは不安定な訓練に悩まされる。 本稿では,不均質なヒトトポロジーグラフ構造がトレーニング安定性を阻害する重要な要因であることを示す。 この制限に対処するために,我々は,局所的なセンシティブなデータにアクセスせずにグローバルに一般化されたモデルを構築することを可能にする,fsar(federated skeleton-based action recognition)パラダイムを開拓した。 具体的には、クライアント間で共有されるドメイン不変トポロジと、グローバルモデルアグリゲーションから分離されたドメイン固有トポロジを学習することで、一般化とパーソナライズを分離するアダプティブトポロジ構造(ATS)を導入する。 複数のデータセットに対する大規模な実験は、FSARが本質的にプライバシを保護する一方で、最先端のFLベースのメソッドより優れていることを示している。

Existing skeleton-based action recognition methods typically follow a centralized learning paradigm, which can pose privacy concerns when exposing human-related videos. Federated Learning (FL) has attracted much attention due to its outstanding advantages in privacy-preserving. However, directly applying FL approaches to skeleton videos suffers from unstable training. In this paper, we investigate and discover that the heterogeneous human topology graph structure is the crucial factor hindering training stability. To address this limitation, we pioneer a novel Federated Skeleton-based Action Recognition (FSAR) paradigm, which enables the construction of a globally generalized model without accessing local sensitive data. Specifically, we introduce an Adaptive Topology Structure (ATS), separating generalization and personalization by learning a domain-invariant topology shared across clients and a domain-specific topology decoupled from global model aggregation.Furthermore, we explore Multi-grain Knowledge Distillation (MKD) to mitigate the discrepancy between clients and server caused by distinct updating patterns through aligning shallow block-wise motion features. Extensive experiments on multiple datasets demonstrate that FSAR outperforms state-of-the-art FL-based methods while inherently protecting privacy.
翻訳日:2023-06-21 17:00:06 公開日:2023-06-19
# 線形判別学習における周波数効果

Frequency effects in Linear Discriminative Learning ( http://arxiv.org/abs/2306.11044v1 )

ライセンス: Link先を確認
Maria Heitmeier, Yu-Ying Chuang, Seth D. Axen, R. Harald Baayen(参考訳) 単語頻度は、ほとんどの語彙処理タスクにおいて強い予測因子である。 したがって、どんな単語認識モデルでも、単語の周波数効果がどのように生じるかを考慮する必要がある。 識別辞書モデル (DLM; Baayen et al., 2018a, 2019) は、単語の形式とその意味を線形にマッピングした語彙処理をモデル化する。 これまでのところ、これらのマッピングは、エラー駆動学習によって段階的に得られるか、あるいは全ての単語が最適に学習される理論的な学習のエンドステート(el)をモデル化する効率的だが周波数非依存のクローズドフォームソリューションによって得られる。 本研究では, 形式と意味の効率よく, 周波数インフォームドマッピングが実現可能であることを示す(周波数インフォームド学習; FIL)。 FILは計算コストをはるかに安くしながら、インクリメンタルな解をよく近似している。 FILは比較的低い型と高いトークン精度を示し、モデルが日常生活で話者が遭遇するほとんどのワードトークンを正しく処理できることを示した。 オランダ語 lexicon プロジェクト (keuleers et al., 2010) における反応時間のモデル化に fil を用いており,fil は周波数と反応時間の平均との関係をよく予測しているが,低頻度単語に対する反応時間のばらつきを過小評価している。 FILは,マンダリン中国語(Lee, 2007)の聴覚語彙決定タスクにおいて,ELと比較してプライミング効果を考慮しやすくしている。 最後に, CHILDES (Brown, 1973; Demuth et al., 2006) の順序データを用いて, FIL と漸進学習を用いて得られた写像を比較した。 マッピングは高い相関性を持つが、filでは単語の順序付け効果に基づくニュアンスが失われる。 本研究は,学習モデルの頻度効果をクローズドフォーム法を用いて効率的にシミュレーションし,認知モデルにおける低頻度単語の最適な説明方法に関する疑問を提起する。

Word frequency is a strong predictor in most lexical processing tasks. Thus, any model of word recognition needs to account for how word frequency effects arise. The Discriminative Lexicon Model (DLM; Baayen et al., 2018a, 2019) models lexical processing with linear mappings between words' forms and their meanings. So far, the mappings can either be obtained incrementally via error-driven learning, a computationally expensive process able to capture frequency effects, or in an efficient, but frequency-agnostic closed-form solution modelling the theoretical endstate of learning (EL) where all words are learned optimally. In this study we show how an efficient, yet frequency-informed mapping between form and meaning can be obtained (Frequency-informed learning; FIL). We find that FIL well approximates an incremental solution while being computationally much cheaper. FIL shows a relatively low type- and high token-accuracy, demonstrating that the model is able to process most word tokens encountered by speakers in daily life correctly. We use FIL to model reaction times in the Dutch Lexicon Project (Keuleers et al., 2010) and find that FIL predicts well the S-shaped relationship between frequency and the mean of reaction times but underestimates the variance of reaction times for low frequency words. FIL is also better able to account for priming effects in an auditory lexical decision task in Mandarin Chinese (Lee, 2007), compared to EL. Finally, we used ordered data from CHILDES (Brown, 1973; Demuth et al., 2006) to compare mappings obtained with FIL and incremental learning. The mappings are highly correlated, but with FIL some nuances based on word ordering effects are lost. Our results show how frequency effects in a learning model can be simulated efficiently by means of a closed-form solution, and raise questions about how to best account for low-frequency words in cognitive models.
翻訳日:2023-06-21 16:59:39 公開日:2023-06-19
# 油田設備の予測保守への深層学習の適用

Application of Deep Learning for Predictive Maintenance of Oilfield Equipment ( http://arxiv.org/abs/2306.11040v1 )

ライセンス: Link先を確認
Abdeldjalil Latrach(参考訳) この論文は、人工知能と深層学習(特にニューラル・ネットワーク)の新しい技術による予測的メンテナンス、診断、予後予測の応用を探求した。 完全接続型、畳み込み型、反復型ニューラルネットワークなどの多くのニューラルネットワークがNASA C-MAPSS、ケース・ウェスタン・リザーブ大学ベアリングス(英語版)、FEMTO Bearingsデータセットなどの公開データセットで開発、テストされ、機器の健康状態を診断し、故障前に残りの有用な生命(RUL)を予測する。 多くのデータ処理と特徴抽出は、ニューラルネットワークアーキテクチャの入力として使用するより有意義で堅牢な特徴を作成するために、次元減少(主成分分析)や信号処理(フーリエおよびウェーブレット解析)といった深層学習技術と組み合わせて用いられた。 この論文はまた、予測外のダウンタイムとメンテナンスコストを削減するために、油田臨界装置を監視するための石油リグ内の予測保守におけるこれらの技術の潜在的利用についても検討した。

This thesis explored applications of the new emerging techniques of artificial intelligence and deep learning (neural networks in particular) for predictive maintenance, diagnostics and prognostics. Many neural architectures such as fully-connected, convolutional and recurrent neural networks were developed and tested on public datasets such as NASA C-MAPSS, Case Western Reserve University Bearings and FEMTO Bearings datasets to diagnose equipment health state and/or predict the remaining useful life (RUL) before breakdown. Many data processing and feature extraction procedures were used in combination with deep learning techniques such as dimensionality reduction (Principal Component Analysis) and signal processing (Fourier and Wavelet analyses) in order to create more meaningful and robust features to use as an input for neural networks architectures. This thesis also explored the potential use of these techniques in predictive maintenance within oil rigs for monitoring oilfield critical equipment in order to reduce unpredicted downtime and maintenance costs.
翻訳日:2023-06-21 16:59:00 公開日:2023-06-19
# マルチバススピンボーソンモデルにおけるエンタングルメントの強化

Enhanced entanglement in multi-bath spin-boson models ( http://arxiv.org/abs/2306.11036v1 )

ライセンス: Link先を確認
Charlie R. Hogg, Federico Cerisola, James D. Cresser, Simon A. R. Horsley, Janet Anders(参考訳) スピン-ボーソンモデルは、通常、スピンと単一のボソニック浴との結合を考える。 しかし、いくつかの物理的状況ではスピンを複数の環境に結合する必要がある。 例えば、スピンは3次元磁気材料中のフォノンと相互作用する。 ここではスピン結合を3つの独立浴に等方的に考える。 複数浴室との結合は, スピンと環境との絡み合いを0温度で著しく増大させることを示した。 この効果は、平均力平衡状態におけるスピンの期待値を減少させることである。 対照的に、古典的な3塩基スピン平衡状態は環境結合から完全に独立であることが判明した。 これらの結果から、多重バス結合から生じる純粋に量子効果が明らかとなり、磁気材料など幅広い分野で応用される可能性がある。

The spin-boson model usually considers a spin coupled to a single bosonic bath. However, some physical situations require coupling of the spin to multiple environments. For example, spins interacting with phonons in three-dimensional magnetic materials. Here, we consider a spin coupled isotropically to three independent baths. We show that coupling to multiple baths can significantly increase entanglement between the spin and its environment at zero temperature. The effect of this is to reduce the spin's expectation values in the mean force equilibrium state. In contrast, the classical three-bath spin equilibrium state turns out to be entirely independent of the environmental coupling. These results reveal purely quantum effects that can arise from multi-bath couplings, with potential applications in a wide range of settings, such as magnetic materials.
翻訳日:2023-06-21 16:58:40 公開日:2023-06-19
# 非ゼロサムゲームとしての対戦トレーニング

Adversarial Training Should Be Cast as a Non-Zero-Sum Game ( http://arxiv.org/abs/2306.11035v1 )

ライセンス: Link先を確認
Alexander Robey, Fabian Latorre, George J. Pappas, Hamed Hassani, Volkan Cevher(参考訳) ディープニューラルネットワークの敵意的脆弱性を解決するための重要なアプローチの一つは、2人のプレイヤーによる敵意トレーニングのゼロサムパラダイムである。 このアプローチの約束にもかかわらず、このパラダイムに基づくアルゴリズムは十分なレベルのロバスト性を有しておらず、ロバストオーバーフィッティングのような病的行動に苦しめられている。 この欠点を理解するために、まず、敵対的学習アルゴリズムでよく使われる代理に基づく緩和が、訓練された分類器の堅牢性に関するすべての保証を無効にすることを示す。 この落とし穴の特定は、新しい非ゼロサム二段階の対向訓練の定式化を知らせ、各プレイヤーは異なる目的関数を最適化する。 我々の定式化は自然に、最先端の攻撃に匹敵する単純なアルゴリズムフレームワークを生み出し、標準的な敵の訓練アルゴリズムに匹敵するレベルの堅牢性を達成し、強固な過剰フィッティングに苦しむことはない。

One prominent approach toward resolving the adversarial vulnerability of deep neural networks is the two-player zero-sum paradigm of adversarial training, in which predictors are trained against adversarially-chosen perturbations of data. Despite the promise of this approach, algorithms based on this paradigm have not engendered sufficient levels of robustness, and suffer from pathological behavior like robust overfitting. To understand this shortcoming, we first show that the commonly used surrogate-based relaxation used in adversarial training algorithms voids all guarantees on the robustness of trained classifiers. The identification of this pitfall informs a novel non-zero-sum bilevel formulation of adversarial training, wherein each player optimizes a different objective function. Our formulation naturally yields a simple algorithmic framework that matches and in some cases outperforms state-of-the-art attacks, attains comparable levels of robustness to standard adversarial training algorithms, and does not suffer from robust overfitting.
翻訳日:2023-06-21 16:58:29 公開日:2023-06-19
# ユニバーサルゼロショットセグメンテーションのための原始生成と意味的関連アライメント

Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation ( http://arxiv.org/abs/2306.11087v1 )

ライセンス: Link先を確認
Shuting He, Henghui Ding, Wei Jiang(参考訳) 本研究では,新しいカテゴリのパノミック,インスタンス,セマンティクスセグメンテーションをトレーニングサンプルなしで実現するために,ユニバーサルゼロショットセグメンテーションについて検討した。 このようなゼロショットセグメンテーション能力は、目に見えないカテゴリから学んだ視覚知識を、意味空間におけるクラス間の関係に依存する。 したがって、意味空間と視覚空間を橋渡しし、その意味関係を視覚特徴学習に適用することが望まれる。 我々は、意味空間と視覚空間をリンクする、見えないカテゴリの機能を合成する生成モデルを導入し、未知のトレーニングデータの欠如の問題に対処する。 さらに,セマンティクスと視覚空間の領域間ギャップを緩和するために,まず,学習されたプリミティブを用いたバニラ生成機能を強化し,これらのプリミティブを選択的に組み立てることで,カテゴリに関連する細かな属性を合成する。 第2に,視覚特徴を意味的関連部分と意味的関連部分に分け,有用な視覚分類手がかりを含むが,意味的表現とは無関係な視覚的特徴を分離することを提案する。 セマンティック関連視覚的特徴のクラス間関係は、セマンティック空間における特徴と整合し、セマンティック知識を視覚的特徴学習に伝達する必要がある。 提案手法は,ゼロショットパンオプティカルセグメンテーション,インスタンスセグメンテーション,セマンティクスセグメンテーションにおいて,最先端のパフォーマンスを実現する。 コードはhttps://henghuiding.github.io/PADing/.comで入手できる。

We study universal zero-shot segmentation in this work to achieve panoptic, instance, and semantic segmentation for novel categories without any training samples. Such zero-shot segmentation ability relies on inter-class relationships in semantic space to transfer the visual knowledge learned from seen categories to unseen ones. Thus, it is desired to well bridge semantic-visual spaces and apply the semantic relationships to visual feature learning. We introduce a generative model to synthesize features for unseen categories, which links semantic and visual spaces as well as addresses the issue of lack of unseen training data. Furthermore, to mitigate the domain gap between semantic and visual spaces, firstly, we enhance the vanilla generator with learned primitives, each of which contains fine-grained attributes related to categories, and synthesize unseen features by selectively assembling these primitives. Secondly, we propose to disentangle the visual feature into the semantic-related part and the semantic-unrelated part that contains useful visual classification clues but is less relevant to semantic representation. The inter-class relationships of semantic-related visual features are then required to be aligned with those in semantic space, thereby transferring semantic knowledge to visual feature learning. The proposed approach achieves impressively state-of-the-art performance on zero-shot panoptic segmentation, instance segmentation, and semantic segmentation. Code is available at https://henghuiding.github.io/PADing/.
翻訳日:2023-06-21 16:51:04 公開日:2023-06-19
# 強化学習技術を用いた量子変分状態対角化の強化

Enhancing quantum variational state diagonalization using reinforcement learning techniques ( http://arxiv.org/abs/2306.11086v1 )

ライセンス: Link先を確認
Akash Kundu, Przemys{\l}aw Bede{\l}ek, Mateusz Ostaszewski, Onur Danaci, Vedran Dunjko, Jaros{\l}aw A. Miszczak(参考訳) NISQコンピュータの適用には、変分量子アルゴリズムの開発が不可欠である。 このようなアルゴリズムは、短期的なハードウェア上で実装しやすい短い量子回路を必要とするため、多くの方法が開発されている。 特に興味深いのは、重要なアルゴリズムのサブルーチンを構成する変分対角化法であり、量子状態に符号化されたデータを扱うために直接使用できる。 特に、システムの絡み合い特性や量子機械学習アルゴリズムなどの量子状態の特徴を識別するために応用することができる。 本研究では,量子状態対角化タスクにおいて必要となる非常に浅い量子回路を,強化学習を利用して設計する問題に取り組む。 そこで我々は,強化学習手法を用いて回路深度最適化の問題に対処するために,新しい符号化手法を用いる。 本手法は,少数のゲートを用いて,対角化タスクに対して確固たる近似を与えることを示す。 強化学習法により提案される回路は、標準的な変分量子状態対角化アルゴリズムよりも浅く、ハードウェア能力によって量子回路の深さが制限される状況で使用できる。

The development of variational quantum algorithms is crucial for the application of NISQ computers. Such algorithms require short quantum circuits, which are more amenable to implementation on near-term hardware, and many such methods have been developed. One of particular interest is the so-called the variational diagonalization method, which constitutes an important algorithmic subroutine, and it can be used directly for working with data encoded in quantum states. In particular, it can be applied to discern the features of quantum states, such as entanglement properties of a system, or in quantum machine learning algorithms. In this work, we tackle the problem of designing a very shallow quantum circuit, required in the quantum state diagonalization task, by utilizing reinforcement learning. To achieve this, we utilize a novel encoding method that can be used to tackle the problem of circuit depth optimization using a reinforcement learning approach. We demonstrate that our approach provides a solid approximation to the diagonalization task while using a small number of gates. The circuits proposed by the reinforcement learning methods are shallower than the standard variational quantum state diagonalization algorithm, and thus can be used in situations where the depth of quantum circuits is limited by the hardware capabilities.
翻訳日:2023-06-21 16:50:34 公開日:2023-06-19
# 5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$の周波数測定とSrを用いたキングプロットの非線形性の観測

Frequency measurements of $5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$ and observation of nonlinearities in King plot with Sr ( http://arxiv.org/abs/2306.11082v1 )

ライセンス: Link先を確認
S. Zhang, B. T. Tiwari, S. Ganesh, and Y. Singh(参考訳) 5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$の絶対周波数を4つの安定Sr同位体すべてに対して、共振誘起分光法を用いて、$\sim$25 kHzの精度で測定した。 この遷移の同位体シフトと結合線上の既存の測定データを組み合わせることで、Kingプロットは5.2$\sigma$レベルでの線形性から逸脱することを明らかにする。

We report the first precision measurement of the absolute frequency of $5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$ for all four stable Sr isotopes with an accuracy of $\sim$25 kHz employing repumping induced spectroscopy. By combining the isotope shifts of this transition with the existing measurement data on the intercombination line, the King plot is established which reveals a deviation from the linearity at the 5.2$\sigma$ level.
翻訳日:2023-06-21 16:50:15 公開日:2023-06-19
# 正常を超えて:相互情報推定器の評価について

Beyond Normal: On the Evaluation of Mutual Information Estimators ( http://arxiv.org/abs/2306.11078v1 )

ライセンス: Link先を確認
Pawe{\l} Czy\.z, Frederic Grabowski, Julia E. Vogt, Niko Beerenwinkel, Alexander Marx(参考訳) 相互情報は、表現学習、因果関係、領域の一般化、計算生物学に応用されている一般的な統計的依存尺度である。 しかし、相互情報推定器は通常、多変量正規分布と1次元の確率変数を持つ選択分布の単純な族で評価される。 本稿では,既知の相互情報を含む多様な分布を構築する方法を示し,相互情報推定者のための言語に依存しないベンチマークプラットフォームを提案する。 本稿では,高次元,疎相互作用,長期分布,高相互情報を含む設定における古典的・神経的推定器の適用性と限界について論じる。 最後に,新たなデータセットに推定器を適用する際に考慮すべき問題や課題に適応した適切な推定器の選択方法について,実践者に対してガイドラインを提供する。

Mutual information is a general statistical dependency measure which has found applications in representation learning, causality, domain generalization and computational biology. However, mutual information estimators are typically evaluated on simple families of probability distributions, namely multivariate normal distribution and selected distributions with one-dimensional random variables. In this paper, we show how to construct a diverse family of distributions with known ground-truth mutual information and propose a language-independent benchmarking platform for mutual information estimators. We discuss the general applicability and limitations of classical and neural estimators in settings involving high dimensions, sparse interactions, long-tailed distributions, and high mutual information. Finally, we provide guidelines for practitioners on how to select appropriate estimator adapted to the difficulty of problem considered and issues one needs to consider when applying an estimator to a new data set.
翻訳日:2023-06-21 16:50:02 公開日:2023-06-19
# 拡散モデルに基づく偏微分方程式のデータ生成

Diffusion model based data generation for partial differential equations ( http://arxiv.org/abs/2306.11075v1 )

ライセンス: Link先を確認
Rucha Apte, Sheel Nidhan, Rishikesh Ranade, Jay Pathak(参考訳) 物理ベースの機械学習におけるデータ不足問題に対処するための予備的試みとして,物理ベースのシミュレーションにおけるデータ生成のための新しい手法を提案する。 私たちのモチベーションは、数値データの可用性の制限を克服することです。 これを達成するために、我々は、合成データサンプルを生成し、それらを2つの標準ケースでテストできる拡散モデルを利用する。 (a)定常2次元ポアソン方程式、および b) 強制非定常な2次元navier-stokes (ns) {vorticity-transport} 方程式を閉じ込めた箱に入れる。 生成したデータサンプルを古典解法からの出力と比較することにより,それらの精度を評価し,基礎となる物理法則への適合性を検討する。 このようにして,コンソルバデータとの視覚的および統計的比較を満足するだけでなく,生成されたデータの物理法則への適合性を確保することの重要性を強調した。

In a preliminary attempt to address the problem of data scarcity in physics-based machine learning, we introduce a novel methodology for data generation in physics-based simulations. Our motivation is to overcome the limitations posed by the limited availability of numerical data. To achieve this, we leverage a diffusion model that allows us to generate synthetic data samples and test them for two canonical cases: (a) the steady 2-D Poisson equation, and (b) the forced unsteady 2-D Navier-Stokes (NS) {vorticity-transport} equation in a confined box. By comparing the generated data samples against outputs from classical solvers, we assess their accuracy and examine their adherence to the underlying physics laws. In this way, we emphasize the importance of not only satisfying visual and statistical comparisons with solver data but also ensuring the generated data's conformity to physics laws, thus enabling their effective utilization in downstream tasks.
翻訳日:2023-06-21 16:49:47 公開日:2023-06-19
# 自動特徴強調法による単純・高速グループロバストネス

Simple and Fast Group Robustness by Automatic Feature Reweighting ( http://arxiv.org/abs/2306.11074v1 )

ライセンス: Link先を確認
Shikai Qiu, Andres Potapczynski, Pavel Izmailov and Andrew Gordon Wilson(参考訳) 分散の一般化に対する大きな課題は、トレーニングデータ配布でクラスラベルを予測するが、ターゲットに因果関係はない、スプリアスな特徴に依存することだ。 突発的特徴への依存を減らすための標準的な方法は、通常我々がその突発的特徴が何であるかを知っていると仮定する。 この制限を緩和しようとするメソッドは複雑であり、チューニングが困難であり、標準的なトレーニングと比べて計算オーバーヘッドが大幅に増大する。 本稿では,sprious featureへの依存度を低減するために,超シンプルで高速なモデル更新手法であるautomatic feature reweighting (afr)を提案する。 AFRは、標準ERM訓練ベースモデルの最後の層を重み付き損失で再訓練し、ERMモデルが予測しにくい例を強調し、グループラベルなしでマイノリティグループを自動的に重み付けする。 この簡単な手順により、いくつかの視覚および自然言語分類ベンチマークにおいて、その計算のごく一部を用いて、突発的な属性を伴わずに訓練された競合メソッドの最良の結果を改善することができる。

A major challenge to out-of-distribution generalization is reliance on spurious features -- patterns that are predictive of the class label in the training data distribution, but not causally related to the target. Standard methods for reducing the reliance on spurious features typically assume that we know what the spurious feature is, which is rarely true in the real world. Methods that attempt to alleviate this limitation are complex, hard to tune, and lead to a significant computational overhead compared to standard training. In this paper, we propose Automatic Feature Reweighting (AFR), an extremely simple and fast method for updating the model to reduce the reliance on spurious features. AFR retrains the last layer of a standard ERM-trained base model with a weighted loss that emphasizes the examples where the ERM model predicts poorly, automatically upweighting the minority group without group labels. With this simple procedure, we improve upon the best reported results among competing methods trained without spurious attributes on several vision and natural language classification benchmarks, using only a fraction of their compute.
翻訳日:2023-06-21 16:49:32 公開日:2023-06-19
# 重力波の量子状態形成

Quantum state preparation of gravitational waves ( http://arxiv.org/abs/2306.11073v1 )

ライセンス: Link先を確認
Fergus Hayes, Sarah Croke, Chris Messenger, Fiona Speirits(参考訳) 量子算術演算とハイブリッド古典量子生成モデルを用いて、コンパクトな二元結合の重力波信号波形に対する解析近似を量子ビットの振幅に効率的に符号化できる量子回路を詳述する。 提案手法のゲートコストは、任意の振幅に対する状態準備ルーチンと比較され、アインシュタイン望遠鏡で検出可能な二元中性子星のインスピラルを表す重力波形の符号化を考えると、ゲートコストが4桁まで減少することを示す。 我々は,grover-rudolph アルゴリズムを用いた場合の 0.995 の所望の状態と比較し,28 qubits に制限された量子シミュレーションにより,必要なゲートを著しく削減した量子生成型逆ネットワークを用いた場合 0.979 の符号化を実証した。

We detail a quantum circuit capable of efficiently encoding analytical approximations to gravitational wave signal waveforms of compact binary coalescences into the amplitudes of quantum bits using both quantum arithmetic operations and hybrid classical-quantum generative modelling. The gate cost of the proposed method is considered and compared to a state preparation routine for arbitrary amplitudes, where we demonstrate up to a four orders of magnitude reduction in gate cost when considering the encoding of gravitational waveforms representative of binary neutron star inspirals detectable to the Einstein telescope. We demonstrate through a quantum simulation, that is limited to 28 qubits, the encoding of a second post-Newtonian inspiral waveform with a fidelity compared to the desired state of 0.995 when using the Grover-Rudolph algorithm, or 0.979 when using a trained quantum generative adversarial network with a significant reduction of required gates.
翻訳日:2023-06-21 16:49:12 公開日:2023-06-19
# 因果効果の正規化:スプリアス属性の自動検出と削除

Causal Effect Regularization: Automated Detection and Removal of Spurious Attributes ( http://arxiv.org/abs/2306.11072v1 )

ライセンス: Link先を確認
Abhinav Kumar, Amit Deshpande, Amit Sharma(参考訳) 多くの分類データセットでは、タスクラベルといくつかの入力属性が散発的に相関している。 このようなデータセットでトレーニングされた分類器は、特に急激な相関が高い場合、これらの属性を予測に頼り、デプロイ時に属性の相関が変化した場合に一般化に失敗する。 スプリアス属性が事前に知られていると仮定すると、指定された属性に不変な分類子を学ぶためのいくつかの方法が提案されている。 しかし、現実世界のデータでは、スパイラルな属性に関する情報は通常利用できない。 そこで本研究では,ラベルに対する因果効果を推定し,分類者の依存度を緩和するために正規化目的を用いてスプリアス属性を自動的に同定する手法を提案する。 近年のスプリアス属性の同定法と比較すると,特にスプリアス相関が高い場合,本手法は学習モデルから属性を除去する上でより正確であることがわかった。 具体的には, 合成, 半合成, 実世界のデータセットにまたがって, 突発的属性に対する分類器の依存度を定量化するために用いられる測定値($\Delta$Prob)を精度良く, あるいは類似した精度で測定した。 また,提案手法は,因果効果のノイズ推定においても,スプリアス属性への依存を緩和する。 提案手法の実証的ロバスト性を説明するため,2つの属性からなる単純な線形分類タスク(因果性と突発性)を作成する。 本手法では,推定因果効果のランク付けが属性間で正しいことのみを証明し,正しい分類器を選択する。

In many classification datasets, the task labels are spuriously correlated with some input attributes. Classifiers trained on such datasets often rely on these attributes for prediction, especially when the spurious correlation is high, and thus fail to generalize whenever there is a shift in the attributes' correlation at deployment. If we assume that the spurious attributes are known a priori, several methods have been proposed to learn a classifier that is invariant to the specified attributes. However, in real-world data, information about spurious attributes is typically unavailable. Therefore, we propose a method to automatically identify spurious attributes by estimating their causal effect on the label and then use a regularization objective to mitigate the classifier's reliance on them. Compared to a recent method for identifying spurious attributes, we find that our method is more accurate in removing the attribute from the learned model, especially when spurious correlation is high. Specifically, across synthetic, semi-synthetic, and real-world datasets, our method shows significant improvement in a metric used to quantify the dependence of a classifier on spurious attributes ($\Delta$Prob), while obtaining better or similar accuracy. In addition, our method mitigates the reliance on spurious attributes even under noisy estimation of causal effects. To explain the empirical robustness of our method, we create a simple linear classification task with two sets of attributes: causal and spurious. We prove that our method only requires that the ranking of estimated causal effects is correct across attributes to select the correct classifier.
翻訳日:2023-06-21 16:48:55 公開日:2023-06-19
# 自然言語理解のためのPrompt-based Few-Shot Learningの逆ロバスト性

Adversarial Robustness of Prompt-based Few-Shot Learning for Natural Language Understanding ( http://arxiv.org/abs/2306.11066v1 )

ライセンス: Link先を確認
Venkata Prabhakara Sarath Nookala, Gaurav Verma, Subhabrata Mukherjee, Srijan Kumar(参考訳) state-of-the-art few-shot learning (fsl) 法は、プロンプトベースの微調整を利用して自然言語理解 (nlu) タスクの顕著な結果を得る。 以前のfslメソッドの多くはダウンストリームタスクのパフォーマンス向上に重点を置いているが、そのようなメソッドの敵対的ロバスト性に対する理解は限られている。 本研究では, 対向摂動に対するロバスト性を評価するために, 最先端FSL法を幅広く検討する。 頑健性(あるいは欠如)に対する様々な要因の影響をよりよく理解するために,ラベルなしデータの利用,複数プロンプト,少数のサンプル数,モデルサイズ,タイプといった側面の完全微調整モデルに対して,プロンプトベースのfsl手法を評価する。 GLUEタスクの6つの結果から, 完全微調整モデルと比較して, バニラFSL法は対向的摂動に直面した場合, タスク性能の顕著な低下(すなわち, 頑健さの低下)を引き起こすことが示された。 しかし 利用は (i)プロンプトベースfslのラベルなしデータ及び (ii)傾向を反転させる複数のプロンプト。 さらに, サンプル数の増加とモデルサイズがバニラFSL法の対角的ロバスト性の向上につながることを実証した。 本研究は,NLUタスクに対するプロンプトベースFSL手法の対向ロバスト性評価に重点を置いている。

State-of-the-art few-shot learning (FSL) methods leverage prompt-based fine-tuning to obtain remarkable results for natural language understanding (NLU) tasks. While much of the prior FSL methods focus on improving downstream task performance, there is a limited understanding of the adversarial robustness of such methods. In this work, we conduct an extensive study of several state-of-the-art FSL methods to assess their robustness to adversarial perturbations. To better understand the impact of various factors towards robustness (or the lack of it), we evaluate prompt-based FSL methods against fully fine-tuned models for aspects such as the use of unlabeled data, multiple prompts, number of few-shot examples, model size and type. Our results on six GLUE tasks indicate that compared to fully fine-tuned models, vanilla FSL methods lead to a notable relative drop in task performance (i.e., are less robust) in the face of adversarial perturbations. However, using (i) unlabeled data for prompt-based FSL and (ii) multiple prompts flip the trend. We further demonstrate that increasing the number of few-shot examples and model size lead to increased adversarial robustness of vanilla FSL methods. Broadly, our work sheds light on the adversarial robustness evaluation of prompt-based FSL methods for NLU tasks.
翻訳日:2023-06-21 16:48:26 公開日:2023-06-19
# 視覚・言語学習のロバスト性評価のためのクロスモーダル属性挿入法

Cross-Modal Attribute Insertions for Assessing the Robustness of Vision-and-Language Learning ( http://arxiv.org/abs/2306.11065v1 )

ライセンス: Link先を確認
Shivaen Ramshetty, Gaurav Verma, Srijan Kumar(参考訳) 入力テキストのリアルな変化に対するマルチモーダルディープラーニングモデルの堅牢性は、テキストから画像への検索やクロスモーダルの包含といった重要なタスクへの適用性において重要である。 ロバスト性を測定するために、既存のいくつかのアプローチではテキストデータを編集するが、マルチモーダルデータに存在するクロスモーダル情報を活用しない。 色、サイズ、形状といった視覚的モダリティからの情報は、ユーザが入力に含めることのできる追加の属性を提供する。 そこで,画像中の物体の視覚的属性を対応するテキストに挿入する視覚言語データに対する現実的な摂動戦略として,クロスモーダル属性挿入を提案する(例えば「椅子の少女」から「木製の椅子の少女」へ)。 提案するクロスモーダル属性挿入のアプローチはモジュール性,制御性,タスク非依存である。 クロスモーダル挿入による入力テキストの付加は,テキスト間検索における最先端のアプローチと,クロスモーダルの処理に悪影響を与えることが判明し,mdrでは15%,$f_1$スコアでは20%の相対的低下がみられた。 クラウドソースのアノテーションは、クロスモーダル挿入はテキストのみのデータによる拡張よりもマルチモーダルデータの品質向上につながり、元の例と同等の品質であることを示している。 我々は、ディープビジョンと言語モデルの堅牢性評価を促進するコードをリリースした。 https://github.com/claws-lab/multimodal-robustness-xmai。

The robustness of multimodal deep learning models to realistic changes in the input text is critical for their applicability to important tasks such as text-to-image retrieval and cross-modal entailment. To measure robustness, several existing approaches edit the text data, but do so without leveraging the cross-modal information present in multimodal data. Information from the visual modality, such as color, size, and shape, provide additional attributes that users can include in their inputs. Thus, we propose cross-modal attribute insertions as a realistic perturbation strategy for vision-and-language data that inserts visual attributes of the objects in the image into the corresponding text (e.g., "girl on a chair" to "little girl on a wooden chair"). Our proposed approach for cross-modal attribute insertions is modular, controllable, and task-agnostic. We find that augmenting input text using cross-modal insertions causes state-of-the-art approaches for text-to-image retrieval and cross-modal entailment to perform poorly, resulting in relative drops of 15% in MRR and 20% in $F_1$ score, respectively. Crowd-sourced annotations demonstrate that cross-modal insertions lead to higher quality augmentations for multimodal data than augmentations using text-only data, and are equivalent in quality to original examples. We release the code to encourage robustness evaluations of deep vision-and-language models: https://github.com/claws-lab/multimodal-robustness-xmai.
翻訳日:2023-06-21 16:48:02 公開日:2023-06-19
# fold or not to fold: ビジュアルデータ補完のためのグラフ正規化テンソルトレイン

To Fold or Not to Fold: Graph Regularized Tensor Train for Visual Data Completion ( http://arxiv.org/abs/2306.11123v1 )

ライセンス: Link先を確認
Le Xu, Lei Cheng, Ngai Wong, and Yik-Chung Wu(参考訳) テンソルトレイン(TT)表現は、特にテンソルフォールディングと組み合わせた場合、視覚データ補完タスクにおいて大きな成功を収めた。 しかし、画像やビデオテンソルを折り畳むと元のデータ構造が破壊され、近隣のピクセルが異なる次元に割り当てられ、互いに遠く離れてしまうため、局所的な情報損失が生じる。 本稿では、元の視覚データの局所情報を完全保存するために、データテンソルを折り畳まないことを検討すると同時に、グラフ情報を用いて近隣のエントリ間の局所的類似性を規則化する。 TT完了問題におけるグラフベース正規化による高い計算複雑性を克服するため,従来のTTコアではなく,各TTコアファイバに対して,元の問題を複数のサブプロブレムに分割することを提案する。 さらに、重パラメータチューニングを避けるため、一般化された逆ガウス型(gig)に先立ってスパーシティ促進確率モデルを構築し、平均場近似に基づいて推論アルゴリズムを導出する。 合成データと実世界の視覚データの両方における実験は,提案手法の優越性を示している。

Tensor train (TT) representation has achieved tremendous success in visual data completion tasks, especially when it is combined with tensor folding. However, folding an image or video tensor breaks the original data structure, leading to local information loss as nearby pixels may be assigned into different dimensions and become far away from each other. In this paper, to fully preserve the local information of the original visual data, we explore not folding the data tensor, and at the same time adopt graph information to regularize local similarity between nearby entries. To overcome the high computational complexity introduced by the graph-based regularization in the TT completion problem, we propose to break the original problem into multiple sub-problems with respect to each TT core fiber, instead of each TT core as in traditional methods. Furthermore, to avoid heavy parameter tuning, a sparsity promoting probabilistic model is built based on the generalized inverse Gaussian (GIG) prior, and an inference algorithm is derived under the mean-field approximation. Experiments on both synthetic data and real-world visual data show the superiority of the proposed methods.
翻訳日:2023-06-21 16:41:32 公開日:2023-06-19
# 自動エンコードによるツインボネックハッシュ

Supervised Auto-Encoding Twin-Bottleneck Hashing ( http://arxiv.org/abs/2306.11122v1 )

ライセンス: Link先を確認
Yuan Chen, St\'ephane Marchand-Maillet(参考訳) ディープハッシュは高次元空間における近似近傍探索問題に対する複雑性効率のよい解であることが示されている。 多くの方法は通常、局所的類似性構造を捉えるためにペアワイズまたはトリプルトデータポイントから損失関数を構築する。 他の既存の手法は類似性グラフを構築し、全ての点を同時に考える。 Twin-Bottleneck Hashingはグラフを動的に構築する手法である。 具体的には、各入力データはバイナリコードと連続変数、いわゆるツインボトルネックにエンコードされる。 類似度グラフはこれらのバイナリコードから計算され、トレーニング中に一貫して更新される。 本研究では,ラベル情報を組み込むことで,オリジナルモデルを教師付きディープハッシュネットワークに一般化する。 さらに,これら2つのネットワーク間の符号構造の違いを調べ,特にマルチラベルデータセットにおけるクラス不均衡問題を検討する。 3つのデータセットの実験は、オリジナルのモデルに対して統計的に有意な改善をもたらす。 結果は他の教師付き手法と同等で競合する。

Deep hashing has shown to be a complexity-efficient solution for the Approximate Nearest Neighbor search problem in high dimensional space. Many methods usually build the loss function from pairwise or triplet data points to capture the local similarity structure. Other existing methods construct the similarity graph and consider all points simultaneously. Auto-encoding Twin-bottleneck Hashing is one such method that dynamically builds the graph. Specifically, each input data is encoded into a binary code and a continuous variable, or the so-called twin bottlenecks. The similarity graph is then computed from these binary codes, which get updated consistently during the training. In this work, we generalize the original model into a supervised deep hashing network by incorporating the label information. In addition, we examine the differences of codes structure between these two networks and consider the class imbalance problem especially in multi-labeled datasets. Experiments on three datasets yield statistically significant improvement against the original model. Results are also comparable and competitive to other supervised methods.
翻訳日:2023-06-21 16:41:11 公開日:2023-06-19
# 効率的なニュートン反復によるオンライン凸最適化

Projection-Free Online Convex Optimization via Efficient Newton Iterations ( http://arxiv.org/abs/2306.11121v1 )

ライセンス: Link先を確認
Khashayar Gatmiry and Zakaria Mhammedi(参考訳) 本稿では、凸領域 $\mathcal{K} \subset \mathbb{R}^d$ 上のオンライン凸最適化(OCO)のための新しいプロジェクションフリーアルゴリズムを提案する。 古典的なOCOアルゴリズム(例えば Online Gradient Descent)は典型的には、イテレートの実現性を確保するために、凸集合の$\cK$にユークリッド投影を実行する必要がある。 フランク=ウルフ法のような別のアルゴリズムは、潜在的に拡張可能なユークリッド射影を$\mathcal{K}$に置き換え、$\mathcal{K}$を線形最適化する。 しかし、このようなアルゴリズムはプロジェクションベースのアルゴリズムに比べてOCOに準最適の後悔を持っている。 本稿では,利子集合に対する自己一致バリアを用いて近似ニュートンイテレートを出力する3種類のアルゴリズムについて検討する。 自己一致障壁の使用は、投影を必要とせずに自動的に実現可能である。 しかし、ニュートンイテレートの計算には行列逆行列が必要であり、それでも高価である。 我々の主な貢献として、ニュートンイテレートの安定性がどのように活用され、逆ヘッセン数のみを計算し、最先端の後悔境界を持つ新しい効率的なプロジェクションフリーなOCOアルゴリズムを実現するかを示す。

This paper presents new projection-free algorithms for Online Convex Optimization (OCO) over a convex domain $\mathcal{K} \subset \mathbb{R}^d$. Classical OCO algorithms (such as Online Gradient Descent) typically need to perform Euclidean projections onto the convex set $\cK$ to ensure feasibility of their iterates. Alternative algorithms, such as those based on the Frank-Wolfe method, swap potentially-expensive Euclidean projections onto $\mathcal{K}$ for linear optimization over $\mathcal{K}$. However, such algorithms have a sub-optimal regret in OCO compared to projection-based algorithms. In this paper, we look at a third type of algorithms that output approximate Newton iterates using a self-concordant barrier for the set of interest. The use of a self-concordant barrier automatically ensures feasibility without the need for projections. However, the computation of the Newton iterates requires a matrix inverse, which can still be expensive. As our main contribution, we show how the stability of the Newton iterates can be leveraged to compute the inverse Hessian only a vanishing fraction of the rounds, leading to a new efficient projection-free OCO algorithm with a state-of-the-art regret bound.
翻訳日:2023-06-21 16:40:58 公開日:2023-06-19
# 信頼に基づくモデル選択:サブポピュレーションシフトのショートカットをいつ行うか

Confidence-Based Model Selection: When to Take Shortcuts for Subpopulation Shifts ( http://arxiv.org/abs/2306.11120v1 )

ライセンス: Link先を確認
Annie S. Chen, Yoonho Lee, Amrith Setlur, Sergey Levine, Chelsea Finn(参考訳) 効果的な機械学習モデルは、興味のある結果を直接決定する堅牢な機能(例えば、車輪のある物体は車になる可能性が高い)とショートカット機能(例えば、道路上の物体は車になる可能性が高い)の両方を学習する。 後者は、相関がテスト時に変化するとき、分布シフトの下でエラーの原因となる。 堅牢性文学における一般的な感情は、そのような相関的なショートカットの特徴を避け、堅牢な予測子を学ぶことである。 しかしながら、ロバストな予測器は最悪の場合の分布シフトにおいてより良い性能を発揮するが、多数集団の精度を犠牲にすることが多い。 本稿では,ショートカット機能を完全に破棄するべきではないと論じる。 代わりに、入力が属する部分集団を識別できるなら、異なる強みを持つモデルの中から適応的に選択し、多数派と少数派の両方で高いパフォーマンスを達成することができる。 本研究では,信頼度に基づくモデル選択(cosmos)を提案する。 特に、CosMoSはターゲットラベルやグループアノテーションを必要としない。 我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。 また,CosMoSは,ロバストな予測器やモデルアグリゲーション法に比べて,全サブポピュレーションの平均後悔率を2-5%低下させることがわかった。

Effective machine learning models learn both robust features that directly determine the outcome of interest (e.g., an object with wheels is more likely to be a car), and shortcut features (e.g., an object on a road is more likely to be a car). The latter can be a source of error under distributional shift, when the correlations change at test-time. The prevailing sentiment in the robustness literature is to avoid such correlative shortcut features and learn robust predictors. However, while robust predictors perform better on worst-case distributional shifts, they often sacrifice accuracy on majority subpopulations. In this paper, we argue that shortcut features should not be entirely discarded. Instead, if we can identify the subpopulation to which an input belongs, we can adaptively choose among models with different strengths to achieve high performance on both majority and minority subpopulations. We propose COnfidence-baSed MOdel Selection (CosMoS), where we observe that model confidence can effectively guide model selection. Notably, CosMoS does not require any target labels or group annotations, either of which may be difficult to obtain or unavailable. We evaluate CosMoS on four datasets with spurious correlations, each with multiple test sets with varying levels of data distribution shift. We find that CosMoS achieves 2-5% lower average regret across all subpopulations, compared to using only robust predictors or other model aggregation methods.
翻訳日:2023-06-21 16:40:39 公開日:2023-06-19
# すべてのトレーニングサンプルからエビデンスを蓄積する方法:理論と実践

Learn to Accumulate Evidence from All Training Samples: Theory and Practice ( http://arxiv.org/abs/2306.11113v1 )

ライセンス: Link先を確認
Deep Pandey and Qi Yu(参考訳) 信念理論と主観論理に基づいて構築された実証的ディープラーニングは、決定論的ニューラルネットワークの不確実性を認識するための原理的かつ計算効率の高い方法を提供する。 結果の明らかなモデルは、得られた証拠を用いてきめ細かい不確実性を定量化することができる。 理論的に明らかなモデルを確実にするためには、モデルトレーニングと推論に特別なアクティベーション機能を必要とする非負の証拠が必要である。 この制約は、標準的なsoftmaxモデルに比べて予測性能に劣ることが多いため、多くの大規模データセットに拡張するのが困難である。 この非望ましくない行動の本当の原因を明らかにするために、理論的に証拠モデルを調べ、その劣る性能を説明する基本的限界を同定する: 既存の明示的活性化関数はゼロエビデンス領域を作成し、そのような領域に落ちてくるサンプルのトレーニングからモデルが学習することを防ぐ。 我々の理論的根拠に基づく立証活性化関数のより深い分析は、この基本的な限界を効果的に緩和する新しい正規化器の設計を刺激する。 多くの挑戦的な実世界のデータセットと設定に関する広範囲な実験により、理論的な知見を確認し、提案手法の有効性を実証した。

Evidential deep learning, built upon belief theory and subjective logic, offers a principled and computationally efficient way to turn a deterministic neural network uncertainty-aware. The resultant evidential models can quantify fine-grained uncertainty using the learned evidence. To ensure theoretically sound evidential models, the evidence needs to be non-negative, which requires special activation functions for model training and inference. This constraint often leads to inferior predictive performance compared to standard softmax models, making it challenging to extend them to many large-scale datasets. To unveil the real cause of this undesired behavior, we theoretically investigate evidential models and identify a fundamental limitation that explains the inferior performance: existing evidential activation functions create zero evidence regions, which prevent the model to learn from training samples falling into such regions. A deeper analysis of evidential activation functions based on our theoretical underpinning inspires the design of a novel regularizer that effectively alleviates this fundamental limitation. Extensive experiments over many challenging real-world datasets and settings confirm our theoretical findings and demonstrate the effectiveness of our proposed approach.
翻訳日:2023-06-21 16:40:11 公開日:2023-06-19
# 公平な分類のための修正下表現と断面バイアス

Correcting Underrepresentation and Intersectional Bias for Fair Classification ( http://arxiv.org/abs/2306.11112v1 )

ライセンス: Link先を確認
Alexander Williams Tolbert and Emily Diana(参考訳) 偏見バイアスによって劣化したデータから学習することの問題点を考察し, 正の例を, 一定数のセンシティブなグループに対して異なる未知のレートでフィルタする。 非偏りの少ないデータを用いて,交叉グループのメンバシップが各交叉率を計算不能に学習する場合でも,グループ毎のドロップアウトパラメータを効率的に推定できることを示す。 このグループ毎のドロップアウト率の推定を用いて、バイアスのあるサンプルでの経験的誤差のみを観測しても、真の分布上の任意の仮説の損失を近似できる再重み付けスキームを構築する。 最後に、この学習および再重み付けプロセスをカプセル化するアルゴリズムを提案し、高い確率で、真の分布に対する仮説のリスクの推定が真のリスクに任意に近づくことを、PACスタイルの強い保証を提供する。

We consider the problem of learning from data corrupted by underrepresentation bias, where positive examples are filtered from the data at different, unknown rates for a fixed number of sensitive groups. We show that with a small amount of unbiased data, we can efficiently estimate the group-wise drop-out parameters, even in settings where intersectional group membership makes learning each intersectional rate computationally infeasible. Using this estimate for the group-wise drop-out rate, we construct a re-weighting scheme that allows us to approximate the loss of any hypothesis on the true distribution, even if we only observe the empirical error on a biased sample. Finally, we present an algorithm encapsulating this learning and re-weighting process, and we provide strong PAC-style guarantees that, with high probability, our estimate of the risk of the hypothesis over the true distribution will be arbitrarily close to the true risk.
翻訳日:2023-06-21 16:39:52 公開日:2023-06-19
# 解釈可能な主観レベル予測のための軽量因果モデル

A Lightweight Causal Model for Interpretable Subject-level Prediction ( http://arxiv.org/abs/2306.11107v1 )

ライセンス: Link先を確認
Chiara Mauri, Stefano Cerri, Oula Puonti, Mark M\"uhlau, Koen Van Leemput(参考訳) 近年,医療画像から対象者の診断などの興味の種別を予測する手法への関心が高まっている。 識別的モデリングに基づく手法は正確な予測を行うのに優れているが、解剖学的に意味のある言葉でその決定を説明する能力に挑戦される。 本稿では,本質的に解釈可能な単射予測のための簡易な手法を提案する。 これは、因果関係を符号化する古典的な人間の脳マッピング技術で使われる生成モデルを、支配的な空間相関を捉える多変量ノイズモデルで強化する。 実験により、結果のモデルを効率よく逆転して正確な主観レベルの予測を行うことができ、同時に内部動作の直感的な因果的説明を提供することを示した。 トレーニングは一般的なトレーニングセットのサイズに対して高速であり、ユーザによって設定されるのは1つのハイパーパラメータのみである。 私たちのコードはhttps://github.com/chiara-mauri/Interpretable-subject-level-predictionで利用可能です。

Recent years have seen a growing interest in methods for predicting a variable of interest, such as a subject's diagnosis, from medical images. Methods based on discriminative modeling excel at making accurate predictions, but are challenged in their ability to explain their decisions in anatomically meaningful terms. In this paper, we propose a simple technique for single-subject prediction that is inherently interpretable. It augments the generative models used in classical human brain mapping techniques, in which cause-effect relations can be encoded, with a multivariate noise model that captures dominant spatial correlations. Experiments demonstrate that the resulting model can be efficiently inverted to make accurate subject-level predictions, while at the same time offering intuitive causal explanations of its inner workings. The method is easy to use: training is fast for typical training set sizes, and only a single hyperparameter needs to be set by the user. Our code is available at https://github.com/chiara-mauri/Interpretable-subject-level-prediction.
翻訳日:2023-06-21 16:39:36 公開日:2023-06-19
# 古典的非平衡過程における非ブローチダイナミクスとトポロジー

Non-Bloch dynamics and topology in a classical non-equilibrium process ( http://arxiv.org/abs/2306.11105v1 )

ライセンス: Link先を確認
Bo Li, He-Ran Wang, Fei Song, and Zhong Wang(参考訳) 非エルミート皮膚効果は、開境界格子モデルにおける境界付近の固有状態の蓄積を指し、非ブロッホバンド理論を用いて体系的に特徴づけることができる。 ここでは、非ブロッホバンド理論を用いて、確率的反応拡散過程を非エルミート・キータエフ連鎖にマッピングする。 開境界スペクトルと一般化ブリルアンゾーンを正確に取得し、非ブロッホ位相から生じるロバストなゼロモードを同定する。 特に、量子文脈におけるエルミートとは違い、ゼロモードはマルコフ過程における異常な動的交叉をサポートする。 非ブロッホ固有状態に対するハミルトニアンのスペクトル分解による興味深い力学効果を定量的に証明し,確率シミュレーションを高精度に実施し,その検証を行った。 本研究は,非平衡ダイナミクスにおける非ブロッホトポロジーの重要かつ一般的な役割を浮き彫りにする。

The non-Hermitian skin effect refers to the accumulation of eigenstates near the boundary in open boundary lattice models, which can be systematically characterized using the non-Bloch band theory. Here, we apply the non-Bloch band theory to investigate the stochastic reaction-diffusion process by mapping it to a non-Hermitian Kitaev chain. We exactly obtain the open boundary spectrum and the generalized Brillouin zone, and identify a robust zero mode arising from the non-Bloch topology. Notably, distinct from its Hermitian counterpart in the quantum context, the zero mode supports anomalous dynamical crossover in the Markov process. We quantitatively demonstrate the intriguing dynamical effects through the spectral decomposition of the Hamiltonian on the non-Bloch eigenstates, and confirm our findings by conducting stochastic simulations with high accuracy. Our study highlights the significant and general role of non-Bloch topology in non-equilibrium dynamics.
翻訳日:2023-06-21 16:39:19 公開日:2023-06-19
# 連立交渉ゲームのためのマルコフ埋め込み

Markovian Embeddings for Coalitional Bargaining Games ( http://arxiv.org/abs/2306.11104v1 )

ライセンス: Link先を確認
Lucia Cipolina-Kun(参考訳) 連立バーゲティングゲームにおけるマルコフ的特性,特に過去の拒否された提案を繰り返すことができない場合について検討する。 そこで我々は,sates markovian を表現するためにフィルタを組み込んだマルコフ的埋め込みを提案し,確率的ゲームの枠組みに適合する。

We examine the Markovian properties of coalition bargaining games, in particular, the case where past rejected proposals cannot be repeated. We propose a Markovian embedding with filtrations to render the sates Markovian and thus, fit into the framework of stochastic games.
翻訳日:2023-06-21 16:39:02 公開日:2023-06-19
# 多目的深層学習による擬標的インプテーションによる回帰モデルの森林パラメータ予測

Forest Parameter Prediction by Multiobjective Deep Learning of Regression Models Trained with Pseudo-Target Imputation ( http://arxiv.org/abs/2306.11103v1 )

ライセンス: Link先を確認
Sara Bj\"ork, Stian N. Anfinsen, Michael Kampffmeyer, Erik N{\ae}sset, Terje Gobakken, and Lennart Noordermeer(参考訳) リモートセンシング(rs)データを用いた森林パラメータの予測では、レグレッションモデルは伝統的に小さな地上参照データのサンプルで訓練されてきた。 本稿では, 擬似ターゲットとみなす既存の RS ベースの予測マップからのデータを用いて, この真の予測対象のサンプルをインプットする。 これにより、ターゲットトレーニングデータの量を大幅に増加させ、半教師付き回帰モデリングにおけるディープラーニング(DL)の利用を活用する。 航空機搭載レーザースキャニング(als)データから構築した予測地図を用いて,センチネル-1のcバンド合成開口レーダ(sar)からの正確な疑似目標と自由データを提供する。 修正されたU-Netアーキテクチャは、異なるトレーニング目標の選択に適応する。 その結果,半教師付きインプテーション戦略は,森林モニタリングに劣るものと考えられるが,従来のalsに基づく回帰モデルを上回る結果が得られることがわかった。 これらの結果は、タンザニアの地上でのバイオマス予測とノルウェーの茎体積予測の実験と一致しており、アプローチの堅牢性を強調するパラメータや森林タイプの多様性を表している。

In prediction of forest parameters with data from remote sensing (RS), regression models have traditionally been trained on a small sample of ground reference data. This paper proposes to impute this sample of true prediction targets with data from an existing RS-based prediction map that we consider as pseudo-targets. This substantially increases the amount of target training data and leverages the use of deep learning (DL) for semi-supervised regression modelling. We use prediction maps constructed from airborne laser scanning (ALS) data to provide accurate pseudo-targets and free data from Sentinel-1's C-band synthetic aperture radar (SAR) as regressors. A modified U-Net architecture is adapted with a selection of different training objectives. We demonstrate that when a judicious combination of loss functions is used, the semi-supervised imputation strategy produces results that surpass traditional ALS-based regression models, even though \sen data are considered as inferior for forest monitoring. These results are consistent for experiments on above-ground biomass prediction in Tanzania and stem volume prediction in Norway, representing a diversity in parameters and forest types that emphasises the robustness of the approach.
翻訳日:2023-06-21 16:38:56 公開日:2023-06-19
# CAT-Walk: セットウォークによるインダクティブハイパーグラフ学習

CAT-Walk: Inductive Hypergraph Learning via Set Walks ( http://arxiv.org/abs/2306.11147v1 )

ライセンス: Link先を確認
Ali Behrouz, Farnoosh Hashemi, Sadaf Sadeghian, Margo Seltzer(参考訳) テンポラルハイパーグラフは、複雑なシステムにおける時間依存の高次相互作用をモデル化するための強力なパラダイムを提供する。 ハイパーグラフの表現学習は、ソーシャルネットワーク分析、神経科学、金融などにおける現実の問題において重要な高次相互作用のパターンを抽出するために不可欠である。 しかし、既存のメソッドは通常、特定のタスクや静的ハイパーグラフに対してのみ設計される。 本稿では,時間的ハイパーグラフに基づく時間的および構造的プロセスを管理する動的法則を学習する帰納的手法であるCAT-Walkを提案する。 CAT-Walkは、高階因果パターンを抽出するハイパーグラフの時間的、高階ウォークであるSetWalkを導入している。 CAT-Walkは、新しい適応的で置換不変なプール戦略であるSetMixerと、ハイパーエッジの同一性を隠蔽するセットベースの匿名化プロセスを使用している。 最後に,ハイパーエッジを符号化するシンプルなニューラルネットワークモデルを提案する。 CAT-Walkは, インダクティブおよびトランスダクティブの両方において, 時間的ハイパーエッジ予測ベンチマークにおいて優れた性能を発揮することを示す。 また、ノード分類のための最先端手法と競合する性能を示す。

Temporal hypergraphs provide a powerful paradigm for modeling time-dependent, higher-order interactions in complex systems. Representation learning for hypergraphs is essential for extracting patterns of the higher-order interactions that are critically important in real-world problems in social network analysis, neuroscience, finance, etc. However, existing methods are typically designed only for specific tasks or static hypergraphs. We present CAT-Walk, an inductive method that learns the underlying dynamic laws that govern the temporal and structural processes underlying a temporal hypergraph. CAT-Walk introduces a temporal, higher-order walk on hypergraphs, SetWalk, that extracts higher-order causal patterns. CAT-Walk uses a novel adaptive and permutation invariant pooling strategy, SetMixer, along with a set-based anonymization process that hides the identity of hyperedges. Finally, we present a simple yet effective neural network model to encode hyperedges. Our evaluation on 10 hypergraph benchmark datasets shows that CAT-Walk attains outstanding performance on temporal hyperedge prediction benchmarks in both inductive and transductive settings. It also shows competitive performance with state-of-the-art methods for node classification.
翻訳日:2023-06-21 16:32:48 公開日:2023-06-19
# 気候下降深層学習モデルにおける損失関数と学習データの事前処理の評価

Evaluating Loss Functions and Learning Data Pre-Processing for Climate Downscaling Deep Learning Models ( http://arxiv.org/abs/2306.11144v1 )

ライセンス: Link先を確認
Xingying Huang(参考訳) 深層学習モデルは、コンピュータビジョンやその他の領域での成功に続いて、気候科学で人気を集めている。 例えば、研究者たちは、画像の超解像モデルからインスピレーションを得て、気候データをダウンスケールする深層学習技術を活用している。 しかし、画像データと気候データには顕著な違いがある。 画像データは、通常、特定の範囲(例えば[0, 255])に該当し、比較的均一または正常な分布を示すが、気候データは、降水データのような任意の値範囲と高度に不均一な分布を保持することができる。 この一様分布は、既存のコンピュータビジョンモデルを気候科学のタスクに直接適用しようとする際の課題である。 これまでにこの問題に対処した研究はほとんどない。 本研究では,気候ダウンスケーリングの文脈における深層学習モデルに対する損失関数と非線形データ前処理手法の効果について検討する。 これらの要因を評価する例として,気候下降実験を用いる。 その結果,L1の損失やL2の損失は,降水データのような不均衡なデータではL1の損失よりも有意に優れていることがわかった。 さらに,非線形前処理関数を自動的に学習する手法を提案する。

Deep learning models have gained popularity in climate science, following their success in computer vision and other domains. For instance, researchers are increasingly employing deep learning techniques for downscaling climate data, drawing inspiration from image super-resolution models. However, there are notable differences between image data and climate data. While image data typically falls within a specific range (e.g., [0, 255]) and exhibits a relatively uniform or normal distribution, climate data can possess arbitrary value ranges and highly uneven distributions, such as precipitation data. This non-uniform distribution presents challenges when attempting to directly apply existing computer vision models to climate science tasks. Few studies have addressed this issue thus far. In this study, we explore the effects of loss functions and non-linear data pre-processing methods for deep learning models in the context of climate downscaling. We employ a climate downscaling experiment as an example to evaluate these factors. Our findings reveal that L1 loss and L2 loss perform similarly on some more balanced data like temperature data while for some imbalanced data like precipitation data, L2 loss performs significantly better than L1 loss. Additionally, we propose an approach to automatically learn the non-linear pre-processing function, which further enhances model accuracy and achieves the best results.
翻訳日:2023-06-21 16:32:30 公開日:2023-06-19
# 非線形特徴集合:理論による2つのアルゴリズム

Nonlinear Feature Aggregation: Two Algorithms driven by Theory ( http://arxiv.org/abs/2306.11143v1 )

ライセンス: Link先を確認
Paolo Bonetti, Alberto Maria Metelli, Marcello Restelli(参考訳) 多くの現実世界の機械学習アプリケーションは、膨大な機能によって特徴づけられ、計算とメモリの問題と過剰に適合するリスクに繋がる。 理想的には、元のデータの完全な情報を保存し、次元を制限できるのは、適切で冗長でない特徴だけである。 次元の低減と特徴選択は、高次元データを効率的に扱うという課題に対処する一般的な前処理技術である。 次元性低減法は,その構造を維持しつつ,情報損失を最小限に抑えながら,データセットの特徴数を制御する。 機能選択はタスクの最も関連する機能を特定し、より情報に乏しい機能を捨てることを目的としている。 以前の研究では、それらを破棄することなく、その相関に依存する特徴を集約し、平均とアグリゲーションを通じてそれらの解釈可能性を維持するアプローチを提案している。 相関に基づく方法の限界は、特徴と対象の関係における線形性の仮定である。 本稿では,このような仮定を2つの方法で緩和する。 まず,加法ガウス雑音を持つ一般モデルに対するバイアス分散解析を行い,一般集約関数を用いて特徴量の非線形変換を集約する次元減少アルゴリズム(NonLinCFA)を提案する。 そして,一般化線形モデルが特徴と対象の関係を制御していると仮定して,アプローチを拡張した。 逸脱解析は、より広いクラスの回帰問題や分類設定に適用可能な第2次元縮小アルゴリズム(genlincfa)へと導かれる。 最後に、アルゴリズムを合成および実世界のデータセット上でテストし、回帰および分類タスクを実行し、競合性能を示す。

Many real-world machine learning applications are characterized by a huge number of features, leading to computational and memory issues, as well as the risk of overfitting. Ideally, only relevant and non-redundant features should be considered to preserve the complete information of the original data and limit the dimensionality. Dimensionality reduction and feature selection are common preprocessing techniques addressing the challenge of efficiently dealing with high-dimensional data. Dimensionality reduction methods control the number of features in the dataset while preserving its structure and minimizing information loss. Feature selection aims to identify the most relevant features for a task, discarding the less informative ones. Previous works have proposed approaches that aggregate features depending on their correlation without discarding any of them and preserving their interpretability through aggregation with the mean. A limitation of methods based on correlation is the assumption of linearity in the relationship between features and target. In this paper, we relax such an assumption in two ways. First, we propose a bias-variance analysis for general models with additive Gaussian noise, leading to a dimensionality reduction algorithm (NonLinCFA) which aggregates non-linear transformations of features with a generic aggregation function. Then, we extend the approach assuming that a generalized linear model regulates the relationship between features and target. A deviance analysis leads to a second dimensionality reduction algorithm (GenLinCFA), applicable to a larger class of regression problems and classification settings. Finally, we test the algorithms on synthetic and real-world datasets, performing regression and classification tasks, showing competitive performances.
翻訳日:2023-06-21 16:32:06 公開日:2023-06-19
# 内視鏡画像マッチングのためのグラフ自己監督学習

Graph Self-Supervised Learning for Endoscopic Image Matching ( http://arxiv.org/abs/2306.11141v1 )

ライセンス: Link先を確認
Manel Farhat and Achraf Ben-Hamadou(参考訳) 内視鏡画像における正確な特徴マッチングと対応は、患者追跡やパノラマ画像生成による迅速な局所化など、様々な臨床応用において重要な役割を担っている。 しかし, 識別的テクスチャの欠如や患者間の有意な変動が原因で, 堅牢で正確な特徴マッチング技術の開発は課題に直面している。 これらの制約に対処するために,畳み込みニューラルネットワークと注意に基づくグラフニューラルネットワークを組み合わせて,キーポイント間の空間関係をモデル化する新しい自己教師付きアプローチを提案する。 当社のアプローチは,ラベル付きデータを必要とせずに,完全に自己監視されたスキームでトレーニングされる。 本手法は,最先端の手工法と深層学習法より優れ,精度(1)とマッチングスコア(99.3%)で優れた性能を示す。 また,本研究に関連するコードや資料もhttps://github.com/abenhamadou/graph-self-supervised-learning-for-endoscopic-image-matchingで公開しています。

Accurate feature matching and correspondence in endoscopic images play a crucial role in various clinical applications, including patient follow-up and rapid anomaly localization through panoramic image generation. However, developing robust and accurate feature matching techniques faces challenges due to the lack of discriminative texture and significant variability between patients. To address these limitations, we propose a novel self-supervised approach that combines Convolutional Neural Networks for capturing local visual appearance and attention-based Graph Neural Networks for modeling spatial relationships between key-points. Our approach is trained in a fully self-supervised scheme without the need for labeled data. Our approach outperforms state-of-the-art handcrafted and deep learning-based methods, demonstrating exceptional performance in terms of precision rate (1) and matching score (99.3%). We also provide code and materials related to this work, which can be accessed at https://github.com/abenhamadou/graph-self-supervised-learning-for-endoscopic-image-matching.
翻訳日:2023-06-21 16:31:42 公開日:2023-06-19
# マルチパラメトリック磁気共鳴イメージングによる頸部癌の分節拡大のための多頭部拡張エンコーダを用いた深層学習フレームワーク

Deep Learning Framework with Multi-Head Dilated Encoders for Enhanced Segmentation of Cervical Cancer on Multiparametric Magnetic Resonance Imaging ( http://arxiv.org/abs/2306.11137v1 )

ライセンス: Link先を確認
Reza Kalantar, Sebastian Curcean, Jessica M Winfield, Gigin Lin, Christina Messiou, Matthew D Blackledge and Dow-Mu Koh(参考訳) T2強調核磁気共鳴画像(MRI)と拡散強調画像(DWI)は頸部がん診断に欠かせない要素である。 しかし、これらのチャネルを組み合わせて深層学習モデルを訓練することは、画像の不整合のため困難である。 本稿では,拡張畳み込みと共有残差接続を多パラメータMRI画像の分離符号化に用いる新しいマルチヘッドフレームワークを提案する。 本研究は,u-netモデルをベースラインとし,マルチパラメトリック入力チャネルと特徴エンコーディング構成に基づく腫瘍セグメンテーション性能を評価するための一連のアーキテクチャ実験を行う。 局所進行子宮頸癌207例を含むコホートを用いてすべての実験を行った。 t2w mri用拡張符号化とb1000dwiと視拡散係数(adc)画像の組み合わせを用いたマルチヘッドモデルにより,従来のマルチチャネルモデルであるdsc 0.788 (95% ci, 0.568-0.776) を上回っていたが,dscスコア(0.823 (95%信頼区間 (ci), 0.595-0.797) は統計的に有意ではなかった(p>0.05)。 3次元GRAD-CAMとチャネルドロップアウトを用いてチャネル感度を測定し,T2WおよびADCチャネルの正確な腫瘍分画の重要性を強調した。 しかし, この結果から, b1000 DWIは全体のセグメンテーション性能に小さな影響を与えていることがわかった。 分離した拡張特徴抽出器と独立した文脈学習を用いることで,dwiの境界効果と歪みを低減できるモデルの能力が向上し,セグメンテーション性能が向上した。 我々の発見は、他のマルチモーダルセグメンテーションアプリケーションにも拡張可能な堅牢で一般化可能なモデルの開発に大きな影響を与える可能性がある。

T2-weighted magnetic resonance imaging (MRI) and diffusion-weighted imaging (DWI) are essential components for cervical cancer diagnosis. However, combining these channels for training deep learning models are challenging due to misalignment of images. Here, we propose a novel multi-head framework that uses dilated convolutions and shared residual connections for separate encoding of multiparametric MRI images. We employ a residual U-Net model as a baseline, and perform a series of architectural experiments to evaluate the tumor segmentation performance based on multiparametric input channels and feature encoding configurations. All experiments were performed using a cohort including 207 patients with locally advanced cervical cancer. Our proposed multi-head model using separate dilated encoding for T2W MRI, and combined b1000 DWI and apparent diffusion coefficient (ADC) images achieved the best median Dice coefficient similarity (DSC) score, 0.823 (95% confidence interval (CI), 0.595-0.797), outperforming the conventional multi-channel model, DSC 0.788 (95% CI, 0.568-0.776), although the difference was not statistically significant (p>0.05). We investigated channel sensitivity using 3D GRAD-CAM and channel dropout, and highlighted the critical importance of T2W and ADC channels for accurate tumor segmentations. However, our results showed that b1000 DWI had a minor impact on overall segmentation performance. We demonstrated that the use of separate dilated feature extractors and independent contextual learning improved the model's ability to reduce the boundary effects and distortion of DWI, leading to improved segmentation performance. Our findings can have significant implications for the development of robust and generalizable models that can extend to other multi-modal segmentation applications.
翻訳日:2023-06-21 16:31:25 公開日:2023-06-19
# 相対論的光-物質相互作用のためのチェーンマッピング法

Chain-mapping methods for relativistic light-matter interactions ( http://arxiv.org/abs/2306.11136v1 )

ライセンス: Link先を確認
Robert H. Jonsson, Johannes Kn\"orzer(参考訳) 局所的なエミッターと量子場の相互作用は相対論的設定と超強結合の場合の両方において、回転波近似を超える非摂動的方法を必要とする。 本研究では,局所エミッタとスカラー量子場との相互作用を数値的に正確に処理するためにチェーンマッピング法を用いる。 我々はこれらの手法の適用範囲をエミッタオブザーバブルを超えて拡張し、フィールドオブザーバブルの研究に適用する。 まず,連鎖マッピング法の概要と物理的解釈について述べ,熱場状態と結合した系の熱二重構造について論じる。 エミッタをunruh-dewitt粒子検出器としてモデル化し、磁場に強く結合した検出器から放出されるエネルギー密度を計算する。 アプローチのポテンシャルを刺激する実験として、Unruh効果における加速検出器から放射される放射を計算し、熱二重構造と密接に関連している。 本手法の展望と課題についてコメントする。

The interaction between localized emitters and quantum fields, both in relativistic settings and in the case of ultra-strong couplings, requires non-perturbative methods beyond the rotating-wave approximation. In this work we employ chain-mapping methods to achieve a numerically exact treatment of the interaction between a localized emitter and a scalar quantum field. We extend the application range of these methods beyond emitter observables and apply them to study field observables. We first provide an overview of chain-mapping methods and their physical interpretation, and discuss the thermal double construction for systems coupled to thermal field states. Modelling the emitter as an Unruh-DeWitt particle detector, we then calculate the energy density emitted by a detector coupling strongly to the field. As a stimulating demonstration of the approach's potential, we calculate the radiation emitted from an accelerated detector in the Unruh effect, which is closely related to the thermal double construction as we discuss. We comment on prospects and challenges of the method.
翻訳日:2023-06-21 16:30:26 公開日:2023-06-19
# OTN AIベースのソリューションに向けたモジュールシミュレーション環境

Modular Simulation Environment Towards OTN AI-based Solutions ( http://arxiv.org/abs/2306.11135v1 )

ライセンス: Link先を確認
Sam Aleyadeh, Abbas Javadtalab, Abdallah Shami(参考訳) 高度にダイナミックで仮想化されたネットワークインフラストラクチャの現在のトレンドは、自動化ネットワークを重要な要件にした。 機械学習MLベースのソリューションを含む、この問題に対処する複数のソリューションが提案されている。 しかし、次世代ネットワークを開発する際の大きなハードルは、特に5G以降の大規模データセットと光輸送ネットワーク(OTN)トラフィックの可用性である。 この必要性により、研究者は、サプライヤに応じてサブスクリプションベースの製品や専用ハードウェアを購入する必要のある、非常に構成可能な実生活シナリオで必要なボリュームを生成するために、実行可能なシミュレーション環境を探さなければならなかった。 我々は,ユーザの利用可能なリソースに適応するモジュール型ソリューションを提案することで,高ボリュームかつ忠実なデータセットを生成することでこの問題に対処することを目指している。 これらのデータセットは、高い精度と実際のネットワークトラフィックへの適応をもたらす、改良されたmlソリューションの開発に使用できる。

The current trend for highly dynamic and virtualized networking infrastructure made automated networking a critical requirement. Multiple solutions have been proposed to address this, including the most sought-after machine learning ML-based solutions. However, the main hurdle when developing Next Generation Network is the availability of large datasets, especially in 5G and beyond and Optical Transport Networking (OTN) traffic. This need led researchers to look for viable simulation environments to generate the necessary volume with highly configurable real-life scenarios, which can be costly in setup and require subscription-based products and even the purchase of dedicated hardware, depending on the supplier. We aim to address this issue by generating high-volume and fidelity datasets by proposing a modular solution to adapt to the user's available resources. These datasets can be used to develop better-aforementioned ML solutions resulting in higher accuracy and adaptation to real-life networking traffic.
翻訳日:2023-06-21 16:29:42 公開日:2023-06-19
# グラフニューラルネットワークのためのフェアネス対応メッセージパッシング

Fairness-aware Message Passing for Graph Neural Networks ( http://arxiv.org/abs/2306.11132v1 )

ライセンス: Link先を確認
Huaisheng Zhu, Guoji Fu, Zhimeng Guo, Zhiwei Zhang, Teng Xiao, Suhang Wang(参考訳) グラフニューラルネットワーク(GNN)は、様々な領域で大きな力を示している。 しかし、それらの予測はセンシティブな属性に対する社会的バイアスを継承し、現実のアプリケーションでの採用を制限する可能性がある。 公正なgnnには多くの努力がなされているが、既存の作品の多くは機械学習で広く使われているフェアネス技術を採用してドメインをグラフ化し、フェアネス制約のあるメッセージパッシングメカニズムを完全に理解していないか無視している。 このギャップを埋めるために,グラフの滑らかさと表現の公平性を考慮した最適化問題から導出した,新しいフェアネス認識型メッセージパッシングフレームワークgmmdを提案する。 gmmdは、ノードが異なるセンシティブなグループから他のノードの表現を集約し、同じセンシティブなグループから他のノードの表現を減算するように促すと直感的に解釈できる。 また、GMMDが公正性を保証することを正当化する理論解析を行い、よりシンプルで理論に導かれたGMMD-Sを導出する。 グラフベンチマークの大規模な実験により,提案するフレームワークは,高い精度を維持しつつ,様々なバックボーンGNNモデルの公平性を著しく向上できることが示された。

Graph Neural Networks (GNNs) have shown great power in various domains. However, their predictions may inherit societal biases on sensitive attributes, limiting their adoption in real-world applications. Although many efforts have been taken for fair GNNs, most existing works just adopt widely used fairness techniques in machine learning to graph domains and ignore or don't have a thorough understanding of the message passing mechanism with fairness constraints, which is a distinctive feature of GNNs. To fill the gap, we propose a novel fairness-aware message passing framework GMMD, which is derived from an optimization problem that considers both graph smoothness and representation fairness. GMMD can be intuitively interpreted as encouraging a node to aggregate representations of other nodes from different sensitive groups while subtracting representations of other nodes from the same sensitive group, resulting in fair representations. We also provide a theoretical analysis to justify that GMMD can guarantee fairness, which leads to a simpler and theory-guided variant GMMD-S. Extensive experiments on graph benchmarks show that our proposed framework can significantly improve the fairness of various backbone GNN models while maintaining high accuracy.
翻訳日:2023-06-21 16:29:13 公開日:2023-06-19
# CAMMARL:マルチエージェント強化学習におけるコンフォーマルアクションモデリング

CAMMARL: Conformal Action Modeling in Multi Agent Reinforcement Learning ( http://arxiv.org/abs/2306.11128v1 )

ライセンス: Link先を確認
Nikunj Gupta and Samira Ebrahimi Kahou(参考訳) 複数の知的エージェントを持つ環境で行動を起こす前に、自律エージェントは、他のエージェントについて推論し、システムの振る舞いに対する保証や信頼の概念を活用することで恩恵を受けることができる。 本稿では,マルチエージェント強化学習 (marl) アルゴリズムであるcammarlを提案する。 そして、これらの見積もりを使ってエージェントの意思決定を知らせます。 そのような集合を推定するために、共形予測の概念を用い、その方法により、最も可能な結果の見積もりを得るだけでなく、操作可能な不確実性も定量化する。 例えば、確率の高い真の予測(95%など)を確実にカバーする集合を予測できる。 2つの完全協調型マルチエージェントタスクにおけるいくつかの実験を通して、CAMMARLは、環境中の他のエージェントの挙動に関する共形予測セットをモデル化し、その推定値を利用して、MARLにおける自律エージェントの能力を高めることを示した。 すべての開発コードについては、https://github.com/Nikunj-Gupta/conformal-agent-modellingを参照してください。

Before taking actions in an environment with more than one intelligent agent, an autonomous agent may benefit from reasoning about the other agents and utilizing a notion of a guarantee or confidence about the behavior of the system. In this article, we propose a novel multi-agent reinforcement learning (MARL) algorithm CAMMARL, which involves modeling the actions of other agents in different situations in the form of confident sets, i.e., sets containing their true actions with a high probability. We then use these estimates to inform an agent's decision-making. For estimating such sets, we use the concept of conformal predictions, by means of which, we not only obtain an estimate of the most probable outcome but get to quantify the operable uncertainty as well. For instance, we can predict a set that provably covers the true predictions with high probabilities (e.g., 95%). Through several experiments in two fully cooperative multi-agent tasks, we show that CAMMARL elevates the capabilities of an autonomous agent in MARL by modeling conformal prediction sets over the behavior of other agents in the environment and utilizing such estimates to enhance its policy learning. All developed codes can be found here: https://github.com/Nikunj-Gupta/conformal-agent-modelling.
翻訳日:2023-06-21 16:28:49 公開日:2023-06-19
# 拡散強調MRIによる骨格筋微細構造の加速、物理刺激による推測

Accelerated, physics-inspired inference of skeletal muscle microstructure from diffusion-weighted MRI ( http://arxiv.org/abs/2306.11125v1 )

ライセンス: Link先を確認
Noel Naughton, Stacey Cahoon, Brad Sutton, and John G. Georgiadis(参考訳) 筋の健康は全体の健康と生活の質にとって重要な要素である。 しかし、現在の骨格筋の健康対策は、筋肉機能の仲介に重要な役割を果たす筋肉の微細構造の変化を限定的に考慮している。 そこで本研究では,拡散強調MRI(dMRI)を用いた骨格筋の非侵襲的および生体内組織推定のための,物理に着想を得た機械学習ベースのフレームワークを提案する。 dmri物理の直接数値シミュレーションに伴う計算コストを低減するため、高忠実度数値モデルの入出力関係を正確に表現する多項式メタモデルを開発した。 このメタモデルは、骨格筋の組織構造のボクセルワイズ推定と信頼区間を提供するガウス過程(gp)モデルの開発に使用される。 ノイズのないデータを考えると、GPモデルは正確にミクロ構造パラメータを推定する。 ノイズの存在下では, 粒径, 細胞内拡散係数, 膜透過率を細かな信頼区間で正確に推定し, 体積率, 細胞外拡散係数を低く推定し, 広い信頼区間を示す。 拡散符号化測定の3分の1からなる減算GPモデルは、元のモデルと同じような精度でパラメータを予測する。 縮小GPモデルにより推定される繊維径と体積率を組織学的に検証し、両者のパラメータを関連信頼区間内に配置し、骨格筋の健康と機能を評価するための有望な非侵襲的ツールとしての枠組みの有効性を示す。

Muscle health is a critical component of overall health and quality of life. However, current measures of skeletal muscle health take limited account of microstructural variations within muscle, which play a crucial role in mediating muscle function. To address this, we present a physics-inspired, machine learning-based framework for the non-invasive and in vivo estimation of microstructural organization in skeletal muscle from diffusion-weighted MRI (dMRI). To reduce the computational expense associated with direct numerical simulations of dMRI physics, a polynomial meta-model is developed that accurately represents the input/output relationships of a high-fidelity numerical model. This meta-model is used to develop a Gaussian process (GP) model to provide voxel-wise estimates and confidence intervals of microstructure organization in skeletal muscle. Given noise-free data, the GP model accurately estimates microstructural parameters. In the presence of noise, the diameter, intracellular diffusion coefficient, and membrane permeability are accurately estimated with narrow confidence intervals, while volume fraction and extracellular diffusion coefficient are poorly estimated and exhibit wide confidence intervals. A reduced-acquisition GP model, consisting of one-third the diffusion-encoding measurements, is shown to predict parameters with similar accuracy to the original model. The fiber diameter and volume fraction estimated by the reduced GP model is validated via histology, with both parameters within their associated confidence intervals, demonstrating the capability of the proposed framework as a promising non-invasive tool for assessing skeletal muscle health and function.
翻訳日:2023-06-21 16:28:28 公開日:2023-06-19
# GD-VDM:より良い拡散型ビデオ生成のための深度生成

GD-VDM: Generated Depth for better Diffusion-based Video Generation ( http://arxiv.org/abs/2306.11173v1 )

ライセンス: Link先を確認
Ariel Lapid, Idan Achituve, Lior Bracha, Ethan Fetaya(参考訳) 生成モデルの分野は、画像生成において顕著な性能を示す拡散モデルによって、最近大きく進歩している。 この成功を踏まえて、他のモダリティへの拡散モデルの適用を探求することへの関心が高まっている。 そのような課題の1つは、複雑なシーンのコヒーレントなビデオを生成することである。 本稿では,ビデオ生成のための新しい拡散モデルであるgd-vdmを提案する。 GD-VDMは、深度ビデオの生成と、コヒーレントな現実世界のビデオを生成する新しい拡散Vid2Vidモデルを含む2相生成プロセスに基づいている。 また,GD-VDMをCityscapesデータセット上で評価した結果,自然ベースラインよりも多様で複雑なシーンが生成され,アプローチの有効性が示された。

The field of generative models has recently witnessed significant progress, with diffusion models showing remarkable performance in image generation. In light of this success, there is a growing interest in exploring the application of diffusion models to other modalities. One such challenge is the generation of coherent videos of complex scenes, which poses several technical difficulties, such as capturing temporal dependencies and generating long, high-resolution videos. This paper proposes GD-VDM, a novel diffusion model for video generation, demonstrating promising results. GD-VDM is based on a two-phase generation process involving generating depth videos followed by a novel diffusion Vid2Vid model that generates a coherent real-world video. We evaluated GD-VDM on the Cityscapes dataset and found that it generates more diverse and complex scenes compared to natural baselines, demonstrating the efficacy of our approach.
翻訳日:2023-06-21 16:22:53 公開日:2023-06-19
# 多パラメータ持続ホモロジー分解の高速かつ安定表現のためのフレームワーク

A Framework for Fast and Stable Representations of Multiparameter Persistent Homology Decompositions ( http://arxiv.org/abs/2306.11170v1 )

ライセンス: Link先を確認
David Loiseaux, Mathieu Carri\`ere, Andrew J. Blumberg(参考訳) トポロジカルデータ分析(TDA)は、代数的トポロジの不変量を用いて、点雲のような幾何学的データセットのための多スケール形状記述子を提供するデータ科学の分野である。 そのような記述子のうち最も重要なものの一つが「em persistent homology」であり、これは濾過パラメータの変化として形状の変化をエンコードする。 多くのデータセットでは、機能スケールや密度など、複数のフィルタリングパラメータを同時に変更することが有用である。 単一パラメータ持続ホモロジーの理論的性質はよく理解されているが、マルチパラメータの場合についてはあまり知られていない。 特に中心的な問題は、標準的な機械学習アルゴリズムと統合するためのベクトル空間の要素によるマルチパラメータ永続ホモロジーの表現の問題である。 この問題に対する既存のアプローチは、マルチパラメータ情報のほとんどを無視して1パラメータのケースに還元するか、あるいはノイズに直面してヒューリスティックで潜在的に不安定である。 本稿では,マルチパラメータ持続ホモロジーの「em分解」に関する最近の結果を活用する新しい汎用表現フレームワークを提案する。 このフレームワークは情報に富み、計算が速く、以前のアプローチを包含している。 さらに,本フレームワークの理論的安定性の保証と,実用的な計算のための効率的なアルゴリズムを確立し,幾何学的および点クラウドデータを解析するための応用的で汎用的なツールとした。 いくつかの実データに対して,統計的収束,予測精度,高速実行時間を示す数値実験により,安定性とアルゴリズムの検証を行った。

Topological data analysis (TDA) is an area of data science that focuses on using invariants from algebraic topology to provide multiscale shape descriptors for geometric data sets such as point clouds. One of the most important such descriptors is {\em persistent homology}, which encodes the change in shape as a filtration parameter changes; a typical parameter is the feature scale. For many data sets, it is useful to simultaneously vary multiple filtration parameters, for example feature scale and density. While the theoretical properties of single parameter persistent homology are well understood, less is known about the multiparameter case. In particular, a central question is the problem of representing multiparameter persistent homology by elements of a vector space for integration with standard machine learning algorithms. Existing approaches to this problem either ignore most of the multiparameter information to reduce to the one-parameter case or are heuristic and potentially unstable in the face of noise. In this article, we introduce a new general representation framework that leverages recent results on {\em decompositions} of multiparameter persistent homology. This framework is rich in information, fast to compute, and encompasses previous approaches. Moreover, we establish theoretical stability guarantees under this framework as well as efficient algorithms for practical computation, making this framework an applicable and versatile tool for analyzing geometric and point cloud data. We validate our stability results and algorithms with numerical experiments that demonstrate statistical convergence, prediction accuracy, and fast running times on several real data sets.
翻訳日:2023-06-21 16:22:38 公開日:2023-06-19
# 部分観測可能性下における対立エージェント行動の学習モデル

Learning Models of Adversarial Agent Behavior under Partial Observability ( http://arxiv.org/abs/2306.11168v1 )

ライセンス: Link先を確認
Sean Ye, Manisha Natarajan, Zixuan Wu, Rohan Paleja, Letian Chen, and Matthew C. Gombolay(参考訳) 対戦相手のモデリングと追跡の必要性は、プロスポーツ、ビデオゲームデザイン、ドラッグ・トラフィック・インターディクションなど、現実のいくつかのシナリオで生じる。 本稿では、相手エージェントの動作をモデル化するためのgraPh neurAl Network aDvErsarial MOdeliNg wUtual informMationを提案する。 pandemoniumは新たなグラフニューラルネットワーク(gnn)ベースのアプローチであり、相互情報最大化を補助目的として、部分可観測性を持つ敵の現在と将来の状態を予測している。 パンデモニウムの評価には、異種エージェントのチームが単一の敵エージェントを追跡・妨害し、敵エージェントは自身の目的を達成しながら検出を回避しなければならないという現実シナリオに触発された2つの大規模追跡回避ドメインを設計する。 相互情報の定式化により、PANDEMONiumは両ドメインの全てのベースラインを上回り、両ドメイン間の将来の敵対状態予測のために平均して31.68%高いログライクな状態を達成する。

The need for opponent modeling and tracking arises in several real-world scenarios, such as professional sports, video game design, and drug-trafficking interdiction. In this work, we present graPh neurAl Network aDvErsarial MOdeliNg wIth mUtual informMation for modeling the behavior of an adversarial opponent agent. PANDEMONIUM is a novel graph neural network (GNN) based approach that uses mutual information maximization as an auxiliary objective to predict the current and future states of an adversarial opponent with partial observability. To evaluate PANDEMONIUM, we design two large-scale, pursuit-evasion domains inspired by real-world scenarios, where a team of heterogeneous agents is tasked with tracking and interdicting a single adversarial agent, and the adversarial agent must evade detection while achieving its own objectives. With the mutual information formulation, PANDEMONIUM outperforms all baselines in both domains and achieves 31.68% higher log-likelihood on average for future adversarial state predictions across both domains.
翻訳日:2023-06-21 16:22:12 公開日:2023-06-19
# 大規模言語モデルはred herringsによって固定される: 唯一のconnect wallデータセットを用いた創造的問題解決とeinstellung効果の探求

Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving and Einstellung Effect using the Only Connect Wall Dataset ( http://arxiv.org/abs/2306.11167v1 )

ライセンス: Link先を確認
Saeid Naeini, Raeid Saqur, Mozhgan Saeidi, John Giorgi and Babak Taati(参考訳) 人間の模倣AIの探求は、その誕生以来、AI研究において永続的な話題となっている。 大規模言語モデル(llm)の最新コホートの技術的進化と新しい能力は、学界を超えて文化的な風刺家へと主題を復活させた。 最近のnlp評価ベンチマークタスクは、人間の模倣行動のいくつかの側面(例えば、big-benchの"human-like behavior"タスク)をテストするが、創造的な問題解決能力を調べることは少ない。 人間の創造的問題解決は認知神経科学においてよく研究されているトピックであり、主に創造性の指標として手がかり語間の(ヘテロジェンスな)接続を関連付ける能力を使用する標準化されたテストがある。 誤解を招く刺激(レッド・ハーリングと呼ばれる邪魔者)への露出は、固定効果やアインシュタインパラダイムを通じて人間のパフォーマンスを阻害する。 認知神経科学研究において、そのような固定は実験参加者によって実験的に誘導される。 イギリスの人気クイズ番組「Not only Connect's Connecting Wall segment」は、基本的にはメドニックのリモートアソシエイツテスト(RAT)の定式化を、組み込みの故意のレッドハーリングで模倣している。 また,本論文では,選択された事前学習言語モデルとllm(openai の gpt シリーズを含む)を用いて,異種接続によるヒント語のグループ化や,各グループにおける正しいオープン知識ドメイン接続の同定といった創造的問題解決課題について評価した。 データセットのコードとリンクはhttps://github.com/TaatiTeam/OCW.comで公開されている。

The quest for human imitative AI has been an enduring topic in AI research since its inception. The technical evolution and emerging capabilities of the latest cohort of large language models (LLMs) have reinvigorated the subject beyond academia to the cultural zeitgeist. While recent NLP evaluation benchmark tasks test some aspects of human-imitative behaviour (e.g., BIG-bench's 'human-like behavior' tasks), few, if not none, examine creative problem solving abilities. Creative problem solving in humans is a well-studied topic in cognitive neuroscience with standardized tests that predominantly use the ability to associate (heterogeneous) connections among clue words as a metric for creativity. Exposure to misleading stimuli - distractors dubbed red herrings - impede human performance in such tasks via the fixation effect and Einstellung paradigm. In cognitive neuroscience studies, such fixations are experimentally induced by pre-exposing participants to orthographically similar incorrect words to subsequent word-fragments or clues. The popular British quiz show Only Connect's Connecting Wall segment essentially mimics Mednick's Remote Associates Test (RAT) formulation with built-in, deliberate red herrings, which makes it an ideal proxy dataset to explore and study fixation effect and Einstellung paradigm from cognitive neuroscience in LLMs. In addition to presenting the novel Only Connect Wall (OCW) dataset, we also report results from our evaluation of selected pre-trained language models and LLMs (including OpenAI's GPT series) on creative problem solving tasks like grouping clue words by heterogeneous connections, and identifying correct open knowledge domain connections in respective groups. The code and link to the dataset are available at https://github.com/TaatiTeam/OCW.
翻訳日:2023-06-21 16:21:53 公開日:2023-06-19
# ニューロシンボリック二方向翻訳-気候変動点研究のためのディープラーニング説明可能性

Neuro-Symbolic Bi-Directional Translation -- Deep Learning Explainability for Climate Tipping Point Research ( http://arxiv.org/abs/2306.11161v1 )

ライセンス: Link先を確認
Chace Ashcraft, Jennifer Sleeman, Caroline Tang, Jay Brett, Anand Gnanadesikan(参考訳) 近年,気候・気象モデルにおける深層学習の利用が増加している。 結果は印象的だが、ディープラーニングモデルの説明可能性と解釈可能性は依然として課題である。 論理と推論を含む第3の人工知能(AI)は、これらの問題に対処する方法として説明されている。 ニューロシンボリックAIは、ロジックと推論とディープラーニングの統合の鍵となるコンポーネントである。 本研究では,ニューロシンボリック質問応答プログラムトランスレータ(NS-QAPT)と呼ばれるニューロシンボリックアプローチを提案する。 NS-QAPT法は、気候科学者と深層学習モデルの間のブリッジとして機能し、ドメイン固有の質問と気候シミュレーションを指示する実行可能なプログラムを変換する双方向エンコーダデコーダアーキテクチャを含む。 本稿では,この翻訳手法の早期に説得力のある結果を示し,一般に知られている転換点(Atlantic Meridional Overturning Circulation,AMOC)に対するドメイン固有言語と関連する実行プログラムを導入する。

In recent years, there has been an increase in using deep learning for climate and weather modeling. Though results have been impressive, explainability and interpretability of deep learning models are still a challenge. A third wave of Artificial Intelligence (AI), which includes logic and reasoning, has been described as a way to address these issues. Neuro-symbolic AI is a key component of this integration of logic and reasoning with deep learning. In this work we propose a neuro-symbolic approach called Neuro-Symbolic Question-Answer Program Translator, or NS-QAPT, to address explainability and interpretability for deep learning climate simulation, applied to climate tipping point discovery. The NS-QAPT method includes a bidirectional encoder-decoder architecture that translates between domain-specific questions and executable programs used to direct the climate simulation, acting as a bridge between climate scientists and deep learning models. We show early compelling results of this translation method and introduce a domain-specific language and associated executable programs for a commonly known tipping point, the collapse of the Atlantic Meridional Overturning Circulation (AMOC).
翻訳日:2023-06-21 16:21:18 公開日:2023-06-19
# マヨナおよびディラックフェルミオンのブラウンSYKモデルのフレームポテンシャル

Frame potential of Brownian SYK model of Majorana and Dirac fermions ( http://arxiv.org/abs/2306.11160v1 )

ライセンス: Link先を確認
Anastasiia Tiutiakina, Andrea De Luca, Jacopo De Nardis(参考訳) ブラウンSYK、すなわち、$N$Majorana (Dirac) フェルミオンの系は、ホワイトノイズ$q$ボディ相互作用項を持つと考える。 我々は、モデルの2つの独立した実現間の重なりのモーメントによって与えられる、スクランブルとカオスの尺度であるフレームポテンシャルのダイナミクスに焦点を当てる。 ケルディシュ経路積分形式(英語版)を用いて、その初期および後期値を計算する。 遅延時間経路積分サドル点が、$q>2$の場合、ハールフレームポテンシャルの値に飽和を正しく再現することを示す。 反対に、$q=2$ に対して、このモデルは二次的であり、一貫してガウス状態の制限空間(ガウスハール)におけるハール値の飽和を観測する。 後者は、ケルディシュ・サドル点のゴールドストーンモードをカウントすることで正確に捕捉するシステムサイズ補正によって特徴づけられる。

We consider the Brownian SYK, i.e. a system of $N$ Majorana (Dirac) fermions with a white-noise $q$-body interaction term. We focus on the dynamics of the Frame potentials, a measure of the scrambling and chaos, given by the moments of the overlap between two independent realisations of the model. By means of a Keldysh path-integral formalism, we compute its early and late-time value. We show that, for $q>2$, the late time path integral saddle point correctly reproduces the saturation to the value of the Haar frame potential. On the contrary, for $q=2$, the model is quadratic and consistently we observe saturation to the Haar value in the restricted space of Gaussian states (gaussian Haar). The latter is characterised by larger system size corrections that we correctly capture by counting the Goldstone modes of the Keldysh saddle point.
翻訳日:2023-06-21 16:20:55 公開日:2023-06-19
# GOES-16とCloudSatのデータを用いたラベル付きクラウドタイプのデータセット

A labeled dataset of cloud types using data from GOES-16 and CloudSat ( http://arxiv.org/abs/2306.11159v1 )

ライセンス: Link先を確認
Paula V. Romero Jure and Sergio Masuelli and Juan Bautista Cabral(参考訳) 本稿では, GOES-16静止衛星に搭載されたアドバンストベースライン・イメージラー (ABI) による91個のマルチバンド・クラウドとMCMIPF (MCMIPF) からなるデータセットの開発について述べる。 製品は、2019年1月と2月の月に対応する昼行性であり、両衛星からの製品が南米で共存できるように選択された。 CLDCLASS製品は、軌道の各ステップで観測される雲のタイプを提供し、GOES-16マルチバンド画像にはこれらのデータと同時配置可能なピクセルが含まれている。 我々は,観測された雲の種類にラベルづけされたマルチバンド画像の画素を提供するテーブルとして製品を返すアルゴリズムを開発した。 この構造に適合するラベル付きデータは教師付き学習に非常に有用である。 これは、Gorooh et al. (2020) の業績に基づく単純な線形人工ニューラルネットワークのトレーニングによって裏付けられ、特に深い対流雲の分類において良い結果が得られた。

In this paper we present the development of a dataset consisting of 91 Multi-band Cloud and Moisture Product Full-Disk (MCMIPF) from the Advanced Baseline Imager (ABI) on board GOES-16 geostationary satellite with 91 temporally and spatially corresponding CLDCLASS products from the CloudSat polar satellite. The products are diurnal, corresponding to the months of January and February 2019 and were chosen such that the products from both satellites can be co-located over South America. The CLDCLASS product provides the cloud type observed for each of the orbit's steps and the GOES-16 multiband images contain pixels that can be co-located with these data. We develop an algorithm that returns a product in the form of a table that provides pixels from multiband images labelled with the type of cloud observed in them. These labelled data conformed in this particular structure are very useful to perform supervised learning. This was corroborated by training a simple linear artificial neural network based on the work of Gorooh et al. (2020), which gave good results, especially for the classification of deep convective clouds.
翻訳日:2023-06-21 16:20:40 公開日:2023-06-19
# 機械学習における人間の限界:土壌マイクロバイオームデータによる植物表現型予測

Human Limits in Machine Learning: Prediction of Plant Phenotypes Using Soil Microbiome Data ( http://arxiv.org/abs/2306.11157v1 )

ライセンス: Link先を確認
Rosa Aghdam, Xudong Tang, Shan Shan, Richard Lankau, Claudia Sol\'is-Lemus(参考訳) 土壌の健康の保存は、農業、人間の健康、生物多様性において大きな(そして潜在的に脅かされる)影響を受け、 XXI 世紀の主要な課題の1つとして認識されている。 本稿では, 土壌と生物学的表現型との関係を理解するために, 機械学習モデルの予測可能性に関する最初の深い調査を行う。 本研究は,ランダムフォレストとベイズニューラルネットワークの2つのモデルを用いて,土壌の生物学的,化学的,物理的性質から植物表現型を正確に予測する統合的枠組みについて検討した。 微生物情報に加え,土壌物理化学的特性や微生物集団密度などのモデルに組み込むと,より重み付けされたf1スコアによって予測が向上することが示された。 さらに、正規化、ゼロ置換、データ拡張など複数のデータ前処理戦略を探求することにより、人間の決定が予測性能に大きな影響を与えることを確認した。 特に,マイクロバイオーム研究で一般的に用いられるナイーブな総和スケーリング正規化は,予測力を最大化するための最適戦略ではないことを示す。 さらに, 正確に定義されたラベルは, 正規化, 分類学的レベル, モデル特性よりも重要であることがわかった。 つまり、もし人間がサンプルを分類して正確なラベルを提供できなければ、機械学習モデルのパフォーマンスは制限される。 最後に、モデルの予測能力を最大化する人間の選択を特定するために、完全なモデル選択決定木を用いてドメイン科学者のための戦略を示す。 我々の研究には、微生物研究コミュニティの最大のアウトリーチのためのオープンソース再現可能なスクリプト(https://github.com/solislemuslab/soil-microbiome-nn)が伴っている。

The preservation of soil health has been identified as one of the main challenges of the XXI century given its vast (and potentially threatening) ramifications in agriculture, human health and biodiversity. Here, we provide the first deep investigation of the predictive potential of machine-learning models to understand the connections between soil and biological phenotypes. Indeed, we investigate an integrative framework performing accurate machine-learning-based prediction of plant phenotypes from biological, chemical and physical properties of the soil via two models: random forest and Bayesian neural network. We show that prediction is improved, as evidenced by higher weighted F1 scores, when incorporating into the models environmental features like soil physicochemical properties and microbial population density in addition to the microbiome information. Furthermore, by exploring multiple data preprocessing strategies such as normalization, zero replacement, and data augmentation, we confirm that human decisions have a huge impact on the predictive performance. In particular, we show that the naive total sum scaling normalization that is commonly used in microbiome research is not the optimal strategy to maximize predictive power. In addition, we find that accurately defined labels are more important than normalization, taxonomic level or model characteristics. That is, if humans are unable to classify the samples and provide accurate labels, the performance of machine-learning models will be limited. Lastly, we present strategies for domain scientists via a full model selection decision tree to identify the human choices that maximize the prediction power of the models. Our work is accompanied by open source reproducible scripts (https://github.com/solislemuslab/soil-microbiome-nn) for maximum outreach among the microbiome research community.
翻訳日:2023-06-21 16:20:17 公開日:2023-06-19
# 調和振動子の固有状態を記述する経路分布と他の1次元問題

Path distributions for describing eigenstates of the harmonic oscillator and other 1-dimensional problems ( http://arxiv.org/abs/2306.11155v1 )

ライセンス: Link先を確認
Randall M. Feenstra(参考訳) 経路の確率振幅を合計して調和振動子の波動関数を形成する方法と、他の単純な1次元問題について述べる。 各問題に対して既知の閉形式パスベースの伝搬器を用いて、波動関数を記述する積分式を記述する。 この表現は伝統的に粒子の初期位置上の積分の形を取るが、経路の終点間の運動に関連した特性運動量の観点からここで再表現される。 このようにして、得られた表現は定常位相解析の一般化を用いて解析され、各固有状態を正確に記述する経路の分布に繋がる。 これらの分布は全ての旅行時間に有効であるが、長い時間評価すると、特性運動量の非負関数であることが判明する。 特に調和振動子の場合、幾分広い分布が見られ、記述される状態のエネルギー固有値と等しい古典エネルギーに対応する運動量の値でピークとなる。

The manner in which probability amplitudes of paths sum up to form wave functions of a harmonic oscillator, as well as other, simple 1-dimensional problems, is described. Using known, closed-form, path-based propagators for each problem, an integral expression is written that describes the wave function. This expression conventionally takes the form of an integral over initial locations of a particle, but it is re-expressed here in terms of a characteristic momentum associated with motion between the endpoints of a path. In this manner, the resulting expression can be analyzed using a generalization of stationary-phase analysis, leading to distributions of paths that exactly describe each eigenstate. These distributions are valid for all travel times, but when evaluated for long times they turn out to be real, non-negative functions of the characteristic momentum. For the harmonic oscillator in particular, a somewhat broad distribution is found, peaked at value of momentum that corresponds to a classical energy which in turn equals the energy eigenvalue for the state being described.
翻訳日:2023-06-21 16:19:49 公開日:2023-06-19
# 過渡性キラリティの測定 II:拡散と障害

Measurement Indued Chirality II: Diffusion and Disorder ( http://arxiv.org/abs/2306.11150v1 )

ライセンス: Link先を確認
Brian J J Khor, Matthew Wampler, Gil Refael, Israel Klich(参考訳) 繰り返し量子測定は、効果的に新しい物質の状態を生成することができる。 ここでは,このような計測駆動システムと障害を組み合わせる。 特に,システム内の拡散挙動と種々の障害が測定誘導キラル輸送プロトコル[1]に及ぼす影響について検討した。 クリーンなシステムで測定自体が生み出す拡散挙動を特徴付けることから始める。 次に, 測定サイクル当たりの粒子のエッジフローを, サイト希釈, 格子歪み, およびオンサイト化学ポテンシャルの3種類の障害に対して検討した。 量子ゼノ極限では、格子歪みとランダムなオンサイトポテンシャルを持つ乱れ測定系に対する効果的な記述は古典的確率モデルとしてモデル化することができ、これらの障害の増加による全体的な効果は、完全な流れからゼロ輸送へのクロスオーバーを引き起こす。 一方、格子内に空隙が存在する場合、測定サイクル毎の粒子の流れは、一意からゼロへのパーコレーション相転移、パーコレーションしきい値$p_c \approx 0.26$、臨界指数$\nu \approx 1.35$となる。 また,Zeno の限界から計算結果を取り除いた結果として,Zeno 効果から遠ざかることによる全体的な効果は,我々のプロトコルにおける測定周波数が小さくなると,サイクル当たりの粒子流量を減少させることに注意する。

Repeated quantum measurements can generate effective new states of matter. Here we combine such a measurement driven system with disorder. In particular, we investigate the diffusive behavior in the system and the effect of various types of disorder on the measurement induced chiral transport protocol [1]. We begin by characterizing the diffusive behavior produced by the measurements themselves in a clean system. We then examine the edge flow of particles per measurement cycle for three different types of disorder: site dilution, lattice distortion, and disorder in onsite chemical potential. In the quantum Zeno limit, the effective descriptions for the disordered measurement system with lattice distortions and random onsite potential can be modelled as a classical stochastic model, and the overall effect of increasing these disorders induces a crossover from perfect flow to zero transport. On the other hand if vacancies are present in the lattice the flow of particles per measurement cycle undergoes a percolation phase transition from unity to zero with percolation threshold $p_c \approx 0.26$, with critical exponent $\nu \approx 1.35$. We also present numerical results away from Zeno limit and note that the overall effect of moving away from the Zeno effect is to reduce particle flow per cycle when the measurement frequency in our protocol is reduced
翻訳日:2023-06-21 16:19:32 公開日:2023-06-19
# AVOIDDS:航空機ビジョンに基づく侵入者検出データセットとシミュレータ

AVOIDDS: Aircraft Vision-based Intruder Detection Dataset and Simulator ( http://arxiv.org/abs/2306.11203v1 )

ライセンス: Link先を確認
Elysia Q. Smyers, Sydney M. Katz, Anthony L. Corso and Mykel J. Kochenderfer(参考訳) 堅牢な機械学習システムの設計は依然としてオープンな問題であり、下流タスクにおける環境変化と評価の両方をカバーするベンチマーク問題が必要である。 本研究では,視覚に基づく航空機検出・回避問題に対する現実的な物体検出ベンチマークであるAVOIDDSを紹介する。 様々な照明条件、気象条件、相対測地および地理的位置を有する侵入者航空機の72,000枚のフォトリアリスティック画像からなるラベル付きデータセットを提供する。 また、このデータセットのスライス上でトレーニングされたモデルを評価し、環境条件の変化に対する性能の変化を特定するインタフェースも提供する。 最後に,視覚に基づく検出・回避問題の完全統合型閉ループシミュレータを実装し,下流衝突回避タスクに対する訓練モデルの評価を行った。 このベンチマークにより、安全クリティカルなアプリケーションに使用する堅牢な機械学習システムの設計に関するさらなる研究が可能になる。 AVOIDDSデータセットとコードは、$\href{https://purl.stanford.edu/hj293cv5980}{purl.stanford.edu/hj293cv5980}$と$\href{https://github.com/sisl/VisionBasedAircraftDAA}{github.com/sisl/VisionBasedAircraftDAA}$で公開されている。

Designing robust machine learning systems remains an open problem, and there is a need for benchmark problems that cover both environmental changes and evaluation on a downstream task. In this work, we introduce AVOIDDS, a realistic object detection benchmark for the vision-based aircraft detect-and-avoid problem. We provide a labeled dataset consisting of 72,000 photorealistic images of intruder aircraft with various lighting conditions, weather conditions, relative geometries, and geographic locations. We also provide an interface that evaluates trained models on slices of this dataset to identify changes in performance with respect to changing environmental conditions. Finally, we implement a fully-integrated, closed-loop simulator of the vision-based detect-and-avoid problem to evaluate trained models with respect to the downstream collision avoidance task. This benchmark will enable further research in the design of robust machine learning systems for use in safety-critical applications. The AVOIDDS dataset and code are publicly available at $\href{https://purl.stanford.edu/hj293cv5980}{purl.stanford.edu/hj293cv5980}$ and $\href{https://github.com/sisl/VisionBasedAircraftDAA}{github.com/sisl/VisionBasedAircraftDAA}$, respectively.
翻訳日:2023-06-21 16:12:32 公開日:2023-06-19
# 自動チューニングクライアントによる適応的フェデレーション学習

Adaptive Federated Learning with Auto-Tuned Clients ( http://arxiv.org/abs/2306.11201v1 )

ライセンス: Link先を確認
Junhyung Lyle Kim, Mohammad Taha Toghani, C\'esar A. Uribe, Anastasios Kyrillidis(参考訳) Federated Learning(FL)は、中央サーバのグローバルモデルがデータを共有せずにクライアントに参加することで、複数の協調的なステップを通じてトレーニングされる分散機械学習フレームワークである。 ローカルデータの分散、参加率、各クライアントの計算能力が大きく変化するフレキシブルなフレームワークである一方で、このような柔軟性は、特にサーバ側とクライアント側のハイパーパラメータチューニングにおいて、多くの新たな課題を引き起こします。 我々は、各クライアントが最適化している関数の局所的な滑らかさに適応して、各クライアントが独自のステップサイズを使用できるシンプルなステップサイズルールである$\delta$-sgdを提案する。 クライアント適応性の利点が様々なFLシナリオで示される理論的および実証的な結果を提供する。 特に,提案手法は,追加チューニングを伴わない実験の100%において,TOP-1精度を73%,TOP-2精度を100%達成する。

Federated learning (FL) is a distributed machine learning framework where the global model of a central server is trained via multiple collaborative steps by participating clients without sharing their data. While being a flexible framework, where the distribution of local data, participation rate, and computing power of each client can greatly vary, such flexibility gives rise to many new challenges, especially in the hyperparameter tuning on both the server and the client side. We propose $\Delta$-SGD, a simple step size rule for SGD that enables each client to use its own step size by adapting to the local smoothness of the function each client is optimizing. We provide theoretical and empirical results where the benefit of the client adaptivity is shown in various FL scenarios. In particular, our proposed method achieves TOP-1 accuracy in 73% and TOP-2 accuracy in 100% of the experiments considered without additional tuning.
翻訳日:2023-06-21 16:12:08 公開日:2023-06-19
# 第一量子化パウリ-フィッシャーハミルトニアンの量子シミュレーション

Quantum Simulation of the First-Quantized Pauli-Fierz Hamiltonian ( http://arxiv.org/abs/2306.11198v1 )

ライセンス: Link先を確認
Priyanka Mukhopadhyay, Torin F. Stetina, Nathan Wiebe(参考訳) 量子力学をシミュレートし、多粒子パウリ・フィエルツ・ハミルトニアンに基づく離散第一量子化非相対論的qedハミルトニアンを導出するための明示的な再帰的除算と克服のアプローチを提供する。 この再帰的分割および征服アルゴリズムをハミルトニアンに適用し、量子化を用いた具体的なシミュレーションアルゴリズムと比較する。 我々の分割と征服のアルゴリズムは、最低次トロッター化を用いて、固定格子間隔を$\widetilde{O}(\Lambda N^2\eta^2 t^2 /\epsilon)$ for grid size $N$, $\eta$ Particle, Simulation time $t$, field cutoff $\Lambda$, error $\epsilon$とスケールする。 量子化アルゴリズムは$\widetilde{o}(n(\eta+n)(\eta +\lambda^2) t\log(1/\epsilon)) $。 これは、na\"iveパーティショニングと低次分割公式さえも、我々の分割と定式化を通じて、大きな$\lambda$の量子化への優れたスケーリングをもたらすことを示している。 これら2つのアルゴリズムの相対コストを、光子の自発放出や電子の光イオン化などの応用に関係のあるシステム上で比較する。 異なるパラメータレジームに対して、一方のメソッドが他方よりも好まれることを観察した。 最後に、回路コストのより良い分析に使用できるマルチコントロールXゲート群の実装方法を含む、ゲート最適化のための新しいアルゴリズムおよび回路レベル技術を提案する。

We provide an explicit recursive divide and conquer approach for simulating quantum dynamics and derive a discrete first quantized non-relativistic QED Hamiltonian based on the many-particle Pauli Fierz Hamiltonian. We apply this recursive divide and conquer algorithm to this Hamiltonian and compare it to a concrete simulation algorithm that uses qubitization. Our divide and conquer algorithm, using lowest order Trotterization, scales for fixed grid spacing as $\widetilde{O}(\Lambda N^2\eta^2 t^2 /\epsilon)$ for grid size $N$, $\eta$ particles, simulation time $t$, field cutoff $\Lambda$ and error $\epsilon$. Our qubitization algorithm scales as $\widetilde{O}(N(\eta+N)(\eta +\Lambda^2) t\log(1/\epsilon)) $. This shows that even a na\"ive partitioning and low-order splitting formula can yield, through our divide and conquer formalism, superior scaling to qubitization for large $\Lambda$. We compare the relative costs of these two algorithms on systems that are relevant for applications such as the spontaneous emission of photons, and the photoionization of electrons. We observe that for different parameter regimes, one method can be favored over the other. Finally, we give new algorithmic and circuit level techniques for gate optimization including a new way of implementing a group of multi-controlled-X gates that can be used for better analysis of circuit cost.
翻訳日:2023-06-21 16:11:54 公開日:2023-06-19
# 効率的なシーケンスモデリングのためのスパースモジュラーアクティベーション

Sparse Modular Activation for Efficient Sequence Modeling ( http://arxiv.org/abs/2306.11197v1 )

ライセンス: Link先を確認
Liliang Ren, Yang Liu, Shuohang Wang, Yichong Xu, Chenguang Zhu, ChengXiang Zhai(参考訳) 線形状態空間モデル(SSM)は、繰り返し構造を効率的に符号化するため、様々なシーケンスモデリングタスクにおいて強い性能を示した。 しかし、言語モデリングや機械翻訳といったより包括的なタスクでは、自己注意に基づくモデルは依然としてSSMよりも優れています。 SSMと自己注意の両方を併用したハイブリッドモデルは一般に有望な性能を示すが、現在のアプローチでは、入力シーケンスのすべての要素に対して静的かつ均一に注意モジュールを適用し、準最適品質と効率のトレードオフをもたらす。 本研究では,ニューラルネットワークが配列要素のサブモジュールを分離的かつ動的に動的に活性化する機構であるスパースモジュール活性化(SMA)を紹介する。 各要素が非アクティブなサブモジュールをスキップできるようにすることで、SMAはシーケンスモデリングのトレーニングと推論の段階で計算とメモリ消費を減らす。 SMAの特定のインスタンス化として、SMAを用いて、SSMから学んだ状態表現に基づいて、GAU(Gated Attention Unit)をスパースに活性化する新しいニューラルネットワークSeqBoatを設計する。 GAUが活性化された入力にのみ局所的な注意を集中させることで、セックボートは理論上無限の注意範囲を持つ線形推論複雑性を達成でき、チャンキングベースモデルよりもはるかに優れた品質と効率のトレードオフを提供できる。 言語モデリング、音声分類、長距離アリーナを含む幅広いタスクの実験により、SeqBoatは線形複雑性を持つハイブリッドモデルに新しい最先端の結果をもたらし、学習されたスパースアクティベーションパターンを通じて各タスクに必要な注意の量を明らかにする。

Linear State Space Models (SSMs) have demonstrated strong performance in a variety of sequence modeling tasks due to their efficient encoding of the recurrent structure. However, in more comprehensive tasks like language modeling and machine translation, self-attention-based models still outperform SSMs. Hybrid models employing both SSM and self-attention generally show promising performance, but current approaches apply attention modules statically and uniformly to all elements in the input sequences, leading to sub-optimal quality-efficiency trade-offs. In this work, we introduce Sparse Modular Activation (SMA), a general mechanism enabling neural networks to sparsely and dynamically activate sub-modules for sequence elements in a differentiable manner. Through allowing each element to skip non-activated sub-modules, SMA reduces computation and memory consumption at both training and inference stages of sequence modeling. As a specific instantiation of SMA, we design a novel neural architecture, SeqBoat, which employs SMA to sparsely activate a Gated Attention Unit (GAU) based on the state representations learned from an SSM. By constraining the GAU to only conduct local attention on the activated inputs, SeqBoat can achieve linear inference complexity with theoretically infinite attention span, and provide substantially better quality-efficiency trade-off than the chunking-based models. With experiments on a wide range of tasks, including language modeling, speech classification and long-range arena, SeqBoat brings new state-of-the-art results among hybrid models with linear complexity and reveals the amount of attention needed for each task through the learned sparse activation patterns.
翻訳日:2023-06-21 16:11:19 公開日:2023-06-19
# モチーフ遷移を用いた時間グラフ生成

Using Motif Transitions for Temporal Graph Generation ( http://arxiv.org/abs/2306.11190v1 )

ライセンス: Link先を確認
Penghang Liu, A. Erdem Sar{\i}y\"uce(参考訳) グラフ生成モデルは、代理データとベンチマーク目的を共有する上で非常に重要である。 実世界の複雑系はしばしば動的性質を示し、ノード間の相互作用は時間とともに時間的ネットワークの形で変化する。 ほとんどの時間的ネットワーク生成モデルは、生成プロセスに時間性を取り込むことで静的グラフ生成モデルを拡張する。 最近では、時間的モチーフを使用して、より優れた成功を伴う時間的ネットワークを生成する。 しかしながら、既存のモデルは時間的モチーフをカウントする計算コストが高いため、定義済みのモチーフパターンの小さなセットに制限されることが多い。 本研究では,実用的な時間グラフ生成器であるモチーフ遷移モデル(mtm)を開発し,現実的かつ局所的な特徴を持つ合成時間ネットワークを生成する。 重要なアイデアは,新たなイベントの到着を一時的なモチーフ移行プロセスとしてモデル化することです。 まず、入力グラフから遷移特性を計算し、遷移確率と遷移率に基づいてモチーフ遷移過程をシミュレートする。 我々は,グローバルおよびローカルな時間グラフ統計と実行時性能の保存に関して,モデルがベースラインを一貫して上回ることを示す。

Graph generative models are highly important for sharing surrogate data and benchmarking purposes. Real-world complex systems often exhibit dynamic nature, where the interactions among nodes change over time in the form of a temporal network. Most temporal network generation models extend the static graph generation models by incorporating temporality in the generation process. More recently, temporal motifs are used to generate temporal networks with better success. However, existing models are often restricted to a small set of predefined motif patterns due to the high computational cost of counting temporal motifs. In this work, we develop a practical temporal graph generator, Motif Transition Model (MTM), to generate synthetic temporal networks with realistic global and local features. Our key idea is modeling the arrival of new events as temporal motif transition processes. We first calculate the transition properties from the input graph and then simulate the motif transition processes based on the transition probabilities and transition rates. We demonstrate that our model consistently outperforms the baselines with respect to preserving various global and local temporal graph statistics and runtime performance.
翻訳日:2023-06-21 16:10:49 公開日:2023-06-19
# BioREx: 異種データセットの活用による医療関係抽出の改善

BioREx: Improving Biomedical Relation Extraction by Leveraging Heterogeneous Datasets ( http://arxiv.org/abs/2306.11189v1 )

ライセンス: Link先を確認
Po-Ting Lai, Chih-Hsuan Wei, Ling Luo, Qingyu Chen, Zhiyong Lu(参考訳) バイオメディカル・リレーションシップ抽出(RE)は、自由テキストからバイオメディカル・コンセプト間の関係を自動的に識別し、特徴付けるタスクである。 REは生物医学自然言語処理(NLP)研究の中心的課題であり、文献に基づく発見や知識グラフ構築など、下流の多くの応用において重要な役割を果たしている。 state-of-the-art法は主に、タンパク質とタンパク質の相互作用や化学的病因関係など、個々のreデータセットの機械学習モデルをトレーニングするために使用された。 しかし、手動データセットアノテーションはドメイン知識を必要とするため、非常に高価で時間を要する。 既存のREデータセットは通常ドメイン固有または小さいもので、一般化された高パフォーマンスREモデルの開発を制限する。 本稿では,個々のデータセットのデータの不均一性を体系的に解決し,それらを大きなデータセットに結合する新しい枠組みを提案する。 このフレームワークとデータセットに基づいて,関係抽出のためのデータ中心型アプローチであるBioRExについて報告する。 評価の結果、BioRExは個々のデータセットでトレーニングされたベンチマークシステムよりも大幅に高い性能を示し、最近リリースされたBioREDコーパスのF-1測定値の74.4%から79.6%に新しいSOTAを設定した。 さらに,組み合わせたデータセットが5つの異なるreタスクのパフォーマンスを向上させることを実証する。 さらに、平均的BioRExは、転送学習やマルチタスク学習といった現在の最高のパフォーマンス手法と比較して好適であることを示す。 最後に、BioRExの堅牢性と一般化性について、これまでトレーニングデータになかった2つの独立したREタスク、すなわちドラッグドラッグN-aryと文書レベルのREで示す。 統合データセットと最適化されたメソッドは、https://github.com/ncbi/BioRExで利用可能なスタンドアロンツールとしてパッケージ化された。

Biomedical relation extraction (RE) is the task of automatically identifying and characterizing relations between biomedical concepts from free text. RE is a central task in biomedical natural language processing (NLP) research and plays a critical role in many downstream applications, such as literature-based discovery and knowledge graph construction. State-of-the-art methods were used primarily to train machine learning models on individual RE datasets, such as protein-protein interaction and chemical-induced disease relation. Manual dataset annotation, however, is highly expensive and time-consuming, as it requires domain knowledge. Existing RE datasets are usually domain-specific or small, which limits the development of generalized and high-performing RE models. In this work, we present a novel framework for systematically addressing the data heterogeneity of individual datasets and combining them into a large dataset. Based on the framework and dataset, we report on BioREx, a data-centric approach for extracting relations. Our evaluation shows that BioREx achieves significantly higher performance than the benchmark system trained on the individual dataset, setting a new SOTA from 74.4% to 79.6% in F-1 measure on the recently released BioRED corpus. We further demonstrate that the combined dataset can improve performance for five different RE tasks. In addition, we show that on average BioREx compares favorably to current best-performing methods such as transfer learning and multi-task learning. Finally, we demonstrate BioREx's robustness and generalizability in two independent RE tasks not previously seen in training data: drug-drug N-ary combination and document-level gene-disease RE. The integrated dataset and optimized method have been packaged as a stand-alone tool available at https://github.com/ncbi/BioREx.
翻訳日:2023-06-21 16:10:34 公開日:2023-06-19
# ベクトル探索のための共設計ハードウェアとアルゴリズム

Co-design Hardware and Algorithm for Vector Search ( http://arxiv.org/abs/2306.11182v1 )

ライセンス: Link先を確認
Wenqi Jiang and Shigang Li and Yu Zhu and Johannes de Fine Licht and Zhenhao He and Runbin Shi and Cedric Renggli and Shuai Zhang and Theodoros Rekatsinas and Torsten Hoefler and Gustavo Alonso(参考訳) ベクトル検索は大規模な情報検索と機械学習システムの基盤として現れ、GoogleやBingといった検索エンジンは、エンコードされたクエリテキストとWebドキュメント間のベクトル類似性を評価することによって、ペタバイト規模のドキュメントデータセットで毎秒数万のクエリを処理する。 ベクトル探索システムの性能要求が急増するにつれて、加速ハードウェアはムーアの法則時代において有望な解決策を提供する。 FPGA上のエンドツーエンドでスケーラブルなベクトル検索フレームワークである \textit{FANNS} を紹介する。 データセットとハードウェアリソースの予算に関するユーザが提供するリコール要求を前提として、 \textit{FANNS}は自動的にハードウェアとアルゴリズムを設計し、それに対応するアクセラレータを生成する。 このフレームワークは、ハードウェアTCP/IPスタックをアクセラレータに組み込むことでスケールアウトもサポートする。 fpgaとcpuのベースラインと比較して最大23.0$\times$と37.2$\times$ speedupを達成し、gpuに対する優れたスケーラビリティを示し、中央値で5.5$\times$と7.6$\times$ speedupを、8アクセラレータ構成で95$textsuperscript{th} percentile (p95)レイテンシを達成する。 textit{FANNS} の顕著な性能は、データセンターとAIスーパーコンピュータにおける将来のFPGA統合の堅牢な基盤となる。

Vector search has emerged as the foundation for large-scale information retrieval and machine learning systems, with search engines like Google and Bing processing tens of thousands of queries per second on petabyte-scale document datasets by evaluating vector similarities between encoded query texts and web documents. As performance demands for vector search systems surge, accelerated hardware offers a promising solution in the post-Moore's Law era. We introduce \textit{FANNS}, an end-to-end and scalable vector search framework on FPGAs. Given a user-provided recall requirement on a dataset and a hardware resource budget, \textit{FANNS} automatically co-designs hardware and algorithm, subsequently generating the corresponding accelerator. The framework also supports scale-out by incorporating a hardware TCP/IP stack in the accelerator. \textit{FANNS} attains up to 23.0$\times$ and 37.2$\times$ speedup compared to FPGA and CPU baselines, respectively, and demonstrates superior scalability to GPUs, achieving 5.5$\times$ and 7.6$\times$ speedup in median and 95\textsuperscript{th} percentile (P95) latency within an eight-accelerator configuration. The remarkable performance of \textit{FANNS} lays a robust groundwork for future FPGA integration in data centers and AI supercomputers.
翻訳日:2023-06-21 16:10:06 公開日:2023-06-19
# 不十分に正当化された異質な影響:サブグループフェアネスの新しい基準

Insufficiently Justified Disparate Impact: A New Criterion for Subgroup Fairness ( http://arxiv.org/abs/2306.11181v1 )

ライセンス: Link先を確認
Neil Menghani, Edward McFowland III, Daniel B. Neill(参考訳) 本稿では,アルゴリズム決定支援ツールによる推薦(二項化予測)が公正であるか否かを評価するため,新たな基準である「不適切に正当化された異種影響」(IJDI)を開発する。 実用性に基づく新しいIJDI基準は偽陽性と偽陰性エラー率の不均衡を評価し, グループレベルでの基数差の調整においても, 統計的に有意差が認められた。 IJDI-Scanアプローチは,データの複数の属性にまたがって定義された交差するサブ集団を,最も重要なIJDIを用いて効率的に同定することができる。 ijdi-scanの性能を評価するために,レシディズムリスクアセスメントとクレジットスコアリングを含むシミュレーションデータと実世界データの両方について実験を行った。 さらに,検出されたサブ集団に対するIJDIの緩和手法の実装と評価を行った。

In this paper, we develop a new criterion, "insufficiently justified disparate impact" (IJDI), for assessing whether recommendations (binarized predictions) made by an algorithmic decision support tool are fair. Our novel, utility-based IJDI criterion evaluates false positive and false negative error rate imbalances, identifying statistically significant disparities between groups which are present even when adjusting for group-level differences in base rates. We describe a novel IJDI-Scan approach which can efficiently identify the intersectional subpopulations, defined across multiple observed attributes of the data, with the most significant IJDI. To evaluate IJDI-Scan's performance, we conduct experiments on both simulated and real-world data, including recidivism risk assessment and credit scoring. Further, we implement and evaluate approaches to mitigating IJDI for the detected subpopulations in these domains.
翻訳日:2023-06-21 16:09:41 公開日:2023-06-19
# ドメインシフト下のセマンティックセグメンテーションのための双曲型アクティブラーニング

Hyperbolic Active Learning for Semantic Segmentation under Domain Shift ( http://arxiv.org/abs/2306.11180v1 )

ライセンス: Link先を確認
Luca Franco, Paolo Mandica, Konstantinos Kallidromitis, Devin Guillory, Yu-Teng Li, Fabio Galasso(参考訳) ドメインシフト下のセマンティックセグメンテーション(SS)のタスクでは、画像領域と擬似ラベルに基づくアクティブラーニング(AL)獲得戦略は最先端(SoA)である。 領域内に多様な擬似ラベルが存在することによって、異なるクラス間でピクセルが識別される。 しかし、設計上、擬似ラベルのバリエーションはクラスの輪郭のみを選択することに限られ、最終的なal性能は制限される。 我々は,Poincar\'e 双曲球モデルにおける SS に対する AL に初めてアプローチし,新しいデータ取得戦略として,領域内の画素埋め込みの半径の変動を利用する。 これは、強制的階層性なしで訓練された双曲空間の新たな幾何学的性質に由来する。 すなわち、クラスは同値なクラス内ラジイ分散を持つコンパクトな双曲型領域にマッピングされる。 ピクセル埋め込みラジイの変異は、クラス輪郭をよく識別するが、クラス内での特異な詳細もいくつか選び、最終的なパフォーマンスが向上する。 提案するHALO(Hyperbolic Active Learning Optimization)は,少数のラベル(1%)のみを用いて,ドメインシフト下でのAL for SSにおいて,教師付き学習性能を初めて上回った。 大規模な実験分析は、GTAV $\rightarrow$ CityscapesとSynTHIA $\rightarrow$ Cityscapesという2つの確立したベンチマークに基づいており、そこで新しいSoAを設定した。 コードはリリースされます。

For the task of semantic segmentation (SS) under domain shift, active learning (AL) acquisition strategies based on image regions and pseudo labels are state-of-the-art (SoA). The presence of diverse pseudo-labels within a region identifies pixels between different classes, which is a labeling efficient active learning data acquisition strategy. However, by design, pseudo-label variations are limited to only select the contours of classes, limiting the final AL performance. We approach AL for SS in the Poincar\'e hyperbolic ball model for the first time and leverage the variations of the radii of pixel embeddings within regions as a novel data acquisition strategy. This stems from a novel geometric property of a hyperbolic space trained without enforced hierarchies, which we experimentally prove. Namely, classes are mapped into compact hyperbolic areas with a comparable intra-class radii variance, as the model places classes of increasing explainable difficulty at denser hyperbolic areas, i.e. closer to the Poincar\'e ball edge. The variation of pixel embedding radii identifies well the class contours, but they also select a few intra-class peculiar details, which boosts the final performance. Our proposed HALO (Hyperbolic Active Learning Optimization) surpasses the supervised learning performance for the first time in AL for SS under domain shift, by only using a small portion of labels (i.e., 1%). The extensive experimental analysis is based on two established benchmarks, i.e. GTAV $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes, where we set a new SoA. The code will be released.
翻訳日:2023-06-21 16:09:25 公開日:2023-06-19
# stack overflowによるプライバシー問題の評価:chatgptは競合できるか?

Evaluating Privacy Questions From Stack Overflow: Can ChatGPT Compete? ( http://arxiv.org/abs/2306.11174v1 )

ライセンス: Link先を確認
Zack Delile, Sean Radel, Joe Godinez, Garrett Engstrom, Theo Brucker, Kenzie Young, Sepideh Ghanavati(参考訳) stack overflowなど同様のフォーラムは、開発者がソフトウェア開発やプライバシ関連の懸念に対して回答を求めるために一般的に使用されている。 近年、ChatGPTはコードの生成や開発者の質問に対する応答の代替手段として使用されている。 本稿では,Stack Overflowで質問されたプライバシーに関する質問の種類を評価することで,開発者のプライバシー問題を理解することを目的とする。 次に,stack overflowユーザから受け取られた応答とチャットgptが生成する応答の比較分析を行い,チャットgptが有効な代替手段となるかどうかを判断する。 その結果,プライバシ関連の質問の多くは選択/一致,集約,識別に関係していることがわかった。 さらに,この結果から,ChatGPTが約56%の質問に対して同様に正しい回答を生成するのに対し,Stack Overflowの回答はChatGPTよりもわずかに正確であることがわかった。

Stack Overflow and other similar forums are used commonly by developers to seek answers for their software development as well as privacy-related concerns. Recently, ChatGPT has been used as an alternative to generate code or produce responses to developers' questions. In this paper, we aim to understand developers' privacy challenges by evaluating the types of privacy-related questions asked on Stack Overflow. We then conduct a comparative analysis between the accepted responses given by Stack Overflow users and the responses produced by ChatGPT for those extracted questions to identify if ChatGPT could serve as a viable alternative. Our results show that most privacy-related questions are related to choice/consent, aggregation, and identification. Furthermore, our findings illustrate that ChatGPT generates similarly correct responses for about 56% of questions, while for the rest of the responses, the answers from Stack Overflow are slightly more accurate than ChatGPT.
翻訳日:2023-06-21 16:08:51 公開日:2023-06-19
# 進化的なルックアップテーブルによるオンラインストリーミングビデオの超解法

Online Streaming Video Super-Resolution with Convolutional Look-Up Table ( http://arxiv.org/abs/2303.00334v3 )

ライセンス: Link先を確認
Guanghao Yin, Zefan Qu, Xinyang Jiang, Shan Jiang, Zhenhua Han, Ningxin Zheng, Huan Yang, Yuqing Yang, Dongsheng Li, Lili Qiu(参考訳) オンラインビデオストリーミングは伝送帯域幅と計算容量に根本的な制限があり、スーパーレゾリューションは有望な解決策である。 しかし、既存のビデオ超解像法をオンラインストリーミングに適用することは簡単ではない。 既存のビデオコーデックとストリーミングプロトコル(\eg, WebRTC)は、ビデオの品質を空間的にも時間的にも動的に変化させ、多様な動的劣化をもたらす。 さらに、オンラインストリーミングには、既存のほとんどのメソッドが適用できないようなレイテンシの厳しい要件がある。 その結果,オンライン・ストリーミング・ビデオの超解像の難解な問題設定に焦点をあてた。 この問題の研究を容易にするため、LDV-WebRTCと呼ばれる新しいベンチマークデータセットが、実世界のオンラインストリーミングシステムに基づいて構築されている。 新しいベンチマークデータセットを活用することで、コンボリューションとLook-Up Table(LUT)ハイブリッドモデルを含むオンラインビデオストリーミングに特化した新しい手法を提案し、パフォーマンスとレイテンシのトレードオフを改善する。 劣化変化に対処するため, 異なる劣化に特化したLUTのセットを構築し, 適応的に組み合わせて異なる劣化に対処する, 実験用LUTモジュールを提案する。 提案手法は720pビデオsrを約100fpsで達成すると同時に,既存のlutベースの手法を大幅に上回り,効率的なcnnベースの手法と比較して競合性能を提供する。

Online video streaming has fundamental limitations on the transmission bandwidth and computational capacity and super-resolution is a promising potential solution. However, applying existing video super-resolution methods to online streaming is non-trivial. Existing video codecs and streaming protocols (\eg, WebRTC) dynamically change the video quality both spatially and temporally, which leads to diverse and dynamic degradations. Furthermore, online streaming has a strict requirement for latency that most existing methods are less applicable. As a result, this paper focuses on the rarely exploited problem setting of online streaming video super resolution. To facilitate the research on this problem, a new benchmark dataset named LDV-WebRTC is constructed based on a real-world online streaming system. Leveraging the new benchmark dataset, we proposed a novel method specifically for online video streaming, which contains a convolution and Look-Up Table (LUT) hybrid model to achieve better performance-latency trade-off. To tackle the changing degradations, we propose a mixture-of-expert-LUT module, where a set of LUT specialized in different degradations are built and adaptively combined to handle different degradations. Experiments show our method achieves 720P video SR around 100 FPS, while significantly outperforms existing LUT-based methods and offers competitive performance compared to efficient CNN-based methods.
翻訳日:2023-06-21 11:21:43 公開日:2023-06-19
# 構造ノード分類のための拡散確率モデル

Diffusion Probabilistic Models for Structured Node Classification ( http://arxiv.org/abs/2302.10506v5 )

ライセンス: Link先を確認
Hyosoon Jang, Seonghyun Park, Sangwoo Mo, Sungsoo Ahn(参考訳) 本稿では,ノードラベル間の依存関係を考慮したグラフの構造化ノード分類について検討する。 特に、未知のラベルを予測するために既知のラベルに情報を組み込むことが不可欠である部分ラベル付きグラフの問題を解決することに注力する。 本稿では,構造化ノード分類(dpm-snc)のための拡散確率モデルを用いた新しい枠組みを提案する。 私たちのフレームワークの中心は、DPM-SNCの素晴らしい能力です。 (a)表現力のある逆拡散過程でラベル上のジョイント分布を学習し、 (b) 多様体制約サンプリングを用いた既知のラベルの予測を行う。 DPMには部分ラベル付きデータのトレーニングアルゴリズムがないため、DPMを適用するための新しいトレーニングアルゴリズムを設計し、新しい変動下界を最大化する。 また,従来の1-WLテストよりも厳格に強力なAGG-WLを提案することにより,GNNの表現力を高めることによりノード分類の利点を理論的に分析する。 我々は、dpm-sncの優位性を、部分ラベル付きグラフのトランスダクティブ設定だけでなく、インダクティブ設定とラベルなしグラフを含む様々なシナリオで広範囲に検証した。

This paper studies structured node classification on graphs, where the predictions should consider dependencies between the node labels. In particular, we focus on solving the problem for partially labeled graphs where it is essential to incorporate the information in the known label for predicting the unknown labels. To address this issue, we propose a novel framework leveraging the diffusion probabilistic model for structured node classification (DPM-SNC). At the heart of our framework is the extraordinary capability of DPM-SNC to (a) learn a joint distribution over the labels with an expressive reverse diffusion process and (b) make predictions conditioned on the known labels utilizing manifold-constrained sampling. Since the DPMs lack training algorithms for partially labeled data, we design a novel training algorithm to apply DPMs, maximizing a new variational lower bound. We also theoretically analyze how DPMs benefit node classification by enhancing the expressive power of GNNs based on proposing AGG-WL, which is strictly more powerful than the classic 1-WL test. We extensively verify the superiority of our DPM-SNC in diverse scenarios, which include not only the transductive setting on partially labeled graphs but also the inductive setting and unlabeled graphs.
翻訳日:2023-06-21 11:21:21 公開日:2023-06-19
# モーションアウェアトークン選択による効率的な映像表現学習

Efficient Video Representation Learning via Motion-Aware Token Selection ( http://arxiv.org/abs/2211.10636v3 )

ライセンス: Link先を確認
Sunil Hwang, Jaehong Yoon, Youngwan Lee, Sung Ju Hwang(参考訳) 最近出現したMasked Video Modeling技術は、ビデオの自己教師型学習において、従来の手法を著しく上回り、その可能性を実証した。 しかし、ランダムマスキング戦略による不正なトークンやフレームを予測しながら、過剰な計算とメモリを必要とするため、トレーニングには過剰な計算能力が必要になる。 (例:16ノード以上、128のNVIDIA A100 GPUを持つ)。 この問題を解決するために,ビデオ中のパッチ間の不均一な情報密度を利用して新しいトークン選択手法MATS: Motion-Aware Token Selectionを提案する。 さらに、最小冗長性で情報的および因果的フレームにフォーカスできる適応的なフレーム選択戦略を提案する。 この手法は計算とメモリの要求を大幅に削減し、8gpuの単一マシンで事前トレーニングと微調整を可能にし、複数のベンチマークと未作成のego4dデータセットで計算とメモリに重い最先端の手法に匹敵する性能を達成する。 私たちのマットの効率は、ビデオの自己監督学習に関するさらなる研究の障壁を減らすことに寄与することを期待しています。

Recently emerged Masked Video Modeling techniques demonstrated their potential by significantly outperforming previous methods in self-supervised learning for video. However, they require an excessive amount of computations and memory while predicting uninformative tokens/frames due to random masking strategies, requiring excessive computing power for training. (e.g., over 16 nodes with 128 NVIDIA A100 GPUs). To resolve this issue, we exploit the unequal information density among the patches in videos and propose a new token selection method, MATS: Motion-Aware Token Selection, that finds tokens containing rich motion features and drops uninformative ones during both self-supervised pre-training and fine-tuning. We further present an adaptive frame selection strategy that allows the model to focus on informative and causal frames with minimal redundancy. Our method significantly reduces computation and memory requirements, enabling the pre-training and fine-tuning on a single machine with 8 GPUs while achieving comparable performance to computation- and memory-heavy state-of-the-art methods on multiple benchmarks and on the uncurated Ego4D dataset. We are hopeful that the efficiency of our MATS will contribute to reducing the barrier to conducting further research on self-supervised learning for videos.
翻訳日:2023-06-21 11:21:01 公開日:2023-06-19
# 一貫性チェックによる超人モデルの評価

Evaluating Superhuman Models with Consistency Checks ( http://arxiv.org/abs/2306.09983v2 )

ライセンス: Link先を確認
Lukas Fluri, Daniel Paleka, Florian Tram\`er(参考訳) もし機械学習モデルが様々な推論や意思決定タスクで超人的能力を達成するならば、人間は必ずしも基礎的真理の貧弱なプロキシであるので、そのようなモデルを評価するにはどうすればよいだろうか? 本稿では,一貫性チェックを用いた超人的モデル評価フレームワークを提案する。 我々の前提は、超人的決定の正しさは評価できないかもしれないが、モデルの決定がある種の論理的、人間解釈可能な規則を満たさなければ、間違いを生じさせる。 我々は,超人的モデル能力によって決定の正しさを評価するのが困難である3つの課題,すなわちチェスのポジションの評価,将来の出来事の予測,法的判断などにおいて,我々の枠組みをインスタンス化する。 これらのタスクにおけるモデルの(おそらく超人的な)性能に関わらず、意思決定の論理的不整合を発見できることを示す。 例えば、反対のバリュエーションを意味的に同一のボードに割り当てるチェスエンジン、スポーツ記録が時間とともに単調に進化すると予測するgpt-4、犯罪記録に重罪を加えるだけで被告に保釈を割り当てるaiジャッジなどである。

If machine learning models were to achieve superhuman abilities at various reasoning or decision-making tasks, how would we go about evaluating such models, given that humans would necessarily be poor proxies for ground truth? In this paper, we propose a framework for evaluating superhuman models via consistency checks. Our premise is that while the correctness of superhuman decisions may be impossible to evaluate, we can still surface mistakes if the model's decisions fail to satisfy certain logical, human-interpretable rules. We instantiate our framework on three tasks where correctness of decisions is hard to evaluate due to either superhuman model abilities, or to otherwise missing ground truth: evaluating chess positions, forecasting future events, and making legal judgments. We show that regardless of a model's (possibly superhuman) performance on these tasks, we can discover logical inconsistencies in decision making. For example: a chess engine assigning opposing valuations to semantically identical boards; GPT-4 forecasting that sports records will evolve non-monotonically over time; or an AI judge assigning bail to a defendant only after we add a felony to their criminal record.
翻訳日:2023-06-21 11:18:41 公開日:2023-06-19
# red$^{\rm fm}$:フィルタ付きおよび多言語関係抽出データセット

RED$^{\rm FM}$: a Filtered and Multilingual Relation Extraction Dataset ( http://arxiv.org/abs/2306.09802v2 )

ライセンス: Link先を確認
Pere-Llu\'is Huguet Cabot and Simone Tedeschi and Axel-Cyrille Ngonga Ngomo and Roberto Navigli(参考訳) 関係抽出(re)は、テキスト内のエンティティ間の関係を識別し、関係事実の獲得を可能にし、自然言語と構造化知識の間のギャップを埋めるタスクである。 しかしながら、現在のREモデルは、特に英語以外の言語を扱う場合、関係型の少ない小さなデータセットに依存することが多い。 本稿では、上記の課題に対処し、多言語REシステムのトレーニングと評価を可能にする2つの新しいリソースを提供する。 まず、SRED$^{\rm FM}$という18の言語、400の関連型、13のエンティティ型、4000万以上のトリプルトインスタンスを含む自動アノテーション付きデータセットを提示します。 第2にRED$^{\rm FM}$は、多言語REシステムの評価を可能にする7言語のための、より小さく、人間による改訂されたデータセットである。 これらの新しいデータセットの有用性を実証するために、複数の言語で三つ子を抽出する最初のエンドツーエンド多言語REモデルmREBELを実験した。 私たちはリソースとモデルのチェックポイントをhttps://www.github.com/babelscape/rebelでリリースします。

Relation Extraction (RE) is a task that identifies relationships between entities in a text, enabling the acquisition of relational facts and bridging the gap between natural language and structured knowledge. However, current RE models often rely on small datasets with low coverage of relation types, particularly when working with languages other than English. In this paper, we address the above issue and provide two new resources that enable the training and evaluation of multilingual RE systems. First, we present SRED$^{\rm FM}$, an automatically annotated dataset covering 18 languages, 400 relation types, 13 entity types, totaling more than 40 million triplet instances. Second, we propose RED$^{\rm FM}$, a smaller, human-revised dataset for seven languages that allows for the evaluation of multilingual RE systems. To demonstrate the utility of these novel datasets, we experiment with the first end-to-end multilingual RE model, mREBEL, that extracts triplets, including entity types, in multiple languages. We release our resources and model checkpoints at https://www.github.com/babelscape/rebel
翻訳日:2023-06-21 11:17:31 公開日:2023-06-19
# ハイパーグラフエネルギー関数からハイパーグラフニューラルネットワークへ

From Hypergraph Energy Functions to Hypergraph Neural Networks ( http://arxiv.org/abs/2306.09623v2 )

ライセンス: Link先を確認
Yuxin Wang, Quan Gan, Xipeng Qiu, Xuanjing Huang, David Wipf(参考訳) ハイパーグラフは関心の実体間の高次相互作用を表現するための強力な抽象化である。 これらの関係を利用して下流の予測を行うために、近年、より伝統的なグラフニューラルネットワーク(GNN)文学の先駆けとして、様々なハイパーグラフニューラルネットワークアーキテクチャが提案されている。 本稿では,パラメタライズド,ハイパーグラフ正規化エネルギー関数の表現的族を提示することから始める。 次に、これらのエネルギーの最小化がノード埋め込みとして効果的に機能し、パラメータ化分類器と組み合わせると、教師付き二段階最適化プロセスを通じてエンドツーエンドに訓練できることを示す。 その後、提案した双レベルハイパーグラフ最適化から生じる予測モデルの暗黙的アーキテクチャと、既存のGNNアーキテクチャとを共通的に用いている。 実験により,様々なハイパーグラフノード分類ベンチマークにおいて,最先端の結果を示す。 コードはhttps://github.com/yxzwang/phenomnnで入手できる。

Hypergraphs are a powerful abstraction for representing higher-order interactions between entities of interest. To exploit these relationships in making downstream predictions, a variety of hypergraph neural network architectures have recently been proposed, in large part building upon precursors from the more traditional graph neural network (GNN) literature. Somewhat differently, in this paper we begin by presenting an expressive family of parameterized, hypergraph-regularized energy functions. We then demonstrate how minimizers of these energies effectively serve as node embeddings that, when paired with a parameterized classifier, can be trained end-to-end via a supervised bilevel optimization process. Later, we draw parallels between the implicit architecture of the predictive models emerging from the proposed bilevel hypergraph optimization, and existing GNN architectures in common use. Empirically, we demonstrate state-of-the-art results on various hypergraph node classification benchmarks. Code is available at https://github.com/yxzwang/PhenomNN.
翻訳日:2023-06-21 11:16:31 公開日:2023-06-19
# 回帰型物理インフォームドニューラルネットワーク(reg-pinns)による磁気ポーズ追跡

Regression-based Physics Informed Neural Networks (Reg-PINNs) for Magnetopause Tracking ( http://arxiv.org/abs/2306.09621v2 )

ライセンス: Link先を確認
Po-Han Hou and Jih-Hong Shue(参考訳) 磁気浮上位置の研究の最終的な目標は、その位置を正確に決定することである。 従来の経験的計算手法と、現在普及している機械学習アプローチの両方が、有望な結果を示している。 本研究では,物理に基づく数値計算とバニラ機械学習を組み合わせた回帰型物理情報ニューラルネットワーク(Reg-PINN)を提案する。 この新しい世代の物理学インフォームドニューラルネットワークは、ニューラルネットワークの収束と一般化能力の向上を支援するために従来の経験モデルを取り込んで、通常の微分方程式と偏微分方程式の解法に制限された従来の方法の限界を克服する。 以下、Shue et alと比較する。 1998年,本モデルは根平均二乗誤差の約30%の低減を達成している。 この研究で提示された方法論は宇宙研究に応用できるだけでなく、様々な分野、特に経験モデルに関する研究でも参照できる。

The ultimate goal of studying the magnetopause position is to accurately determine its location. Both traditional empirical computation methods and the currently popular machine learning approaches have shown promising results. In this study, we propose a Regression-based Physics-Informed Neural Networks (Reg-PINNs) that combines physics-based numerical computation with vanilla machine learning. This new generation of Physics Informed Neural Networks overcomes the limitations of previous methods restricted to solving ordinary and partial differential equations by incorporating conventional empirical models to aid the convergence and enhance the generalization capability of the neural network. Compared to Shue et al. [1998], our model achieves a reduction of approximately 30% in root mean square error. The methodology presented in this study is not only applicable to space research but can also be referenced in studies across various fields, particularly those involving empirical models.
翻訳日:2023-06-21 11:16:15 公開日:2023-06-19