このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230803となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# DiffGANPaint: Denoising Diffusion GANsを用いた高速塗布 DiffGANPaint: Fast Inpainting Using Denoising Diffusion GANs ( http://arxiv.org/abs/2311.11469v1 ) ライセンス: Link先を確認 | Moein Heidari, Alireza Morsali, Tohid Abedini, Samin Heydarian | (参考訳) フリーフォーム画像の塗装は、任意のバイナリマスクによって指定された画像の一部を再構成する作業である。
このタスクでは、特定のマスク分布を学習するのではなく、モデル機能を見えないマスクタイプに一般化することが望まれる。
本稿では,拡散モデルの発展に乗じて,生成逆数ネットワーク(GAN)のジェネレータを用いて後方拡散過程をモデル化し,拡散モデルにおけるサンプリングコストの低減を図ることにより,不足画素を高速に充満できるDNOising Diffusion Probabilistic Model(DDPM)を提案する。
汎用イメージインペインティングデータセットの実験は、我々のアプローチが現代のほとんどの作品よりも優れているか、同等かを検証する。 Free-form image inpainting is the task of reconstructing parts of an image specified by an arbitrary binary mask. In this task, it is typically desired to generalize model capabilities to unseen mask types, rather than learning certain mask distributions. Capitalizing on the advances in diffusion models, in this paper, we propose a Denoising Diffusion Probabilistic Model (DDPM) based model capable of filling missing pixels fast as it models the backward diffusion process using the generator of a generative adversarial network (GAN) network to reduce sampling cost in diffusion models. Experiments on general-purpose image inpainting datasets verify that our approach performs superior or on par with most contemporary works. | 翻訳日:2024-01-15 15:57:47 公開日:2023-08-03 |
# 強化学習プロジェクトにおけるコードの臭いの発生状況 Prevalence of Code Smells in Reinforcement Learning Projects ( http://arxiv.org/abs/2303.10236v2 ) ライセンス: Link先を確認 | Nicol\'as Cardozo and Ivana Dusparic and Christian Cabrera | (参考訳) 強化学習(rl)は、例えば自動運転のような大規模で安全な重要なシステムを含む、多くのドメインでアプリケーションの振る舞いを学び、適応するためにますます使われています。
プラグインプレイRLライブラリの出現により、その適用性はさらに向上し、ユーザによるRLアルゴリズムの統合が可能になった。
しかしながら、これらのコードの大部分はRLエンジニアによって開発されていないため、結果として、バグ、準最適性能、保守性、RLベースのプロジェクトにおける進化問題をもたらすプログラム品質が低下する可能性があることに留意する。
本稿では,rlを活用したコードに特有なこの仮説を探求し,野放しで見いだされた異なるプロジェクトを分析し,その品質をソフトウェア工学的な観点から評価する。
私たちの研究には、標準のソフトウェアエンジニアリングメトリクスで分析された24の人気のあるrlベースのpythonプロジェクトが含まれています。
我々の結果は、MLコードに関する同様の分析と一致し、広く再利用されているRLリポジトリには、多くのコードの臭いが平均3.95%含まれており、プロジェクトの保守性に大きな影響を与えていることを示している。
検出される最も一般的なコードの臭いは、長いメソッドチェーンと長いメソッドチェーンであり、エージェントの定義と相互作用の問題を強調する。
検出されたコードの臭いは、責任分離の問題と、RLアルゴリズムの定義に対する現在の抽象化の適切性を示している。 Reinforcement Learning (RL) is being increasingly used to learn and adapt application behavior in many domains, including large-scale and safety critical systems, as for example, autonomous driving. With the advent of plug-n-play RL libraries, its applicability has further increased, enabling integration of RL algorithms by users. We note, however, that the majority of such code is not developed by RL engineers, which as a consequence, may lead to poor program quality yielding bugs, suboptimal performance, maintainability, and evolution problems for RL-based projects. In this paper we begin the exploration of this hypothesis, specific to code utilizing RL, analyzing different projects found in the wild, to assess their quality from a software engineering perspective. Our study includes 24 popular RL-based Python projects, analyzed with standard software engineering metrics. Our results, aligned with similar analyses for ML code in general, show that popular and widely reused RL repositories contain many code smells (3.95% of the code base on average), significantly affecting the projects' maintainability. The most common code smells detected are long method and long method chain, highlighting problems in the definition and interaction of agents. Detected code smells suggest problems in responsibility separation, and the appropriateness of current abstractions for the definition of RL algorithms. | 翻訳日:2023-10-24 12:54:19 公開日:2023-08-03 |
# 大規模言語モデルを用いた自己計画コード生成 Self-planning Code Generation with Large Language Models ( http://arxiv.org/abs/2303.06689v2 ) ライセンス: Link先を確認 | Xue Jiang, Yihong Dong, Lecheng Wang, Zheng Fang, Qiwei Shang, Ge Li, Zhi Jin, Wenpin Jiao | (参考訳) 大規模な言語モデルはコード生成において印象的な能力を発揮していますが、それでも人間の提供する複雑な意図に対処するのに苦労しています。
人間は通常、複雑な問題を分解し、実装前に解決手順をスケジュールする計画を採用することが広く認識されている。
このように,モデルが複雑な意図を理解し,問題解決の困難さを軽減するために,コード生成計画を導入する。
本稿では,計画段階と実装段階の2段階からなる大規模言語モデルを用いた自己計画型コード生成手法を提案する。
具体的には、計画段階では、言語モデルは、インコンテキスト学習と組み合わせた意図からのソリューションステップを計画する。
その後、実装フェーズに入り、モデルが解ステップによって導かれるコードステップをステップバイステップで生成する。
自己計画型コード生成の有効性は,複数のコード生成データセットで厳密に評価され,言語モデルを用いたナイーブな直接生成アプローチよりも優れた結果が得られた。
パフォーマンスの改善は実質的なものであり、コード生成タスクにおける自己計画の重要性を強調している。 Although large language models have demonstrated impressive ability in code generation, they are still struggling to address the complicated intent provided by humans. It is widely acknowledged that humans typically employ planning to decompose complex problems and schedule the solution steps prior to implementation. Thus we introduce planning into code generation to help the model understand complex intent and reduce the difficulty of problem solving. This paper proposes a self-planning code generation method with large language model, which consists of two phases, namely planning phase and implementation phase. Specifically, in the planning phase, the language model plans out the solution steps from the intent combined with in-context learning. Then it enters the implementation phase, where the model generates code step by step, guided by the solution steps. The effectiveness of self-planning code generation has been rigorously evaluated on multiple code generation datasets and the results have demonstrated a marked superiority over naive direct generation approaches with language model. The improvement in performance is substantial, highlighting the significance of self-planning in code generation tasks. | 翻訳日:2023-10-24 12:53:42 公開日:2023-08-03 |
# 相互作用図からの有限オートマタ生成のための項ベースアプローチ A Term-based Approach for Generating Finite Automata from Interaction Diagrams ( http://arxiv.org/abs/2306.02983v2 ) ライセンス: Link先を確認 | Erwan Mahe, Boutheina Bannour, Christophe Gaston, Arnault Lapitre, Pascale Le Gall | (参考訳) 非決定論的有限オートマタ(NFA)は正規言語を簡潔に表現し、単語認識などの応用へのアピールを強める。
本稿では,UMLシーケンス図やメッセージシーケンスチャートなどの対話言語からNFAを生成する新しい手法を提案する。
操作意味論を用いて、関連する実行関係を用いて到達可能なインタラクションの集合からNFAを生成する。
また、到達可能なインタラクションを単純化してマージすることにより、コストのかかるnfa削減技術に頼ることなく、nfaを削減できる。
また,NFA生成に関する実験結果と微量分析への応用について述べる。 Non-deterministic Finite Automata (NFA) represent regular languages concisely, increasing their appeal for applications such as word recognition. This paper proposes a new approach to generate NFA from an interaction language such as UML Sequence Diagrams or Message Sequence Charts. Via an operational semantics, we generate a NFA from a set of interactions reachable using the associated execution relation. In addition, by applying simplifications on reachable interactions to merge them, it is possible to obtain reduced NFA without relying on costly NFA reduction techniques. Experimental results regarding NFA generation and their application in trace analysis are also presented. | 翻訳日:2023-10-24 04:22:30 公開日:2023-08-03 |
# 機密性のためのツール支援アーキテクチャに基づくデータフロー分析 Tool-Supported Architecture-Based Data Flow Analysis for Confidentiality ( http://arxiv.org/abs/2308.01645v1 ) ライセンス: Link先を確認 | Felix Schwickerath, Nicolas Boltz, Sebastian Hahner, Maximilian Walter, Christopher Gerking, Robert Heinrich | (参考訳) システム間の相互接続の増大により、機密システムの必要性が高まっている。
機密システムは、認証されたエンティティのみにデータを共有する。
しかし、システムの機密性の推定は複雑であり、すでにデプロイされているソフトウェアを調整するのはコストがかかる。
したがって、設計時に既に機密性を推定できる機密性分析を行うことは有益である。
既存のデータフローに基づく機密性分析の概念に基づいて、Javaベースのツールとしてデータフロー分析を再実装した。
このツールはソフトウェアアーキテクチャを使って、データフローに基づいてアクセス違反を特定する。
ツールの評価は,類似したシナリオを解析し,既存の分析よりもスケールがよいことを示す。 Through the increasing interconnection between various systems, the need for confidential systems is increasing. Confidential systems share data only with authorized entities. However, estimating the confidentiality of a system is complex, and adjusting an already deployed software is costly. Thus, it is helpful to have confidentiality analyses, which can estimate the confidentiality already at design time. Based on an existing data-flow-based confidentiality analysis concept, we reimplemented a data flow analysis as a Java-based tool. The tool uses the software architecture to identify access violations based on the data flow. The evaluation for our tool indicates that we can analyze similar scenarios and scale for certain scenarios better than the existing analysis. | 翻訳日:2023-10-23 15:31:04 公開日:2023-08-03 |
# 動的シンボリック実行における経路爆発緩和のための制御フロー変換 Targeted Control-flow Transformations for Mitigating Path Explosion in Dynamic Symbolic Execution ( http://arxiv.org/abs/2308.01554v1 ) ライセンス: Link先を確認 | Charitha Saumya, Rohan Gangaraju, Kirshanthan Sundararajah, Milind Kulkarni | (参考訳) 動的シンボリック実行(DSE)は、ターゲットプログラムが多くの条件分岐を持つ場合、経路爆発問題に悩まされる。
経路爆発問題を管理する古典的なアプローチは動的状態マージである。
動的状態マージは、DSEにおける状態の指数的な成長を避けるために、同様の記号的プログラム状態を組み合わせる。
しかし、状態マージは、分岐の双方の経路が実現可能であり、DSEの最良の経路探索戦略が最良の状態マージ機会を創出しない場合でも、プログラムの各分岐点でのソルバ呼び出しを必要とする。
状態マージの欠点は、コンパイル時の状態マージ、すなわち制御フローをデータフローに変換することによってブランチの排除によって軽減できる。
本稿では,DSEのスケーラビリティを向上するプログラムにおいて,高コストなシンボル分岐を除去する非セマンティクス保存型,非セマンティクス保存型コンパイラ手法を提案する。
変換によって挿入できる急激なバグを検出するためのフレームワークを開発する。
最後に、我々の変換は、様々なベンチマークにおける徹底的なDSEの性能を大幅に向上させ、限られた時間予算で大規模な現実世界の被験者により多くのカバレッジを達成できることを示す。 Dynamic symbolic execution (DSE) suffers from path explosion problem when the target program has many conditional branches. Classical approach for managing the path explosion problem is dynamic state merging. Dynamic state merging combines similar symbolic program states together to avoid the exponential growth of states in DSE. However, state merging still requires solver invocations at each branch point of the program even when both paths of the branch is feasible and, the best path search strategy for DSE may not create the best state merging opportunities. Some drawbacks of state merging can be mitigated by compile-time state merging i.e. branch elimination by converting control-flow into data-flow. In this paper, we propose a non-semantics preserving but failure-preserving compiler technique for removing expensive symbolic branches in a program to improve the scalability of DSE. We develop a framework for detecting spurious bugs that can be inserted by our transformation. Finally, we show that our transformation can significantly improve the performance of exhaustive DSE on variety of benchmarks and helps in achieving more coverage in a large real-world subjects within a limited time budget. | 翻訳日:2023-10-23 15:30:53 公開日:2023-08-03 |
# スマート建設時代の機械学習の自動化:産業分類と回帰作業における意義とアクセシビリティ Automated Machine Learning in the smart construction era:Significance and accessibility for industrial classification and regression tasks ( http://arxiv.org/abs/2308.01517v1 ) ライセンス: Link先を確認 | Rui Zhao, Zhongze Yang, Dong Liang and Fan Xue | (参考訳) 本稿では,グローバル経済に不可欠な分野である建設産業への自動機械学習(AutoML)技術の適用について検討する。
従来のMLモデルの構築方法は複雑で時間がかかり、データサイエンスの専門知識に依存し、高価であった。
AutoMLは、ML構築において多くのタスクを自動化する可能性を示し、パフォーマンスの良いMLモデルを作成する。
本稿では,AutoMLをスマート構築領域の産業データセットに適用する可能性を検証することを目的としており,その有効性を示す具体的な事例研究を行っている。
産業建設データセットに特有の2つのデータ課題は、データセットの作成、モデルトレーニング、評価の通常のステップに加えて、焦点を当てている。
AutoMLのアクセシビリティを示すために,建設プロジェクト型予測の実例が提供される。
AutoMLを活用することで、データサイエンスの専門知識を持たない建設専門家は、ソフトウェアを使用して産業データをプロジェクト管理を支援するMLモデルに処理できるようになる。
本稿では,データ集約型スマート構築手法とautomlの新興分野とのギャップを橋渡しし,意思決定,プロジェクト成果,効率の向上のためにその採用を奨励する。 This paper explores the application of automated machine learning (AutoML) techniques to the construction industry, a sector vital to the global economy. Traditional ML model construction methods were complex, time-consuming, reliant on data science expertise, and expensive. AutoML shows the potential to automate many tasks in ML construction and to create outperformed ML models. This paper aims to verify the feasibility of applying AutoML to industrial datasets for the smart construction domain, with a specific case study demonstrating its effectiveness. Two data challenges that were unique to industrial construction datasets are focused on, in addition to the normal steps of dataset preparation, model training, and evaluation. A real-world application case of construction project type prediction is provided to illustrate the accessibility of AutoML. By leveraging AutoML, construction professionals without data science expertise can now utilize software to process industrial data into ML models that assist in project management. The findings in this paper may bridge the gap between data-intensive smart construction practices and the emerging field of AutoML, encouraging its adoption for improved decision-making, project outcomes, and efficiency | 翻訳日:2023-10-23 15:30:33 公開日:2023-08-03 |
# 要件完全性を改善する - 大規模言語モデルによる自動支援 Improving Requirements Completeness: Automated Assistance through Large Language Models ( http://arxiv.org/abs/2308.03784v1 ) ライセンス: Link先を確認 | Dipeeka Luitel, Shabnam Hassani, Mehrdad Sabetzadeh | (参考訳) 自然言語(NL)は、おそらくシステムやソフトウェア要件を表現する最も一般的な媒体である。
NL要求の不完全性を検出することは大きな課題である。
不完全性を特定する1つのアプローチは、要求と外部ソースを比較することである。
LLMは、NL要求の潜在的な不完全性を検出するために、外部の知識源として有用か?
本稿では,BERTを用いてこの問題について考察する。
具体的には,BERT のマスク付き言語モデル (MLM) を用いて,要求条件におけるマスク付きスロットを埋めるための文脈的予測を生成する。
不完全性をシミュレートするために、要求からコンテンツを取り除き、未保持コンテンツに存在するが開示コンテンツには存在しない用語を予測するBERTの能力を評価する。
BERTはマスクごとに複数の予測を生成することができる。
最初のコントリビューションは、マスクごとの最適な予測数を決定し、要求の欠落を効果的に識別することと、予測に存在するノイズを緩和することのバランスを崩すことです。
第2の貢献は、処理後のbert予測に対する機械学習ベースのフィルタの設計と、さらにノイズの低減に関するものです。
PUREデータセットから40の要求仕様を用いて実証評価を行った。
その結果, (1) BERTの予測は, 要件から逸脱している用語を効果的に強調し, (2) BERT は関連する用語を識別する上で, より単純なベースラインを上回り, 3) フィルタは予測のノイズを大幅に低減し, 要求の完全性チェックツールとしてのBERTの有効性を高めた。 Natural language (NL) is arguably the most prevalent medium for expressing systems and software requirements. Detecting incompleteness in NL requirements is a major challenge. One approach to identify incompleteness is to compare requirements with external sources. Given the rise of large language models (LLMs), an interesting question arises: Are LLMs useful external sources of knowledge for detecting potential incompleteness in NL requirements? This article explores this question by utilizing BERT. Specifically, we employ BERT's masked language model (MLM) to generate contextualized predictions for filling masked slots in requirements. To simulate incompleteness, we withhold content from the requirements and assess BERT's ability to predict terminology that is present in the withheld content but absent in the disclosed content. BERT can produce multiple predictions per mask. Our first contribution is determining the optimal number of predictions per mask, striking a balance between effectively identifying omissions in requirements and mitigating noise present in the predictions. Our second contribution involves designing a machine learning-based filter to post-process BERT's predictions and further reduce noise. We conduct an empirical evaluation using 40 requirements specifications from the PURE dataset. Our findings indicate that: (1) BERT's predictions effectively highlight terminology that is missing from requirements, (2) BERT outperforms simpler baselines in identifying relevant yet missing terminology, and (3) our filter significantly reduces noise in the predictions, enhancing BERT's effectiveness as a tool for completeness checking of requirements. | 翻訳日:2023-10-23 15:11:21 公開日:2023-08-03 |
# 拡散に基づくMicrosoft 365の時系列データ計算 Diffusion-based Time Series Data Imputation for Microsoft 365 ( http://arxiv.org/abs/2309.02564v1 ) ライセンス: Link先を確認 | Fangkai Yang, Wenjie Yin, Lu Wang, Tianci Li, Pu Zhao, Bo Liu, Paul Wang, Bo Qiao, Yudong Liu, M{\aa}rten Bj\"orkman, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang | (参考訳) microsoft 365のような大規模クラウドシステムでは、信頼性が非常に重要です。
ディスク障害やノード障害などのクラウド障害はサービスの信頼性を脅かし、オンラインサービスの中断と経済的損失をもたらす。
既存の作業では、クラウド障害の予測と、障害発生前に積極的に行動を起こすことに注力している。
しかし、モデルトレーニングや予測に欠けているデータのようなデータ品質に悩まされ、パフォーマンスが制限されます。
本稿では,サンプル効率のよい拡散モデルである diffusion+ によるデータインプテーションによるデータ品質の向上に着目し,観測データに基づいて欠落したデータを効率的にインプットする。
実験と応用により,本モデルがダウンストリーム障害予測タスクの性能向上に寄与することを示した。 Reliability is extremely important for large-scale cloud systems like Microsoft 365. Cloud failures such as disk failure, node failure, etc. threaten service reliability, resulting in online service interruptions and economic loss. Existing works focus on predicting cloud failures and proactively taking action before failures happen. However, they suffer from poor data quality like data missing in model training and prediction, which limits the performance. In this paper, we focus on enhancing data quality through data imputation by the proposed Diffusion+, a sample-efficient diffusion model, to impute the missing data efficiently based on the observed data. Our experiments and application practice show that our model contributes to improving the performance of the downstream failure prediction task. | 翻訳日:2023-09-10 03:48:03 公開日:2023-08-03 |
# 大学入学法がアジア系アメリカ人の応募者に与える影響 The Disparate Impacts of College Admissions Policies on Asian American Applicants ( http://arxiv.org/abs/2308.04449v1 ) ライセンス: Link先を確認 | Joshua Grossman, Sabina Tomkins, Lindsay Page, Sharad Goel | (参考訳) アジア系アメリカ人の学生が、同様の学術資格を持つ白人の学生よりも低い割合で選択的な大学や大学に入学するかどうかが議論されている。
しかし、この問題に関する実証的な調査はほとんど行われておらず、その大部分はデータ不足によるものである。
ここでは、アジア系アメリカ人と白人学生の685,709のアプリケーションから、2015-2016年のサイクルから始まる5回の申請サイクルにおける選択的な米国機関のサブセットまでの分析結果を紹介する。
データセットには入会決定は含まれていないので、登録選択に基づくプロキシを構築します。
アジア系アメリカ人の受験者が少なくとも1つの学校に入学した確率は、同様のテストスコア、学年点平均、課外活動を持つ白人学生の28%よりも低いと推定した。
このギャップは特に南アジア系(49%低い確率)の学生に顕著であった。
我々はこのパターンを部分的に2つの要因に遡る。
第一に、多くの選択的な大学が公然と卒業生の子供に好意的であり、白人の応募者はアジア系、特に南アジア系の応募者よりも格段にレガシーな地位にあることが判明した。
第二に、観察された学生の特徴を調整した後、アジア系学生の比率が比較的高い地域からの学生を受け入れる可能性が低いと考えられる。
これらの結果が大学入学政策の公平性に関する議論を継続していることを願っている。 There is debate over whether Asian American students are admitted to selective colleges and universities at lower rates than white students with similar academic qualifications. However, there have been few empirical investigations of this issue, in large part due to a dearth of data. Here we present the results from analyzing 685,709 applications from Asian American and white students to a subset of selective U.S. institutions over five application cycles, beginning with the 2015-2016 cycle. The dataset does not include admissions decisions, and so we construct a proxy based in part on enrollment choices. Based on this proxy, we estimate the odds that Asian American applicants were admitted to at least one of the schools we consider were 28% lower than the odds for white students with similar test scores, grade-point averages, and extracurricular activities. The gap was particularly pronounced for students of South Asian descent (49% lower odds). We trace this pattern in part to two factors. First, many selective colleges openly give preference to the children of alumni, and we find that white applicants were substantially more likely to have such legacy status than Asian applicants, especially South Asian applicants. Second, after adjusting for observed student characteristics, the institutions we consider appear less likely to admit students from geographic regions with relatively high shares of applicants who are Asian. We hope these results inform ongoing discussions on the equity of college admissions policies. | 翻訳日:2023-08-14 00:19:03 公開日:2023-08-03 |
# 社会ロボットのための変分メタ強化学習 Variational Meta Reinforcement Learning for Social Robotics ( http://arxiv.org/abs/2206.03211v4 ) ライセンス: Link先を確認 | Anand Ballou, Xavier Alameda-Pineda, Chris Reinke | (参考訳) 日々の環境においてロボットの存在感が高まる中、社会的スキルの向上は極めて重要である。
それでも、ソーシャルロボティクスは多くの課題に直面している。
一つのボトルネックは、ロボットの行動は環境に強く依存する社会規範として適応する必要があることである。
例えば、ロボットは、オフィスで働く人に比べて、病院の患者の周りを慎重に移動する必要がある。
本研究ではメタ強化学習(meta-RL)を潜在的ソリューションとして検討する。
ここでは、ロボットが所定の環境に対して適切な行動を学ぶために、報酬関数を選択する必要がある強化学習を通じてロボットの動作を学習する。
本稿では,ロボットの動作を新たな報酬関数に迅速に適応する変分メタRL手法を提案する。
その結果、新しい環境が与えられると、異なる報酬関数を迅速に評価し、適切なものを選択できる。
この手順は、報酬関数のベクトル化表現と、そのような表現に条件付けできるメタ政治を学習する。
新しい報酬関数からの観察によって、手続きはその表現とそれに対するメタポリシーを識別する。
手順の能力を調査する中で,表現の次元のサブセットのみが有用な情報をエンコードし,結果として性能が低下する後方崩壊に苦しむことが判明した。
第2の貢献である放射基底関数(RBF)層は、この負の効果を部分的に緩和する。
RBF層は高次元空間に表現を持ち上げ、メタ政治にとってより容易に利用することができる。
4つのロボットシミュレーションタスクにおいて,RBF層の関心とメタRLの社会ロボティクスへの応用を示す。 With the increasing presence of robots in our every-day environments, improving their social skills is of utmost importance. Nonetheless, social robotics still faces many challenges. One bottleneck is that robotic behaviors need to be often adapted as social norms depend strongly on the environment. For example, a robot should navigate more carefully around patients in a hospital compared to workers in an office. In this work, we investigate meta-reinforcement learning (meta-RL) as a potential solution. Here, robot behaviors are learned via reinforcement learning where a reward function needs to be chosen so that the robot learns an appropriate behavior for a given environment. We propose to use a variational meta-RL procedure that quickly adapts the robots' behavior to new reward functions. As a result, given a new environment different reward functions can be quickly evaluated and an appropriate one selected. The procedure learns a vectorized representation for reward functions and a meta-policy that can be conditioned on such a representation. Given observations from a new reward function, the procedure identifies its representation and conditions the meta-policy to it. While investigating the procedures' capabilities, we realized that it suffers from posterior collapse where only a subset of the dimensions in the representation encode useful information resulting in a reduced performance. Our second contribution, a radial basis function (RBF) layer, partially mitigates this negative effect. The RBF layer lifts the representation to a higher dimensional space, which is more easily exploitable for the meta-policy. We demonstrate the interest of the RBF layer and the usage of meta-RL for social robotics on four robotic simulation tasks. | 翻訳日:2023-08-09 01:20:21 公開日:2023-08-03 |
# 大規模生成シミュレーション人工知能 - 生成AIの次のホットスポット Large-scale Generative Simulation Artificial Intelligence: the Next Hotspot in Generative AI ( http://arxiv.org/abs/2308.02561v1 ) ライセンス: Link先を確認 | Qi Wang, Yanghe Feng, Jincai Huang, Yiqin Lv, Zheng Xie, Xiaoshan Gao | (参考訳) GenAIの概念は何十年にもわたって発展してきた。
最近まで、自然言語処理とコンピュータビジョンにかなりのブレークスルーが与えられ、産業シナリオに積極的に取り組んできました。
例えば、限られた学習資源、科学的発見経験主義への過度な依存など、実践的な課題に気づき、我々はGenAIが接続する次のホットスポットとして、大規模な生成シミュレーション人工知能(LS-GenAI)を選定する。 The concept of GenAI has been developed for decades. Until recently, it has impressed us with substantial breakthroughs in natural language processing and computer vision, actively engaging in industrial scenarios. Noticing the practical challenges, e.g., limited learning resources, and overly dependencies on scientific discovery empiricism, we nominate large-scale generative simulation artificial intelligence (LS-GenAI) as the next hotspot for GenAI to connect. | 翻訳日:2023-08-08 20:09:42 公開日:2023-08-03 |
# 地下のクリームスキー:オンラインフォーラムから関連情報ポイントを特定する Cream Skimming the Underground: Identifying Relevant Information Points from Online Forums ( http://arxiv.org/abs/2308.02581v1 ) ライセンス: Link先を確認 | Felipe Moreno-Vera, Mateus Nogueira, Cain\~a Figueiredo, Daniel Sadoc Menasch\'e, Miguel Bicudo, Ashton Woiwood, Enrico Lovat, Anton Kocheturov, Leandro Pfleger de Aguiar | (参考訳) 本稿では,地下ハッキングフォーラムをモニタリングすることで,野生における脆弱性の悪用を検出する機械学習アプローチを提案する。
荒野でのエクスプロイトについて議論する投稿が増えているため、スレッドやポストを処理し、最終的にはコンテンツに応じてアラームを発生させる自動アプローチが求められている。
提案システムを説明するために,複数の地下フォーラムから抽出したデータを含むCristBBデータセットを用いて,CVEを引用するスレッドをフィルタリングし,それらをProof-of-Concept, Weaponization, Exploitationとラベル付け可能な教師付き機械学習モデルを開発した。
ランダム林の活用により,分類作業において0.99以上の精度,精度,リコールが達成可能であることを示す。
さらに、武器化と搾取の違い、例えば、決定木の出力を解釈し、ハッキングコミュニティに関連する利益やその他の側面を分析する。
全体として、当社の作業は、脆弱性の悪用に関する洞察を隠蔽し、EPSSや期待される爆発可能性といったモデルに新たな根拠を提供するために使用できます。 This paper proposes a machine learning-based approach for detecting the exploitation of vulnerabilities in the wild by monitoring underground hacking forums. The increasing volume of posts discussing exploitation in the wild calls for an automatic approach to process threads and posts that will eventually trigger alarms depending on their content. To illustrate the proposed system, we use the CrimeBB dataset, which contains data scraped from multiple underground forums, and develop a supervised machine learning model that can filter threads citing CVEs and label them as Proof-of-Concept, Weaponization, or Exploitation. Leveraging random forests, we indicate that accuracy, precision and recall above 0.99 are attainable for the classification task. Additionally, we provide insights into the difference in nature between weaponization and exploitation, e.g., interpreting the output of a decision tree, and analyze the profits and other aspects related to the hacking communities. Overall, our work sheds insight into the exploitation of vulnerabilities in the wild and can be used to provide additional ground truth to models such as EPSS and Expected Exploitability. | 翻訳日:2023-08-08 19:58:23 公開日:2023-08-03 |
# 確率的深層監視ネットワーク:qos予測のための雑音耐性アプローチ Probabilistic Deep Supervision Network: A Noise-Resilient Approach for QoS Prediction ( http://arxiv.org/abs/2308.02580v1 ) ライセンス: Link先を確認 | Ziliang Wang, Xiaohong Zhang, Sheng Huang, Wei Zhang, Dan Yang and Meng Yan | (参考訳) qos(quality of service)予測は,未知のqos値を正確に予測することでユーザの満足度を向上させる,レコメンデーションシステムにおいて不可欠なタスクである。
しかし、既存のQoS予測技術は、偽の位置情報や仮想ゲートウェイのようなノイズデータの存在下では性能が悪くなる可能性がある。
本稿では,QoS予測のための新しいフレームワークである確率的深層監視ネットワーク(PDS-Net)を提案する。
PDS-Netはガウス的確率空間を用いて中間層を監督し、既知の特徴と真のラベルの両方の確率空間を学習する。
さらに、PDS-Netは、条件ベースのマルチタスク損失関数を用いて、ノイズデータを用いてオブジェクトを識別し、それらのオブジェクトの確率空間と実ラベル確率空間との間のクルバック・リーバー距離を最適化することにより、確率空間からサンプリングされた深い特徴を直接監督する。
したがって、PDS-Netは、破損したデータの伝播によるエラーを効果的に低減し、より正確なQoS予測をもたらす。
実世界の2つのQoSデータセットの実験的評価により、提案したPSD-Netは最先端のベースラインよりも優れており、我々のアプローチの有効性が検証されている。 Quality of Service (QoS) prediction is an essential task in recommendation systems, where accurately predicting unknown QoS values can improve user satisfaction. However, existing QoS prediction techniques may perform poorly in the presence of noise data, such as fake location information or virtual gateways. In this paper, we propose the Probabilistic Deep Supervision Network (PDS-Net), a novel framework for QoS prediction that addresses this issue. PDS-Net utilizes a Gaussian-based probabilistic space to supervise intermediate layers and learns probability spaces for both known features and true labels. Moreover, PDS-Net employs a condition-based multitasking loss function to identify objects with noise data and applies supervision directly to deep features sampled from the probability space by optimizing the Kullback-Leibler distance between the probability space of these objects and the real-label probability space. Thus, PDS-Net effectively reduces errors resulting from the propagation of corrupted data, leading to more accurate QoS predictions. Experimental evaluations on two real-world QoS datasets demonstrate that the proposed PDS-Net outperforms state-of-the-art baselines, validating the effectiveness of our approach. | 翻訳日:2023-08-08 19:58:04 公開日:2023-08-03 |
# GPT-4は信頼率が高いか?
GPT-4テキストレーティングにおける一貫性の評価 Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings ( http://arxiv.org/abs/2308.02575v1 ) ライセンス: Link先を確認 | Veronika Hackl, Alexandra Elena M\"uller, Michael Granitzer, Maximilian Sailer | (参考訳) 本研究では,OpenAIの最新の人工知能言語モデルであるGPT-4によるフィードバック評価の一貫性について,複数イテレーション,時間スパン,スタイリスティックなバリエーションについて検討した。
モデルは、その内容とスタイルの観点から、高等教育(he)のマクロ経済学の主題領域におけるタスクに対する反応を格付けした。
統計的分析を行い, インテラターの信頼性, イテレーション間における評価の一貫性, コンテンツとスタイルによる評価の相関性について検討した。
その結果、ICCスコアが0.94から0.99の範囲で異なるタイムパンに対して高いインターラッター信頼性を示し、GPT-4は明確なプロンプトで反復で一貫した評価を生成できることが示唆された。
スタイルとコンテンツ評価の相関は0.87である。
非適切なスタイルを適用する場合、平均コンテンツレーティングは一定であり、スタイルレーティングは減少し、大言語モデル(llm)は評価中にこれらの2つの基準を効果的に区別した。
本研究で用いられるプロンプトは,さらに提示され,説明される。
さまざまなユースケースにおいて、AIモデルの堅牢性と信頼性を評価するためには、さらなる研究が必要である。 This study investigates the consistency of feedback ratings generated by OpenAI's GPT-4, a state-of-the-art artificial intelligence language model, across multiple iterations, time spans and stylistic variations. The model rated responses to tasks within the Higher Education (HE) subject domain of macroeconomics in terms of their content and style. Statistical analysis was conducted in order to learn more about the interrater reliability, consistency of the ratings across iterations and the correlation between ratings in terms of content and style. The results revealed a high interrater reliability with ICC scores ranging between 0.94 and 0.99 for different timespans, suggesting that GPT-4 is capable of generating consistent ratings across repetitions with a clear prompt. Style and content ratings show a high correlation of 0.87. When applying a non-adequate style the average content ratings remained constant, while style ratings decreased, which indicates that the large language model (LLM) effectively distinguishes between these two criteria during evaluation. The prompt used in this study is furthermore presented and explained. Further research is necessary to assess the robustness and reliability of AI models in various use cases. | 翻訳日:2023-08-08 19:57:39 公開日:2023-08-03 |
# データ化社会におけるプライバシの批判的考察 A Critical Take on Privacy in a Datafied Society ( http://arxiv.org/abs/2308.02573v1 ) ライセンス: Link先を確認 | Marco Cremonini | (参考訳) プライバシーは、現在のデータフィッティング世界の中でますます弱くなりつつある要素であり、その理由は明らかである: 強力な俳優は、商業的および監視目的で、すべての人のプライバシーを侵害するために働いた。
これらの役者の存在とその議題は否定できないが、説明は過度に単純化され、現状を維持する傾向にある物語を作るのに貢献した。
本稿では,プライバシ擁護者によって提示されたオンラインプライバシとイディオ同期の欠如に関するいくつかの側面を分析し,その多くがデータ保護プロセスに責任を持つ業界の特徴と,その高い有効性を公然と問うべき理由について分析する。
次に,データフィケーションが人間の行動に与える影響,オンラインプライバシの基盤における市場志向の前提,および新たな適応戦略について論じる。
最後の部分では、オンラインプライバシに対する規制アプローチが検討されている。
EUのGDPRは現代のプライバシー規制のリファレンスケースとして賞賛されているが、同じ成功は、制度決定プロセスのゆるやかさから情報的同意原理の欠陥まで、同時に現れた重要な側面を妨げている。
潜在的な問題となる未来を垣間見るために、EU、英国、および中国のジェネレーティブAIポリシーに関するプライバシー関連の側面に関する議論が提供されている。 Privacy is an increasingly feeble constituent of the present datafied world and apparently the reason for that is clear: powerful actors worked to invade everyone's privacy for commercial and surveillance purposes. The existence of those actors and their agendas is undeniable, but the explanation is overly simplistic and contributed to create a narrative that tends to preserve the status quo. In this essay, I analyze several facets of the lack of online privacy and idiosyncrasies exhibited by privacy advocates, together with characteristics of the industry mostly responsible for the datafication process and why its asserted high effectiveness should be openly inquired. Then I discuss of possible effects of datafication on human behavior, the prevalent market-oriented assumption at the base of online privacy, and some emerging adaptation strategies. In the last part, the regulatory approach to online privacy is considered. The EU's GDPR is praised as the reference case of modern privacy regulations, but the same success hinders critical aspects that also emerged, from the quirks of the institutional decision process, to the flaws of the informed consent principle. A glimpse on the likely problematic future is provided with a discussion on privacy related aspects of EU, UK, and China's proposed generative AI policies. | 翻訳日:2023-08-08 19:57:20 公開日:2023-08-03 |
# ADRNet: 逆薬物反応予測のための臨床データと非臨床データを組み合わせた一般協調フィルタリングフレームワーク ADRNet: A Generalized Collaborative Filtering Framework Combining Clinical and Non-Clinical Data for Adverse Drug Reaction Prediction ( http://arxiv.org/abs/2308.02571v1 ) ライセンス: Link先を確認 | Haoxuan Li, Taojun Hu, Zetong Xiong, Chunyuan Zheng, Fuli Feng, Xiangnan He, Xiao-Hua Zhou | (参考訳) 逆薬物反応(ADR)予測は、患者の死亡率の低減と薬物安全性の向上に医療と薬物発見の両方において重要な役割を果たす。
近年,薬物摂取率を効果的に予測する研究が数多く行われている。
しかし、これらの方法は非臨床データ、すなわち薬物の物理的、化学的、生物学的情報を効果的に利用しなかったり、トレーニング段階でコンテンツベースのフィルタリングと純粋に協調的なフィルタリングのリンクを確立するには至らなかった。
本稿では,薬物-ADR協調フィルタリング問題としての多ラベルADRの予測を最初に定式化し,我々の知る限り,2つの大規模臨床データセットに対して従来の協調フィルタリング手法の広範なベンチマーク結果を提供するための最初の試みである。
そこで本研究では,非臨床データから容易にアクセス可能な薬物特性を活用し,臨床情報と非臨床情報を組み合わせた汎用フィルタリングフレームワークであるadrnetを提案する。
具体的には、ADRNetには浅い協調フィルタリングモジュールとディープドラッグ表現モジュールがあり、これは高次元の薬物記述子を利用して低次元のADR潜伏埋め込みの学習をガイドし、協調フィルタリングと表現学習の両方の利点を取り入れている。
提案する adrnet の精度と効率を実証するために, 現実世界で利用可能な 2 つの薬物-adr 臨床データセットと 2 つの非臨床データセットについて広範な実験を行った。
コードはhttps://github.com/haoxuanli-pku/adrnetで入手できる。 Adverse drug reaction (ADR) prediction plays a crucial role in both health care and drug discovery for reducing patient mortality and enhancing drug safety. Recently, many studies have been devoted to effectively predict the drug-ADRs incidence rates. However, these methods either did not effectively utilize non-clinical data, i.e., physical, chemical, and biological information about the drug, or did little to establish a link between content-based and pure collaborative filtering during the training phase. In this paper, we first formulate the prediction of multi-label ADRs as a drug-ADR collaborative filtering problem, and to the best of our knowledge, this is the first work to provide extensive benchmark results of previous collaborative filtering methods on two large publicly available clinical datasets. Then, by exploiting the easy accessible drug characteristics from non-clinical data, we propose ADRNet, a generalized collaborative filtering framework combining clinical and non-clinical data for drug-ADR prediction. Specifically, ADRNet has a shallow collaborative filtering module and a deep drug representation module, which can exploit the high-dimensional drug descriptors to further guide the learning of low-dimensional ADR latent embeddings, which incorporates both the benefits of collaborative filtering and representation learning. Extensive experiments are conducted on two publicly available real-world drug-ADR clinical datasets and two non-clinical datasets to demonstrate the accuracy and efficiency of the proposed ADRNet. The code is available at https://github.com/haoxuanli-pku/ADRnet. | 翻訳日:2023-08-08 19:56:56 公開日:2023-08-03 |
# マルチモーダルnerのための双方向生成アライメントによる暗黙的エンティティ・オブジェクト関係の学習 Learning Implicit Entity-object Relations by Bidirectional Generative Alignment for Multimodal NER ( http://arxiv.org/abs/2308.02570v1 ) ライセンス: Link先を確認 | Feng Chen, Jiajia Liu, Kaixiang Ji, Wang Ren, Jian Wang, Jingdong Wang | (参考訳) マルチモーダルなエンティティ認識(MNER)がもたらす課題は,(1)テキストと画像のセマンティックなギャップを埋めること,(2)エンティティと関連するオブジェクトを画像でマッチングすること,の2つである。
既存のメソッドは、対応するアノテーションがないため、暗黙のエンティティオブジェクトの関係をキャプチャできない。
本稿では,BGA-MNERという双方向生成アライメント手法を提案する。
我々のBGA-MNERは、エンティティ・サレントな2つのモーダルのコンテンツに関して、 \texttt{image2text} と \texttt{text2image} の生成からなる。
双方向再構築の目的を共同で最適化し、このような直接的かつ強力な制約の下で暗黙的な実体オブジェクトの関係を整合させる。
さらに、画像とテキストのペアは通常、生成にうるさい未一致のコンポーネントを含んでいる。
提案手法は, 提案手法を用いて, 一致したクロスモーダルコンテンツを抽出し, 生成する。
2つのベンチマークに関する広範囲な実験により,提案手法が画像入力を伴わずに最先端の性能を実現することを実証した。 The challenge posed by multimodal named entity recognition (MNER) is mainly two-fold: (1) bridging the semantic gap between text and image and (2) matching the entity with its associated object in image. Existing methods fail to capture the implicit entity-object relations, due to the lack of corresponding annotation. In this paper, we propose a bidirectional generative alignment method named BGA-MNER to tackle these issues. Our BGA-MNER consists of \texttt{image2text} and \texttt{text2image} generation with respect to entity-salient content in two modalities. It jointly optimizes the bidirectional reconstruction objectives, leading to aligning the implicit entity-object relations under such direct and powerful constraints. Furthermore, image-text pairs usually contain unmatched components which are noisy for generation. A stage-refined context sampler is proposed to extract the matched cross-modal content for generation. Extensive experiments on two benchmarks demonstrate that our method achieves state-of-the-art performance without image input during inference. | 翻訳日:2023-08-08 19:56:31 公開日:2023-08-03 |
# BioBERTによるSNP-traits Associationsのバイオメディカル文献からの抽出 BioBERT Based SNP-traits Associations Extraction from Biomedical Literature ( http://arxiv.org/abs/2308.02569v1 ) ライセンス: Link先を確認 | Mohammad Dehghani, Behrouz Bokharaeian, Zahra Yazdanparast | (参考訳) 科学文献には、バイオメディカルな関係を抽出するテキストマイニング手法を開発するための優れた機会を提供する、かなりの量の情報が含まれている。
重要な情報の1つは特異ヌクレオチド多型(snp)と形質の関係である。
本稿では,SNP特性関連を同定するBioBERT-GRU法を提案する。
SNPPhenAデータセット上での本手法の評価から,本手法は従来の機械学習法や深層学習法よりも優れていると結論付けた。
BioBERT-GRUは0.883の精度、0.882のリコール、0.881のF1スコアを達成した。 Scientific literature contains a considerable amount of information that provides an excellent opportunity for developing text mining methods to extract biomedical relationships. An important type of information is the relationship between singular nucleotide polymorphisms (SNP) and traits. In this paper, we present a BioBERT-GRU method to identify SNP- traits associations. Based on the evaluation of our method on the SNPPhenA dataset, it is concluded that this new method performs better than previous machine learning and deep learning based methods. BioBERT-GRU achieved the result a precision of 0.883, recall of 0.882 and F1-score of 0.881. | 翻訳日:2023-08-08 19:56:12 公開日:2023-08-03 |
# アプリ広告CTRにおける重み付きマルチレベル特徴係数化とインストール予測 Weighted Multi-Level Feature Factorization for App ads CTR and installation prediction ( http://arxiv.org/abs/2308.02568v1 ) ライセンス: Link先を確認 | Juan Manuel Rodriguez and Antonela Tommasel | (参考訳) 本稿では,ACM RecSys Challenge 2023におけるISISTANITOSチームとしてのアプローチの概要を紹介する。
このコンペはsharechatによって組織され、ユーザーがアプリ広告をクリックしたり、アプリをインストールしたりする確率を予測することで、ユーザープライバシを特に重視する深いファンネル最適化を改善した。
提案手法は,クリックとインストールの確率を2つの異なるタスクとして推定する。
したがって、モデルエンジニアは各タスクの特定の機能セットと共有機能セットを設計する。
我々のモデルは重み付き多レベル特徴分解と呼ばれるが、それは順序がニューラルネットワークの深さに関係している異なる順序特徴の相互作用を考えるからである。
与えられたタスクの予測は、タスク固有の機能と、異なるレベルの共有機能を組み合わせて生成される。
コンペティション・アセスメント・トラックの最終結果では,11位,総合スコア55を達成しました。
ソースコードはhttps://github.com/knife982000/recsys2023challengeで公開しています。 This paper provides an overview of the approach we used as team ISISTANITOS for the ACM RecSys Challenge 2023. The competition was organized by ShareChat, and involved predicting the probability of a user clicking an app ad and/or installing an app, to improve deep funnel optimization and a special focus on user privacy. Our proposed method inferring the probabilities of clicking and installing as two different, but related tasks. Hence, the model engineers a specific set of features for each task and a set of shared features. Our model is called Weighted Multi-Level Feature Factorization because it considers the interaction of different order features, where the order is associated to the depth in a neural network. The prediction for a given task is generated by combining the task specific and shared features on the different levels. Our submission achieved the 11 rank and overall score of 55 in the competition academia-track final results. We release our source code at: https://github.com/knife982000/RecSys2023Challenge | 翻訳日:2023-08-08 19:56:02 公開日:2023-08-03 |
# SimTeG: テキストグラフ学習を改善する極めてシンプルなアプローチ SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning ( http://arxiv.org/abs/2308.02565v1 ) ライセンス: Link先を確認 | Keyu Duan, Qian Liu, Tat-Seng Chua, Shuicheng Yan, Wei Tsang Ooi, Qizhe Xie, Junxian He | (参考訳) テキストグラフ(TG)は、ノードがテキスト(文や文書)に対応するグラフであり、広く普及している。
TGの表現学習には2つの段階がある。
(i)教師なし特徴抽出及び
(ii)教師付きグラフ表現学習。
近年、グラフニューラルネットワーク(GNN)が支配する後期に多大な努力が注がれている。
しかし、既存のグラフベンチマークの以前の段階は依然として従来の機能エンジニアリング技術に依存している。
最近では、言語モデル(LM)の急速な発展に伴い、研究者は、計算集約的なフレームワーク(2段階を統合する)でそれらを共同で訓練したり、特徴抽出のための複雑な自己教師型トレーニングタスクを設計(第1段階の強化)することで、TGの学習を促進するためにLMを活用することに重点を置いている。
本稿では,フレームワークやモデル,タスクに革新を及ぼさないテキストグラフ学習のための,フラストレーションに富んだシンプルなアプローチであるsimtegを提案する。
代わりに、ノード分類のような下流タスクで事前訓練されたlm上で教師付きパラメータ効率の細かいチューニング(peft)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
これらの特徴は、任意のGNNによって、同じタスクでトレーニングするためにさらに活用することができる。
ノード分類とリンク予測という2つの基本的なグラフ表現学習タスクに対するアプローチを評価する。
大規模な実験により,複数のグラフベンチマーク上での各種GNNの性能が大幅に向上することを示す。 Textual graphs (TGs) are graphs whose nodes correspond to text (sentences or documents), which are widely prevalent. The representation learning of TGs involves two stages: (i) unsupervised feature extraction and (ii) supervised graph representation learning. In recent years, extensive efforts have been devoted to the latter stage, where Graph Neural Networks (GNNs) have dominated. However, the former stage for most existing graph benchmarks still relies on traditional feature engineering techniques. More recently, with the rapid development of language models (LMs), researchers have focused on leveraging LMs to facilitate the learning of TGs, either by jointly training them in a computationally intensive framework (merging the two stages), or designing complex self-supervised training tasks for feature extraction (enhancing the first stage). In this work, we present SimTeG, a frustratingly Simple approach for Textual Graph learning that does not innovate in frameworks, models, and tasks. Instead, we first perform supervised parameter-efficient fine-tuning (PEFT) on a pre-trained LM on the downstream task, such as node classification. We then generate node embeddings using the last hidden states of finetuned LM. These derived features can be further utilized by any GNN for training on the same task. We evaluate our approach on two fundamental graph representation learning tasks: node classification and link prediction. Through extensive experiments, we show that our approach significantly improves the performance of various GNNs on multiple graph benchmarks. | 翻訳日:2023-08-08 19:55:43 公開日:2023-08-03 |
# 視覚・テクスチャデータの複合表現を用いた食品分類 Food Classification using Joint Representation of Visual and Textual Data ( http://arxiv.org/abs/2308.02562v1 ) ライセンス: Link先を確認 | Prateek Mittal, Puneet Goyal, Joohi Chauhan | (参考訳) 食品分類は医療において重要な課題である。
本研究では,画像分類にmishアクティベーション関数を付加した efficientnet の修正版を用いたマルチモーダル分類フレームワークを提案し,従来の bert transformer ベースのネットワークをテキスト分類に用いた。
提案手法は,大規模なオープンソースデータセットUPMC Food-101を用いて評価した。
実験の結果,提案手法は他の手法よりも優れており,画像分類では11.57%,テキスト分類では6.34%の精度差が見られた。
また,機械学習モデルとディープラーニングモデルの両方を用いて,テキスト分類における精度,精度,リコール性能の比較を行った。
画像とテキストの予測結果の比較分析により,提案手法の有効性と頑健性が示された。 Food classification is an important task in health care. In this work, we propose a multimodal classification framework that uses the modified version of EfficientNet with the Mish activation function for image classification, and the traditional BERT transformer-based network is used for text classification. The proposed network and the other state-of-the-art methods are evaluated on a large open-source dataset, UPMC Food-101. The experimental results show that the proposed network outperforms the other methods, a significant difference of 11.57% and 6.34% in accuracy is observed for image and text classification, respectively, when compared with the second-best performing method. We also compared the performance in terms of accuracy, precision, and recall for text classification using both machine learning and deep learning-based models. The comparative analysis from the prediction results of both images and text demonstrated the efficiency and robustness of the proposed approach. | 翻訳日:2023-08-08 19:55:16 公開日:2023-08-03 |
# smarla: 深層強化学習エージェントのための安全性監視手法 SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2308.02594v1 ) ライセンス: Link先を確認 | Amirhossein Zolfagharian, Manel Abdellatif, Lionel C. Briand, and Ramesh S | (参考訳) 深層強化学習アルゴリズム(drl)は安全性クリティカルなシステムでますます使われている。
DRLエージェントの安全性を確保することは、このような文脈において重要な関心事である。
しかし、安全性を保証するにはテストのみに頼るだけでは十分ではない。
安全モニターの構築は、この課題を軽減するためのソリューションのひとつだ。
本稿では,DRLエージェントを対象とした機械学習による安全監視手法SMARLAを提案する。
SMARLAはブラックボックス(エージェントの内部へのアクセスを必要としないため)として設計されており、状態抽象化を利用して状態空間を縮小し、エージェントの状態から安全違反予測モデルの学習を容易にする。
SMARLAを2つの有名なRL症例で検討した。
経験的分析により、SMARLAは偽陽性率の低い正確な違反予測を達成し、違反が起こる前にエージェントの実行のほぼ途中で、早期に安全違反を予測できることが明らかになった。 Deep reinforcement learning algorithms (DRL) are increasingly being used in safety-critical systems. Ensuring the safety of DRL agents is a critical concern in such contexts. However, relying solely on testing is not sufficient to ensure safety as it does not offer guarantees. Building safety monitors is one solution to alleviate this challenge. This paper proposes SMARLA, a machine learning-based safety monitoring approach designed for DRL agents. For practical reasons, SMARLA is designed to be black-box (as it does not require access to the internals of the agent) and leverages state abstraction to reduce the state space and thus facilitate the learning of safety violation prediction models from agent's states. We validated SMARLA on two well-known RL case studies. Empirical analysis reveals that SMARLA achieves accurate violation prediction with a low false positive rate, and can predict safety violations at an early stage, approximately halfway through the agent's execution before violations occur. | 翻訳日:2023-08-08 19:47:50 公開日:2023-08-03 |
# パーキンソン病をスマイルで救う:AIを利用したスクリーニングフレームワーク Unmasking Parkinson's Disease with Smile: An AI-enabled Screening Framework ( http://arxiv.org/abs/2308.02588v1 ) ライセンス: Link先を確認 | Tariq Adnan, Md Saiful Islam, Wasifur Rahman, Sangwu Lee, Sutapa Dey Tithi, Kazi Noshin, Imran Sarker, M Saifur Rahman, Ehsan Hoque | (参考訳) パーキンソン病(pd)の診断は、信頼できるバイオマーカーの欠如と臨床治療へのアクセスの制限のため、依然として困難である。
本研究では,pdのスクリーンへのマイクロ表現を含む最大のビデオデータセットの解析を行う。
PD患者256名を含む1,059名から3,871本のビデオを収集した。
録音は、複数の国にまたがる参加者の自宅、クリニック、米国のPDケア施設を含む様々な資料から作成されている。
顔の表情の低下を特徴とするPDの顕著な症状である低視症に関連する特徴を抽出した。
これらの特徴に基づいて訓練されたaiモデルのアンサンブルは、精度89.7%、受信者の操作特性(auroc)の下の領域89.3%を達成し、保留データに基づく性別と民族に基づく集団間の検出可能なバイアスを免れた。
さらなる分析により、スマイルビデオのみからの機能は、トレーニング中にモデルが見たことのない2つの外部テストセットでも同等のパフォーマンスをもたらすことが判明し、スマイルセルフィービデオによるpdリスク評価の可能性も示唆された。 Parkinson's disease (PD) diagnosis remains challenging due to lacking a reliable biomarker and limited access to clinical care. In this study, we present an analysis of the largest video dataset containing micro-expressions to screen for PD. We collected 3,871 videos from 1,059 unique participants, including 256 self-reported PD patients. The recordings are from diverse sources encompassing participants' homes across multiple countries, a clinic, and a PD care facility in the US. Leveraging facial landmarks and action units, we extracted features relevant to Hypomimia, a prominent symptom of PD characterized by reduced facial expressions. An ensemble of AI models trained on these features achieved an accuracy of 89.7% and an Area Under the Receiver Operating Characteristic (AUROC) of 89.3% while being free from detectable bias across population subgroups based on sex and ethnicity on held-out data. Further analysis reveals that features from the smiling videos alone lead to comparable performance, even on two external test sets the model has never seen during training, suggesting the potential for PD risk assessment from smiling selfie videos. | 翻訳日:2023-08-08 19:47:34 公開日:2023-08-03 |
# 誘導拡散モデルを用いた白内障手術例の合成 Synthesising Rare Cataract Surgery Samples with Guided Diffusion Models ( http://arxiv.org/abs/2308.02587v1 ) ライセンス: Link先を確認 | Yannik Frisch, Moritz Fuchs, Antoine Sanner, Felix Anton Ucar, Marius Frenzel, Joana Wasielica-Poslednik, Adrian Gericke, Felix Mathias Wagner, Thomas Dratsch, Anirban Mukhopadhyay | (参考訳) 白内障手術は、自動化と高度な補助システムを必要とする頻繁な手術である。
しかし、そのようなシステムのトレーニングのためのデータの収集と注釈はリソース集約的です。
公開されているデータは、手術プロセスに固有の深刻な不均衡も含んでいる。
そこで本研究では,前訓練した下流ツール分類器の最悪の相に対する白内障手術ビデオデータの解析を行った。
分析の結果,不均衡が不均衡な場合における分類器の性能を低下させることが示された。
この課題を解決するために,Diffusion Implicit Models (DDIM) と Classifier-Free Guidance (CFG) に基づく条件生成モデルを利用する。
本モデルでは, 手術段階や手術器具の組み合わせなど, 複雑な多言語条件に基づいて, 多様な高品質な例を合成することができる。
合成されたサンプルは、分類器が認識するツールを表示する。
これらのサンプルは、5年以上の経験を持つ臨床専門家にとっても、実際の画像と区別が難しい。
さらに,この合成拡張データにより,ツール分類の下流タスクにおけるデータスパーシティ問題を改善できる。
評価の結果、モデルは貴重な未発見の例を生成できることが示され、稀なケースではツール分類器を最大10%改善することができる。
全体として,本手法は,現実的な合成データの信頼できる情報源を提供することにより,白内障手術の自動化支援システムの開発を促進することができる。 Cataract surgery is a frequently performed procedure that demands automation and advanced assistance systems. However, gathering and annotating data for training such systems is resource intensive. The publicly available data also comprises severe imbalances inherent to the surgical process. Motivated by this, we analyse cataract surgery video data for the worst-performing phases of a pre-trained downstream tool classifier. The analysis demonstrates that imbalances deteriorate the classifier's performance on underrepresented cases. To address this challenge, we utilise a conditional generative model based on Denoising Diffusion Implicit Models (DDIM) and Classifier-Free Guidance (CFG). Our model can synthesise diverse, high-quality examples based on complex multi-class multi-label conditions, such as surgical phases and combinations of surgical tools. We affirm that the synthesised samples display tools that the classifier recognises. These samples are hard to differentiate from real images, even for clinical experts with more than five years of experience. Further, our synthetically extended data can improve the data sparsity problem for the downstream task of tool classification. The evaluations demonstrate that the model can generate valuable unseen examples, allowing the tool classifier to improve by up to 10% for rare cases. Overall, our approach can facilitate the development of automated assistance systems for cataract surgery by providing a reliable source of realistic synthetic data, which we make available for everyone. | 翻訳日:2023-08-08 19:47:14 公開日:2023-08-03 |
# エージェントポリシーと外部性の統合:bilevel rlによる報酬設計 Aligning Agent Policy with Externalities: Reward Design via Bilevel RL ( http://arxiv.org/abs/2308.02585v1 ) ライセンス: Link先を確認 | Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Dinesh Manocha, Huazheng Wang, Furong Huang, and Mengdi Wang | (参考訳) 強化学習(RL)では、政策最適化手順の開始時に報酬関数が仮定されることが多い。
RLにおけるそのような固定報酬パラダイムの学習は、状態空間のカバレッジや安全性といった重要なポリシー最適化の考慮を無視することができる。
さらに、社会福祉、持続可能性、市場の安定といった幅広い影響を包含することができず、望ましくない緊急行動や政策の不一致につながる可能性がある。
このような外部性とRL政策最適化の整合性に関する問題を数学的にカプセル化するために、二段階最適化問題を考慮し、これを主エージェントフレームワークに接続し、主エージェントが上位レベルでシステムのより広い目標と制約を指定し、エージェントが下位レベルでマルコフ決定プロセス(MDP)を解く。
上位レベルは、より広い目標に対応する適切な報酬パラメトリゼーションの学習を扱い、下位レベルは、エージェントのポリシーの学習を扱っている。
本稿では, エージェントの方針を主目的と効率的に整合させる, バイレベルRL(PPA-BRL)によるプリンシパル駆動型政策アライメントを提案する。
我々は,主の軌道が下層政策に依存していることを明確に分析し,PPA-BRLの定常点への収束性を証明した。
我々は,この枠組みのメリットを,エネルギー効率のよい操作課題,社会福祉に基づく税制設計,コスト効率の高いロボットナビゲーションといったいくつかの例に照らし出す。 In reinforcement learning (RL), a reward function is often assumed at the outset of a policy optimization procedure. Learning in such a fixed reward paradigm in RL can neglect important policy optimization considerations, such as state space coverage and safety. Moreover, it can fail to encompass broader impacts in terms of social welfare, sustainability, or market stability, potentially leading to undesirable emergent behavior and potentially misaligned policy. To mathematically encapsulate the problem of aligning RL policy optimization with such externalities, we consider a bilevel optimization problem and connect it to a principal-agent framework, where the principal specifies the broader goals and constraints of the system at the upper level and the agent solves a Markov Decision Process (MDP) at the lower level. The upper-level deals with learning a suitable reward parametrization corresponding to the broader goals and the lower-level deals with learning the policy for the agent. We propose Principal driven Policy Alignment via Bilevel RL (PPA-BRL), which efficiently aligns the policy of the agent with the principal's goals. We explicitly analyzed the dependence of the principal's trajectory on the lower-level policy, prove the convergence of PPA-BRL to the stationary point of the problem. We illuminate the merits of this framework in view of alignment with several examples spanning energy-efficient manipulation tasks, social welfare-based tax design, and cost-effective robotic navigation. | 翻訳日:2023-08-08 19:46:54 公開日:2023-08-03 |
# 量子チャネル上でのポストセレクト通信 Postselected communication over quantum channels ( http://arxiv.org/abs/2308.02583v1 ) ライセンス: Link先を確認 | Kaiyuan Ji, Bartosz Regula, and Mark M. Wilde | (参考訳) 量子チャネルの絡み合い支援容量の単一レターキャラクタリゼーションは、量子情報理論の独創的な結果の1つである。
本稿では、受信者が追加の「決定的」測定結果が許されるような修正された通信シナリオについて検討し、決定的測定結果に基づいて送信されたメッセージのデコードにおいて、エラー確率によって与えられる誤差メトリックを用いる。
我々は、この設定をpostelected communicationと呼び、それに続く最も高い許容率をpostelected capacityと呼ぶ。
本稿では,Hilbert射影距離に基づく相互情報の変種であるチャネルの射影的相互情報に等しいことを示すとともに,絡み合い支援の設定におけるポストセレクトキャパシティの正確なシングルレター特性と,より一般的な非シグナリング支援を提供する。
我々は、ポスト選択されたテレポーテーションプロトコルを利用する下限と、相対エントロピーをテストするポスト選択仮説の観点で上限を用いて、ワンショットポスト選択キャパシティのバウンドを確立することにより、そうする。
そのため、この強力な選択資源が許された場合でも、チャネルの通信能力に基本的な制限が与えられ、受信側がポスト選択された閉時間曲線にアクセスした場合でも、通信に制限が生じる。 The single-letter characterization of the entanglement-assisted capacity of a quantum channel is one of the seminal results of quantum information theory. In this paper, we consider a modified communication scenario in which the receiver is allowed an additional, `inconclusive' measurement outcome, and we employ an error metric given by the error probability in decoding the transmitted message conditioned on a conclusive measurement result. We call this setting postselected communication and the ensuing highest achievable rates the postselected capacities. Here, we provide a precise single-letter characterisation of postselected capacities in the setting of entanglement assistance as well as the more general non-signalling assistance, establishing that they are both equal to the channel's projective mutual information -- a variant of mutual information based on the Hilbert projective metric. We do so by establishing bounds on the one-shot postselected capacities, with a lower bound that makes use of a postselected teleportation protocol and an upper bound in terms of the postselected hypothesis testing relative entropy. As such, we obtain fundamental limits on a channel's ability to communicate even when this strong resource of postselection is allowed, implying limitations on communication even when the receiver has access to postselected closed timelike curves. | 翻訳日:2023-08-08 19:46:28 公開日:2023-08-03 |
# ConceptLab: 拡散事前制約を用いた創造的生成 ConceptLab: Creative Generation using Diffusion Prior Constraints ( http://arxiv.org/abs/2308.02669v1 ) ライセンス: Link先を確認 | Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or | (参考訳) 近年のテキストから画像への生成モデルにより、私たちの言葉を活気満載の画像に変換することが可能になった。
その後のパーソナライズ技術の増加により、私たちは新たなシーンでユニークな概念を想像できるようになった。
しかし、興味深い疑問が残る: 今まで見たことのない新しい想像上の概念をどうやって生成できるか?
本稿では,幅広いカテゴリ(例えば,既存のペットと異なるペットの生成)の新たなメンバの生成を目指す,クリエイティブなテキストから画像への生成という課題について述べる。
我々は拡散前駆モデルを用いて, 創造的生成問題を拡散前駆の出力空間上の最適化過程として定式化できることを示し, 結果として「優先的制約」の集合を導出する。
生成した概念を既存のメンバに収束させないために、最適化問題に新たな制約を適応的に付加する質問応答モデルを導入し、モデルがよりユニークな生成を発見できるように促します。
最後に、私たちの以前の制約は、生成する概念間のハイブリッドを作成できる強力な混合メカニズムとしても機能し、創造的プロセスにさらに柔軟性をもたらすことも示します。 Recent text-to-image generative models have enabled us to transform our words into vibrant, captivating imagery. The surge of personalization techniques that has followed has also allowed us to imagine unique concepts in new scenes. However, an intriguing question remains: How can we generate a new, imaginary concept that has never been seen before? In this paper, we present the task of creative text-to-image generation, where we seek to generate new members of a broad category (e.g., generating a pet that differs from all existing pets). We leverage the under-studied Diffusion Prior models and show that the creative generation problem can be formulated as an optimization process over the output space of the diffusion prior, resulting in a set of "prior constraints". To keep our generated concept from converging into existing members, we incorporate a question-answering model that adaptively adds new constraints to the optimization problem, encouraging the model to discover increasingly more unique creations. Finally, we show that our prior constraints can also serve as a strong mixing mechanism allowing us to create hybrids between generated concepts, introducing even more flexibility into the creative process. | 翻訳日:2023-08-08 19:17:03 公開日:2023-08-03 |
# 半改良インスタンスセグメンテーションのためのガイド蒸留法 Guided Distillation for Semi-Supervised Instance Segmentation ( http://arxiv.org/abs/2308.02668v1 ) ライセンス: Link先を確認 | Tariq Berrada, Camille Couprie, Karteek Alahari, Jakob Verbeek | (参考訳) インスタンスセグメンテーション法はかなり改善されているが、主流のパラダイムは、入手が難しい完全注釈付きトレーニングイメージに依存することである。
この信頼を緩和し、結果を高めるために、半教師付きアプローチはラベルなしのデータをラベル付きサンプルへの過剰適合を制限する追加のトレーニング信号として利用する。
そこで本研究では,教師・学生の蒸留モデルを大幅に改善するための新しい設計選択を提案する。
特に私たちは
(i)新しい「ガイド・バーンイン」ステージの導入による蒸留アプローチの改善、
(II) 異なるインスタンスセグメンテーションアーキテクチャ、およびバックボーンネットワークおよび事前学習戦略を評価する。
学生モデルのバーンイン期間に教師データのみを使用する従来の研究とは対照的に,教師モデルの指導を用いてバーンイン期間中にラベルなしデータを活用している。
蒸留法の改良は, 従来の技術結果よりも大幅に改善した。
例えば、Cityscapesデータセットでは、画像の10\%にラベルを使用する場合、マスクAPを23.7から33.9に改善し、COCOデータセットではトレーニングデータの1\%にラベルを使用する場合、マスクAPを18.3から34.1に改善します。 Although instance segmentation methods have improved considerably, the dominant paradigm is to rely on fully-annotated training images, which are tedious to obtain. To alleviate this reliance, and boost results, semi-supervised approaches leverage unlabeled data as an additional training signal that limits overfitting to the labeled samples. In this context, we present novel design choices to significantly improve teacher-student distillation models. In particular, we (i) improve the distillation approach by introducing a novel "guided burn-in" stage, and (ii) evaluate different instance segmentation architectures, as well as backbone networks and pre-training strategies. Contrary to previous work which uses only supervised data for the burn-in period of the student model, we also use guidance of the teacher model to exploit unlabeled data in the burn-in period. Our improved distillation approach leads to substantial improvements over previous state-of-the-art results. For example, on the Cityscapes dataset we improve mask-AP from 23.7 to 33.9 when using labels for 10\% of images, and on the COCO dataset we improve mask-AP from 18.3 to 34.1 when using labels for only 1\% of the training data. | 翻訳日:2023-08-08 19:16:44 公開日:2023-08-03 |
# 独立室温量子メモリに記憶された偏光量子ビットのHong-Ou-Mandel干渉 Hong-Ou-Mandel interference of polarization qubits stored in independent room-temperature quantum memories ( http://arxiv.org/abs/1808.07015v3 ) ライセンス: Link先を確認 | Sonali Gera, Chase Wallace, Mael Flament, Alessia Scriminich, Mehdi Namazi, Youngshin Kim, Steven Sagona-Stophel, Giuseppe Vallone, Paolo Villoresi and Eden Figueroa | (参考訳) 量子リピータネットワークは、高繰り返しエンタングルメントスワップ操作を行うために、識別不能な光子の保存と検索が可能な独立した量子メモリを必要とする。
これらのコヒーレントな動作を室温で行う能力は、スケーラブルな量子ネットワークの実現において最も重要なものである。
我々は,2組の室温量子メモリから格納・取得したフォトニック偏光量子ビット間のHong-Ou-Mandel干渉を行う。
メモリパラメータとビシビリティは着実に改善しており、セットアップの48%のnoメモリ制限と比較して、43%の高量子メモリhom可視性を実現しています。
これらの結果は、大規模メモリアシスト量子ネットワークを用いた将来の応用の基礎となった。 Quantum repeater networks require independent quantum memories capable of storing and retrieving indistinguishable photons to perform high-repetition entanglement swapping operations. The ability to perform these coherent operations at room temperature is of prime importance to the realization of scalable quantum networks. We perform Hong-Ou-Mandel (HOM) interference between photonic polarization qubits stored and retrieved from two sets of independent room-temperature quantum memories. We show a steady improvement in memory parameters and visibilities, culminating in a high quantum memory HOM visibility of 43%, compared to the 48% no-memory limit of our set-up. These results lay the groundwork for future applications using large-scale memory-assisted quantum networks. | 翻訳日:2023-08-07 16:56:31 公開日:2023-08-03 |
# Sketched Sequential Quadratic Programmingによる制約付き確率最適化の統計的推定 Statistical Inference of Constrained Stochastic Optimization via Sketched Sequential Quadratic Programming ( http://arxiv.org/abs/2205.13687v3 ) ライセンス: Link先を確認 | Sen Na, Michael W. Mahoney | (参考訳) 等式制約付き確率的非線形最適化問題の統計的推測を考察する。
本稿では,一階最適条件(すなわち kkt 条件)にニュートン法を適用することができる完全オンライン確率的逐次二次計画法(stosqp)を開発した。
最近の数値二階法の設計により、stosqp は$\beta_t\leq \bar{\alpha}_t \leq \beta_t+\chi_t$ の制御列に対して$\beta_t$ と $\chi_t=o(\beta_t)$ の任意のランダムステップを適応的に選択できる。
また,2次法の計算コストを抑えるために,スケッチ手法を用いた効率的なランダム化反復解法を用いて,StoSQPが2次プログラムを不正確に解くことを可能にする。
特に、イテレーションが進むにつれて近似誤差を減少させる必要はない。
開発した手法では 軽度の仮定の下で
(i)計算上、最大$o(1/\epsilon^4)$イテレーション(サンプルと同じ)を要し、$\epsilon$-stationarityを得ることができる。
(II)統計的には、その原始双対列 $1/\sqrt{\beta_t}\cdot (x_t - x^\star, \lambda_t - \lambda^\star)$ は、下層のスケッチ分布に依存する非自明な共分散行列を持つ平均零ガウス分布に収束する。
さらに, 繰り返し値$(x_t, \lambda_t)$ とberry-esseenバウンドの近似収束率を定式化し, 分布関数の収束率を定量的に測定した。
我々は,プラグイン制限共分散行列推定器を解析し,CUTEstテストセットのベンチマーク非線形問題と線形・非線形制約回帰問題の両方において,本手法の性能を示す。 We consider statistical inference of equality-constrained stochastic nonlinear optimization problems. We develop a fully online stochastic sequential quadratic programming (StoSQP) method to solve the problems, which can be regarded as applying Newton's method to the first-order optimality conditions (i.e., the KKT conditions). Motivated by recent designs of numerical second-order methods, we allow StoSQP to adaptively select any random stepsize $\bar{\alpha}_t$, as long as $\beta_t\leq \bar{\alpha}_t \leq \beta_t+\chi_t$, for some control sequences $\beta_t$ and $\chi_t=o(\beta_t)$. To reduce the dominant computational cost of second-order methods, we additionally allow StoSQP to inexactly solve quadratic programs via efficient randomized iterative solvers that utilize sketching techniques. Notably, we do not require the approximation error to diminish as iteration proceeds. For the developed method, we show that under mild assumptions (i) computationally, it can take at most $O(1/\epsilon^4)$ iterations (same as samples) to attain $\epsilon$-stationarity; (ii) statistically, its primal-dual sequence $1/\sqrt{\beta_t}\cdot (x_t - x^\star, \lambda_t - \lambda^\star)$ converges to a mean-zero Gaussian distribution with a nontrivial covariance matrix depending on the underlying sketching distribution. Additionally, we establish the almost-sure convergence rate of the iterate $(x_t, \lambda_t)$ along with the Berry-Esseen bound; the latter quantitatively measures the convergence rate of the distribution function. We analyze a plug-in limiting covariance matrix estimator, and demonstrate the performance of the method both on benchmark nonlinear problems in CUTEst test set and on linearly/nonlinearly constrained regression problems. | 翻訳日:2023-08-07 16:50:46 公開日:2023-08-03 |
# 電子構造理論における量子コンピューティングハードウェア効率Ansatzeの利用の課題 Challenges in the use of quantum computing hardware-efficient Ansatze in electronic structure theory ( http://arxiv.org/abs/2208.09832v2 ) ライセンス: Link先を確認 | Ruhee D'Cunha, T. Daniel Crawford, Mario Motta and Julia E. Rice | (参考訳) 電子構造、特にヒューリスティックな量子アルゴリズムにおける量子計算の進歩は、これらの手法の性能と限界を特徴づける継続的な必要性を生み出している。
本稿では,電子構造の変分量子シミュレーションにおけるハードウェア効率のよいAnsatzeの使用に伴う潜在的な落とし穴について論じる。
ハードウェア効率のよいAnsatzeはハミルトン対称性を破り、変分パラメータを最適化することの難しさに加えて、微分不可能なポテンシャルエネルギー曲線をもたらす可能性がある。
ハードウェア効率のよいansatzeとユニタリ結合クラスタと完全な構成インタラクションの比較分析と、量子ビットの自由度をエンコードする第2および第1の量子化戦略によって、これらの制限の間の相互作用について論じる。
我々の分析は潜在的な限界を理解し、ハードウェア効率の向上の可能な領域を特定するのに有用である。 Advances in quantum computation for electronic structure, and particularly heuristic quantum algorithms, create an ongoing need to characterize the performance and limitations of these methods. Here we discuss some potential pitfalls connected with the use of hardware-efficient Ansatze in variational quantum simulations of electronic structure. We illustrate that hardware-efficient Ansatze may break Hamiltonian symmetries and yield non-differentiable potential energy curves, in addition to the well-known difficulty of optimizing variational parameters. We discuss the interplay between these limitations by carrying out a comparative analysis of hardware-efficient Ansatze versus unitary coupled cluster and full configuration interaction, and of second- and first-quantization strategies to encode fermionic degrees of freedom to qubits. Our analysis should be useful in understanding potential limitations and in identifying possible areas of improvement in hardware-efficient Ansatze. | 翻訳日:2023-08-07 16:42:30 公開日:2023-08-03 |
# 非消滅勾配による確率近似の指数集中 Exponential Concentration of Stochastic Approximation with Non-vanishing Gradient ( http://arxiv.org/abs/2208.07243v3 ) ライセンス: Link先を確認 | Kody Law and Neil Walton and Shangda Yang | (参考訳) 我々は,確率近似アルゴリズムの振る舞いを分析し,各ステップで目標に向かって進行していくことを期待する。
進行がアルゴリズムのステップサイズに比例すると指数集中境界が証明される。
これらのテールバウンドのコントラスト漸近正規性の結果は、より頻繁に確率近似と関連付けられる。
私たちが開発する手法は幾何学的エルゴディディティ証明に依存している。
これはHajek (1982) によるマルコフ連鎖上の結果を確率近似アルゴリズムの領域に拡張する。
非消滅勾配の射影確率勾配 Descent に対して、この結果は$O(1/t)$と線形収束率の証明に利用できる。 We analyze the behavior of stochastic approximation algorithms where iterates, in expectation, make progress towards an objective at each step. When progress is proportional to the step size of the algorithm, we prove exponential concentration bounds. These tail-bounds contrast asymptotic normality results which are more frequently associated with stochastic approximation. The methods that we develop rely on a geometric ergodicity proof. This extends a result on Markov chains due to Hajek (1982) to the area of stochastic approximation algorithms. For Projected Stochastic Gradient Descent with a non-vanishing gradient, our results can be used to prove $O(1/t)$ and linear convergence rates. | 翻訳日:2023-08-07 16:42:13 公開日:2023-08-03 |
# Few-Body Dipole-Diipole相互作用のスロー熱化 Slow Thermalization of Few-Body Dipole-Dipole Interactions ( http://arxiv.org/abs/2208.02909v4 ) ライセンス: Link先を確認 | Sarah E. Spielman, Alicia Handian, Nina P. Inman, Thomas J. Carroll, Michael W. Noel | (参考訳) 一次元アレイにおける2-,3-,4-体双極子-双極子相互作用を通じてエネルギーを共鳴的に交換するRydberg原子のダイナミクスをシミュレートする。
本研究では,現実的な実験システムの簡易モデルを用いて,初期状態生存確率,レベル間隔統計,絡み合いの広がり,エネルギー固有状態の性質について検討する。
様々な障害や相互作用の強さを探索することで、3体および4体のダイナミクスが非エルゴードな振る舞いを示し、熱力学的平衡に達するのに失敗したり、あるいはゆっくりしたりするパラメータ空間の領域を見つける。
ホッピングとフィールドチューニング相互作用の間の相互作用は、量子多体散乱状態を引き起こし、3体と4体の相互作用のダイナミクスを減速させる重要な役割を果たす。 We simulate the dynamics of Rydberg atoms resonantly exchanging energy via two-, three-, and four-body dipole-dipole interactions in a one-dimensional array. Using a simplified model of a realistic experimental system, we study the initial state survival probability, the level spacing statistics, the spread of entanglement, and the properties of the energy eigenstates. By exploring a range of disorders and interaction strengths, we find regions in parameter space where the three- and four-body dynamics exhibit nonergodic behavior and either fail to reach thermodynamic equilibrium or do so slowly. The interplay between the hopping and field-tuned interactions gives rise to quantum many-body scar states, which play a critical role in slowing the dynamics of the three- and four-body interactions. | 翻訳日:2023-08-07 16:41:57 公開日:2023-08-03 |
# 超伝導量子プロセッサ上のスルホニウムカチオンの基底および励起状態特性の量子化学シミュレーション Quantum chemistry simulation of ground- and excited-state properties of the sulfonium cation on a superconducting quantum processor ( http://arxiv.org/abs/2208.02414v3 ) ライセンス: Link先を確認 | Mario Motta, Gavin O. Jones, Julia E. Rice, Tanvi P. Gujarati, Rei Sakuma, Ieva Liepuoniute, Jeannette M. Garcia and Yu-ya Ohnishi | (参考訳) 相関電子構造の計算的記述、特に多電子系の励起状態は、期待されている量子デバイスへの応用である。
重要な分岐は、光リソグラフィで使用されるスルホニウム系光酸発生器のような感光性化合物の光解離実験において支配的な分子断片化経路を決定することである。
ここでは、H$_3$S$^+$分子の静的および動的電子構造を、IBM Falconアーキテクチャの超伝導量子プロセッサ上で三重結合された硫黄カチオンの最小モデルとしてシミュレートする。
この目的を達成するために, エンタングルメント鍛造 (entanglement forging) または ef (a. eddins et al., phys. rev. x quantum, 3, 010309 (2022)] と呼ばれる, 現在, 基底状態エネルギーの評価に制限されている量子ビット低減手法を分子特性の処理に一般化する。
従来の量子シミュレーションでは、量子ビットはスピン軌道を表すが、ef a qubitは空間軌道を表し、必要な量子ビットの数を半分に減らす。
一般化されたef と量子部分空間の展開 [w. colless et al, phys. rev. x 8, 011021 (2018)] を組み合わせることで、時間に依存しないシュロディンガー方程式を部分空間の基底状態と励起状態に対して投影する。
このアルゴリズムワークフローを実験的に実証するために,エラー緩和手法のシーケンスをデプロイする。
基底および励起状態ポテンシャルエネルギー曲線に沿った双極子構造因子と部分原子電荷を計算し、ホモ・ヘテロ分解フラグメントの発生を明らかにした。
本研究は、近距離量子デバイスにおける光解離の計算的記述への重要なステップであり、他の光解離プロセスに一般化することができ、より現実的なシミュレーションを実現するために自然に拡張することができる。 The computational description of correlated electronic structure, and particularly of excited states of many-electron systems, is an anticipated application for quantum devices. An important ramification is to determine the dominant molecular fragmentation pathways in photo-dissociation experiments of light-sensitive compounds, like sulfonium-based photo-acid generators used in photolithography. Here we simulate the static and dynamic electronic structure of the H$_3$S$^+$ molecule, taken as a minimal model of a triply-bonded sulfur cation, on a superconducting quantum processor of the IBM Falcon architecture. To this end, we generalize a qubit reduction technique termed entanglement forging or EF [A. Eddins et al., Phys. Rev. X Quantum, 3, 010309 (2022)], currently restricted to the evaluation of ground-state energies, to the treatment of molecular properties. While, in a conventional quantum simulation, a qubit represents a spin-orbital, within EF a qubit represents a spatial orbital, reducing the number of required qubits by half. We combine the generalized EF with quantum subspace expansion [W. Colless et al, Phys. Rev. X 8, 011021 (2018)], a technique used to project the time-independent Schrodinger equation for ground and excited states in a subspace. To enable experimental demonstration of this algorithmic workflow, we deploy a sequence of error-mitigation techniques. We compute dipole structure factors and partial atomic charges along the ground- and excited-state potential energy curves, revealing the occurrence of homo- and heterolytic fragmentation. This study is an important step toward the computational description of photo-dissociation on near-term quantum devices, as it can be generalized to other photodissociation processes and naturally extended in different ways to achieve more realistic simulations. | 翻訳日:2023-08-07 16:41:42 公開日:2023-08-03 |
# SYKリンドブレディアンにおける動的量子相転移 Dynamical quantum phase transitions in SYK Lindbladians ( http://arxiv.org/abs/2210.04093v2 ) ライセンス: Link先を確認 | Kohei Kawabata, Anish Kulkarni, Jiachen Li, Tokiro Numasawa, Shinsei Ryu | (参考訳) リンドブラッド・マスター方程式により記述されたSachdev-Ye-Kitaevモデル(SYK)の開量子力学について検討し、SYKモデルをマヨラナフェルミオン作用素の線型あるいは二次的なジャンプ作用素を持つマルコフ貯水池に結合する。
私たちにとって特に興味深いのは、散逸形因子の時間的進化であり、これは初期密度行列と時間進化密度行列の間の平均的な重なりをロシミットエコーの開量子一般化として定量化する。
散逸形式因子は動的量子相転移を示す。
ブラックホールとワームホールの2カップリングSYKモデルにおける熱相転移に類似した,多数のフェルミオンフレーバーの限界における不連続な動的相転移を解析的に示す。
また,二結合sykモデルでは対応する相を持たない連続的な動的相転移も見いだす。
相転移は多数のフェルミオンフレーバーの限界において鋭いが, 有限個のフェルミオンフレーバーにおいても定性的なシグネチャが存在する。 We study the open quantum dynamics of the Sachdev-Ye-Kitaev (SYK) model described by the Lindblad master equation, where the SYK model is coupled to Markovian reservoirs with jump operators that are either linear or quadratic in the Majorana fermion operators. Of particular interest for us is the time evolution of the dissipative form factor, which quantifies the average overlap between the initial and time-evolved density matrices as an open quantum generalization of the Loschmidt echo. We find that the dissipative form factor exhibits dynamical quantum phase transitions. We analytically demonstrate a discontinuous dynamical phase transition in the limit of large number of fermion flavors, which is formally akin to the thermal phase transition in the two-coupled SYK model between the black-hole and wormhole phases. We also find continuous dynamical phase transitions that do not have counterparts in the two-coupled SYK model. While the phase transitions are sharp in the limit of large number of fermion flavors, their qualitative signatures are present even for the finite number of fermion flavors, as we show numerically. | 翻訳日:2023-08-07 16:29:07 公開日:2023-08-03 |
# 状態多項式:正性、最適化、非線形ベル不等式 State polynomials: positivity, optimization and nonlinear Bell inequalities ( http://arxiv.org/abs/2301.12513v2 ) ライセンス: Link先を確認 | Igor Klep, Victor Magron, Jurij Vol\v{c}i\v{c}, Jie Wang | (参考訳) 本稿では、状態多項式、すなわち非可換変数の多項式とその積の形式的状態を紹介する。
ヒルベルトの17番目の問題に対するアルティンの解の状態類似性は、すべての行列と行列状態に対して正の状態多項式が分母を持つ平方の和であることを示す。
やや意外なことに、krivine-stengle positivstellensatz は状態多項式設定では保持されない。
さらに、Putinar と Helton-McCullough の精神におけるアルキメデス Positivstellens {\displaystyle Positivstellens\"atze in the spirit of Putinar and Helton-McCullough が提示され、状態制約を受ける状態多項式の最適値に単調に収束する半有限緩和の階層が導かれる。
この階層は多項式の最適化のためのラッサール階層と非可換多項式の最適化のためのNavascu\'es-Pironio-Ac\inスキームの状態類似と見なすことができる。
この理論の背後にある動機は、量子ネットワークにおける相関の研究から生じる。
任意のネットワークに対する多項式ベルの不等式の最大量子違反を状態多項式最適化問題として再定義する。
二部岩体と二部岩体の二次ベル不等式のいくつかの例を解析した。
構築されたSDPのサイズを小さくするために、観測対象群構造の疎度、符号対称性、条件予測を利用する。
上記の結果を得るためには、非可換代数、実代数幾何学、作用素理論、凸最適化の技法を用いる。 This paper introduces state polynomials, i.e., polynomials in noncommuting variables and formal states of their products. A state analog of Artin's solution to Hilbert's 17th problem is proved showing that state polynomials, positive over all matrices and matricial states, are sums of squares with denominators. Somewhat surprisingly, it is also established that a Krivine-Stengle Positivstellensatz fails to hold in the state polynomial setting. Further, archimedean Positivstellens\"atze in the spirit of Putinar and Helton-McCullough are presented leading to a hierarchy of semidefinite relaxations converging monotonically to the optimum of a state polynomial subject to state constraints. This hierarchy can be seen as a state analog of the Lasserre hierarchy for optimization of polynomials, and the Navascu\'es-Pironio-Ac\'in scheme for optimization of noncommutative polynomials. The motivation behind this theory arises from the study of correlations in quantum networks. Determining the maximal quantum violation of a polynomial Bell inequality for an arbitrary network is reformulated as a state polynomial optimization problem. Several examples of quadratic Bell inequalities in the bipartite and the bilocal tripartite scenario are analyzed. To reduce the size of the constructed SDPs, sparsity, sign symmetry and conditional expectation of the observables' group structure are exploited. To obtain the above-mentioned results, techniques from noncommutative algebra, real algebraic geometry, operator theory, and convex optimization are employed. | 翻訳日:2023-08-07 16:22:17 公開日:2023-08-03 |
# 大規模言語モデルにおける創発的類推 Emergent Analogical Reasoning in Large Language Models ( http://arxiv.org/abs/2212.09196v3 ) ライセンス: Link先を確認 | Taylor Webb, Keith J. Holyoak, Hongjing Lu | (参考訳) 近年の大規模言語モデルの出現は、十分な訓練データを得た一般的なモデルに人間の認知能力が出現するかどうかという議論を再燃させた。
特に興味深いのは、これらのモデルが直接訓練することなく、ゼロショットで新しい問題を推論する能力である。
人間の認知では、この能力は類推による推論能力と密接に結びついている。
そこで我々は,Ravenの標準進歩行列の規則構造に基づく非視覚的行列推論タスクを含む類推的タスクにおいて,人間の推論と大規模言語モデル(GPT-3のテキストダヴィンチ・003変種)の直接比較を行った。
その結果、GPT-3は、ほとんどの設定において、抽象パターン誘導、マッチング、さらには人間の能力を超越する驚くほど強い能力を示し、GPT-4の予備試験は、より優れた性能を示した。
以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。 The recent advent of large language models has reinvigorated debate over whether human cognitive capacities might emerge in such generic models given sufficient training data. Of particular interest is the ability of these models to reason about novel problems zero-shot, without any direct training. In human cognition, this capacity is closely tied to an ability to reason by analogy. Here, we performed a direct comparison between human reasoners and a large language model (the text-davinci-003 variant of GPT-3) on a range of analogical tasks, including a non-visual matrix reasoning task based on the rule structure of Raven's Standard Progressive Matrices. We found that GPT-3 displayed a surprisingly strong capacity for abstract pattern induction, matching or even surpassing human capabilities in most settings; preliminary tests of GPT-4 indicated even better performance. Our results indicate that large language models such as GPT-3 have acquired an emergent ability to find zero-shot solutions to a broad range of analogy problems. | 翻訳日:2023-08-07 16:20:37 公開日:2023-08-03 |
# 二次元ベーコンソー回路における準対称、スピンガラス秩序、ランダム測定からの臨界性 Subsystem symmetry, spin glass order, and criticality from random measurements in a two-dimensional Bacon-Shor circuit ( http://arxiv.org/abs/2303.02187v2 ) ライセンス: Link先を確認 | Vaibhav Sharma, Chao-Ming Jian and Erich J Mueller | (参考訳) 本研究では,Bacon-Shor誤り訂正符号による2次元計測専用ランダム回路について検討する。
近傍のパウリ XX および ZZ チェック作用素を測る相対確率が変化するため、豊富な位相図が見つかる。
Bacon-Shor符号では、これらのチェックは安定化子と論理演算子の群と可換であり、したがって保存量を表す。
サブシステム対称性として説明され、これらの保存則はX基底とZ基底スピンガラス秩序の間の連続的な相転移をもたらす。
2つの位相は、LXL系の2つのハーフ間の絡み合いエントロピーが、領域法則の対数的違反であるLlnLとしてスケールする臨界点によって分離される。
チェック演算子がサブシステム対称性(およびBacon-Shor符号構造)を破るモデルに一般化する。
確立されたヒューリスティックスと緊張すると、相転移は滑らかな交叉によって置き換えられ、X-およびZ-基底スピンガラスは空間的に共存する。
さらに、位相図の臨界点からサブシステム対称性の線に近づくと、いくつかのスピンガラスオーダーパラメータは不連続に跳躍する。 We study a 2D measurement-only random circuit motivated by the Bacon-Shor error correcting code. We find a rich phase diagram as one varies the relative probabilities of measuring nearest neighbor Pauli XX and ZZ check operators. In the Bacon-Shor code, these checks commute with a group of stabilizer and logical operators, which therefore represent conserved quantities. Described as a subsystem symmetry, these conservation laws lead to a continuous phase transition between an X-basis and Z-basis spin glass order. The two phases are separated by a critical point where the entanglement entropy between two halves of an L X L system scales as L ln L, a logarithmic violation of the area law. We generalize to a model where the check operators break the subsystem symmetries (and the Bacon-Shor code structure). In tension with established heuristics, we find that the phase transition is replaced by a smooth crossover, and the X- and Z-basis spin glass orders spatially coexist. Additionally, if we approach the line of subsystem symmetries away from the critical point in the phase diagram, some spin glass order parameters jump discontinuously | 翻訳日:2023-08-07 16:10:24 公開日:2023-08-03 |
# 文脈変調によるユニバーサルモルフォロジー制御 Universal Morphology Control via Contextual Modulation ( http://arxiv.org/abs/2302.11070v2 ) ライセンス: Link先を確認 | Zheng Xiong, Jacob Beck, Shimon Whiteson | (参考訳) 異なるロボット形態にまたがる普遍的なポリシーを学ぶことは、継続的制御における学習効率と一般化を大幅に改善することができる。
しかし、最適方針はロボット間で大きく異なり、形態に大きく依存する可能性があるため、マルチタスク強化学習の課題となる。
既存の手法では、グラフニューラルネットワークやトランスフォーマーを使用して、異なる形態の異種状態や行動空間を扱うが、その形態的コンテキストに対するロボットの制御ポリシーの依存性にはほとんど注意を払わない。
本稿では,(1)ロボット間のハードパラメータ共有を強制するのではなく,ハイパーネットワークを用いて形態に依存した制御パラメータを生成すること,(2)ロボットのさまざまな手足間の相互作用を調節するための形態のみに依存する固定された注意機構を提案する。
実験の結果,多種多様な訓練ロボットの学習性能を向上させるだけでなく,ゼロショット方式による形態素認識を一般化できることが判明した。 Learning a universal policy across different robot morphologies can significantly improve learning efficiency and generalization in continuous control. However, it poses a challenging multi-task reinforcement learning problem, as the optimal policy may be quite different across robots and critically depend on the morphology. Existing methods utilize graph neural networks or transformers to handle heterogeneous state and action spaces across different morphologies, but pay little attention to the dependency of a robot's control policy on its morphology context. In this paper, we propose a hierarchical architecture to better model this dependency via contextual modulation, which includes two key submodules: (1) Instead of enforcing hard parameter sharing across robots, we use hypernetworks to generate morphology-dependent control parameters; (2) We propose a fixed attention mechanism that solely depends on the morphology to modulate the interactions between different limbs in a robot. Experimental results show that our method not only improves learning performance on a diverse set of training robots, but also generalizes better to unseen morphologies in a zero-shot fashion. | 翻訳日:2023-08-07 16:09:28 公開日:2023-08-03 |
# LMExplainer: 言語モデルのための知識強化型説明器 LMExplainer: a Knowledge-Enhanced Explainer for Language Models ( http://arxiv.org/abs/2303.16537v2 ) ライセンス: Link先を確認 | Zichen Chen, Ambuj K Singh, Misha Sra | (参考訳) GPT-4のような大規模言語モデル(LLM)は非常に強力であり、異なる種類の自然言語処理(NLP)タスクを処理できる。
しかし、多層非線形モデル構造と数百万のパラメータによる結果の解釈は困難である。
言語モデル(LM)の動作の明確さと理解の欠如は、現実のシナリオで使用する上で、信頼できない、信頼できない、潜在的に危険なものにします。
最近では、注意重みを利用してLM予測の説明を行っている。
しかし、純粋注意に基づく説明は、LMの複雑さの増大を支持することができず、意思決定プロセスについて説明できない。
本稿では,人間に理解可能な説明を提供する,知識を駆使したLMExplainerを提案する。
我々は、知識グラフ(KG)とグラフ注意ニューラルネットワークを用いて、LMの重要な決定信号を抽出する。
さらに、AIがタスクをよりよく理解するのに解釈が役立つかどうかについても検討する。
実験の結果,LMExplainer は CommonsenseQA と OpenBookQA で既存の LM+KG 法より優れていることがわかった。
説明結果と生成した説明方法と人間の注釈による結果を比較した。
比較の結果,より包括的かつ明確な説明が得られた。
LMExplainerは、自然言語におけるLM推論プロセスのモデル性能の向上と説明を提供する。 Large language models (LLMs) such as GPT-4 are very powerful and can process different kinds of natural language processing (NLP) tasks. However, it can be difficult to interpret the results due to the multi-layer nonlinear model structure and millions of parameters. A lack of clarity and understanding of how the language models (LMs) work can make them unreliable, difficult to trust, and potentially dangerous for use in real-world scenarios. Most recent works exploit attention weights to provide explanations for LM predictions. However, pure attention-based explanations are unable to support the growing complexity of LMs, and cannot reason about their decision-making processes. We propose LMExplainer, a knowledge-enhanced explainer for LMs that can provide human-understandable explanations. We use a knowledge graph (KG) and a graph attention neural network to extract the key decision signals of the LM. We further explore whether interpretation can also help the AI understand the task better. Our experimental results show that LMExplainer outperforms existing LM+KG methods on CommonsenseQA and OpenBookQA. We compare the explanation results with generated explanation methods and human-annotated results. The comparison shows our method can provide more comprehensive and clearer explanations. LMExplainer demonstrates the potential to enhance model performance and furnish explanations for the LM reasoning process in natural language. | 翻訳日:2023-08-07 16:01:41 公開日:2023-08-03 |
# 多状態合成のための数値回路合成とコンパイル Numerical circuit synthesis and compilation for multi-state preparation ( http://arxiv.org/abs/2305.01816v2 ) ライセンス: Link先を確認 | Aaron Szasz, Ed Younis, Wibe de Jong | (参考訳) 短期量子コンピュータは大きなエラー率と短いコヒーレンス時間を持っているため、回路のコンパイルは可能な限り短いことが不可欠である。
一般に2種類のコンパイル問題が考慮される:「状態準備」と呼ばれる固定入力状態から所定の状態を準備する回路と、例えば「ユニタリ合成」によって与えられたユニタリ操作を実装する回路である。
本稿では、より一般的な問題、すなわち、$m$状態のセットから$m$状態の別のセットへの変換を解決します。
状態準備とユニタリ合成は特別な場合であり、状態準備では$m=1$、ユニタリ合成では$m$はヒルベルト空間全体の次元である。
複数状態準備のための回路を数値的に生成・最適化する。
行列分解に基づくトップダウンアプローチも可能である場合には、実質的に(最大40%)少ない2量子ビットゲートを持つ回路を見つける。
我々は、マクロな重ね合わせ(cat)状態の効率的な調製や量子チャネルの合成など、応用の可能性について議論する。 Near-term quantum computers have significant error rates and short coherence times, so compilation of circuits to be as short as possible is essential. Two types of compilation problems are typically considered: circuits to prepare a given state from a fixed input state, called "state preparation"; and circuits to implement a given unitary operation, for example by "unitary synthesis". In this paper we solve a more general problem: the transformation of a set of $m$ states to another set of $m$ states, which we call "multi-state preparation". State preparation and unitary synthesis are special cases; for state preparation, $m=1$, while for unitary synthesis, $m$ is the dimension of the full Hilbert space. We generate and optimize circuits for multi-state preparation numerically. In cases where a top-down approach based on matrix decompositions is also possible, our method finds circuits with substantially (up to 40%) fewer two-qubit gates. We discuss possible applications, including efficient preparation of macroscopic superposition ("cat") states and synthesis of quantum channels. | 翻訳日:2023-08-07 15:49:59 公開日:2023-08-03 |
# ハバード量子シミュレータに現れる双極子量子固体 Dipolar quantum solids emerging in a Hubbard quantum simulator ( http://arxiv.org/abs/2306.00888v2 ) ライセンス: Link先を確認 | Lin Su, Alexander Douglas, Michal Szurek, Robin Groth, S. Furkan Ozturk, Aaron Krahn, Anne H. H\'ebert, Gregory A. Phelps, Sepehr Ebadi, Susannah Dickerson, Francesca Ferlaino, Ognjen Markovi\'c, Markus Greiner | (参考訳) 量子力学多体系では、長距離相互作用と異方性相互作用はリッチな空間構造を促進し、量子フラストレーションを引き起こし、複雑な強い相関を持つ量子位相を生じる。
長距離相互作用は自然界において重要な役割を果たすが、格子系の量子シミュレーションはそのような相互作用をほとんど実現できていない。
極性分子、リドバーグ原子、光学キャビティ、磁性原子を用いた長距離相互作用格子系の研究が進行中である。
本研究では,超低温磁性エルビウム原子を用いた長距離双極子相互作用を持つ強相関格子系における新しい量子相を実現する。
双極子相互作用を我々の系で支配的なエネルギースケールにチューニングすると、超流動から双極子量子固体への量子相転移を観測し、アコーディオン格子を持つ量子ガス顕微鏡を用いて直接検出する。
ダイポールの配向による相互作用異方性制御により、様々なストライプ秩序状態を実現することができる。
さらに, 強相関状態を通じて非アダイアバティックに遷移することにより, 準安定ストライプ秩序状態の出現を観察した。
この研究は、光学格子における長距離双極子相互作用を用いて、新しい強い相関の量子相が実現できることを示し、長距離および異方性相互作用を持つ幅広い格子モデルの量子シミュレーションへの扉を開く。 In quantum mechanical many-body systems, long-range and anisotropic interactions promote rich spatial structure and can lead to quantum frustration, giving rise to a wealth of complex, strongly correlated quantum phases. Long-range interactions play an important role in nature; however, quantum simulations of lattice systems have largely not been able to realize such interactions. A wide range of efforts are underway to explore long-range interacting lattice systems using polar molecules, Rydberg atoms, optical cavities, and magnetic atoms. Here, we realize novel quantum phases in a strongly correlated lattice system with long-range dipolar interactions using ultracold magnetic erbium atoms. As we tune the dipolar interaction to be the dominant energy scale in our system, we observe quantum phase transitions from a superfluid into dipolar quantum solids, which we directly detect using quantum gas microscopy with accordion lattices. Controlling the interaction anisotropy by orienting the dipoles enables us to realize a variety of stripe ordered states. Furthermore, by transitioning non-adiabatically through the strongly correlated regime, we observe the emergence of a range of metastable stripe-ordered states. This work demonstrates that novel strongly correlated quantum phases can be realized using long-range dipolar interaction in optical lattices, opening the door to quantum simulations of a wide range of lattice models with long-range and anisotropic interactions. | 翻訳日:2023-08-07 15:44:12 公開日:2023-08-03 |
# 主流メディアにおけるチャットGPTの求人・多様性問題へのマッピング:感性分析と単語頻度分析による早期定量化 Mapping ChatGPT in Mainstream Media to Unravel Jobs and Diversity Challenges: Early Quantitative Insights through Sentiment Analysis and Word Frequency Analysis ( http://arxiv.org/abs/2305.18340v2 ) ライセンス: Link先を確認 | Maya Karanouh | (参考訳) ユーザ獲得の指数関数的な増加と、人工知能(AI)を搭載したチャットボットであるOpenAIs ChatGPTの人気には、メディアが広く報道された。
本稿では,2022年11月のchatgptの開始から2023年3月にかけて,テキストマイニングとnlp手法を,チャットgptと人工知能に関連する主要ニュース見出し10,902のコーパスに適用して,初期の傾向と感情を定量的に分析した。
感情分析の結果,ChatGPTと人工知能は主流メディアでは否定的よりも肯定的であった。
単語の頻度については、トップ周波数の単語の60%以上が大手テック問題や俳優に焦点をあて、仕事、多様性、倫理、著作権、性別、女性といった話題は表現力に乏しく、コーパス全体の6%しか占めていなかった。
この記事では、主流メディアからの多様性と仕事上の課題のヘヘモニックな排除において、Big TechとBig Mediaのパワー構造と共謀について批判的な分析を行う。 The exponential growth in user acquisition and popularity of OpenAIs ChatGPT, an artificial intelligence(AI) powered chatbot, was accompanied by widespread mainstream media coverage. This article presents a quantitative data analysis of the early trends and sentiments revealed by conducting text mining and NLP methods onto a corpus of 10,902 mainstream news headlines related to the subject of ChatGPT and artificial intelligence, from the launch of ChatGPT in November 2022 to March 2023. The findings revealed in sentiment analysis, ChatGPT and artificial intelligence, were perceived more positively than negatively in the mainstream media. In regards to word frequency results, over sixty-five percent of the top frequency words were focused on Big Tech issues and actors while topics such as jobs, diversity, ethics, copyright, gender and women were poorly represented or completely absent and only accounted for six percent of the total corpus. This article is a critical analysis into the power structures and collusions between Big Tech and Big Media in their hegemonic exclusion of diversity and job challenges from mainstream media. | 翻訳日:2023-08-07 15:40:47 公開日:2023-08-03 |
# 人工知能の信頼性構築対策 : ワークショップの成果 Confidence-Building Measures for Artificial Intelligence: Workshop Proceedings ( http://arxiv.org/abs/2308.00862v2 ) ライセンス: Link先を確認 | Sarah Shoker, Andrew Reddie, Sarah Barrington, Ruby Booth, Miles Brundage, Husanjot Chahal, Michael Depp, Bill Drexel, Ritwik Gupta, Marina Favaro, Jake Hecla, Alan Hickey, Margarita Konaev, Kirthi Kumar, Nathan Lambert, Andrew Lohn, Cullen O'Keefe, Nazneen Rajani, Michael Sellitto, Robert Trager, Leah Walker, Alexa Wehsener, Jessica Young | (参考訳) 事故、不注意なエスカレーション、意図しない紛争、兵器の拡散、そして人間の外交への干渉は、長いリストの中でごくわずかである。
OpenAIのGeopolitics Teamとカリフォルニア大学バークレー校のBerkeley Risk and Security Labが主催する、人工知能のための信頼性構築対策ワークショップは、基礎モデルから国際的セキュリティへの潜在的なリスクを軽減するためのツールと戦略を通じて、マルチステークホルダーグループを結成した。
冷戦に起源を持つ信頼構築対策(CBM)は、敵意を減らし、対立のエスカレーションを防ぎ、当事者間の信頼を改善する行動である。
CBMの柔軟性は、基礎モデルランドスケープの急速な変化をナビゲートするための重要な手段となる。
参加者は、ファンデーションモデルに直接適用される以下のCBMを特定し、この会議手続きでさらに説明する。
1.危機ホットライン
2.インシデント共有
3.モデル、透明性、システムカード
4.内容証明と透かし
5. 協力的レッドチームと卓上運動
6.データセットと評価共有
ほとんどの基礎モデル開発者は非政府組織であるため、多くのCBMはより広い利害関係者コミュニティを巻き込む必要がある。
これらの措置は、aiラボまたは関連する政府機関によって実施することができる。 Foundation models could eventually introduce several pathways for undermining state security: accidents, inadvertent escalation, unintentional conflict, the proliferation of weapons, and the interference with human diplomacy are just a few on a long list. The Confidence-Building Measures for Artificial Intelligence workshop hosted by the Geopolitics Team at OpenAI and the Berkeley Risk and Security Lab at the University of California brought together a multistakeholder group to think through the tools and strategies to mitigate the potential risks introduced by foundation models to international security. Originating in the Cold War, confidence-building measures (CBMs) are actions that reduce hostility, prevent conflict escalation, and improve trust between parties. The flexibility of CBMs make them a key instrument for navigating the rapid changes in the foundation model landscape. Participants identified the following CBMs that directly apply to foundation models and which are further explained in this conference proceedings: 1. crisis hotlines 2. incident sharing 3. model, transparency, and system cards 4. content provenance and watermarks 5. collaborative red teaming and table-top exercises and 6. dataset and evaluation sharing. Because most foundation model developers are non-government entities, many CBMs will need to involve a wider stakeholder community. These measures can be implemented either by AI labs or by relevant government actors. | 翻訳日:2023-08-07 15:24:06 公開日:2023-08-03 |
# AIが信頼性の高いFlood Forecastへのグローバルアクセスを拡大 AI Increases Global Access to Reliable Flood Forecasts ( http://arxiv.org/abs/2307.16104v2 ) ライセンス: Link先を確認 | Grey Nearing, Deborah Cohen, Vusumuzi Dube, Martin Gauch, Oren Gilon, Shaun Harrigan, Avinatan Hassidim, Frederik Kratzert, Asher Metzger, Sella Nevo, Florian Pappenberger, Christel Prudhomme, Guy Shalev, Shlomo Shenzis, Tadele Tekalign, Dana Weitzner, Yoss Matias | (参考訳) 洪水は最もありふれた自然災害の1つであり、しばしば密集した流れの監視網を欠く発展途上国に不釣り合いな影響をもたらす。
洪水のリスクを軽減するには正確な警告とタイムリーな警告が不可欠であるが、正確な水理シミュレーションモデルは通常、適用された各流域の長いデータ記録に校正する必要がある。
我々は人工知能(AI)モデルを開発し,最大7日間の時間スケールで極端な水文現象を予測した。
このモデルは、すべての大陸、リードタイム、リターン期間にわたって、最先端のグローバル水文学モデル(Copernicus Emergency Management Service Global Flood Awareness System)を著しく上回っている。
世界の流域のわずか数パーセントが流水量計を備えており、特に人為的な洪水の影響に弱い発展途上国では不均等な数の未採水池があるため、AIは特に未採水池の予測に有効である。
我々は,南アメリカとアフリカにおける極端な事象の予報を作成し,ヨーロッパと北アメリカの現在の芸術水準に迫る信頼性を実現し,現在のアート・ノウキャスト(0日間リードタイム)に類似した4日から6日間のリードタイムで信頼性を達成する。
さらに、私たちは2年間のリターン期間イベントに対して、現在のアキュラシーに似た10年間のリターン期間イベントに対して、アキュラシーを達成しています。
本稿では,80か国以上で公開されている(自由かつオープンな)予測をリアルタイムに生成する,運用早期警告システムに組み込んだモデルを提案する。
このAIとオープンデータを使った作業は、信頼できる洪水警報へのグローバルアクセスを改善し続けるために、水文データの可用性を高める必要性を強調している。 Floods are one of the most common and impactful natural disasters, with a disproportionate impact in developing countries that often lack dense streamflow monitoring networks. Accurate and timely warnings are critical for mitigating flood risks, but accurate hydrological simulation models typically must be calibrated to long data records in each watershed where they are applied. We developed an Artificial Intelligence (AI) model to predict extreme hydrological events at timescales up to 7 days in advance. This model significantly outperforms current state of the art global hydrology models (the Copernicus Emergency Management Service Global Flood Awareness System) across all continents, lead times, and return periods. AI is especially effective at forecasting in ungauged basins, which is important because only a few percent of the world's watersheds have stream gauges, with a disproportionate number of ungauged basins in developing countries that are especially vulnerable to the human impacts of flooding. We produce forecasts of extreme events in South America and Africa that achieve reliability approaching the current state of the art in Europe and North America, and we achieve reliability at between 4 and 6-day lead times that are similar to current state of the art nowcasts (0-day lead time). Additionally, we achieve accuracies over 10-year return period events that are similar to current accuracies over 2-year return period events, meaning that AI can provide warnings earlier and over larger and more impactful events. The model that we develop in this paper has been incorporated into an operational early warning system that produces publicly available (free and open) forecasts in real time in over 80 countries. This work using AI and open data highlights a need for increasing the availability of hydrological data to continue to improve global access to reliable flood warnings. | 翻訳日:2023-08-07 15:23:41 公開日:2023-08-03 |
# BCDDO: バイナリ・チャイルド描画開発最適化 BCDDO: Binary Child Drawing Development Optimization ( http://arxiv.org/abs/2308.01270v2 ) ライセンス: Link先を確認 | Abubakr S. Issa, Yossra H. Ali, Tarik A. Rashid | (参考訳) 最近作られたCDDO(Child Drawing Development Optimization)と呼ばれるメタヒューリスティックアルゴリズムは、多くのベンチマークテストで有効であることが証明されている。
本研究におけるラッパー特徴の選択にはBCDDO(Binary Child Drawing Development Optimization)を提案する。
最適な分類精度を達成するため、提案したBCDDOを用いて重要な特徴のサブセットを選択する。
提案手法の有効性と効率を,Harris Hawk,Grey Wolf,Salp,Whaleの最適化アルゴリズムを用いて評価した。
提案手法は, 特徴選択の分野において, 分類精度を高めるために, 前述した手法を大幅に上回っている。
中等度型covid-19、乳がん、およびビッグデータは、この研究で使われている3つのデータセットである。
それぞれのデータセットの分類精度は98.75、98.83%、99.36であった。 A lately created metaheuristic algorithm called Child Drawing Development Optimization (CDDO) has proven to be effective in a number of benchmark tests. A Binary Child Drawing Development Optimization (BCDDO) is suggested for choosing the wrapper features in this study. To achieve the best classification accuracy, a subset of crucial features is selected using the suggested BCDDO. The proposed feature selection technique's efficiency and effectiveness are assessed using the Harris Hawk, Grey Wolf, Salp, and Whale optimization algorithms. The suggested approach has significantly outperformed the previously discussed techniques in the area of feature selection to increase classification accuracy. Moderate COVID, breast cancer, and big COVID are the three datasets utilized in this study. The classification accuracy for each of the three datasets was (98.75, 98.83%, and 99.36) accordingly. | 翻訳日:2023-08-07 15:09:32 公開日:2023-08-03 |
# 角運動量によるスカラーフィールドの絡み合いを$d>1$で解消する臨界のシグナチャ Signature of Criticality in Angular Momentum Resolved Entanglement of Scalar Fields in $d>1$ ( http://arxiv.org/abs/2308.01964v1 ) ライセンス: Link先を確認 | Mrinal Kanti Sarkar, Saranyo Moitra, and Rajdeep Sensarma | (参考訳) サブシステムサイズによる絡み合いエントロピーのスケーリングは、$d>1$次元におけるスカラー場理論のギャップのない基底状態とギャップのない基底状態の区別に失敗する。
角運動量分解エントロピー$S_\ell$とサブシステム半径$R$とのスケーリングはこれらの状態を明確に区別できることを示す。
モーメントカットオフ$\Lambda$, $S_\ell \sim \ln [\Lambda R/\ell]$ for $\Lambda R \gg \ell$, $S_\ell \sim R^0$ for the massive theory。
対照的に、フェルミ波ベクトル $k_F$, $S_\ell \sim \ln [k_F R]$ for $k_F R \gg \ell$ を持つ自由フェルミ気体に対しては、
これはフェルミオンの総絡み合いエントロピーの 'area-log'' のスケーリングにつながるが、$$\ell$の余剰要素は、質量のないボゾンズでさえも、主要な領域法則に繋がる。 The scaling of entanglement entropy with subsystem size fails to distinguish between gapped and gapless ground state of a scalar field theory in $d>1$ dimensions. We show that the scaling of angular momentum resolved entanglement entropy $S_\ell$ with the subsystem radius $R$ can clearly distinguish between these states. For a massless theory with momentum cut-off $\Lambda$, $S_\ell \sim \ln [\Lambda R/\ell]$ for $\Lambda R \gg \ell$, while $S_\ell \sim R^0$ for the massive theory. In contrast, for a free Fermi gas with Fermi wave vector $k_F$, $S_\ell \sim \ln [k_F R]$ for $k_F R \gg \ell$. We show how this leads to an ``area-log'' scaling of total entanglement entropy of Fermions, while the extra factor of $\ell$ leads to a leading area law even for massless Bosons. | 翻訳日:2023-08-07 15:04:53 公開日:2023-08-03 |
# 化学のスケール化:熱化学プロセスの深層学習における多変量回帰の損失重み調整 Bringing Chemistry to Scale: Loss Weight Adjustment for Multivariate Regression in Deep Learning of Thermochemical Processes ( http://arxiv.org/abs/2308.01954v1 ) ライセンス: Link先を確認 | Franz M. Rohrhofer, Stefan Posch, Clemens G\"o{\ss}nitzer, Jos\'e M. Garc\'ia-Oliver, Bernhard C. Geiger | (参考訳) フラムレットモデルは乱流燃焼の熱化学過程をシミュレートするために計算流体力学で広く用いられている。
これらのモデルは、通常、シミュレーションされる燃焼過程を表す所定のメモリ拡張ルックアップテーブルを使用する。
ニューラルネットワーク(anns)は、この表的なデータを少数のネットワーク重みを使って保存するディープラーニングアプローチを提供し、複雑なシミュレーションのメモリ要求を桁違いに削減する可能性がある。
しかし、標準的な訓練損失を持つANNは、例えば、ルックアップテーブルの一部として小種質量分画を学習する際に、多変量回帰タスクにおいて、未表現の目標に悩まされることが多い。
本稿では, 水素 (\ce{H2}) 燃焼ルックアップテーブルの複数種の質量分画を学習する際のANNの精度向上を図る。
標準平均二乗誤差最適化を上回り、標準最適化が完全に失敗する小種であっても全ての種群分率を正確に学習できる、単純かつ効果的な損失重み調整を評価する。
さらに,損失重み調整はネットワークトレーニングにおいてよりバランスのとれた勾配をもたらし,その効果を説明する。 Flamelet models are widely used in computational fluid dynamics to simulate thermochemical processes in turbulent combustion. These models typically employ memory-expensive lookup tables that are predetermined and represent the combustion process to be simulated. Artificial neural networks (ANNs) offer a deep learning approach that can store this tabular data using a small number of network weights, potentially reducing the memory demands of complex simulations by orders of magnitude. However, ANNs with standard training losses often struggle with underrepresented targets in multivariate regression tasks, e.g., when learning minor species mass fractions as part of lookup tables. This paper seeks to improve the accuracy of an ANN when learning multiple species mass fractions of a hydrogen (\ce{H2}) combustion lookup table. We assess a simple, yet effective loss weight adjustment that outperforms the standard mean-squared error optimization and enables accurate learning of all species mass fractions, even of minor species where the standard optimization completely fails. Furthermore, we find that the loss weight adjustment leads to more balanced gradients in the network training, which explains its effectiveness. | 翻訳日:2023-08-07 15:04:26 公開日:2023-08-03 |
# 視覚変換器における社会バイアスの多次元解析 A Multidimensional Analysis of Social Biases in Vision Transformers ( http://arxiv.org/abs/2308.01948v1 ) ライセンス: Link先を確認 | Jannik Brinkmann, Paul Swoboda, Christian Bartelt | (参考訳) 画像モデルの埋め込み空間は、人種差別や性差別のような幅広い社会バイアスを符号化することが示されている。
本稿では,視覚トランスフォーマー(vit)におけるバイアスの発生に寄与する要因について検討する。
そこで本研究では,vitsの学習表現における社会バイアスに対するトレーニングデータ,モデルアーキテクチャ,トレーニング目標の影響を測定する。
以上の結果から,拡散に基づく画像編集による相反的強化訓練はバイアスを軽減できるが,それらを排除することはできない。
さらに,より大きいモデルは小さいモデルよりも偏りが少なく,識別目的を用いて訓練されたモデルは生成目的を用いて訓練されたモデルよりも偏りが低いことがわかった。
また,学習した社会バイアスの矛盾も観察した。
驚いたことに、ViTsは異なる自己教師対象を用いて同じデータセットでトレーニングした場合、反対のバイアスを示すことができます。
本研究は, 社会的偏見の出現に寄与する要因について考察し, モデル設計の選択に基づいて, 実質的公正性の向上を達成できることを示唆する。 The embedding spaces of image models have been shown to encode a range of social biases such as racism and sexism. Here, we investigate specific factors that contribute to the emergence of these biases in Vision Transformers (ViT). Therefore, we measure the impact of training data, model architecture, and training objectives on social biases in the learned representations of ViTs. Our findings indicate that counterfactual augmentation training using diffusion-based image editing can mitigate biases, but does not eliminate them. Moreover, we find that larger models are less biased than smaller models, and that models trained using discriminative objectives are less biased than those trained using generative objectives. In addition, we observe inconsistencies in the learned social biases. To our surprise, ViTs can exhibit opposite biases when trained on the same data set using different self-supervised objectives. Our findings give insights into the factors that contribute to the emergence of social biases and suggests that we could achieve substantial fairness improvements based on model design choices. | 翻訳日:2023-08-07 15:04:05 公開日:2023-08-03 |
# Dual-Students-Teacherモデルによる識別グラフレベルの異常検出 Discriminative Graph-level Anomaly Detection via Dual-students-teacher Model ( http://arxiv.org/abs/2308.01947v1 ) ライセンス: Link先を確認 | Fu Lin, Xuexiong Luo, Jia Wu, Jian Yang, Shan Xue, Zitong Wang, Haonan Gong | (参考訳) 現在のノードレベルの異常検出タスクとは異なり、グラフレベルの異常検出の目標は、グラフセット内の他のものと大きく異なる異常グラフを見つけることである。
グラフレベルの異常検出の研究が不足しているため、グラフレベルの異常の詳細な記述は不十分である。
さらに, 従来の研究は, グラフの表現性を向上させるために異常なグラフ情報を取得することに重点を置いている。
そこで本研究では,まず,グラフ集合内のノード特性異常を含む異常グラフ情報を定義し,ノードレベルとグラフレベルの情報差をそれぞれ適用して識別する。
次に,二元学習者モデルを用いた識別グラフレベルの異常検出フレームワークを導入し,ヒューリスティックな損失を持つ教師モデルを訓練して,グラフ表現をより分散させる。
そして、正規グラフと異常グラフで学習した2つの競合する学生モデルはそれぞれ、ノードレベルとグラフレベルの表現の観点から教師モデルのグラフ表現に適合する。
最後に、2つの学生モデル間の表現誤差を組み合わせて、異常グラフを識別する。
本手法は実世界のグラフデータセットにおけるグラフレベルの異常検出タスクに有効であることを示す。 Different from the current node-level anomaly detection task, the goal of graph-level anomaly detection is to find abnormal graphs that significantly differ from others in a graph set. Due to the scarcity of research on the work of graph-level anomaly detection, the detailed description of graph-level anomaly is insufficient. Furthermore, existing works focus on capturing anomalous graph information to learn better graph representations, but they ignore the importance of an effective anomaly score function for evaluating abnormal graphs. Thus, in this work, we first define anomalous graph information including node and graph property anomalies in a graph set and adopt node-level and graph-level information differences to identify them, respectively. Then, we introduce a discriminative graph-level anomaly detection framework with dual-students-teacher model, where the teacher model with a heuristic loss are trained to make graph representations more divergent. Then, two competing student models trained by normal and abnormal graphs respectively fit graph representations of the teacher model in terms of node-level and graph-level representation perspectives. Finally, we combine representation errors between two student models to discriminatively distinguish anomalous graphs. Extensive experiment analysis demonstrates that our method is effective for the graph-level anomaly detection task on graph datasets in the real world. | 翻訳日:2023-08-07 15:03:48 公開日:2023-08-03 |
# 四元数による複数機械学習の実験結果 Experimental Results regarding multiple Machine Learning via Quaternions ( http://arxiv.org/abs/2308.01946v1 ) ライセンス: Link先を確認 | Tianlei Zhu, Renzhe Zhu | (参考訳) 本稿では,複数の機械学習アルゴリズムにおける四元数の適用に関する実験的検討を行う。
四元数は三次元空間における回転の数学的表現であり、複雑なデータ変換を表現するのに使うことができる。
本研究では,四元数データの表現と分類,ランダムに生成された四元数データと対応するラベルを用いて四元数を回転行列に変換し,それらを入力特徴として用いる。
四元数と複数の機械学習アルゴリズムに基づいて、高い精度と予測タスクの性能が大幅に向上した。
本研究は,機械学習タスクの四元数を利用した経験的基礎を提供する。 This paper presents an experimental study on the application of quaternions in several machine learning algorithms. Quaternion is a mathematical representation of rotation in three-dimensional space, which can be used to represent complex data transformations. In this study, we explore the use of quaternions to represent and classify rotation data, using randomly generated quaternion data and corresponding labels, converting quaternions to rotation matrices, and using them as input features. Based on quaternions and multiple machine learning algorithms, it has shown higher accuracy and significantly improved performance in prediction tasks. Overall, this study provides an empirical basis for exploiting quaternions for machine learning tasks. | 翻訳日:2023-08-07 15:03:28 公開日:2023-08-03 |
# 2つの光点源に対する適応量子状態推定 Adaptive quantum state estimation for two optical point sources ( http://arxiv.org/abs/2308.01945v1 ) ライセンス: Link先を確認 | Masataka Kimizu, Fuyuhiko Tanaka, Akio Fujiwara | (参考訳) 古典光学では、レイリーの呪い (Rayleigh's curse) と呼ばれる、近接した2つの非コヒーレント光学源の分離において、よく知られた分解能限界がある。
最近、Tsangらはこの困難を量子論の枠組みで回避できる可能性があることを明らかにした。
彼らの研究の後、レイリーの呪いを克服するために様々な推定手法が提案されているが、2つの点源の位置を高い精度で1光子測定に基づいて同時に推定することは不可能である。
本研究では,適応量子状態推定方式を用いて,2点源の位置を高い精度で同時に推定する手法を提案する。 In classical optics, there is a well-known resolution limit, called Rayleigh's curse, in the separation of two incoherent optical sources in close proximity. Recently, Tsang et al. revealed that this difficulty may be circumvented in the framework of quantum theory. Following their work, various estimation methods have been proposed to overcome Rayleigh's curse, but none of them enables us to estimate the positions of two point sources simultaneously based on single-photon measurements with high accuracy. In this study, we propose a method to simultaneously estimate the positions of two point sources with the highest accuracy using adaptive quantum state estimation scheme. | 翻訳日:2023-08-07 15:03:10 公開日:2023-08-03 |
# 意味セグメンテーションのための動的トークンパストランス Dynamic Token-Pass Transformers for Semantic Segmentation ( http://arxiv.org/abs/2308.01944v1 ) ライセンス: Link先を確認 | Yuang Liu, Qiang Zhou, Jing Wang, Fan Wang, Jun Wang, Wei Zhang | (参考訳) 視覚変換器(ViT)は通常、トップからつま先までの自己保持層内のすべてのトークンを転送することで特徴を抽出する。
本稿では,意味的セグメンテーションのための動的トークン・パス・ビジョン・トランスフォーマー(DoViT)を提案する。
DoViTは、部分的に簡単なトークンを自己注意計算から徐々に停止させ、停止基準を満たすまでハードトークンを前進させ続ける。
我々は,トークンパス決定を行うための軽量補助ヘッドを採用し,トークンを保持/停止部分に分割する。
トークンを別々に計算することで、自己注意層はスパーストークンでスピードアップされ、ハードウェアと相性がよい。
トークン再構成モジュールは、グループ化されたトークンを、正しいセマンティックマスクを予測するために必要なシーケンス内の元の位置にリセットするために構築される。
我々は2つの共通セグメンテーションタスクについて広範な実験を行い、この手法が約40%$\sim$ 60% FLOPsを削減し、mIoUの減少は様々なセグメンテーション変換器の0.8%以内であることを示した。
ViT-L/Bのスループットと推論速度は、Cityscapesで2$\times$以上になる。 Vision transformers (ViT) usually extract features via forwarding all the tokens in the self-attention layers from top to toe. In this paper, we introduce dynamic token-pass vision transformers (DoViT) for semantic segmentation, which can adaptively reduce the inference cost for images with different complexity. DoViT gradually stops partial easy tokens from self-attention calculation and keeps the hard tokens forwarding until meeting the stopping criteria. We employ lightweight auxiliary heads to make the token-pass decision and divide the tokens into keeping/stopping parts. With a token separate calculation, the self-attention layers are speeded up with sparse tokens and still work friendly with hardware. A token reconstruction module is built to collect and reset the grouped tokens to their original position in the sequence, which is necessary to predict correct semantic masks. We conduct extensive experiments on two common semantic segmentation tasks, and demonstrate that our method greatly reduces about 40% $\sim$ 60% FLOPs and the drop of mIoU is within 0.8% for various segmentation transformers. The throughput and inference speed of ViT-L/B are increased to more than 2$\times$ on Cityscapes. | 翻訳日:2023-08-07 15:02:49 公開日:2023-08-03 |
# デジタル双生児脳:生物学的知性と人工知能の橋渡し Digital twin brain: a bridge between biological intelligence and artificial intelligence ( http://arxiv.org/abs/2308.01941v1 ) ライセンス: Link先を確認 | Hui Xiong, Congying Chu, Lingzhong Fan, Ming Song, Jiaqi Zhang, Yawei Ma, Ruonan Zheng, Junyang Zhang, Zhengyi Yang, Tianzi Jiang | (参考訳) 近年、神経科学と人工知能の進歩は、脳の複雑さと計算システムによるエミュレーションを理解する前例のない機会の道を開いた。
神経科学研究における最先端の進歩は、脳の構造と機能の間の複雑な関係を明らかにし、ニューラルネットワークの成功はネットワークアーキテクチャの重要性を強調している。
今こそ、それらをまとめて、脳のマルチスケールリポジトリからインテリジェンスがどのように現れるかを明らかにする時だ。
本稿では,生物と人工知能のギャップを埋めるトランスフォーメーションプラットフォームとして,Digital Twin Brain(DTB)を提案する。
ツインニングプロセスの基本となる脳構造、脳機能を生成するボトム層モデル、幅広い応用範囲の3つのコア要素で構成されている。
重要なことに、脳のアトラスは、DTB内の脳のネットワーク組織を保ち、重要な制約を提供する。
さらに,学際的分野からの協力を呼びかけるオープン質問を取り上げ,dtbの広範な意味を強調する。
dtbは、生物学的および人工知能の両方の理解を前進させ、最終的には人工知能の開発を促進し、精密な精神医療を促進するという大きな可能性を秘めている、知性と神経障害の出現に関する前例のない洞察を提供することができる。 In recent years, advances in neuroscience and artificial intelligence have paved the way for unprecedented opportunities for understanding the complexity of the brain and its emulation by computational systems. Cutting-edge advancements in neuroscience research have revealed the intricate relationship between brain structure and function, while the success of artificial neural networks highlights the importance of network architecture. Now is the time to bring them together to better unravel how intelligence emerges from the brain's multiscale repositories. In this review, we propose the Digital Twin Brain (DTB) as a transformative platform that bridges the gap between biological and artificial intelligence. It consists of three core elements: the brain structure that is fundamental to the twinning process, bottom-layer models to generate brain functions, and its wide spectrum of applications. Crucially, brain atlases provide a vital constraint, preserving the brain's network organization within the DTB. Furthermore, we highlight open questions that invite joint efforts from interdisciplinary fields and emphasize the far-reaching implications of the DTB. The DTB can offer unprecedented insights into the emergence of intelligence and neurological disorders, which holds tremendous promise for advancing our understanding of both biological and artificial intelligence, and ultimately propelling the development of artificial general intelligence and facilitating precision mental healthcare. | 翻訳日:2023-08-07 15:02:02 公開日:2023-08-03 |
# TSMD:静的カラーメッシュ品質評価のためのデータベース TSMD: A Database for Static Color Mesh Quality Assessment Study ( http://arxiv.org/abs/2308.01940v1 ) ライセンス: Link先を確認 | Qi Yang, Joel Jung, Haiqiang Wang, Xiaozhong Xu, and Shan Liu | (参考訳) テクスチャマップを備えた静的メッシュは、現代の工業や製造業で広く使われており、大量のデータによってメッシュ圧縮コミュニティでかなりの注目を集めている。
静的メッシュ圧縮アルゴリズムと客観的品質指標の研究を容易にするために,リッチな視覚特性を持つ42の参照メッシュを含むtencent - static mesh dataset (tsmd) を開発した。
210の歪んだサンプルは、6月23日にalliance for open media volumetric visual media groupからリリースされた多角形静的メッシュコーディングの提案のために開発されたロスリー圧縮スキームによって生成される。
74名の視聴者から主観的スコアを収集するために, クラウドソーシングによる主観的実験を行った。
データセットは、そのサンプル多様性と平均世論スコア(mos)の精度を検証するために分析を行い、異質な性質と信頼性を確立する。
最先端の客観的メトリクスは、新しいデータセットで評価される。
ピアソンとスピアーマンの相関関係は0.75程度と報告されており、不均一なデータセットで通常観測される結果から逸脱し、より堅牢なメトリクスのさらなる開発の必要性を示している。
メッシュ、PVS、ビットストリーム、MOSを含むTSMDは、以下の場所で公開されている。 Static meshes with texture map are widely used in modern industrial and manufacturing sectors, attracting considerable attention in the mesh compression community due to its huge amount of data. To facilitate the study of static mesh compression algorithm and objective quality metric, we create the Tencent - Static Mesh Dataset (TSMD) containing 42 reference meshes with rich visual characteristics. 210 distorted samples are generated by the lossy compression scheme developed for the Call for Proposals on polygonal static mesh coding, released on June 23 by the Alliance for Open Media Volumetric Visual Media group. Using processed video sequences, a large-scale, crowdsourcing-based, subjective experiment was conducted to collect subjective scores from 74 viewers. The dataset undergoes analysis to validate its sample diversity and Mean Opinion Scores (MOS) accuracy, establishing its heterogeneous nature and reliability. State-of-the-art objective metrics are evaluated on the new dataset. Pearson and Spearman correlations around 0.75 are reported, deviating from results typically observed on less heterogeneous datasets, demonstrating the need for further development of more robust metrics. The TSMD, including meshes, PVSs, bitstreams, and MOS, is made publicly available at the following location: https://multimedia.tencent.com/resources/tsmd. | 翻訳日:2023-08-07 15:01:19 公開日:2023-08-03 |
# Recursive Least Squares と Recursive Kernel Methods を用いたオンラインマルチタスク学習 Online Multi-Task Learning with Recursive Least Squares and Recursive Kernel Methods ( http://arxiv.org/abs/2308.01938v1 ) ライセンス: Link先を確認 | Gabriel R. Lencione, Fernando J. Von Zuben | (参考訳) 本稿では,オンラインマルチタスク学習(MTL)回帰問題に対する2つの新しいアプローチを紹介する。
我々は、グラフベースの高性能MTL定式化を採用し、重み付き再帰最小方形 (WRLS) とオンラインスパース最小方形サポートベクトル回帰 (OSLSSVR) に基づく再帰版を開発する。
タスクスタック変換を導入し、複数のタスクの関係を取り入れ、MT-WRLS法で具現化される構造情報を初期化手順で、MT-OSLSSVRをマルチタスクカーネル関数で提供する単一行列の存在を実証する。
オンライングラディエント・ダイアンス(OGD)や立方体不正確なアプローチを主とする既存の文献とは対照的に,入力空間の次元(MT-WRLS)やインスタンスの辞書(MT-OSLSSVR)のサイズ(MT-OSLSSVR)の2乗当たりの精度と近似的再帰を実現する。
実世界の風速予測ケーススタディにおいて,我々のオンラインMTL手法と他の競技者との比較を行い,提案手法の有効性を検証した。 This paper introduces two novel approaches for Online Multi-Task Learning (MTL) Regression Problems. We employ a high performance graph-based MTL formulation and develop its recursive versions based on the Weighted Recursive Least Squares (WRLS) and the Online Sparse Least Squares Support Vector Regression (OSLSSVR). Adopting task-stacking transformations, we demonstrate the existence of a single matrix incorporating the relationship of multiple tasks and providing structural information to be embodied by the MT-WRLS method in its initialization procedure and by the MT-OSLSSVR in its multi-task kernel function. Contrasting the existing literature, which is mostly based on Online Gradient Descent (OGD) or cubic inexact approaches, we achieve exact and approximate recursions with quadratic per-instance cost on the dimension of the input space (MT-WRLS) or on the size of the dictionary of instances (MT-OSLSSVR). We compare our online MTL methods to other contenders in a real-world wind speed forecasting case study, evidencing the significant gain in performance of both proposed approaches. | 翻訳日:2023-08-07 15:00:50 公開日:2023-08-03 |
# cuQuantum SDK: 量子科学を加速するための高性能ライブラリ cuQuantum SDK: A High-Performance Library for Accelerating Quantum Science ( http://arxiv.org/abs/2308.01999v1 ) ライセンス: Link先を確認 | Harun Bayraktar, Ali Charara, David Clark, Saul Cohen, Timothy Costa, Yao-Lung L. Fang, Yang Gao, Jack Guan, John Gunnels, Azzam Haidar, Andreas Hehn, Markus Hohnerbach, Matthew Jones, Tom Lubowe, Dmitry Lyakh, Shinya Morino, Paul Springer, Sam Stanwyck, Igor Terentyev, Satya Varadhan, Jonathan Wong, Takuma Yamaguchi | (参考訳) 本稿では、GPU加速量子回路シミュレーションのための構成可能なプリミティブの最先端ライブラリであるNVIDIA cuQuantum SDKを紹介する。
量子デバイスのサイズが拡大し続け、古典的なシミュレーションが徐々に困難になるにつれて、高速でスケーラブルな量子回路シミュレーターが量子アルゴリズム開発者だけでなく、量子デバイスの検証と最適化に重点を置く量子ハードウェアエンジニアにとって欠かせないものとなった。
cuQuantum SDKは、NVIDIA GPUプラットフォーム向けに最適化された効率的なスケーラブルなソフトウェア構築ブロックを活用することで、量子情報科学コミュニティが開発した量子回路シミュレータの高速化とスケールアップを目的として開発された。
機能的ビルディングブロックは、行列積状態、射影絡み合ったペア状態、その他の因子化テンソル表現に基づく近似テンソルネットワークシミュレーション手法を含む、状態ベクトルとテンソルネットワークベースのシミュレータの両方のニーズをカバーする。
最新のNVIDIA GPUアーキテクチャの膨大な計算能力を活用することで、cuQuantum SDKを採用した量子回路シミュレータは、状態ベクトルとテンソルネットワークのシミュレーション手法の両方において、CPUのみの実行と比較して大幅に加速された。
さらに、cuQuantum SDKで利用可能な並列プリミティブを利用することで、クラウドサービスプロバイダやスーパーコンピュータセンターが展開する高性能コンピューティングシステムなど、分散GPUアクセラレーションプラットフォームへの移行が容易になり、量子回路シミュレーションの規模が拡大する。
SDKが提供する豊富な機能は、PythonとCのアプリケーションプログラミングインターフェースを通じて、便利に利用できる。前者はPythonの量子コミュニティを直接ターゲットとし、後者は、あらゆるプログラミング言語で記述されたシミュレータと密に統合することができる。 We present the NVIDIA cuQuantum SDK, a state-of-the-art library of composable primitives for GPU-accelerated quantum circuit simulations. As the size of quantum devices continues to increase, making their classical simulation progressively more difficult, the availability of fast and scalable quantum circuit simulators becomes vital for quantum algorithm developers, as well as quantum hardware engineers focused on the validation and optimization of quantum devices. The cuQuantum SDK was created to accelerate and scale up quantum circuit simulators developed by the quantum information science community by enabling them to utilize efficient scalable software building blocks optimized for NVIDIA GPU platforms. The functional building blocks provided cover the needs of both state vector- and tensor network- based simulators, including approximate tensor network simulation methods based on matrix product state, projected entangled pair state, and other factorized tensor representations. By leveraging the enormous computing power of the latest NVIDIA GPU architectures, quantum circuit simulators that have adopted the cuQuantum SDK demonstrate significant acceleration, compared to CPU-only execution, for both the state vector and tensor network simulation methods. Furthermore, by utilizing the parallel primitives available in the cuQuantum SDK, one can easily transition to distributed GPU-accelerated platforms, including those furnished by cloud service providers and high-performance computing systems deployed by supercomputing centers, extending the scale of possible quantum circuit simulations. The rich capabilities provided by the SDK are conveniently made available via both Python and C application programming interfaces, where the former is directly targeting a broad Python quantum community and the latter allows tight integration with simulators written in any programming language. | 翻訳日:2023-08-07 14:53:08 公開日:2023-08-03 |
# ディープネットワークを用いた説明不能なマルチモーダル画像登録 Explainable unsupervised multi-modal image registration using deep networks ( http://arxiv.org/abs/2308.01994v1 ) ライセンス: Link先を確認 | Chengjia Wang, Giorgos Papanastasiou | (参考訳) MRI(MRI)による臨床的決定は、複数のMRIシーケンス(モダリティとして定義される)の相補的な情報を組み合わせたものである。
MRI画像登録は、異なるモダリティ、時間点、スライスから幾何学的に「ペア」診断することを目的としている。
モダリティ内およびモダリティ間MRIの登録は、臨床MRI設定において必須の要素である。
さらに、実際のMRIデータシナリオでは、どちらの種類の変形も発生する可能性があるため、微細な登録と非厳密な登録の両方に対処できるMRI画像処理パイプラインが重要である。
画像分類とは異なり、画像登録深層学習(DL)法では、変換フィールドに対するモデルデータ動作の相互運用が難しいため、説明容易性は一般的には解決されない。
そこで我々はGrad-CAMベースの説明可能性フレームワークを,教師なしマルチモーダル・マルチオーガナイズド画像登録DL手法の各主要コンポーネントに組み込んだ。
私たちは以前、優れたパフォーマンス(現在の標準synメソッドでは)に到達できることを実証しました。
本稿では,dlモデルが十分に説明可能であることを示し,さらなる医用画像データへのアプローチを一般化する枠組みを構築した。 Clinical decision making from magnetic resonance imaging (MRI) combines complementary information from multiple MRI sequences (defined as 'modalities'). MRI image registration aims to geometrically 'pair' diagnoses from different modalities, time points and slices. Both intra- and inter-modality MRI registration are essential components in clinical MRI settings. Further, an MRI image processing pipeline that can address both afine and non-rigid registration is critical, as both types of deformations may be occuring in real MRI data scenarios. Unlike image classification, explainability is not commonly addressed in image registration deep learning (DL) methods, as it is challenging to interpet model-data behaviours against transformation fields. To properly address this, we incorporate Grad-CAM-based explainability frameworks in each major component of our unsupervised multi-modal and multi-organ image registration DL methodology. We previously demonstrated that we were able to reach superior performance (against the current standard Syn method). In this work, we show that our DL model becomes fully explainable, setting the framework to generalise our approach on further medical imaging data. | 翻訳日:2023-08-07 14:52:41 公開日:2023-08-03 |
# Bengali Fakeレビュー:ベンチマークデータセットと検出システム Bengali Fake Reviews: A Benchmark Dataset and Detection System ( http://arxiv.org/abs/2308.01987v1 ) ライセンス: Link先を確認 | G. M. Shahariar, Md. Tanvir Rouf Shawon, Faisal Muhammad Shah, Mohammad Shafiul Alam and Md. Shahriar Mahbub | (参考訳) さまざまなオンラインプラットフォームにおける偽レビューの拡散は、消費者と企業双方にとって大きな懸念を巻き起こしている。
このようなレビューは顧客を欺き、製品やサービスの評判を損なう可能性があるため、顧客を特定することが不可欠である。
偽レビューの検出は英語で広く研究されているが、ベンガル語のような英語以外の言語で偽レビューを検出することは、比較的未調査の分野である。
本稿では,Bengali Fake Review Detection (BFRD)データセットを紹介する。
データセットは7710件のノンフェイクと1339件の偽の食品関連レビューで構成されている。
レビューで非ベンガル語を変換するために、英語の単語を対応するベンガル語の意味に翻訳するユニークなパイプラインが提案されている。
複数のディープラーニングと事前学習型トランスフォーマー言語モデルを用いて厳密な実験を行い、信頼性の高い検出システムを開発した。
最後に,BanglaBERT,BanglaBERT Base,BanglaBERT Large,BanglaBERT Generatorの4つの事前学習変圧器を組み合わせた重み付きアンサンブルモデルを提案する。
実験結果によると,nlpaugライブラリで生成された1339件の偽レビューと5356件の偽レビューを含む,13390件のレビューに対して,重み付けされたf1-score 0.9843が得られた。
残りの6695のレビューは7710の非fakeインスタンスからランダムに選択された。
このモデルは、偽レビューがbnaugライブラリを使用して拡張されたときに、0.9558の重み付きF1スコアを達成した。 The proliferation of fake reviews on various online platforms has created a major concern for both consumers and businesses. Such reviews can deceive customers and cause damage to the reputation of products or services, making it crucial to identify them. Although the detection of fake reviews has been extensively studied in English language, detecting fake reviews in non-English languages such as Bengali is still a relatively unexplored research area. This paper introduces the Bengali Fake Review Detection (BFRD) dataset, the first publicly available dataset for identifying fake reviews in Bengali. The dataset consists of 7710 non-fake and 1339 fake food-related reviews collected from social media posts. To convert non-Bengali words in a review, a unique pipeline has been proposed that translates English words to their corresponding Bengali meaning and also back transliterates Romanized Bengali to Bengali. We have conducted rigorous experimentation using multiple deep learning and pre-trained transformer language models to develop a reliable detection system. Finally, we propose a weighted ensemble model that combines four pre-trained transformers: BanglaBERT, BanglaBERT Base, BanglaBERT Large, and BanglaBERT Generator . According to the experiment results, the proposed ensemble model obtained a weighted F1-score of 0.9843 on 13390 reviews, including 1339 actual fake reviews and 5356 augmented fake reviews generated with the nlpaug library. The remaining 6695 reviews were randomly selected from the 7710 non-fake instances. The model achieved a 0.9558 weighted F1-score when the fake reviews were augmented using the bnaug library. | 翻訳日:2023-08-07 14:52:19 公開日:2023-08-03 |
# オッカムの量子シミュレーションへの応用 Occam's razor for quantum simulations ( http://arxiv.org/abs/2308.01986v1 ) ライセンス: Link先を確認 | Lane G. Gunderman, Andrew J. Jena, Luca Dellantonio | (参考訳) 過去数年間、我々は量子コンピュータが古典的に難解な問題を解くことができることを実証する、驚くべき動きを目撃してきた。
当初、ハードウェアに焦点をあてたこの取り組みは、シミュレートされるモデルの単純化を徐々に含んだ。
これはオッカムの量子シミュレーションに適用されたカミソリであり、任意の系の超流動量子ビットを体系的に切断するために用いられる。
このアプローチは普遍的に適用可能であり、まずヒルベルト空間の最大の可能な部分の無関係性を保証することで複雑性を低減し、次にシステムのすべての保存された電荷を発見して活用する。
驚くべきことに、両方のプロセスは古典的に効率的で最適です。
このアルゴリズムを実証するため, 化学分子, 格子ゲージ理論, ハバードモデル, 北エフモデルを単純化した。 In the last years, we have been witnessing a tremendous push to demonstrate that quantum computers can solve classically intractable problems. This effort, initially focused on the hardware, progressively included the simplification of the models to be simulated. This is Occam's razor applied to quantum simulation, which is used in this work to systematically cut all superfluous qubits in any given system. Our approach is universally applicable and lowers the complexity by first ensuring that the largest possible portion of the Hilbert space becomes irrelevant, and then by finding and exploiting all conserved charges of the system. Remarkably, both processes are classically efficient and optimal. To showcase our algorithm, we simplify chemical molecules, lattice gauge theories, the Hubbard and the Kitaev models. | 翻訳日:2023-08-07 14:51:51 公開日:2023-08-03 |
# H&E乳がん画像からのKi67, ER, PR, HER2の予測 Predicting Ki67, ER, PR, and HER2 Statuses from H&E-stained Breast Cancer Images ( http://arxiv.org/abs/2308.01982v1 ) ライセンス: Link先を確認 | Amir Akbarnejad, Nilanjan Ray, Penny J. Barnes, Gilbert Bigras | (参考訳) 機械学習とデジタル病理学の進歩にもかかわらず、機械学習の手法が組織形態だけで分子情報を正確に予測できるかどうかはまだ分かっていない。
この問題に対処するために,Ki67,ER,PR,HER2ステータスの信頼性の高い大規模データセット(185538画像)を構築した。
このデータセットは、H\&Eのミラー画像と、免疫組織化学(IHC)アッセイ(Ki67、ER、PR、HER2)の対応する画像からなる。
これらの画像は登録によって反映される。
信頼性を高めるため、個々のペアを検査し、アーティファクト(折り畳み、バブルなど)があれば破棄した。
画像解析により,Ki67,ER,PRの測定値をHスコアで算出した。
HER2測定は、0と1+(負のサブセットを表すIHCスコア)対3+(IHCスコア正のサブセット)という二項分類に基づいている。
IHC同値スコア(2+)は除外された。
標準vitベースのパイプラインでは,適切なラベリングプロトコルを用いてトレーニングした場合,曲線下領域 (auc) の約90%の予測性能が得られる。
最後に、訓練された分類器が関連する領域をローカライズする能力に光を当て、ローカライズを改善するための今後の取り組みを奨励する。
提案したデータセットは, https://ihc4bc.github.io/ で公開されている。 Despite the advances in machine learning and digital pathology, it is not yet clear if machine learning methods can accurately predict molecular information merely from histomorphology. In a quest to answer this question, we built a large-scale dataset (185538 images) with reliable measurements for Ki67, ER, PR, and HER2 statuses. The dataset is composed of mirrored images of H\&E and corresponding images of immunohistochemistry (IHC) assays (Ki67, ER, PR, and HER2. These images are mirrored through registration. To increase reliability, individual pairs were inspected and discarded if artifacts were present (tissue folding, bubbles, etc). Measurements for Ki67, ER and PR were determined by calculating H-Score from image analysis. HER2 measurement is based on binary classification: 0 and 1+ (IHC scores representing a negative subset) vs 3+ (IHC score positive subset). Cases with IHC equivocal score (2+) were excluded. We show that a standard ViT-based pipeline can achieve prediction performances around 90% in terms of Area Under the Curve (AUC) when trained with a proper labeling protocol. Finally, we shed light on the ability of the trained classifiers to localize relevant regions, which encourages future work to improve the localizations. Our proposed dataset is publicly available: https://ihc4bc.github.io/ | 翻訳日:2023-08-07 14:51:38 公開日:2023-08-03 |
# CartiMorph:人工膝関節軟骨形態計測のためのフレームワーク CartiMorph: a framework for automated knee articular cartilage morphometrics ( http://arxiv.org/abs/2308.01981v1 ) ライセンス: Link先を確認 | Yongcheng Yao, Junru Zhong, Liping Zhang, Sheheryar Khan, Weitian Chen | (参考訳) 人工膝関節軟骨形態計測の枠組みであるCartiMorphを紹介した。
入力として画像を取得し、フル厚さ軟骨損失(FCL)、平均厚さ、表面積、体積の比率を含む軟骨サブリージョンの定量値を生成する。
CartiMorphは階層的な画像特徴表現にディープラーニングモデルのパワーを利用する。
深層学習モデルは、組織セグメンテーション、テンプレート構築、テンプレート・ツー・イメージ登録のために訓練され、検証された。
表面正規化軟骨厚マッピング, FCL推定, およびルールベース軟骨粒度解析の手法を確立した。
軟骨厚図では, 薄い領域と周辺領域では誤差が低かった。
モデルセグメンテーションから得られた量と手動セグメンテーションから得られた量を比較することで,採用セグメンテーションモデルの有効性を評価した。
FCL測定の根平均二乗偏差は8%未満であり, 平均厚さ (Pearson's correlation coefficient $\rho \in [0.82,0.97]$), 表面積$\rho \in [0.82,0.98]$), 体積$\rho \in [0.89,0.98]$) に対して強い相関関係が認められた。
我々は、FCLの測定を以前の研究と比較し、我々の測定が真実から逸脱することを発見した。
本研究は,アトラス法と比較して,ルールベース軟骨解析法の優れた性能を示した。
CartiMorphは、膝関節症に対する画像バイオマーカーの発見を促進する可能性がある。 We introduce CartiMorph, a framework for automated knee articular cartilage morphometrics. It takes an image as input and generates quantitative metrics for cartilage subregions, including the percentage of full-thickness cartilage loss (FCL), mean thickness, surface area, and volume. CartiMorph leverages the power of deep learning models for hierarchical image feature representation. Deep learning models were trained and validated for tissue segmentation, template construction, and template-to-image registration. We established methods for surface-normal-based cartilage thickness mapping, FCL estimation, and rule-based cartilage parcellation. Our cartilage thickness map showed less error in thin and peripheral regions. We evaluated the effectiveness of the adopted segmentation model by comparing the quantitative metrics obtained from model segmentation and those from manual segmentation. The root-mean-squared deviation of the FCL measurements was less than 8%, and strong correlations were observed for the mean thickness (Pearson's correlation coefficient $\rho \in [0.82,0.97]$), surface area ($\rho \in [0.82,0.98]$) and volume ($\rho \in [0.89,0.98]$) measurements. We compared our FCL measurements with those from a previous study and found that our measurements deviated less from the ground truths. We observed superior performance of the proposed rule-based cartilage parcellation method compared with the atlas-based approach. CartiMorph has the potential to promote imaging biomarkers discovery for knee osteoarthritis. | 翻訳日:2023-08-07 14:51:19 公開日:2023-08-03 |
# RealCQA: 第一級論理のためのテストベッドとしての科学チャート質問 RealCQA: Scientific Chart Question Answering as a Test-bed for First-Order Logic ( http://arxiv.org/abs/2308.01979v1 ) ライセンス: Link先を確認 | Saleem Ahmed, Bhavin Jawade, Shubham Pandey, Srirangaraj Setlur, Venu Govindaraju | (参考訳) 本稿では,文書内のグラフ視覚化からデータの理解と抽出に直面する課題に対処するため,グラフ視覚質問応答(QA)タスクの総合的研究を行う。
合成チャートを用いてこの問題に対処する努力にもかかわらず、実際の注釈付きデータの不足によりソリューションは制限される。
このギャップを埋めるために、実世界のチャート上での視覚的QAのベンチマークとデータセットを導入し、タスクの体系的分析とテンプレートベースのチャート質問作成のための新しい分類を提供する。
私たちのコントリビューションには、ランク付けと非ランク付けの両方のバリエーションを備えた新しい回答タイプである'list'の導入が含まれています。
本研究は,科学文献から得られた実世界のチャートデータセットを用いて,他の作品と比較して高い視覚的複雑さを示す。
当社の焦点は、テンプレートベースのqaと、モデルの一階述語論理能力を評価するための標準としての役割にあります。
本実験は,実世界の分散データセット上で実施し,大規模事前学習モデルのロバストな評価と,グラフビジュアルqaの分野の前進と,ニューラルネットワーク全般の形式的論理検証を提供する。 We present a comprehensive study of chart visual question-answering(QA) task, to address the challenges faced in comprehending and extracting data from chart visualizations within documents. Despite efforts to tackle this problem using synthetic charts, solutions are limited by the shortage of annotated real-world data. To fill this gap, we introduce a benchmark and dataset for chart visual QA on real-world charts, offering a systematic analysis of the task and a novel taxonomy for template-based chart question creation. Our contribution includes the introduction of a new answer type, 'list', with both ranked and unranked variations. Our study is conducted on a real-world chart dataset from scientific literature, showcasing higher visual complexity compared to other works. Our focus is on template-based QA and how it can serve as a standard for evaluating the first-order logic capabilities of models. The results of our experiments, conducted on a real-world out-of-distribution dataset, provide a robust evaluation of large-scale pre-trained models and advance the field of chart visual QA and formal logic verification for neural networks in general. | 翻訳日:2023-08-07 14:50:52 公開日:2023-08-03 |
# typo耐性スペルチェッカーにおけるドメイン特異性とデータ効率:オンライン市場における検索の場合 Domain specificity and data efficiency in typo tolerant spell checkers: the case of search in online marketplaces ( http://arxiv.org/abs/2308.01976v1 ) ライセンス: Link先を確認 | Dayananda Ubrangala, Juhi Sharma, Ravi Prasad Kondapalli, Kiran R, Amit Agarwala, Laurent Bou\'e | (参考訳) タイポグラフィーエラーは、オンラインマーケットの訪問者にとってフラストレーションの主な原因である。
これらのマーケットプレースにはドメイン固有の性質があり、ユーザが検索するクエリが極めて短いため、従来のスペルチェキングソリューションはタイプミスの修正ではうまく機能しない。
本稿では、アノテーション付き型データの欠如に対処し、コンテキスト限定のドメイン固有埋め込みを学習するために繰り返しニューラルネットワークを訓練するデータ拡張手法を提案する。
これらの埋め込みは、Microsoft AppSourceマーケットプレイスのリアルタイム参照APIにデプロイされ、ミススペルされたユーザクエリと利用可能な製品名との最も近いマッチングを見つける。
我々のデータ効率のよいソリューションは、制御された高品質な合成データは、特に巨大でしばしば制御されていないデータセットに依存する大規模言語モデルの現在の気候を考えると、強力なツールであることを示している。 Typographical errors are a major source of frustration for visitors of online marketplaces. Because of the domain-specific nature of these marketplaces and the very short queries users tend to search for, traditional spell cheking solutions do not perform well in correcting typos. We present a data augmentation method to address the lack of annotated typo data and train a recurrent neural network to learn context-limited domain-specific embeddings. Those embeddings are deployed in a real-time inferencing API for the Microsoft AppSource marketplace to find the closest match between a misspelled user query and the available product names. Our data efficient solution shows that controlled high quality synthetic data may be a powerful tool especially considering the current climate of large language models which rely on prohibitively huge and often uncontrolled datasets. | 翻訳日:2023-08-07 14:50:32 公開日:2023-08-03 |
# SpaDen : 実世界チャート理解のためのスパースとデンスキーポイント推定 SpaDen : Sparse and Dense Keypoint Estimation for Real-World Chart Understanding ( http://arxiv.org/abs/2308.01971v1 ) ライセンス: Link先を確認 | Saleem Ahmed, Pengyu Yan, David Doermann, Srirangaraj Setlur, Venu Govindaraju | (参考訳) 本稿では,グラフデータ抽出のための新しいボトムアップ手法を提案する。
提案モデルでは,チャートの画像を入力として利用し,プロット領域内のコンポーネントを再構成するキーポイント(KP)を検出する。
我々の新規性は、予測熱マップとして連続KPと離散KPの融合を検出することである。
KP埋め込みの学習には、スパースと高密度画素単位の目的と、一様自己アテンションに基づく特徴融合層の組み合わせを適用する。
さらに、教師なしクラスタリングにディープメトリック学習を活用することで、チャートプロット領域をさまざまなオブジェクトに分割することができます。
さらに、チャートコンポーネントを伝説に合わせることで、私たちはデータシリーズ名を得ることができます。
KP埋め込みに後処理閾値を適用してオブジェクト再構成を洗練し、精度を向上させる。
我々の広範な実験は、KP推定のための異なるモジュールの評価と深層凝集とコーナープールアプローチの組み合わせを含む。
本実験の結果は,実世界のグラフデータ抽出のタスクを広範囲に評価する。 We introduce a novel bottom-up approach for the extraction of chart data. Our model utilizes images of charts as inputs and learns to detect keypoints (KP), which are used to reconstruct the components within the plot area. Our novelty lies in detecting a fusion of continuous and discrete KP as predicted heatmaps. A combination of sparse and dense per-pixel objectives coupled with a uni-modal self-attention-based feature-fusion layer is applied to learn KP embeddings. Further leveraging deep metric learning for unsupervised clustering, allows us to segment the chart plot area into various objects. By further matching the chart components to the legend, we are able to obtain the data series names. A post-processing threshold is applied to the KP embeddings to refine the object reconstructions and improve accuracy. Our extensive experiments include an evaluation of different modules for KP estimation and the combination of deep layer aggregation and corner pooling approaches. The results of our experiments provide extensive evaluation for the task of real-world chart data extraction. | 翻訳日:2023-08-07 14:50:18 公開日:2023-08-03 |
# 古典回路網における例外境界状態の実験的観察 Experimental observation of exceptional bound states in a classical circuit network ( http://arxiv.org/abs/2308.01970v1 ) ライセンス: Link先を確認 | Deyuan Zou, Tian Chen, Haiyu Meng, Yee Sin Ang, Xiangdong Zhang and Ching Hua Lee | (参考訳) 例外境界状態 (EB) は、非エルミート的例外点の欠陥によって保護される強い境界状態のユニークな新しいクラスを表す。
概念的には、よく知られた位相状態や非エルミート皮膚状態と異なり、量子エンタングルメントの文脈における新しい負エンタングルメントエントロピーの源として最近発見された。
しかし、EB状態は物理的に解明され、元々は非エルミートフェルミ気体のプロパゲーターの負の確率固有状態と解釈された。
この研究で、EB状態は実際にはよりユビキタスであり、古典的でも量子的でも幅広いシステムのクラスで頑強に発生する。
これは、小さな候補格子系のEB特性を厳格に正当化する、新たに発見されたスペクトルフローに決定的に依存する。
本研究は、電気回路による最初の実験的な実現について紹介し、安定した共振電圧分布を示す。
我々の研究は、古典的なメタマテリアルの領域に古典的な量子現象をもたらし、それ以外は敏感なシステムにおけるロバストモードの工学の新たな経路を提供する。 Exceptional bound (EB) states represent an unique new class of robust bound states protected by the defectiveness of non-Hermitian exceptional points. Conceptually distinct from the more well-known topological states and non-Hermitian skin states, they were recently discovered as a novel source of negative entanglement entropy in the quantum entanglement context. Yet, EB states have been physically elusive, being originally interpreted as negative probability eigenstates of the propagator of non-Hermitian Fermi gases. In this work, we show that EB states are in fact far more ubiquitous, also arising robustly in broad classes of systems whether classical or quantum. This hinges crucially on a newly-discovered spectral flow that rigorously justifies the EB nature of small candidate lattice systems. As a highlight, we present their first experimental realization through an electrical circuit, where they manifest as prominent stable resonant voltage profiles. Our work brings a hitherto elusive but fundamentally distinctive quantum phenomenon into the realm of classical metamaterials, and provides a novel pathway for the engineering of robust modes in otherwise sensitive systems. | 翻訳日:2023-08-07 14:50:01 公開日:2023-08-03 |
# ETran:エネルギーベースの転送可能性の推定 ETran: Energy-Based Transferability Estimation ( http://arxiv.org/abs/2308.02027v1 ) ライセンス: Link先を確認 | Mohsen Gholami, Mohammad Akbari, Xinglu Wang, Behnam Kamranian, Yong Zhang | (参考訳) 本稿では,物体検出と画像分類のための事前学習モデルランキングの問題に対処する。
微調整による最良の事前学習されたモデルの選択は、高価で時間がかかるタスクです。
事前学習したモデルから抽出した特徴に基づいて, 転送可能性の推定を提案した。
我々は,対象のデータセットが分布内(IND)か,事前学習されたモデルに対する分布外(OOD)かを定量化することが,伝達可能性推定の重要な要素であると主張する。
この目的のために,エネルギーベースの伝達可能性評価尺度であるETranを提案する。
1)エネルギースコア、
2)分類スコア、及び
3)回帰スコア。
我々はエネルギーモデルを用いて、目標データセットが事前訓練されたモデルに対してOODかINDかを決定する。
以前の研究とは対照的に、ETranは分類、回帰、オブジェクト検出(分類+回帰)を含む幅広いタスクに適用できる。
これは、オブジェクト検出タスクの転送可能性推定を提案する最初の作業である。
4つのベンチマークと2つのタスクに関する広範な実験により、ETranは、オブジェクト検出および分類ベンチマークに関する以前の研究を平均21%と12%で上回り、転送可能性評価においてSOTAを達成している。 This paper addresses the problem of ranking pre-trained models for object detection and image classification. Selecting the best pre-trained model by fine-tuning is an expensive and time-consuming task. Previous works have proposed transferability estimation based on features extracted by the pre-trained models. We argue that quantifying whether the target dataset is in-distribution (IND) or out-of-distribution (OOD) for the pre-trained model is an important factor in the transferability estimation. To this end, we propose ETran, an energy-based transferability assessment metric, which includes three scores: 1) energy score, 2) classification score, and 3) regression score. We use energy-based models to determine whether the target dataset is OOD or IND for the pre-trained model. In contrast to the prior works, ETran is applicable to a wide range of tasks including classification, regression, and object detection (classification+regression). This is the first work that proposes transferability estimation for object detection task. Our extensive experiments on four benchmarks and two tasks show that ETran outperforms previous works on object detection and classification benchmarks by an average of 21% and 12%, respectively, and achieves SOTA in transferability assessment. | 翻訳日:2023-08-07 14:44:12 公開日:2023-08-03 |
# ML加速器のスクラッチパッドとしてのSTT-MRAMの評価 Evaluation of STT-MRAM as a Scratchpad for Training in ML Accelerators ( http://arxiv.org/abs/2308.02024v1 ) ライセンス: Link先を確認 | Sourjya Roy, Cheng Wang, and Anand Raghunathan | (参考訳) 過去10年間の人工知能と機械学習の進歩は、より大きなディープニューラルネットワーク(DNN)をトレーニングする能力によって推進されている。
トレーニングdnnは非常にメモリ集約的なプロセスであり、モデル重みだけでなく、ミニバッチ全体を保存するためのアクティベーションや勾配も必要です。
高密度で低リープのオンチップメモリを提供する必要性は、トレーニングアクセラレータのための新しい不揮発性メモリの探求を動機付ける。
Spin-Transfer-Torque MRAM (STT-MRAM) は、SRAMよりも3,4倍高い密度、リーク電力の大幅な低減、耐久性の向上、アクセス時間の向上など、トレーニングアクセラレータに望ましいいくつかの特性を提供する。
一方、mram書き込み操作は、信頼性の高いスイッチングが必要であるため、高い書き込みエネルギーとレイテンシを必要とする。
本研究では,効率的なMLトレーニングアクセラレータ設計のための総合的なデバイス間評価とSTT-MRAMの協調最適化を行う。
我々は,SRAMに代わるスクラッチパッドとしてSTT-MRAMの有効性を評価するための層間シミュレーションフレームワークを開発した。
STT-MRAMにおける書き込みの非効率性に対処するため,書き込み電圧と持続時間を削減することを提案する。
入力のアクティベーション,重み,エラーのエラー許容度を,トレーニング中に徹底的に解析し,精度・効率のトレードオフを評価する。
高精度なトレーニング収束を可能にする異種メモリ構成を提案する。
MRAMは,同容量および異領域シナリオ下でのDNNベンチマークにおいて,システムレベルのエネルギーを最大15~22倍改善することを示す。
stt-mram書き込み操作の最適化により、書き込みエネルギーが2倍以上向上し、アプリケーションレベルのトレーニング精度が最小限になる。 Progress in artificial intelligence and machine learning over the past decade has been driven by the ability to train larger deep neural networks (DNNs), leading to a compute demand that far exceeds the growth in hardware performance afforded by Moore's law. Training DNNs is an extremely memory-intensive process, requiring not just the model weights but also activations and gradients for an entire minibatch to be stored. The need to provide high-density and low-leakage on-chip memory motivates the exploration of emerging non-volatile memory for training accelerators. Spin-Transfer-Torque MRAM (STT-MRAM) offers several desirable properties for training accelerators, including 3-4x higher density than SRAM, significantly reduced leakage power, high endurance and reasonable access time. On the one hand, MRAM write operations require high write energy and latency due to the need to ensure reliable switching. In this study, we perform a comprehensive device-to-system evaluation and co-optimization of STT-MRAM for efficient ML training accelerator design. We devised a cross-layer simulation framework to evaluate the effectiveness of STT-MRAM as a scratchpad replacing SRAM in a systolic-array-based DNN accelerator. To address the inefficiency of writes in STT-MRAM, we propose to reduce write voltage and duration. To evaluate the ensuing accuracy-efficiency trade-off, we conduct a thorough analysis of the error tolerance of input activations, weights, and errors during the training. We propose heterogeneous memory configurations that enable training convergence with good accuracy. We show that MRAM provide up to 15-22x improvement in system level energy across a suite of DNN benchmarks under iso-capacity and iso-area scenarios. Further optimizing STT-MRAM write operations can provide over 2x improvement in write energy for minimal degradation in application-level training accuracy. | 翻訳日:2023-08-07 14:43:51 公開日:2023-08-03 |
# 効率的な感情分析:特徴抽出手法,センシング,深層学習モデルの資源対応評価 Efficient Sentiment Analysis: A Resource-Aware Evaluation of Feature Extraction Techniques, Ensembling, and Deep Learning Models ( http://arxiv.org/abs/2308.02022v1 ) ライセンス: Link先を確認 | Mahammed Kamruzzaman and Gene Louis Kim | (参考訳) 精度を最大化するNLPシステムに到達している間、システムパフォーマンスの他の重要な指標はしばしば見過ごされる。
以前のモデルは、大規模なコンピューティングリソースが利用できない、あるいは比較的コストがかかる設定で適しているにもかかわらず、簡単に忘れられる。
本稿では,モデル展開と一般的な気候意識の実現に重要な資源コストに着目し,文書レベルの感情分析モデルの広範な比較評価を行う。
実験では,異なる特徴抽出手法,センシングの効果,タスク固有の深層学習モデル,ドメインに依存しない大規模言語モデル(llm)について検討した。
微調整 LLM が最高の精度を達成する一方で、いくつかの代替構成は、限界値 (<1%) の精度でリソースを節約できる(最大24, 283* まで)。
さらに,より小さなデータセットでは,リソース消費の差がさらに増加する一方,精度の差は小さくなることがわかった。 While reaching for NLP systems that maximize accuracy, other important metrics of system performance are often overlooked. Prior models are easily forgotten despite their possible suitability in settings where large computing resources are unavailable or relatively more costly. In this paper, we perform a broad comparative evaluation of document-level sentiment analysis models with a focus on resource costs that are important for the feasibility of model deployment and general climate consciousness. Our experiments consider different feature extraction techniques, the effect of ensembling, task-specific deep learning modeling, and domain-independent large language models (LLMs). We find that while a fine-tuned LLM achieves the best accuracy, some alternate configurations provide huge (up to 24, 283 *) resource savings for a marginal (<1%) loss in accuracy. Furthermore, we find that for smaller datasets, the differences in accuracy shrink while the difference in resource consumption grows further. | 翻訳日:2023-08-07 14:43:20 公開日:2023-08-03 |
# Baby Llama: パフォーマンスペナルティのない小さなデータセットで訓練された教師のアンサンブルからの知識蒸留 Baby Llama: knowledge distillation from an ensemble of teachers trained on a small dataset with no performance penalty ( http://arxiv.org/abs/2308.02019v1 ) ライセンス: Link先を確認 | Inar Timiryasov and Jean-Loup Tastet | (参考訳) 本稿では,言語モデルのサンプル効率向上を目的としたBabyLMチャレンジ [arXiv:2301.11796]を提案する。
我々は,GPT-2と10MワードのBabyLMデータセットを用いて,GPT-2と小LLaMAモデルからなるアンサンブルを訓練し,それを58MパラメータのLLaMAモデルに蒸留した。
これは、蒸留が十分に小さなデータセットで訓練された場合、教師モデルの完全な性能を維持するだけでなく、それを上回ることができ、直接訓練よりもかなり優れた性能を得られることを示唆する。 We present our proposed solution to the BabyLM challenge [arXiv:2301.11796], whose goal was to improve the sample efficiency of language models. We trained an ensemble consisting of a GPT-2 and small LLaMA models on the developmentally-plausible, 10M-word BabyLM dataset, then distilled it into a small, 58M-parameter LLaMA model, which exceeds in performance both of its teachers as well as a similar model trained without distillation. This suggests that distillation can not only retain the full performance of the teacher model when the latter is trained on a sufficiently small dataset; it can exceed it, and lead to significantly better performance than direct training. | 翻訳日:2023-08-07 14:43:02 公開日:2023-08-03 |
# 自動音声認識のためのフェデレーション表現学習 Federated Representation Learning for Automatic Speech Recognition ( http://arxiv.org/abs/2308.02013v1 ) ライセンス: Link先を確認 | Guruprasad V Rames, Gopinath Chennupati, Milind Rao, Anit Kumar Sahu, Ariya Rastrow, Jasha Droppo | (参考訳) Federated Learning(FL)はプライバシ保護のパラダイムであり、エッジデバイスがデータを共有せずに協調的に学習できるようにする。
AlexaやSiriのようなエッジデバイスは、堅牢なオーディオ表現を学習するためにタップできるラベルなしのオーディオデータの予測ソースである。
本研究では,データプライバシー制約に配慮した音声認識のための表現を学習するために,自己教師付き学習(SSL)とFLを併用する。
我々は、ラベルなし音声データセットLibri-Lightの話者情報と章情報を用いて、非IID話者サイロデータ分布をシミュレートし、FedSGDのContrastive Predictive Codingフレームワークを用いてLSTMエンコーダを事前訓練する。
FL における事前学習型 ASR エンコーダは,中心的な事前学習モデルと同様に動作し,事前学習に比べて 12-15% (WER) の改善が得られた。
我々はさらに,新しい言語であるフランス語にフェデレート事前学習モデルを適用し,事前学習を行わない場合の20%(wer)改善を示す。 Federated Learning (FL) is a privacy-preserving paradigm, allowing edge devices to learn collaboratively without sharing data. Edge devices like Alexa and Siri are prospective sources of unlabeled audio data that can be tapped to learn robust audio representations. In this work, we bring Self-supervised Learning (SSL) and FL together to learn representations for Automatic Speech Recognition respecting data privacy constraints. We use the speaker and chapter information in the unlabeled speech dataset, Libri-Light, to simulate non-IID speaker-siloed data distributions and pre-train an LSTM encoder with the Contrastive Predictive Coding framework with FedSGD. We show that the pre-trained ASR encoder in FL performs as well as a centrally pre-trained model and produces an improvement of 12-15% (WER) compared to no pre-training. We further adapt the federated pre-trained models to a new language, French, and show a 20% (WER) improvement over no pre-training. | 翻訳日:2023-08-07 14:42:48 公開日:2023-08-03 |
# スピン量子ビットのリアルタイム2軸制御 Real-time two-axis control of a spin qubit ( http://arxiv.org/abs/2308.02012v1 ) ライセンス: Link先を確認 | Fabrizio Berritta, Torbj{\o}rn Rasmussen, Jan A. Krzywda, Joost van der Heijden, Federico Fedele, Saeed Fallahi, Geoffrey C. Gardner, Michael J. Manfra, Evert van Nieuwenburg, Jeroen Danon, Anasua Chatterjee and Ferdinand Kuemmeth | (参考訳) 量子ビットの最適制御には、継続的に変化する環境に適応する能力が必要である。
2つの変動するハミルトンパラメータを持つ2電子一重項量子ビットのリアルタイム制御プロトコルを実証する。
本手法はシングルショット読み出し分類と動的波形生成を活用し,フルハミルトン推定により量子ビット性能の動的安定化と最適化を実現する。
fpga(field-programmable gate array)により、量子制御エレクトロニクスは2つの電子間のオーバーハウザー磁場勾配をリアルタイムで推定し、オーバーハウザー駆動のスピン回転を制御することができ、マイクロマグネットや核偏光プロトコルの必要性を回避できる。
また、2つの電子間の交換相互作用を推定し、デチューニングを調整することで、両方のクビット軸のゆらぎを補正する際にアダマール回転が拡張される。
本研究は、量子デバイスの性能と安定性を高める上でのフィードバックの重要性を強調した。
フィードバックは、スピン量子ビットを超えた様々な量子ビット実装のパフォーマンスを改善する上で重要な役割を果たす。 Optimal control of qubits requires the ability to adapt continuously to their ever-changing environment. We demonstrate a real-time control protocol for a two-electron singlet-triplet qubit with two fluctuating Hamiltonian parameters. Our approach leverages single-shot readout classification and dynamic waveform generation, allowing full Hamiltonian estimation to dynamically stabilize and optimize the qubit performance. Powered by a field-programmable gate array (FPGA), the quantum control electronics estimates the Overhauser field gradient between the two electrons in real time, enabling controlled Overhauser-driven spin rotations and thus bypassing the need for micromagnets or nuclear polarization protocols. It also estimates the exchange interaction between the two electrons and adjusts their detuning, resulting in extended coherence of Hadamard rotations when correcting for fluctuations of both qubit axes. Our study emphasizes the critical role of feedback in enhancing the performance and stability of quantum devices affected by quasistatic noise. Feedback will play an essential role in improving performance in various qubit implementations that go beyond spin qubits, helping realize the full potential of quantum devices for quantum technology applications. | 翻訳日:2023-08-07 14:42:27 公開日:2023-08-03 |
# Silence Speaks Volumes:フェイクニュース検出における非表示ユーザのための再重み付け手法 Silence Speaks Volumes: Re-weighting Techniques for Under-Represented Users in Fake News Detection ( http://arxiv.org/abs/2308.02011v1 ) ライセンス: Link先を確認 | Mansooreh Karami, David Mosallanezhad, Paras Sheth, Huan Liu | (参考訳) ソーシャルメディアプラットフォームは、ユーザーの行動を分析するための豊富な環境を提供する。
近年,深層学習に基づく手法が,複雑なパターンを含むソーシャルメディア分析モデルにおいて主流となっている。
しかしながら、これらの方法は、参加不平等など、トレーニングデータのバイアスに影響を受けやすい。
基本的には、わずか1%のユーザーがソーシャルネットワーキングサイトでコンテンツの大半を制作しているが、残りのユーザーはさまざまな程度に携わっているが、コンテンツ制作の活発さは低く、ほとんど沈黙している。
これらのサイレントユーザーは、プラットフォーム上で伝達される情報を消費し、聞く。
しかし、彼らの声、態度、興味はオンラインコンテンツに反映されておらず、現在の方法の決定はアクティブユーザーの意見に先行している。
モデルが大きめのユーザーを大半で間違えることもある。
我々は,サイレント・マジョリティを聴かせるために,再重み付け手法を活用し,それらのユーザからのヒントが,偽ニュース検出の下流課題に対する現在のモデルの性能を向上させることができるかを検討することを提案する。 Social media platforms provide a rich environment for analyzing user behavior. Recently, deep learning-based methods have been a mainstream approach for social media analysis models involving complex patterns. However, these methods are susceptible to biases in the training data, such as participation inequality. Basically, a mere 1% of users generate the majority of the content on social networking sites, while the remaining users, though engaged to varying degrees, tend to be less active in content creation and largely silent. These silent users consume and listen to information that is propagated on the platform. However, their voice, attitude, and interests are not reflected in the online content, making the decision of the current methods predisposed towards the opinion of the active users. So models can mistake the loudest users for the majority. We propose to leverage re-weighting techniques to make the silent majority heard, and in turn, investigate whether the cues from these users can improve the performance of the current models for the downstream task of fake news detection. | 翻訳日:2023-08-07 14:42:07 公開日:2023-08-03 |
# 運動アプローチの階層方程式におけるスピン-ボーソンダイナミクスの摂動処理の性能について About the performance of perturbative treatments of the spin-boson dynamics within the hierarchical equations of motion approach ( http://arxiv.org/abs/2308.02010v1 ) ライセンス: Link先を確認 | Meng Xu and Joachim Ankerhold | (参考訳) 階層的運動方程式(heom)は、高調波浴に結合した開量子系のダイナミクスをシミュレートするための数値的厳密なアプローチを提供する。
しかし、その適用性は伝統的に特定のスペクトル形態と比較的高温に限られてきた。
近年、これらの制限を克服するためにFree-Pole HEOM (FP-HEOM) と呼ばれる拡張版が開発されている。
本研究では,fp-heom階層を所望の階層に切り換えることで,高次マスター方程式を系統的に研究できることを示す。
我々は,ゼロ温度におけるサブオーミックスペクトル分布を持つスピンボーソン問題の難解なシナリオに注目し,対応するマスター方程式の性能解析を行う。
さらに,厳密なfp-ヘムダイナミクスから得られた集団動力学のメモリカーネルと近似niba(non-interacting-blip approximation)のメモリカーネルを比較した。 The hierarchical equations of motion (HEOM) provide a numerically exact approach for simulating the dynamics of open quantum systems coupled to a harmonic bath. However, its applicability has traditionally been limited to specific spectral forms and relatively high temperatures. Recently, an extended version called Free-Pole HEOM (FP-HEOM) has been developed to overcome these limitations. In this study, we demonstrate that the FP-HEOM method can be systematically employed to investigate higher-order master equations by truncating the FP-HEOM hierarchy at a desired tier. We focus on the challenging scenario of the spin-boson problem with a sub-Ohmic spectral distribution at zero temperature and analyze the performance of the corresponding master equations. Furthermore, we compare the memory kernel for population dynamics obtained from the exact FP-HEOM dynamics with that of the approximate NIBA (Non-Interacting-Blip Approximation). | 翻訳日:2023-08-07 14:41:50 公開日:2023-08-03 |
# 滑らかなアクティベーションを有する2層ニューラルネットワークのメモリ容量 Memory capacity of two layer neural networks with smooth activations ( http://arxiv.org/abs/2308.02001v1 ) ライセンス: Link先を確認 | Liam Madden and Christos Thrampoulidis | (参考訳) m隠れニューロンと入力次元d(md+mトータルトレーサブルパラメータ)を用いた2層ニューラルネットワークのメモリ容量の決定は、ネットワークが記憶できる一般的なデータの最大サイズを指すものであり、基本的な機械学習の問題である。
Sigmoidsやsmoothed rectified linear units (smoothed ReLUs)のような非ポリノミカルな実解析的活性化関数に対して、md/2の低い境界と約2の係数の最適性を確立する。
類似した先行結果はheavisideおよびreluアクティベーションに限定され、結果として、対数因子とランダムなデータを必要とするスムーズなアクティベーションが得られた。
メモリ容量を解析するために,アダマール力とハティラオ積の両方を含む行列の階数を計算することにより,ネットワークのヤコビアン階数を調べる。
我々の計算は、アダマール級数に関する古典的線型代数的事実を拡張している。
全体として、我々のアプローチはメモリ容量に関する以前の作業と異なり、より深いモデルや他のアーキテクチャへの拡張の可能性を秘めています。 Determining the memory capacity of two-layer neural networks with m hidden neurons and input dimension d (i.e., md+m total trainable parameters), which refers to the largest size of general data the network can memorize, is a fundamental machine-learning question. For non-polynomial real analytic activation functions, such as sigmoids and smoothed rectified linear units (smoothed ReLUs), we establish a lower bound of md/2 and optimality up to a factor of approximately 2. Analogous prior results were limited to Heaviside and ReLU activations, with results for smooth activations suffering from logarithmic factors and requiring random data. To analyze the memory capacity, we examine the rank of the network's Jacobian by computing the rank of matrices involving both Hadamard powers and the Khati-Rao product. Our computation extends classical linear algebraic facts about the rank of Hadamard powers. Overall, our approach differs from previous works on memory capacity and holds promise for extending to deeper models and other architectures. | 翻訳日:2023-08-07 14:41:34 公開日:2023-08-03 |
# 神経表現から記号的知識への遷移について On the Transition from Neural Representation to Symbolic Knowledge ( http://arxiv.org/abs/2308.02000v1 ) ライセンス: Link先を確認 | Junyan Cheng and Peter Chin | (参考訳) ニューラル表現とシンボリック表現の大きな違いを橋渡しすることは、本質的にシンボリック思考をニューラルネットワークに組み込む可能性を秘めている。
知覚と環境相互作用を通じて学習されるプロトタイプのシンボルから、人間が徐々に複雑な象徴的表現を構築する方法に動機づけられた。
本稿では、EMアルゴリズムを用いて、入力の視覚部分の高次元情報をニューラルネットワークとしてテンソルの集合に圧縮し、暗黙の述語構造を自己教師された方法で発見する過渡表現を学習するニューラルネットワークトランザクショナル辞書学習(TDL)フレームワークを提案する。
協調ゲームとして入力の分解を考慮し,拡散モデルを用いてフレームワークを実装し,プロトタイプクラスタリングにより述語を学習する。
さらに,拡散モデルのマルコフモデルによって実現されるrlを用いて,主観的因子を組み込むことにより,学習したプロトタイプをさらにチューニングする。
テクスチャ、色、シャドウなどの視覚的な特徴を形から切り離すことなく、モデルを分割する必要のある3つの抽象的な構成的ビジュアルオブジェクトデータセットと、3つのニューラルネットワーク/シンボル的なダウンストリームタスクに関する広範な実験 学習された表現は、既存のメソッドでは利用できない視覚入力の解釈可能な分解と下流タスクへのスムーズな適応を可能にする。 Bridging the huge disparity between neural and symbolic representation can potentially enable the incorporation of symbolic thinking into neural networks from essence. Motivated by how human gradually builds complex symbolic representation from the prototype symbols that are learned through perception and environmental interactions. We propose a Neural-Symbolic Transitional Dictionary Learning (TDL) framework that employs an EM algorithm to learn a transitional representation of data that compresses high-dimension information of visual parts of an input into a set of tensors as neural variables and discover the implicit predicate structure in a self-supervised way. We implement the framework with a diffusion model by regarding the decomposition of input as a cooperative game, then learn predicates by prototype clustering. We additionally use RL enabled by the Markovian of diffusion models to further tune the learned prototypes by incorporating subjective factors. Extensive experiments on 3 abstract compositional visual objects datasets that require the model to segment parts without any visual features like texture, color, or shadows apart from shape and 3 neural/symbolic downstream tasks demonstrate the learned representation enables interpretable decomposition of visual input and smooth adaption to downstream tasks which are not available by existing methods. | 翻訳日:2023-08-07 14:41:15 公開日:2023-08-03 |
# 協調フィルタリングに基づくレコメンダシステムへの無謀性の導入 Incorporating Recklessness to Collaborative Filtering based Recommender Systems ( http://arxiv.org/abs/2308.02058v1 ) ライセンス: Link先を確認 | Diego P\'erez-L\'opez, Fernando Ortega, \'Angel Gonz\'alez-Prieto, Jorge Due\~nas-Ler\'in | (参考訳) 予測の信頼性測定を含むレコメンダシステムは、信頼性を維持するための制約のため、予測においてより保守的である傾向にある。
これにより、これらのシステムが提供できるカバレッジとノベルティが大幅に低下する。
本稿では,行列因数分解に基づくリコメンデータシステムの学習プロセスにおいて,予測の信頼性に関する決定を行う際のリスクレベルの制御を可能にする「無謀性」という新たな用語を取り入れることを提案する。
実験の結果,無謀性はリスクレギュレーションだけでなく,レコメンダシステムが提供する予測量や品質も向上することが示された。 Recommender systems that include some reliability measure of their predictions tend to be more conservative in forecasting, due to their constraint to preserve reliability. This leads to a significant drop in the coverage and novelty that these systems can provide. In this paper, we propose the inclusion of a new term in the learning process of matrix factorization-based recommender systems, called recklessness, which enables the control of the risk level desired when making decisions about the reliability of a prediction. Experimental results demonstrate that recklessness not only allows for risk regulation but also improves the quantity and quality of predictions provided by the recommender system. | 翻訳日:2023-08-07 14:33:21 公開日:2023-08-03 |
# 自然言語クエリを用いたeコマースオートコンプリートの評価 Seasonality Based Reranking of E-commerce Autocomplete Using Natural Language Queries ( http://arxiv.org/abs/2308.02055v1 ) ライセンス: Link先を確認 | Prateek Verma, Shan Zhong, Xiaoyu Liu and Adithya Rajan | (参考訳) Query autocomplete (QAC) はTypeaheadとしても知られ、検索ボックス内のユーザタイププレフィックスとして完全なクエリのリストを提案する。
これは、電子商取引を専門とする現代検索エンジンの重要な特徴の1つだ。
typeaheadの目標のひとつは,季節的に重要なユーザに対して,関連するクエリを提案することだ。
本稿では,季節性を信号として取り入れ,qacランキングモデルのエンドツーエンド評価を行うニューラルネットワークに基づく自然言語処理(nlp)アルゴリズムを提案する。
季節性をオートコンプリートランキングモデルに組み込むことで、オートコンプリート関連性とビジネスメトリクスを改善することができる。 Query autocomplete (QAC) also known as typeahead, suggests list of complete queries as user types prefix in the search box. It is one of the key features of modern search engines specially in e-commerce. One of the goals of typeahead is to suggest relevant queries to users which are seasonally important. In this paper we propose a neural network based natural language processing (NLP) algorithm to incorporate seasonality as a signal and present end to end evaluation of the QAC ranking model. Incorporating seasonality into autocomplete ranking model can improve autocomplete relevance and business metric. | 翻訳日:2023-08-07 14:33:10 公開日:2023-08-03 |
# 有限サンプル保証を用いた同期確率線形システムのロバスト独立性試験 Robust Independence Tests with Finite Sample Guarantees for Synchronous Stochastic Linear Systems ( http://arxiv.org/abs/2308.02054v1 ) ライセンス: Link先を確認 | Ambrus Tam\'as, D\'aniel \'Agoston B\'alint, Bal\'azs Csan\'ad Cs\'aji | (参考訳) 本論文は,確率線形時間不変量系において非漸近的に保証される有意性レベルを持つロバスト独立性テストを導入する。
我々の手法は、分布のないタイプIの誤差確率の有界性、すなわち、革新は任意の分布を持つことができる。
このアルゴリズムは、信頼領域推定と置換テスト、ヒルベルト・シュミット独立基準や距離共分散などの一般依存測度を組み合わせることで、観測されたシステム間の非線形依存を検出する。
また,軽度仮定下での仮説テストの一貫性を証明し,自己回帰システムの例を通してアイデアを実証する。 The paper introduces robust independence tests with non-asymptotically guaranteed significance levels for stochastic linear time-invariant systems, assuming that the observed outputs are synchronous, which means that the systems are driven by jointly i.i.d. noises. Our method provides bounds for the type I error probabilities that are distribution-free, i.e., the innovations can have arbitrary distributions. The algorithm combines confidence region estimates with permutation tests and general dependence measures, such as the Hilbert-Schmidt independence criterion and the distance covariance, to detect any nonlinear dependence between the observed systems. We also prove the consistency of our hypothesis tests under mild assumptions and demonstrate the ideas through the example of autoregressive systems. | 翻訳日:2023-08-07 14:33:01 公開日:2023-08-03 |
# 大規模言語モデルの不平等--求職勧告による復刻的バイアスの解明 The Unequal Opportunities of Large Language Models: Revealing Demographic Bias through Job Recommendations ( http://arxiv.org/abs/2308.02053v1 ) ライセンス: Link先を確認 | Abel Salinas, Parth Vipul Shah, Yuzhong Huang, Robert McCormack, Fred Morstatter | (参考訳) 大規模言語モデル(LLM)は、様々な現実世界のアプリケーションに広くデプロイされている。
これらのバイアスを理解することは、特に歴史的に不利なグループにおいて、LSMを使用して意思決定を行う際の下流結果を理解するために重要である。
本研究では,仕事推薦のレンズを通して,llmにおける人口バイアスを分析し,比較するための簡便な方法を提案する。
本稿では,ChatGPTとLLaMAの交差バイアスを2つの最先端LCMで測定し,本手法の有効性を示す。
実験は主にジェンダーのアイデンティティと国籍のバイアスを明らかにすることに焦点を当てたが、この方法は人口統計学的アイデンティティの交点に関連するバイアスを調べるために拡張することができる。
例えば、メキシコ人労働者の低賃金雇用を一貫して示唆するモデルや、女性に対する秘書の役割を推奨するモデルなどです。
本研究は、下流アプリケーションにおけるLCMのバイアスを測定することの重要性を強調し、有害かつ不平等な結果の可能性を理解する。 Large Language Models (LLMs) have seen widespread deployment in various real-world applications. Understanding these biases is crucial to comprehend the potential downstream consequences when using LLMs to make decisions, particularly for historically disadvantaged groups. In this work, we propose a simple method for analyzing and comparing demographic bias in LLMs, through the lens of job recommendations. We demonstrate the effectiveness of our method by measuring intersectional biases within ChatGPT and LLaMA, two cutting-edge LLMs. Our experiments primarily focus on uncovering gender identity and nationality bias; however, our method can be extended to examine biases associated with any intersection of demographic identities. We identify distinct biases in both models toward various demographic identities, such as both models consistently suggesting low-paying jobs for Mexican workers or preferring to recommend secretarial roles to women. Our study highlights the importance of measuring the bias of LLMs in downstream applications to understand the potential for harm and inequitable outcomes. | 翻訳日:2023-08-07 14:32:48 公開日:2023-08-03 |
# 文書レイアウト解析へのグラフ的アプローチ A Graphical Approach to Document Layout Analysis ( http://arxiv.org/abs/2308.02051v1 ) ライセンス: Link先を確認 | Jilin Wang, Michael Krumdick, Baojia Tong, Hamima Halim, Maxim Sokolov, Vadym Barda, Delphine Vendryes, and Chris Tanner | (参考訳) 文書レイアウト分析(DLA、Document layout analysis)は、文書内の別個の意味的内容を検出し、これらの項目を適切なカテゴリ(テキスト、タイトル、図形など)に正しく分類するタスクである。
DLAパイプラインでは、ドキュメントを構造化された機械可読フォーマットに変換して、多くの有用な下流タスクに使用することができる。
既存の最先端(SOTA)DLAモデルは、ドキュメントをイメージとして表現し、電子的に生成されたPDFで利用可能な豊富なメタデータを捨てる。
このメタデータを直接利用して、各PDFページを構造化グラフとして表現し、DLA問題をグラフセグメンテーションと分類問題としてフレーム化する。
本稿では,2つのdlaデータセット上でsomaモデルと競合する軽量グラフニューラルネットワークであるglam(graph-based layout analysis model)について紹介する。
特に、400万のパラメータGLAMモデルは、DocLayNetデータセット上の11クラスの5つの主要な140M以上のパラメータコンピュータビジョンベースモデルよりも優れています。
これら2つのモデルの単純なアンサンブルはDocLayNetの新しい最先端を実現し、mAPは76.8から80.8に増加した。
全体的に、GLAMはSOTAモデルより5倍効率が良いため、DLAタスクにおいてGLAMが好ましいエンジニアリング選択となる。 Document layout analysis (DLA) is the task of detecting the distinct, semantic content within a document and correctly classifying these items into an appropriate category (e.g., text, title, figure). DLA pipelines enable users to convert documents into structured machine-readable formats that can then be used for many useful downstream tasks. Most existing state-of-the-art (SOTA) DLA models represent documents as images, discarding the rich metadata available in electronically generated PDFs. Directly leveraging this metadata, we represent each PDF page as a structured graph and frame the DLA problem as a graph segmentation and classification problem. We introduce the Graph-based Layout Analysis Model (GLAM), a lightweight graph neural network competitive with SOTA models on two challenging DLA datasets - while being an order of magnitude smaller than existing models. In particular, the 4-million parameter GLAM model outperforms the leading 140M+ parameter computer vision-based model on 5 of the 11 classes on the DocLayNet dataset. A simple ensemble of these two models achieves a new state-of-the-art on DocLayNet, increasing mAP from 76.8 to 80.8. Overall, GLAM is over 5 times more efficient than SOTA models, making GLAM a favorable engineering choice for DLA tasks. | 翻訳日:2023-08-07 14:32:29 公開日:2023-08-03 |
# FuNToM:ニューラルネットワークを用いた2ポート解析法によるRF回路の機能モデリング FuNToM: Functional Modeling of RF Circuits Using a Neural Network Assisted Two-Port Analysis Method ( http://arxiv.org/abs/2308.02050v1 ) ライセンス: Link先を確認 | Morteza Fayazi, Morteza Tavakoli Taba, Amirata Tabatabavakili, Ehsan Afshari, Ronald Dreslinski | (参考訳) アナログ・無線周波数(RF)回路の自動合成は、効率的な回路モデリング法を必要とするトレンドのアプローチである。
これは、合成サイクル毎に多数のシミュレーションを実行するコストがかかるためである。
人工知能手法はその速度と相対的精度のために回路モデリングに有望なアプローチである。
しかし、既存のアプローチでは大量のトレーニングデータが必要であり、シミュレーション実行によって収集される。
さらに、そのような手法は、一つの要素を追加あるいは削除しても、各回路トポロジに対して全く別のデータセットを収集する。
これらの問題は、より長い時間を要するポスト・レイアウト・モデリング・シミュレーションの必要性によってのみ悪化する。
本稿では,これらの欠点を軽減するために,RF回路の機能的モデリング手法であるFuNToMを提案する。
funtomは、単一のメインデータセットと複数の小さなデータセットを使用して複数のトポロジをモデリングするために、2ポート分析メソッドを利用する。
また、回路の挙動予測に有望な結果を示すニューラルネットワークも活用している。
その結果、複数のRF回路において、同じ精度を維持しながら、必要なトレーニングデータを2.8倍から10.9倍削減できることがわかった。
さらに、FuNToMはトレーニングセットをレイアウト後のモデリングで収集するのに176.8x188.6倍の時間を要する。 Automatic synthesis of analog and Radio Frequency (RF) circuits is a trending approach that requires an efficient circuit modeling method. This is due to the expensive cost of running a large number of simulations at each synthesis cycle. Artificial intelligence methods are promising approaches for circuit modeling due to their speed and relative accuracy. However, existing approaches require a large amount of training data, which is still collected using simulation runs. In addition, such approaches collect a whole separate dataset for each circuit topology even if a single element is added or removed. These matters are only exacerbated by the need for post-layout modeling simulations, which take even longer. To alleviate these drawbacks, in this paper, we present FuNToM, a functional modeling method for RF circuits. FuNToM leverages the two-port analysis method for modeling multiple topologies using a single main dataset and multiple small datasets. It also leverages neural networks which have shown promising results in predicting the behavior of circuits. Our results show that for multiple RF circuits, in comparison to the state-of-the-art works, while maintaining the same accuracy, the required training data is reduced by 2.8x - 10.9x. In addition, FuNToM needs 176.8x - 188.6x less time for collecting the training set in post-layout modeling. | 翻訳日:2023-08-07 14:32:06 公開日:2023-08-03 |
# UGainS: 不確実性ガイドによる異常インスタンスセグメンテーション UGainS: Uncertainty Guided Anomaly Instance Segmentation ( http://arxiv.org/abs/2308.02046v1 ) ライセンス: Link先を確認 | Alexey Nekrasov, Alexander Hermans, Lars Kuhnert, Bastian Leibe | (参考訳) 道路上の1つの予期せぬ物体が事故を引き起こしたり、怪我を負うことがある。
これを防ぐために、道路上の異常な物体を見つけるための信頼できるメカニズムが必要です。
anomaly segmentation(異常分割)と呼ばれるこのタスクは、安全で信頼性の高い自動運転への一歩になり得る。
現在のアプローチでは、各ピクセルに異常スコアを割り当て、単純なヒューリスティックを用いて異常領域をグループ化することで異常セグメンテーションに取り組む。
しかし、画素グループ化は、個々の異常物体のセグメンテーション性能を評価する上での限界要素である。
複数の異常インスタンスを1つにグループ化する問題に対処するため、我々は、正確な異常インスタンスマスクを生成するアプローチを提案する。
提案手法は,不確実領域を特定するための分布外セグメンテーションモデルと,異常インスタンスセグメンテーションのための強力なジェネリストセグメンテーションモデルに焦点を当てる。
このようなセグメンテーションモデルを導出して異常インスタンスのセグメンテーションを行うために不確実領域を利用する方法について検討する。
一般化モデルから強い対象を組み込むことにより,画素ごとの異常セグメンテーション性能も向上する。
提案手法は,現行の画素レベルの異常セグメンテーション法より優れており,魚の生息地と発見地におけるAPの80.08%と88.98%をそれぞれ達成している。
プロジェクトページ: https://vision.rwth-aachen.de/ugains A single unexpected object on the road can cause an accident or may lead to injuries. To prevent this, we need a reliable mechanism for finding anomalous objects on the road. This task, called anomaly segmentation, can be a stepping stone to safe and reliable autonomous driving. Current approaches tackle anomaly segmentation by assigning an anomaly score to each pixel and by grouping anomalous regions using simple heuristics. However, pixel grouping is a limiting factor when it comes to evaluating the segmentation performance of individual anomalous objects. To address the issue of grouping multiple anomaly instances into one, we propose an approach that produces accurate anomaly instance masks. Our approach centers on an out-of-distribution segmentation model for identifying uncertain regions and a strong generalist segmentation model for anomaly instances segmentation. We investigate ways to use uncertain regions to guide such a segmentation model to perform segmentation of anomalous instances. By incorporating strong object priors from a generalist model we additionally improve the per-pixel anomaly segmentation performance. Our approach outperforms current pixel-level anomaly segmentation methods, achieving an AP of 80.08% and 88.98% on the Fishyscapes Lost and Found and the RoadAnomaly validation sets respectively. Project page: https://vision.rwth-aachen.de/ugains | 翻訳日:2023-08-07 14:31:46 公開日:2023-08-03 |
# 遠隔収集ウェアラブルとスマートフォンデータを用いたデジタルバイオマーカーによる疾患発見 Disease Insight through Digital Biomarkers Developed by Remotely Collected Wearables and Smartphone Data ( http://arxiv.org/abs/2308.02043v1 ) ライセンス: Link先を確認 | Zulqarnain Rashid, Amos A Folarin, Yatharth Ranjan, Pauline Conde, Heet Sankesara, Yuezhou Zhang, Shaoxiong Sun, Callum Stewart, Petroula Laiou, Richard JB Dobson | (参考訳) デジタルバイオマーカーと遠隔患者モニタリングは、患者の状態(症状の進行、治療反応など)に対する対処方法に関する貴重なタイムリーな洞察を提供し、従来の医療環境における治療を補完することができる。組み込みおよび接続されたセンサーを備えた携帯電話は、さまざまなアプリおよびmhealth(モバイルヘルス)プラットフォームを通じて医療を改善する大きな可能性を秘めている。
この機能は、患者から遠隔で収集された長期データから信頼できるデジタルバイオマーカーの開発を可能にする。
我々は,リモートモニタリング研究において大規模データ収集をサポートするオープンソースプラットフォームRADAR-baseを構築した。
radar-baseは、スケーラビリティ、拡張性、セキュリティ、プライバシ、データ品質をサポートするために、confluentのapache kafkaを中心に構築された、現代的なリモートデータ収集プラットフォームである。
研究設計とセットアップ、アクティブ(例えばPROM)、パッシブ(電話センサー、ウェアラブルデバイス、IoT)のリモートデータ収集機能と機能生成(振る舞い、環境、生理的マーカーなど)をサポートする。
バックエンドはセキュアなデータ転送と、データストレージ、管理、データアクセスのためのスケーラブルなソリューションを可能にする。
このプラットフォームは、多発性硬化症、うつ病、てんかん、adhd、アルツハイマー病、自閉症、肺疾患を含む多くの疾患領域における様々なコホートに関する縦断データ収集に成功した。
収集データによって開発されたデジタルバイオマーカーは、さまざまな疾患に対する有用な洞察を提供している。
RADARベースは、リモート監視、データ収集、および身体および精神疾患のデジタル表現型化のための、モダンなオープンソース、コミュニティ主導のソリューションを提供する。
臨床医はデジタルバイオマーカーを使用して、疾患の予防、パーソナライゼーション、早期介入のための意思決定を強化することができる。 Digital Biomarkers and remote patient monitoring can provide valuable and timely insights into how a patient is coping with their condition (disease progression, treatment response, etc.), complementing treatment in traditional healthcare settings.Smartphones with embedded and connected sensors have immense potential for improving healthcare through various apps and mHealth (mobile health) platforms. This capability could enable the development of reliable digital biomarkers from long-term longitudinal data collected remotely from patients. We built an open-source platform, RADAR-base, to support large-scale data collection in remote monitoring studies. RADAR-base is a modern remote data collection platform built around Confluent's Apache Kafka, to support scalability, extensibility, security, privacy and quality of data. It provides support for study design and set-up, active (eg PROMs) and passive (eg. phone sensors, wearable devices and IoT) remote data collection capabilities with feature generation (eg. behavioural, environmental and physiological markers). The backend enables secure data transmission, and scalable solutions for data storage, management and data access. The platform has successfully collected longitudinal data for various cohorts in a number of disease areas including Multiple Sclerosis, Depression, Epilepsy, ADHD, Alzheimer, Autism and Lung diseases. Digital biomarkers developed through collected data are providing useful insights into different diseases. RADAR-base provides a modern open-source, community-driven solution for remote monitoring, data collection, and digital phenotyping of physical and mental health diseases. Clinicians can use digital biomarkers to augment their decision making for the prevention, personalisation and early intervention of disease. | 翻訳日:2023-08-07 14:31:21 公開日:2023-08-03 |
# タラセミア検出のための伝達学習を可能にするDeep Maxout Network-based Feature Fusionと政治タンジェント検索最適化 Deep Maxout Network-based Feature Fusion and Political Tangent Search Optimizer enabled Transfer Learning for Thalassemia Detection ( http://arxiv.org/abs/2308.02029v1 ) ライセンス: Link先を確認 | Hemn Barzan Abdalla, Awder Ahmed, Guoquan Li, Nasser Mustafa, Abdur Rashid Sangi | (参考訳) タラス血症は遺伝性血液疾患であり、ヘモグロビンポリペプチド鎖の産生不足を引き起こす遺伝子異常の結果である。
しかし、これらの領域における正確な周波数の理解や共有は少ない。
タラセミアの発生頻度や変異の信頼性を知ることは、予防、制御、治療計画において重要なステップである。
ここでは、タラセミア検出にPTSO_TL(Political Tangent Search Optimizer based Transfer Learning)を導入する。
当初、特定のデータセットから得られた入力データは、データ正規化段階で正規化される。
データ正規化段階では量子正規化を利用し、そのデータを特徴融合フェーズに渡して、Deep Maxout Network(DMN)を用いたWeighted Euclidean Distanceを利用する。
その後、オーバーサンプリング法を用いてデータ拡張を行い、データ次元を増加させる。
最後に、tlassemia検出はtlによって行われ、畳み込みニューラルネットワーク(cnn)はxceptionのような訓練されたモデルからのハイパーパラメータで利用される。
TLはPTSOで調整され、トレーニングアルゴリズムPTSOは政治最適化アルゴリズム(PO)とタンジェント探索アルゴリズム(TSA)を併用して提示される。
さらにptso_tlは最大精度,リコール,f-測定値が94.3%,96.1%,95.2%であった。 Thalassemia is a heritable blood disorder which is the outcome of a genetic defect causing lack of production of hemoglobin polypeptide chains. However, there is less understanding of the precise frequency as well as sharing in these areas. Knowing about the frequency of thalassemia occurrence and dependable mutations is thus a significant step in preventing, controlling, and treatment planning. Here, Political Tangent Search Optimizer based Transfer Learning (PTSO_TL) is introduced for thalassemia detection. Initially, input data obtained from a particular dataset is normalized in the data normalization stage. Quantile normalization is utilized in the data normalization stage, and the data are then passed to the feature fusion phase, in which Weighted Euclidean Distance with Deep Maxout Network (DMN) is utilized. Thereafter, data augmentation is performed using the oversampling method to increase data dimensionality. Lastly, thalassemia detection is carried out by TL, wherein a convolutional neural network (CNN) is utilized with hyperparameters from a trained model such as Xception. TL is tuned by PTSO, and the training algorithm PTSO is presented by merging of Political Optimizer (PO) and Tangent Search Algorithm (TSA). Furthermore, PTSO_TL obtained maximal precision, recall, and f-measure values of about 94.3%, 96.1%, and 95.2%, respectively. | 翻訳日:2023-08-07 14:30:18 公開日:2023-08-03 |
# エッジにおける連続学習のための効率的なモデル適応 Efficient Model Adaptation for Continual Learning at the Edge ( http://arxiv.org/abs/2308.02084v1 ) ライセンス: Link先を確認 | Zachary A. Daniels, Jun Hu, Michael Lomnitz, Phil Miller, Aswin Raghavan, Joe Zhang, Michael Piacentino, David Zhang | (参考訳) ほとんどの機械学習(ml)システムは、トレーニングとデプロイメントの間、静止したデータ分散を想定している。
これはしばしば誤った仮定である。
mlモデルが実際のデバイスにデプロイされる場合、環境要因の変化、センサ特性、関心事などの理由から、データ分布が時間とともに変化することが多い。
分散シフトを監視するためのヒューマン・イン・ザ・ループを持つことができ、これらのシフトに応じて新しいアーキテクチャを設計できるが、そのようなセットアップは費用対効果がない。
代わりに、非定常自動ML(AutoML)モデルが必要である。
本稿では,ドメインシフト下での効率的な連続学習のためのEncoder-Adaptor-Reconfigurator(EAR)フレームワークを提案する。
EARフレームワークでは、固定ディープニューラルネットワーク(DNN)機能エンコーダを使用して、エンコーダ上に浅いネットワークをトレーニングして、新たなデータを処理する。
EARフレームワークは使える
1)DNNと超次元計算(HDC)を組み合わせることで、新しいデータが配布外(OOD)になったときの検出
2) zero-shot neural architecture search (zs-nas) を用いたoodデータへのモデル適応のための低パラメータニューラルネットワークの同定
3) 従来のタスクに対する破滅的な忘れを最小化するために, 必要に応じて神経アーキテクチャを段階的に成長させ, ドメイン・インクリメンタル・クラス・インクリメンタル・インクリメンタル・ラーニングを扱うための適切な適応器と再構成器を通じてデータを動的にルーティングする。
我々は,いくつかのベンチマークデータセットにおける提案手法を体系的に評価し,ood検出のための最先端アルゴリズムや数/ゼロショットnasと比較し,高い性能を示す。 Most machine learning (ML) systems assume stationary and matching data distributions during training and deployment. This is often a false assumption. When ML models are deployed on real devices, data distributions often shift over time due to changes in environmental factors, sensor characteristics, and task-of-interest. While it is possible to have a human-in-the-loop to monitor for distribution shifts and engineer new architectures in response to these shifts, such a setup is not cost-effective. Instead, non-stationary automated ML (AutoML) models are needed. This paper presents the Encoder-Adaptor-Reconfigurator (EAR) framework for efficient continual learning under domain shifts. The EAR framework uses a fixed deep neural network (DNN) feature encoder and trains shallow networks on top of the encoder to handle novel data. The EAR framework is capable of 1) detecting when new data is out-of-distribution (OOD) by combining DNNs with hyperdimensional computing (HDC), 2) identifying low-parameter neural adaptors to adapt the model to the OOD data using zero-shot neural architecture search (ZS-NAS), and 3) minimizing catastrophic forgetting on previous tasks by progressively growing the neural architecture as needed and dynamically routing data through the appropriate adaptors and reconfigurators for handling domain-incremental and class-incremental continual learning. We systematically evaluate our approach on several benchmark datasets for domain adaptation and demonstrate strong performance compared to state-of-the-art algorithms for OOD detection and few-/zero-shot NAS. | 翻訳日:2023-08-07 14:24:53 公開日:2023-08-03 |
# 医療における目標仕様バイアス, 反事実予測, アルゴリズム的公平性 Target specification bias, counterfactual prediction, and algorithmic fairness in healthcare ( http://arxiv.org/abs/2308.02081v1 ) ライセンス: Link先を確認 | Eran Tal | (参考訳) 機械学習(ML)の医療への応用におけるバイアスは、通常、表現できないデータや不完全なデータ、または根底にある健康格差に起因する。
本稿では、ML対応予測ツールの臨床的有用性に影響を与える、より広範囲なバイアス源を特定する。
ターゲット仕様バイアスは、ターゲット変数の操作が意思決定者の定義と一致しないときに発生する。
このミスマッチは、しばしば微妙であり、意思決定者が実際の医療シナリオではなく、反現実的な結果を予測することに関心があるという事実に由来する。
ターゲット仕様のバイアスは、データ制限と健康格差とは独立に持続する。
非修正の場合、予測精度の過大評価、医療資源の非効率的な利用、患者を害する可能性のある最適下決定につながる。
気象学における最近の研究 - 目標仕様バイアスに対処し、有害な結果を避けるための計測方法の科学。 Bias in applications of machine learning (ML) to healthcare is usually attributed to unrepresentative or incomplete data, or to underlying health disparities. This article identifies a more pervasive source of bias that affects the clinical utility of ML-enabled prediction tools: target specification bias. Target specification bias arises when the operationalization of the target variable does not match its definition by decision makers. The mismatch is often subtle, and stems from the fact that decision makers are typically interested in predicting the outcomes of counterfactual, rather than actual, healthcare scenarios. Target specification bias persists independently of data limitations and health disparities. When left uncorrected, it gives rise to an overestimation of predictive accuracy, to inefficient utilization of medical resources, and to suboptimal decisions that can harm patients. Recent work in metrology - the science of measurement - suggests ways of counteracting target specification bias and avoiding its harmful consequences. | 翻訳日:2023-08-07 14:24:25 公開日:2023-08-03 |
# クロスプラットフォームヘイトスピーチ検出のための因果関係誘導乱れ Causality Guided Disentanglement for Cross-Platform Hate Speech Detection ( http://arxiv.org/abs/2308.02080v1 ) ライセンス: Link先を確認 | Paras Sheth, Tharindu Kumarage, Raha Moraffah, Aman Chadha, Huan Liu | (参考訳) ソーシャルメディアプラットフォームは、オープンな言論を広める価値はあるものの、有害なコンテンツを広めるためにしばしば利用される。
現在のディープラーニングと自然言語処理モデルは、この有害なコンテンツを検出するために、一般的なヘイトスピーチ検出に適応する能力に影響するドメイン固有の用語に依存している。
これは、特定の言語信号や特定のカテゴリーの単語の使用に焦点を絞る傾向があるためである。
もうひとつの重要な課題は、プラットフォームにトレーニング用の高品質なアノテートデータがない場合であり、異なる分散シフトに適応可能なクロスプラットフォームモデルの必要性が生じる。
本研究では,あるプラットフォームのデータに基づいて学習し,複数のプラットフォームに一般化可能な,クロスプラットフォームのヘイトスピーチ検出モデルを提案する。
プラットフォーム間の優れた一般化を実現するために、入力表現を不変かつプラットフォームに依存した機能に分解する方法がある。
また,多様な環境にまたがる因果関係の学習は,ヘイトスピーチにおける不変表現の理解に大きく寄与すると考えられる。
プラットフォームに依存した特徴(ヘイトターゲットの予測に使用される)とプラットフォームに依存しない特徴(ヘイトの存在の予測に使用される)に入力を分離することにより、分布シフトに抵抗する不変表現を学習する。
これらの機能は、未公開のプラットフォームでヘイトスピーチを予測するために使用される。
4つのプラットフォームにまたがる広範な実験では,ヘイトスピーチの一般化検出における既存の最先端手法と比較して,モデルの有効性が向上していることが強調された。 Social media platforms, despite their value in promoting open discourse, are often exploited to spread harmful content. Current deep learning and natural language processing models used for detecting this harmful content overly rely on domain-specific terms affecting their capabilities to adapt to generalizable hate speech detection. This is because they tend to focus too narrowly on particular linguistic signals or the use of certain categories of words. Another significant challenge arises when platforms lack high-quality annotated data for training, leading to a need for cross-platform models that can adapt to different distribution shifts. Our research introduces a cross-platform hate speech detection model capable of being trained on one platform's data and generalizing to multiple unseen platforms. To achieve good generalizability across platforms, one way is to disentangle the input representations into invariant and platform-dependent features. We also argue that learning causal relationships, which remain constant across diverse environments, can significantly aid in understanding invariant representations in hate speech. By disentangling input into platform-dependent features (useful for predicting hate targets) and platform-independent features (used to predict the presence of hate), we learn invariant representations resistant to distribution shifts. These features are then used to predict hate speech across unseen platforms. Our extensive experiments across four platforms highlight our model's enhanced efficacy compared to existing state-of-the-art methods in detecting generalized hate speech. | 翻訳日:2023-08-07 14:24:10 公開日:2023-08-03 |
# 超伝導量子ビット読み出しのモデルベース最適化 Model-based Optimization of Superconducting Qubit Readout ( http://arxiv.org/abs/2308.02079v1 ) ライセンス: Link先を確認 | Andreas Bengtsson, Alex Opremcak, Mostafa Khezri, Daniel Sank, Alexandre Bourassa, Kevin J. Satzinger, Sabrina Hong, Catherine Erickson, Brian J. Lester, Kevin C. Miao, Alexander N. Korotkov, Julian Kelly, Zijun Chen, Paul V. Klimov | (参考訳) 測定は量子アルゴリズムの不可欠な要素であり、超伝導量子ビットにとって、しばしば最もエラーを起こしやすい。
本稿では,不正な副作用を回避しつつ,低測定誤差を達成するモデルベース読み出し最適化を示す。
17量子ビットの同時および中間回路計測では、500nsの終端持続時間と残共振器光子からの過剰リセット誤差を最小に抑え、キュービット当たり1.5%の誤差を観測する。
また,自然加熱によって制限された漏出率を達成する測定誘起状態遷移を抑制する。
この技術は数百の量子ビットに拡張でき、エラー訂正コードや短期アプリケーションの性能を高めるために使用される。 Measurement is an essential component of quantum algorithms, and for superconducting qubits it is often the most error prone. Here, we demonstrate model-based readout optimization achieving low measurement errors while avoiding detrimental side-effects. For simultaneous and mid-circuit measurements across 17 qubits, we observe 1.5% error per qubit with a 500ns end-to-end duration and minimal excess reset error from residual resonator photons. We also suppress measurement-induced state transitions achieving a leakage rate limited by natural heating. This technique can scale to hundreds of qubits and be used to enhance the performance of error-correcting codes and near-term applications. | 翻訳日:2023-08-07 14:23:47 公開日:2023-08-03 |
# ボース=アインシュタイン統計の古典的導出 Classical derivation of Bose-Einstein statistics ( http://arxiv.org/abs/2308.02069v1 ) ライセンス: Link先を確認 | Paul Tangney | (参考訳) 温度が十分に低いとき、任意の安定な古典力学系の運動は、系が結晶または有界連続媒質である場合の定在波である正規モードの"em quasi}-非依存調和振動の重ね合わせである。
量子力学を起こさなくても、熱平衡では、これらの振動の中で観測されるエネルギーの分布はボース=アインシュタイン分布であり、未知の定数$h_?
Planckの定数の代わりに$h$。
私は、ボース・アインシュタイン分布の導出を可能にする古典的独立オスシレーター・ハミルトニアンの特性を同定し、理想気体のような他の古典的物理系は、これらの特徴で標準的に変換できるハミルトニアンを持っていることを指摘した。
もし${h_?
=h}$ は、この作品の暗示の1つとして、
(i)黒体の実験的に観測されたスペクトルと、光が有界媒質の機械的波動であった場合の期待とに差はない。
(ii)結晶の熱容量の実験的に観測された温度依存性と古典格子波の期待値との間には差がない。
(iii) 質量粒子のクラスターが十分に冷たくなれば、その振動エネルギーのほとんどが最低周波の正常モードによって保持されるという古典的な期待が持たれる。
したがって、ある温度以下では、その自由度のうちの1つ以外はほとんど活動せず、ボース=アインシュタイン凝縮体である。 When its temperature is low enough, the motion of any stable classical mechanical system is a superposition of {\em quasi}-independent harmonic oscillations of its normal modes, which are standing waves if the system is a crystal or a bounded continuous medium. Without invoking quantum mechanics I prove that, at thermal equilibrium, the observed distribution of energy among these oscillations is a Bose-Einstein distribution, albeit with an unknown constant $h_?$ in place of Planck's constant, $h$. I identify characteristics of the classical independent-oscillator Hamiltonian that make my derivation of the Bose-Einstein distribution possible, and I point out that other classical physical systems, such as an ideal gas, have Hamiltonians that can be transformed canonically into forms with these characteristics. If ${h_?=h}$, among the implications of this work are that (i) there is no discrepancy between the experimentally-observed spectrum of a blackbody and what should be expected if light was a mechanical wave in a bounded medium; (ii) there is no discrepancy between the experimentally-observed temperature dependence of a crystal's heat capacity and what should be expected of classical lattice waves; and (iii) when a cluster of massive particles is cold enough, the classical expectation should be that almost all of its vibrational energy is possessed by its lowest-frequency normal mode. Therefore, below a certain temperature, all but one of its degrees of freedom are almost inactive and it is a Bose-Einstein condensate. | 翻訳日:2023-08-07 14:23:35 公開日:2023-08-03 |
# specious sites: 大規模なニュース記事の拡散と揺れを追跡するサービス Specious Sites: Tracking the Spread and Sway of Spurious News Stories at Scale ( http://arxiv.org/abs/2308.02068v1 ) ライセンス: Link先を確認 | Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric | (参考訳) 誤った情報、プロパガンダ、アウトライトはウェブ上で広まり、一部の物語は公衆の健康、選挙、個人の安全に危険な現実世界の影響をもたらす。
しかし、誤った情報の影響にもかかわらず、研究コミュニティはオンラインプラットフォーム全体のニュースナラティブを追跡するための自動化とプログラムによるアプローチをほとんど欠いている。
本研究では,信頼できないニュースサイト1,404件,大言語モデルMPNet,DP-Meansクラスタリングの日次スクラップを利用して,オンラインエコシステム内に散在する物語を自動的に分離・分析するシステムを提案する。
これら1,404のウェブサイトで55,301の物語を識別し、2022年に広まった最も一般的な物語を記述し、物語を創始し拡大する最も影響力のあるウェブサイトを識別する。
最後に,信頼できないニュースサイトやpolitifact,reuters,ap newsなどのファクトチェッカーから発生する新たなナラティブを,より迅速な誤情報処理で検出する方法について紹介する。 Misinformation, propaganda, and outright lies proliferate on the web, with some narratives having dangerous real-world consequences on public health, elections, and individual safety. However, despite the impact of misinformation, the research community largely lacks automated and programmatic approaches for tracking news narratives across online platforms. In this work, utilizing daily scrapes of 1,404 unreliable news websites, the large-language model MPNet, and DP-Means clustering, we introduce a system to automatically isolate and analyze the narratives spread within online ecosystems. Identifying 55,301 narratives on these 1,404 websites, we describe the most prevalent narratives spread in 2022 and identify the most influential websites that originate and magnify narratives. Finally, we show how our system can be utilized to detect new narratives originating from unreliable news websites and aid fact-checkers like Politifact, Reuters, and AP News in more quickly addressing misinformation stories. | 翻訳日:2023-08-07 14:23:09 公開日:2023-08-03 |
# 非学習者による明示的タスクルーティングによるマルチタスク学習におけるタスク干渉の軽減 Mitigating Task Interference in Multi-Task Learning via Explicit Task Routing with Non-Learnable Primitives ( http://arxiv.org/abs/2308.02066v1 ) ライセンス: Link先を確認 | Chuntao Ding, Zhichao Lu, Shangguang Wang, Ran Cheng and Vishnu Naresh Boddeti | (参考訳) マルチタスク学習(MTL)は、タスク間の共有情報を活用することで、複数のタスクを達成するための単一のモデルを学ぶことを目指している。
しかし、既存のMTLモデルはタスク間の負の干渉に悩まされていることが知られている。
タスク干渉を軽減するための努力は、タスク間の部分的な重複を伴う損失/段階的バランスや暗黙的なパラメータ分割に重点を置いている。
本稿では,非学習可能プリミティブ(NLP)と明示的タスクルーティング(ETR)の相乗的組み合わせによるタスク干渉を軽減するためのETR-NLPを提案する。
私たちの重要なアイデアは、さまざまなタスクに依存しない機能のセットを抽出し、それらをすべてのタスクに共通する共有ブランチと各タスクに予約されたタスク固有のブランチに再結合するために、非学習可能なプリミティブを採用することです。
学習不能なプリミティブと学習可能なパラメータを共有およびタスク固有のプリミティブに明示的に分離することで、タスクの干渉を最小限に抑えるための柔軟性が得られる。
画像レベルの分類と画素レベルの高密度予測MLL問題に対するETR-NLPネットワークの有効性を評価する。
実験結果から,ETR-NLPは,学習可能なパラメータが少なく,すべてのデータセットに共通するFLOPで最先端のベースラインを著しく上回ることがわかった。
コードは、この \href{https://github.com/zhichao-lu/etr-nlp-mtl}で入手できる。 Multi-task learning (MTL) seeks to learn a single model to accomplish multiple tasks by leveraging shared information among the tasks. Existing MTL models, however, have been known to suffer from negative interference among tasks. Efforts to mitigate task interference have focused on either loss/gradient balancing or implicit parameter partitioning with partial overlaps among the tasks. In this paper, we propose ETR-NLP to mitigate task interference through a synergistic combination of non-learnable primitives (NLPs) and explicit task routing (ETR). Our key idea is to employ non-learnable primitives to extract a diverse set of task-agnostic features and recombine them into a shared branch common to all tasks and explicit task-specific branches reserved for each task. The non-learnable primitives and the explicit decoupling of learnable parameters into shared and task-specific ones afford the flexibility needed for minimizing task interference. We evaluate the efficacy of ETR-NLP networks for both image-level classification and pixel-level dense prediction MTL problems. Experimental results indicate that ETR-NLP significantly outperforms state-of-the-art baselines with fewer learnable parameters and similar FLOPs across all datasets. Code is available at this \href{https://github.com/zhichao-lu/etr-nlp-mtl}. | 翻訳日:2023-08-07 14:22:51 公開日:2023-08-03 |
# 生成顔モデルの生体計測能力について On the Biometric Capacity of Generative Face Models ( http://arxiv.org/abs/2308.02065v1 ) ライセンス: Link先を確認 | Vishnu Naresh Boddeti and Gautam Sreekumar and Arun Ross | (参考訳) 過去数年間で、忠実度の高い現実的な顔を生成するという大きな進歩があった。
この進歩にもかかわらず、重要な疑問は答えられていない:「生成的な顔モデルがあれば、それが生成できるユニークなアイデンティティはいくつあるのか?
言い換えれば、生成的顔モデルの生体計測能力とは何か?
この質問に答える科学的根拠は、異なる生成的顔モデルを評価し比較し、スケーラビリティの上限を確立するのに役立つだろう。
本稿では,超球面特徴空間における顔画像の生体特性を推定するための統計的アプローチを提案する。
提案手法は,スタイルガンや潜在拡散モデル,「生成写真」などの非条件生成モデルや,クラス条件生成モデルであるdcfaceなど,複数の生成モデルに対して適用する。
また、性別や年齢などのw.r.t.人口属性も推定する。
我々の能力推定は
(a) 偽受入率0.1%のArcFace表現の下では、StyleGAN3とDCFaceはそれぞれ1.43\times10^6$と1.190\times10^4$の容量上限を持つ。
(b)stylegan3について、1.796\times10^4$ と5.62$ をそれぞれ1% と10% と見積もることにより、容量が大幅に減少する。
(c)性別w.r.tの能力に明確な相違がないこと、及び
(d)一部の生成モデルでは、w.r.t年齢に許容できる差がある。
コードはhttps://github.com/ Human-analysis/capacity-generative-face-modelsで入手できる。 There has been tremendous progress in generating realistic faces with high fidelity over the past few years. Despite this progress, a crucial question remains unanswered: "Given a generative face model, how many unique identities can it generate?" In other words, what is the biometric capacity of the generative face model? A scientific basis for answering this question will benefit evaluating and comparing different generative face models and establish an upper bound on their scalability. This paper proposes a statistical approach to estimate the biometric capacity of generated face images in a hyperspherical feature space. We employ our approach on multiple generative models, including unconditional generators like StyleGAN, Latent Diffusion Model, and "Generated Photos," as well as DCFace, a class-conditional generator. We also estimate capacity w.r.t. demographic attributes such as gender and age. Our capacity estimates indicate that (a) under ArcFace representation at a false acceptance rate (FAR) of 0.1%, StyleGAN3 and DCFace have a capacity upper bound of $1.43\times10^6$ and $1.190\times10^4$, respectively; (b) the capacity reduces drastically as we lower the desired FAR with an estimate of $1.796\times10^4$ and $562$ at FAR of 1% and 10%, respectively, for StyleGAN3; (c) there is no discernible disparity in the capacity w.r.t gender; and (d) for some generative models, there is an appreciable disparity in the capacity w.r.t age. Code is available at https://github.com/human-analysis/capacity-generative-face-models. | 翻訳日:2023-08-07 14:22:29 公開日:2023-08-03 |
# 脳画像における相反的生成と異常検出のための拡散モデル Diffusion Models for Counterfactual Generation and Anomaly Detection in Brain Images ( http://arxiv.org/abs/2308.02062v1 ) ライセンス: Link先を確認 | Alessandro Fontanella, Grant Mair, Joanna Wardlaw, Emanuele Trucco, Amos Storkey | (参考訳) 病理領域のセグメンテーションマスクは、脳腫瘍や脳卒中管理などの多くの医療応用に有用である。
さらに、病気画像の健全なカウンターファクトは、放射線科医のトレーニングファイルを強化し、セグメンテーションモデルの解釈可能性を向上させるために使用できる。
本研究では,病気画像の健全なバージョンを生成し,それを用いて画素単位の異常マップを得るための弱教師付き手法を提案する。
そこで本研究では,ACATで得られた病理領域を概ね網羅したサリエンシマップを考察することから始める。
そこで,画像の残りを保存しつつ,これらの領域を対象とする修正を行う手法を提案する。
特に,健常者を対象に訓練した拡散モデルを用いて,サンプリングプロセスの各ステップでDPM(Denoising Diffusion Probabilistic Model)とDDIM(Denoising Diffusion Implicit Model)を組み合わせる。
DDPMは唾液マップ内の病変によって影響を受ける領域を改変するために使用され、DDIMはその外側の正常な解剖の再構築を保証する。
2つの部品は、各タイミングで融合され、コヒーレントな外観と編集されていない部品間のシームレスな遷移を有するサンプルの生成が保証される。
本手法が正常なサンプルに適用された場合,入力画像は大きな修正を加えることなく再構成されることを確認した。
本手法は,脳梗塞セグメント化のためのIST-3法や脳腫瘍セグメント化のためのBraTS2021法と比較し,最良競合法であるDICEスコアを0.6534$から0.7056$に改善した。 Segmentation masks of pathological areas are useful in many medical applications, such as brain tumour and stroke management. Moreover, healthy counterfactuals of diseased images can be used to enhance radiologists' training files and to improve the interpretability of segmentation models. In this work, we present a weakly supervised method to generate a healthy version of a diseased image and then use it to obtain a pixel-wise anomaly map. To do so, we start by considering a saliency map that approximately covers the pathological areas, obtained with ACAT. Then, we propose a technique that allows to perform targeted modifications to these regions, while preserving the rest of the image. In particular, we employ a diffusion model trained on healthy samples and combine Denoising Diffusion Probabilistic Model (DDPM) and Denoising Diffusion Implicit Model (DDIM) at each step of the sampling process. DDPM is used to modify the areas affected by a lesion within the saliency map, while DDIM guarantees reconstruction of the normal anatomy outside of it. The two parts are also fused at each timestep, to guarantee the generation of a sample with a coherent appearance and a seamless transition between edited and unedited parts. We verify that when our method is applied to healthy samples, the input images are reconstructed without significant modifications. We compare our approach with alternative weakly supervised methods on IST-3 for stroke lesion segmentation and on BraTS2021 for brain tumour segmentation, where we improve the DICE score of the best competing method from $0.6534$ to $0.7056$. | 翻訳日:2023-08-07 14:21:59 公開日:2023-08-03 |
# スパース最適化を再考する正確なニューラルネットワークプルーニング Accurate Neural Network Pruning Requires Rethinking Sparse Optimization ( http://arxiv.org/abs/2308.02060v1 ) ライセンス: Link先を確認 | Denis Kuznedelev, Eldar Kurtic, Eugenia Iofinova, Elias Frantar, Alexandra Peste, Dan Alistarh | (参考訳) モデル圧縮の分野では,高精度かつ疎結合なディープニューラルネットワークのバージョンが大きな課題のひとつであり,コミュニティによっていくつかの高性能プルーニング技術が研究されている。
しかし、スパースネットワークのトレーニングに使用されるスパース性と標準的な確率最適化技法の相互作用についてはあまり知られておらず、既存の研究の多くはスパースネットワークのトレーニングに標準密度のスケジュールとハイパーパラメータを使っている。
本研究では,標準コンピュータビジョンと自然言語処理スパルサリティベンチマークを用いて,モデル学習における高スパルサリティの影響について検討する。
まず、標準の濃密なトレーニングレシピをスパーストレーニングに使用するのが最適でないことを示すことから始める。
視覚モデルのスパース事前トレーニング(例: resnet50/imagenet)と、言語モデルのスパース微調整(例: bert/glue)の両方において、この問題を緩和するための新しいアプローチを提供し、高スパース体制における両方の設定において最先端の結果を実現し、両方のシナリオにおけるスパーストレーニングの難しさに関する詳細な分析を提供する。
我々の研究は、高い疎度で達成できる精度の新たなしきい値を設定し、スパースモデルのトレーニングを改善するためのさらなる研究を刺激し、高い疎度でより高い精度に到達させるとともに、より効率的に行うべきである。 Obtaining versions of deep neural networks that are both highly-accurate and highly-sparse is one of the main challenges in the area of model compression, and several high-performance pruning techniques have been investigated by the community. Yet, much less is known about the interaction between sparsity and the standard stochastic optimization techniques used for training sparse networks, and most existing work uses standard dense schedules and hyperparameters for training sparse networks. In this work, we examine the impact of high sparsity on model training using the standard computer vision and natural language processing sparsity benchmarks. We begin by showing that using standard dense training recipes for sparse training is suboptimal, and results in under-training. We provide new approaches for mitigating this issue for both sparse pre-training of vision models (e.g. ResNet50/ImageNet) and sparse fine-tuning of language models (e.g. BERT/GLUE), achieving state-of-the-art results in both settings in the high-sparsity regime, and providing detailed analyses for the difficulty of sparse training in both scenarios. Our work sets a new threshold in terms of the accuracies that can be achieved under high sparsity, and should inspire further research into improving sparse model training, to reach higher accuracies under high sparsity, but also to do so efficiently. | 翻訳日:2023-08-07 14:21:28 公開日:2023-08-03 |
# regionblip: 総合的および地域的理解のための統合マルチモーダル事前学習フレームワーク RegionBLIP: A Unified Multi-modal Pre-training Framework for Holistic and Regional Comprehension ( http://arxiv.org/abs/2308.02299v1 ) ライセンス: Link先を確認 | Qiang Zhou, Chaohui Yu, Shaofeng Zhang, Sitong Wu, Zhibing Wang, Fan Wang | (参考訳) 本研究では,マルチモーダル大規模言語モデル(MLLM)の地域オブジェクトへの拡張について検討する。
そこで本研究では,LLMのソフトプロンプトとして,地域オブジェクトに対応する特徴を抽出することを提案する。
正規画像特徴と不規則点雲特徴から地域特徴を効果的に抽出するために,新しい位置アシスト特徴抽出モジュールを提案する。
さらに、MLLMをゼロからトレーニングするのは非常に時間がかかる。
そこで本稿では,既存の事前学習型MLLMを段階的に拡張して,モダリティとそれらのモダリティの地域的対象を理解することを提案する。
具体的には、印象的なMLLMであるBLIP-2からQ-Formerを凍結し、新たに導入された各モダリティに対して、Q-Former と LLM のモダリティ固有の Lora パラメータを最適化する。
q-formerの凍結により、大量の画像テキストデータを事前トレーニングする必要がなくなる。
大量の画像テキストデータから事前学習した凍結q-formerは、画像領域テキストデータの事前学習にも有用である。
フレームワークを RegionBLIP と名付けます。
我々は、image-region-text、point-cloud-text、point-cloud-region-textデータでregionblipを事前トレーニングする。
Ours{} は BILP-2 のイメージ理解能力を保ち、新たに導入された点雲のモダリティと局所オブジェクトの理解を深めることができる。
Data、Code、Pre-trainedモデルはhttps://github.com/mightyzau/RegionBLIP.comから入手できる。 In this work, we investigate extending the comprehension of Multi-modal Large Language Models (MLLMs) to regional objects. To this end, we propose to extract features corresponding to regional objects as soft prompts for LLM, which provides a straightforward and scalable approach and eliminates the need for LLM fine-tuning. To effectively extract regional features from regular image features and irregular point cloud features, we present a novel and unified position-assisted feature extraction module. Furthermore, training an MLLM from scratch is highly time-consuming. Thus, we propose incrementally extending existing pre-trained MLLMs to comprehend more modalities and the regional objects of those modalities. Specifically, we freeze the Q-Former from BLIP-2, an impressive MLLM, and optimize the modality-specific Lora parameters in Q-Former and LLM for each newly introduced modality. The freezing of the Q-Former eliminates the need for extensive pre-training on massive image-text data. The freezed Q-Former pre-trained from massive image-text data is also beneficial for the pre-training on image-region-text data. We name our framework RegionBLIP. We pre-train RegionBLIP on image-region-text, point-cloud-text, and point-cloud-region-text data. Experimental results verify that \Ours{} can preserve the image comprehension capability of BILP-2 and further gain a comprehension of the newly introduced point cloud modality and regional objects. The Data, Code, and Pre-trained models will be available at https://github.com/mightyzau/RegionBLIP. | 翻訳日:2023-08-07 13:03:57 公開日:2023-08-03 |
# マルチクラス不整脈分類のための注意機構を備えた局所的グローバル時間融合ネットワーク Local-Global Temporal Fusion Network with an Attention Mechanism for Multiple and Multiclass Arrhythmia Classification ( http://arxiv.org/abs/2308.02416v1 ) ライセンス: Link先を確認 | Yun Kwan Kim, Minji Lee, Kunwook Jo, Hee Seok Song, and Seong-Whan Lee | (参考訳) 心電図(ECGs)から不整脈を検出し分類する際に, 臨床診断支援システム(CDSSs)が心臓科医の意思決定を支援するために広く利用されている。
しかし,不整脈長の異なるため,不整脈分類作業のためのCDSSの作成は困難である。
不整脈の発症時間は異なるが、従来開発された手法ではそのような状態は考慮されていない。
そこで,我々は,その枠組みを提案する。
(i)局所時間情報抽出
(ii)グローバルパターン抽出、及び
3)不整脈検出と入力長の制約による分類を行うため,注意を伴う地域・地域情報融合を行う。
MIT-BIH arrhythmia database (MITDB) とMIT-BIH atrial fibrillation database (AFDB) を用いて, 不整脈の発症と発症と不整脈の持続時間を検出することで, アプローチの10クラスと4クラスの成績を評価した。
その結果,比較モデルで得られた結果よりも統計的に優れていた。
提案手法の一般化能力を確認するため,MITDB上でAFDB訓練モデルを試験し,最先端モデルと比較して優れた性能を得た。
提案手法は,情報損失を発生させることなく,ローカル・グローバル情報やダイナミクスをキャプチャできる。
したがって、不整脈をより正確に認識でき、その発生時間を算出できるので、提案法を用いてより正確な治療計画を作成することができる。 Clinical decision support systems (CDSSs) have been widely utilized to support the decisions made by cardiologists when detecting and classifying arrhythmia from electrocardiograms (ECGs). However, forming a CDSS for the arrhythmia classification task is challenging due to the varying lengths of arrhythmias. Although the onset time of arrhythmia varies, previously developed methods have not considered such conditions. Thus, we propose a framework that consists of (i) local temporal information extraction, (ii) global pattern extraction, and (iii) local-global information fusion with attention to perform arrhythmia detection and classification with a constrained input length. The 10-class and 4-class performances of our approach were assessed by detecting the onset and offset of arrhythmia as an episode and the duration of arrhythmia based on the MIT-BIH arrhythmia database (MITDB) and MIT-BIH atrial fibrillation database (AFDB), respectively. The results were statistically superior to those achieved by the comparison models. To check the generalization ability of the proposed method, an AFDB-trained model was tested on the MITDB, and superior performance was attained compared with that of a state-of-the-art model. The proposed method can capture local-global information and dynamics without incurring information losses. Therefore, arrhythmias can be recognized more accurately, and their occurrence times can be calculated; thus, the clinical field can create more accurate treatment plans by using the proposed method. | 翻訳日:2023-08-07 12:24:56 公開日:2023-08-03 |
# Work-in-Progress:非揮発性記憶のためのユニバーサルインスツルメンテーションプラットフォーム Work-in-Progress: A Universal Instrumentation Platform for Non-Volatile Memories ( http://arxiv.org/abs/2308.02400v1 ) ライセンス: Link先を確認 | Felix Staudigl, Mohammed Hossein, Tobias Ziegler, Hazem Al Indari, Rebecca Pelke, Sebastian Siegel, Dirk J. Wouters, Dominik Sisejkovic, Jan Moritz Joseph, and Rainer Leupers | (参考訳) 新興非揮発性メモリ(NVM)は、従来のフォン・ノイマンアーキテクチャからより効率的なCIMアーキテクチャへのパラダイムシフトを可能にする破壊的な技術である。
単一セルとクロスバー構造のキャラクタリゼーションを可能にするため、NVMをインターフェースするいくつかのインスツルメンテーションプラットフォームが提案されている。
しかし、これらのプラットフォームは柔軟性が低く、NVM上でCIM操作を行うことができない。
そこで,我々は最近,NVM上でCIMを実行可能な多用途インスツルメンテーションプラットフォームであるNeuroBreakoutBoardを設計・構築した。
予備実験では1k$\Omega$から1M$\Omega$までの相対誤差<5%>を示すとともに,HfO$_2$/Tiベースの膜状細胞の切替挙動を示す。 Emerging non-volatile memories (NVMs) represent a disruptive technology that allows a paradigm shift from the conventional von Neumann architecture towards more efficient computing-in-memory (CIM) architectures. Several instrumentation platforms have been proposed to interface NVMs allowing the characterization of single cells and crossbar structures. However, these platforms suffer from low flexibility and are not capable of performing CIM operations on NVMs. Therefore, we recently designed and built the NeuroBreakoutBoard, a highly versatile instrumentation platform capable of executing CIM on NVMs. We present our preliminary results demonstrating a relative error < 5% in the range of 1 k$\Omega$ to 1 M$\Omega$ and showcase the switching behavior of a HfO$_2$/Ti-based memristive cell. | 翻訳日:2023-08-07 12:23:43 公開日:2023-08-03 |
# SoK: Applied Federated Machine Learningの状況を評価する SoK: Assessing the State of Applied Federated Machine Learning ( http://arxiv.org/abs/2308.02454v1 ) ライセンス: Link先を確認 | Tobias M\"uller, Maximilian St\"abler, Hugo Gasc\'on, Frank K\"oster, and Florian Matthes | (参考訳) 機械学習(ML)は、さまざまなアプリケーションにおいて大きな可能性を示しているが、プライバシクリティカルなドメインへの採用は、データのプライバシに関する懸念から制限されている。
この問題に対する有望な解決策は、データプライバシを優先するモデルからデータへのアプローチであるfederated machine learning(fedml)である。
生データを共有せずに、MLアルゴリズムを直接分散データソースに適用できるようにすることで、FedMLは、プライバシー保護を強化し、プライバシクリティカルな環境に適している。
その理論的利点にもかかわらず、FedMLは広く実践的な実装を見ていない。
本研究の目的は、FedMLの適用状況を調べ、その実践的採用を妨げる課題を特定することである。
総合的な体系的な文献レビューを通じて、FedMLの現実的な適用性を分析するための74の関連論文を評価する。
本分析では,FedMLの実装の特徴と動向,および動機付けドライバとアプリケーションドメインに注目した。
また、FedMLを実環境に組み込む際の課題についても論じる。
既存の状況と潜在的な障害に光を当てることで、プライバシクリティカルなシナリオにおけるFedMLのさらなる開発と実装に寄与する。 Machine Learning (ML) has shown significant potential in various applications; however, its adoption in privacy-critical domains has been limited due to concerns about data privacy. A promising solution to this issue is Federated Machine Learning (FedML), a model-to-data approach that prioritizes data privacy. By enabling ML algorithms to be applied directly to distributed data sources without sharing raw data, FedML offers enhanced privacy protections, making it suitable for privacy-critical environments. Despite its theoretical benefits, FedML has not seen widespread practical implementation. This study aims to explore the current state of applied FedML and identify the challenges hindering its practical adoption. Through a comprehensive systematic literature review, we assess 74 relevant papers to analyze the real-world applicability of FedML. Our analysis focuses on the characteristics and emerging trends of FedML implementations, as well as the motivational drivers and application domains. We also discuss the encountered challenges in integrating FedML into real-life settings. By shedding light on the existing landscape and potential obstacles, this research contributes to the further development and implementation of FedML in privacy-critical scenarios. | 翻訳日:2023-08-07 12:13:44 公開日:2023-08-03 |
# 薬物使用検出のためのパーキンソン病におけるマルチモーダル室内局在 : 自由生活環境における観察実験 Multimodal Indoor Localisation in Parkinson's Disease for Detecting Medication Use: Observational Pilot Study in a Free-Living Setting ( http://arxiv.org/abs/2308.02419v1 ) ライセンス: Link先を確認 | Ferdian Jovan, Catherine Morgan, Ryan McConville, Emma L. Tonkin, Ian Craddock, Alan Whone | (参考訳) パーキンソン病(英: Parkinson's disease、PD)は、歩行障害を含む運動障害を引き起こす神経変性疾患である。
運動ゆらぎ(英: motor fluctuations)とは、レボドーパ療法(オン)に陽性反応を示す期間と、薬効が低下するにつれてPD症状(オフ)が再発する期間の間の変化である。
これらの変動はしばしば歩行速度に影響し、PDが進行するにつれてその不安定な影響が増大する。
現在の屋内ローカライズ手法の有効性を向上させるために,移動の相補的視点,受信信号強度指標(rssi),加速度計データを提供する2つのモダリティを利用した変圧器方式を提案する。
室内歩行速度の特徴(つまり、部屋の間を歩いた時間)を含む屋内でのローカライゼーションを、PD患者がレボドーパ薬を服用しているか、あるいは保留しているかを検知することにより、運動変動を評価することを目的としている。
提案手法を適切に評価するために,実環境において移動と移動が期待通りに大きく変化し,非構造化された自由生活データセットを用いた。
24人の被験者が5日間、さまざまなセンサーを備えたスマートホームでペア(PD1人、コントロール1人)に住んだ。
その結果,提案手法は他の屋内ローカライズ手法よりも優れていることが示された。
サブ目的評価の結果, 室内歩行速度特性に変換された部屋レベルの正確な局所化予測は, pd参加者が服用中か服用中かを正確に予測できることがわかった。 Parkinson's disease (PD) is a slowly progressive, debilitating neurodegenerative disease which causes motor symptoms including gait dysfunction. Motor fluctuations are alterations between periods with a positive response to levodopa therapy ("on") and periods marked by re-emergency of PD symptoms ("off") as the response to medication wears off. These fluctuations often affect gait speed and they increase in their disabling impact as PD progresses. To improve the effectiveness of current indoor localisation methods, a transformer-based approach utilising dual modalities which provide complementary views of movement, Received Signal Strength Indicator (RSSI) and accelerometer data from wearable devices, is proposed. A sub-objective aims to evaluate whether indoor localisation, including its in-home gait speed features (i.e. the time taken to walk between rooms), could be used to evaluate motor fluctuations by detecting whether the person with PD is taking levodopa medications or withholding them. To properly evaluate our proposed method, we use a free-living dataset where the movements and mobility are greatly varied and unstructured as expected in real-world conditions. 24 participants lived in pairs (consisting of one person with PD, one control) for five days in a smart home with various sensors. Our evaluation on the resulting dataset demonstrates that our proposed network outperforms other methods for indoor localisation. The sub-objective evaluation shows that precise room-level localisation predictions, transformed into in-home gait speed features, produce accurate predictions on whether the PD participant is taking or withholding their medications. | 翻訳日:2023-08-07 12:11:26 公開日:2023-08-03 |
# Bi-GRU(AED-ISS)搭載国際宇宙ステーションにおける緊急ダストフリー自動解法 Automatic Emergency Dust-Free solution on-board International Space Station with Bi-GRU (AED-ISS) ( http://arxiv.org/abs/2210.08549v3 ) ライセンス: Link先を確認 | Po-Han Hou, Wei-Chih Lin, Hong-Chun Hou, Yu-Hao Huang, Jih-Hong Shue | (参考訳) PM2.5やPM0.3の問題に注目が集まる中、粒子状物質は環境と人間の両方にとって潜在的脅威となるだけでなく、国際宇宙ステーション(ISS)の機器にも害を与えている。
我々のチームは、粒子状物質の様々な濃度を磁場、湿度、加速度、温度、圧力、CO2濃度に関連付けることを目指している。
我々の目標は、粒子状物質のレベルを予測し、宇宙飛行士がいくつかの実験で機器を保護するための十分な反応時間を提供する早期警報システム(ews)を確立することであり、さらに、火災に関連するアプリケーションのためのリモートセンシングスモークアラームのプロトタイプとして、構築されたモデルをさらに開発することである。
本稿では,90分以上データを収集し,次の1分間に2.5マイクロメートル/0.1リットル以上の粒子のレベルを予測するbi-gru(bidirectional gated recurrent unit)アルゴリズムを実装し,早期警告として分類する。 With a rising attention for the issue of PM2.5 or PM0.3, particulate matters have become not only a potential threat to both the environment and human, but also a harming existence to instruments onboard International Space Station (ISS). Our team is aiming to relate various concentration of particulate matters to magnetic fields, humidity, acceleration, temperature, pressure and CO2 concentration. Our goal is to establish an early warning system (EWS), which is able to forecast the levels of particulate matters and provides ample reaction time for astronauts to protect their instruments in some experiments or increase the accuracy of the measurements; In addition, the constructed model can be further developed into a prototype of a remote-sensing smoke alarm for applications related to fires. In this article, we will implement the Bi-GRU (Bidirectional Gated Recurrent Unit) algorithms that collect data for past 90 minutes and predict the levels of particulates which over 2.5 micrometer per 0.1 liter for the next 1 minute, which is classified as an early warning | 翻訳日:2023-08-07 10:19:01 公開日:2023-08-03 |
# 胸部x線分類における無学習スプリアス相関 Unlearning Spurious Correlations in Chest X-ray Classification ( http://arxiv.org/abs/2308.01119v2 ) ライセンス: Link先を確認 | Misgina Tsighe Hagos, Kathleen M. Curran, Brian Mac Namee | (参考訳) 医用画像分類モデルは、複数のデータソースから派生したトレーニングデータセットを使用して頻繁に訓練される。
モデル一般化を達成するためには、複数のデータソースを活用することが不可欠だが、これらのソースの多様な性質は本質的に意図しない共同設立者や、モデル精度と透明性の両方に影響を及ぼす他の課題をもたらすことを認識する必要がある。
特に筋骨格画像分類では, 思春期における骨格成熟による骨成長が顕著である。
我々は,Covid-19胸部X線データセットを用いて深層学習モデルを訓練し,このデータセットが意図しない凹凸領域による刺激的な相関にどのように寄与するかを示す。
eXplanation Based Learning (XBL) は、モデル説明を利用して対話的に引き起こされる突発的相関を利用して、解釈可能性を超えたディープラーニングアプローチである。
これはインタラクティブなユーザフィードバック、特に機能アノテーションを統合することで実現される。
本研究では,非要求型手動フィードバック機構を2つ導入し,これらスプリアス相関を効果的に排除するxblベースアプローチを実装した。
以上の結果から,xbl のロバストモデル構築における有望な可能性について考察した。 Medical image classification models are frequently trained using training datasets derived from multiple data sources. While leveraging multiple data sources is crucial for achieving model generalization, it is important to acknowledge that the diverse nature of these sources inherently introduces unintended confounders and other challenges that can impact both model accuracy and transparency. A notable confounding factor in medical image classification, particularly in musculoskeletal image classification, is skeletal maturation-induced bone growth observed during adolescence. We train a deep learning model using a Covid-19 chest X-ray dataset and we showcase how this dataset can lead to spurious correlations due to unintended confounding regions. eXplanation Based Learning (XBL) is a deep learning approach that goes beyond interpretability by utilizing model explanations to interactively unlearn spurious correlations. This is achieved by integrating interactive user feedback, specifically feature annotations. In our study, we employed two non-demanding manual feedback mechanisms to implement an XBL-based approach for effectively eliminating these spurious correlations. Our results underscore the promising potential of XBL in constructing robust models even in the presence of confounding factors. | 翻訳日:2023-08-07 10:15:37 公開日:2023-08-03 |
# 逆音響障害物散乱問題に対するニューラルネットワークウォームスタート法 A Neural Network Warm-Start Approach for the Inverse Acoustic Obstacle Scattering Problem ( http://arxiv.org/abs/2212.08736v3 ) ライセンス: Link先を確認 | Mo Zhou, Jiequn Han, Manas Rachh, Carlos Borges | (参考訳) 物体外部の受信機群における散乱場の測定から、障害物の境界が決定される2次元の音響ソフトな星形障害物に対する逆音響障害物問題を考える。
この問題を解決するための標準的なアプローチの1つは最適化問題として、分散フィールドの計算値と与えられた測定データの間の$L^2$距離を最小化する領域の境界を見つけることである。
局所凸性の集合は周波数の増加とともに減少し、真の解の近傍で局所最小値が増加するので、最適化問題は計算的に困難である。
多くの実用的な実験環境では、実験装置の限界や測定に用いられるセンサーのために低周波の測定は不可能である。
したがって、最適化問題に対する適切な初期推測を得ることは、この環境において重要な役割を果たす。
本稿では,ニューラルネットワークを用いて最適化問題の初期推定を求める逆散乱問題を解くためのニューラルネットワークウォームスタート手法を提案する。
本手法の有効性をいくつかの数値例で示す。
高周波問題では、gauss-newton のような従来のイテレーティブメソッドを先行せずに初期化(単位円を用いて初期化)するか、線形サンプリング法のような直接メソッドの解を用いて初期化する手法よりも、このアプローチは優れている。
このアルゴリズムは散乱場測定における雑音に対して頑健であり、また制限された開口データに対する真の解に収束する。
しかしながら、ニューラルネットワークのトレーニングに必要なトレーニングサンプルの数は、頻度と考慮される障害の複雑さが指数関数的に増加する。
本稿では,この現象と今後の研究の方向性について論じる。 We consider the inverse acoustic obstacle problem for sound-soft star-shaped obstacles in two dimensions wherein the boundary of the obstacle is determined from measurements of the scattered field at a collection of receivers outside the object. One of the standard approaches for solving this problem is to reformulate it as an optimization problem: finding the boundary of the domain that minimizes the $L^2$ distance between computed values of the scattered field and the given measurement data. The optimization problem is computationally challenging since the local set of convexity shrinks with increasing frequency and results in an increasing number of local minima in the vicinity of the true solution. In many practical experimental settings, low frequency measurements are unavailable due to limitations of the experimental setup or the sensors used for measurement. Thus, obtaining a good initial guess for the optimization problem plays a vital role in this environment. We present a neural network warm-start approach for solving the inverse scattering problem, where an initial guess for the optimization problem is obtained using a trained neural network. We demonstrate the effectiveness of our method with several numerical examples. For high frequency problems, this approach outperforms traditional iterative methods such as Gauss-Newton initialized without any prior (i.e., initialized using a unit circle), or initialized using the solution of a direct method such as the linear sampling method. The algorithm remains robust to noise in the scattered field measurements and also converges to the true solution for limited aperture data. However, the number of training samples required to train the neural network scales exponentially in frequency and the complexity of the obstacles considered. We conclude with a discussion of this phenomenon and potential directions for future research. | 翻訳日:2023-08-04 19:56:32 公開日:2023-08-03 |
# スパースフェルミオンハミルトニアンの最適化 Optimizing sparse fermionic Hamiltonians ( http://arxiv.org/abs/2211.16518v2 ) ライセンス: Link先を確認 | Yaroslav Herasymenko, Maarten Stroeks, Jonas Helsen, Barbara Terhal | (参考訳) ガウス状態を用いてフェルミオンハミルトニアンの基底状態エネルギーを近似する問題を考察する。
厳密なケースとは対照的に、厳密に$q$-local $\rm {\textit {sparse}}$ fermionic Hamiltonian はガウス近似比が一定であることを証明する。
sparsity は各フェルミオンが有界な多数の相互作用に参加し、厳密には$q$-local は各項が正確に$q$ fermionic (majorana) 作用素を含むことを意味する。
我々は、四次項と四次項の両方を持つスパースフェルミオンハミルトニアンの定数ガウス近似比を与える証明を拡張する。
さらなる研究により、厳密な4$局所相互作用を持つスパースSYKモデル(スパースSYK-$4$モデル)に対して、ガウス近似比を一定に証明する。
各設定において、ガウス状態は効率的に決定できることを示す。
最後に、正規(dense) SYK-$4$モデルに対する$O(n^{-1/2})$ Gaussian近似比が SYK-$q$ for even $q>4$に拡張され、近似比が$O(n^{1/2 - q/4})$であることが証明される。
この結果から,SYK-$4$モデルが一定の近似比を持つことが不可能となる主な理由として,非スパース性を見出した。 We consider the problem of approximating the ground state energy of a fermionic Hamiltonian using a Gaussian state. In sharp contrast to the dense case, we prove that strictly $q$-local $\rm {\textit {sparse}}$ fermionic Hamiltonians have a constant Gaussian approximation ratio; the result holds for any connectivity and interaction strengths. Sparsity means that each fermion participates in a bounded number of interactions, and strictly $q$-local means that each term involves exactly $q$ fermionic (Majorana) operators. We extend our proof to give a constant Gaussian approximation ratio for sparse fermionic Hamiltonians with both quartic and quadratic terms. With additional work, we also prove a constant Gaussian approximation ratio for the so-called sparse SYK model with strictly $4$-local interactions (sparse SYK-$4$ model). In each setting we show that the Gaussian state can be efficiently determined. Finally, we prove that the $O(n^{-1/2})$ Gaussian approximation ratio for the normal (dense) SYK-$4$ model extends to SYK-$q$ for even $q>4$, with an approximation ratio of $O(n^{1/2 - q/4})$. Our results identify non-sparseness as the prime reason that the SYK-$4$ model can fail to have a constant approximation ratio. | 翻訳日:2023-08-04 19:56:06 公開日:2023-08-03 |
# 分散データにおける協調因果推論 Collaborative causal inference on distributed data ( http://arxiv.org/abs/2208.07898v2 ) ライセンス: Link先を確認 | Yuji Kawamata, Ryoki Motai, Yukihiko Okada, Akira Imakura, Tetsuya Sakurai | (参考訳) 近年,分散データのプライバシ保護に伴う因果推論技術の発展が注目されている。
本稿では,プライバシ保護を伴う分散データからの因果推論を可能にするデータコラボレーション擬似実験(dc-qe)を提案する。
提案手法では,まず,個人データから次元再現された中間表現を構成する。
次に、プライバシー保護のためのプライベートデータではなく、中間表現を共有する。
第3に,中間表現の共有から確率スコアを推定した。
最後に, 治療効果を妥当性スコアから推定した。
本手法はランダムエラーとバイアスの両方を低減できるが,既存の手法では治療効果の推定においてのみランダムエラーを低減できる。
人工および実世界のデータを用いた数値実験により,本手法が個々の解析値よりも優れた推定結果をもたらすことを確認した。
次元性推論は、プライベートデータのいくつかの情報を失い、性能劣化を引き起こす。
しかし, 実験では, 対象と共変量の欠如を解消するために, 中間表現を多くの関係者と共有することで, 次元還元による劣化を克服する性能を十分に向上することを示した。
提案手法の普及により,中間表現をオープンデータとして公開することで,研究者が因果関係を見つけ,知識ベースとして蓄積することができる。 The development of technologies for causal inference with the privacy preservation of distributed data has attracted considerable attention in recent years. To address this issue, we propose a data collaboration quasi-experiment (DC-QE) that enables causal inference from distributed data with privacy preservation. In our method, first, local parties construct dimensionality-reduced intermediate representations from the private data. Second, they share intermediate representations, instead of private data for privacy preservation. Third, propensity scores were estimated from the shared intermediate representations. Finally, the treatment effects were estimated from propensity scores. Our method can reduce both random errors and biases, whereas existing methods can only reduce random errors in the estimation of treatment effects. Through numerical experiments on both artificial and real-world data, we confirmed that our method can lead to better estimation results than individual analyses. Dimensionality-reduction loses some of the information in the private data and causes performance degradation. However, we observed that in the experiments, sharing intermediate representations with many parties to resolve the lack of subjects and covariates, our method improved performance enough to overcome the degradation caused by dimensionality-reduction. With the spread of our method, intermediate representations can be published as open data to help researchers find causalities and accumulated as a knowledge base. | 翻訳日:2023-08-04 19:55:35 公開日:2023-08-03 |
# キャビティ量子力学非線形性と線形近似の破壊を超えた位置測定 Cavity quantum optomechanical nonlinearities and position measurement beyond the breakdown of the linearized approximation ( http://arxiv.org/abs/2207.11153v3 ) ライセンス: Link先を確認 | Jack Clarke, Pascal Neveu, Kiran E. Khosla, Ewold Verhagen, Michael R. Vanner | (参考訳) いくつかの光学実験は、低光度でも光学相互作用が大きくなる高度に要求された非線形状態に入りつつある。
この方法では、新しい量子現象と改良された性能を達成することができるが、これらの能力を解き放つには、放射圧相互作用とキャビティ応答の両方の非線形性をキャプチャするキャビティ量子光力学の対応する理論的形式が必要である。
そこで,このような非線形空洞量子光力学的枠組みを開発し,線形近似の分解を超えて位置測定を行う方法を提案する。
本提案では,単一から2つのホモダインまでの光学的一般ダイン検出を用いて,光学的振幅と位相の2乗にインプリントされた機械的位置情報を取得し,パルスモードと連続モードの両方の動作を可能にする。
これらの空洞の光学的非線形性は現在、多くの実験で直面しており、我々のフレームワークは、量子メートル法、標準量子限界の探索、量子測定と制御など、様々な進歩を可能にする。 Several optomechanics experiments are now entering the highly sought nonlinear regime where optomechanical interactions are large even for low light levels. Within this regime, new quantum phenomena and improved performance may be achieved, however, a corresponding theoretical formalism of cavity quantum optomechanics that captures the nonlinearities of both the radiation-pressure interaction and the cavity response is needed to unlock these capabilities. Here, we develop such a nonlinear cavity quantum optomechanical framework, which we then utilize to propose how position measurement can be performed beyond the breakdown of the linearized approximation. Our proposal utilizes optical general-dyne detection, ranging from single to dual homodyne, to obtain mechanical position information imprinted onto both the optical amplitude and phase quadratures and enables both pulsed and continuous modes of operation. These cavity optomechanical nonlinearities are now being confronted in a growing number of experiments, and our framework will allow a range of advances to be made in e.g. quantum metrology, explorations of the standard quantum limit, and quantum measurement and control. | 翻訳日:2023-08-04 19:55:16 公開日:2023-08-03 |
# 二元系ボース-アインシュタイン凝縮体のポラロン Polarons in Binary Bose-Einstein Condensates ( http://arxiv.org/abs/2206.13738v5 ) ライセンス: Link先を確認 | Ning Liu and Z. C. Tu | (参考訳) 不純物とボース・アインシュタイン凝縮物の集団励起はボース・ポーラロンの形成を引き起こす。
本稿では, 2元ボース-アインシュタイン凝縮体に浸漬した単一不純物の性質をLee-Low-Pines変分法を用いて検討する。
不純物密度(ID)カップリングと不純物スピン(IS)カップリングという2種類の効果的な相互作用を組み込んだ有効Fr\"ohlich Hamiltonianを導出する。
IS枝の挙動は相分離に対する安定性条件によって制約される。
我々は、Fr\"ohlich polaronの同値および不等質量配置における関連する性質に関する式を解析的に導出した。
その結果,IS枝に結合したポラロンは,ID枝に比べてフォノン数が多く,有効質量が増加し,基底状態エネルギーが低下する傾向にあった。
等質量ボソン浴の場合, 両枝の分極特性は2つの特定の場合において, 相互散乱長の単調に増加または減少し, 相互結合が導入されたときのエネルギーシフトが等しくなる。
不等質量ボソンの場合、相互結合が導入されたとき、質量不均衡によって引き起こされる双極子の不等エネルギーシフトを実証し、2つの偏極の性質間の接続を確立する。
これらの結果は、複数の成分を含むボース浴におけるポーラロンの挙動を基礎的に理解する。 Impurities coupled with collective excitations of Bose-Einstein condensates give rise to the formation of Bose polarons. In this paper, we investigate the properties of a single impurity immersed in binary Bose-Einstein condensates using the Lee-Low-Pines variational approach. We derive an effective Fr\"ohlich Hamiltonian that incorporates two types of effective interactions, namely impurity-density (ID) coupling and impurity-spin (IS) coupling. The behaviors of IS branches are constrained by the stability condition against phase separation. We analytically derive the expressions for the relevant properties of Fr\"ohlich polarons in both equal and unequal mass configurations of intercomponent bosons. Our findings reveal that polarons coupled to IS branches tend to exhibit a higher number of phonons, increased effective mass, and decreased ground state energy compared to ID branches. For the equal-mass boson bath, we observe that the polaronic properties of the two branches are monotonically increasing or decreasing functions of the intercomponent scattering length in two specific cases, and have equal energy shift when the intercomponent coupling is introduced. In the case of unequal-mass bosons, we demonstrate the unequal energy shift of dual polarons induced by mass imbalance once the intercomponent coupling is introduced, and establish connections between the properties of the two branches of polarons. These results provide a fundamental understanding of the behavior of polarons in Bose baths with multiple components. | 翻訳日:2023-08-04 19:54:57 公開日:2023-08-03 |
# 凸非可逆目的の分散オンラインプライベートラーニング Distributed Online Private Learning of Convex Nondecomposable Objectives ( http://arxiv.org/abs/2206.07944v4 ) ライセンス: Link先を確認 | Huqiang Cheng, Xiaofeng Liao, and Huaqing Li | (参考訳) 我々は,非互換性目的のクラスが考慮される時間的変動ネットワーク上のプライバシに関する,一般的な分散制約付きオンライン学習問題に対処する。
この設定では、各ノードはグローバルな決定の一部のみを制御し、すべてのノードの目標は、送信された情報のセキュリティを確保しながら、時間的水平線上でのグローバルなコストを協力的に最小化することである。
このような問題に対して,我々はまず,laplace機構とdual averaging法の確率的変種を用いた分散分散オンライン学習のための,dpsdaと呼ばれる新しい汎用アルゴリズムフレームワークを設計した。
二重更新では、DPSDAの全てのノードはより一般化するためにノイズ崩壊勾配を用いる。
そこで本稿では, DPSDA-C と DPSDA-PS という2つのアルゴリズムを提案する。
DPSDA-Cでは、ノードはプリミティブ更新で循環ベースの通信を実装し、時間変化のないネットワークに対する不一致を軽減する。
さらに、時間変化のある有向ネットワークへの拡張のために、ノードはDPSDA-PSにブロードキャストベースのプッシュサムダイナミクスを実装し、任意の有向ネットワークに対する平均コンセンサスを実現する。
理論的には、どちらのアルゴリズムも、目的関数が凸であるときに$\mathcal{o}( \sqrt{t} )$ で期待された上限に達することが示されている。
最後に,合成データと実世界データの両方における数値実験の結果から,アルゴリズムの有効性を検証した。 We deal with a general distributed constrained online learning problem with privacy over time-varying networks, where a class of nondecomposable objectives are considered. Under this setting, each node only controls a part of the global decision, and the goal of all nodes is to collaboratively minimize the global cost over a time horizon $T$ while guarantees the security of the transmitted information. For such problems, we first design a novel generic algorithm framework, named as DPSDA, of differentially private distributed online learning using the Laplace mechanism and the stochastic variants of dual averaging method. Note that in the dual updates, all nodes of DPSDA employ the noise-corrupted gradients for more generality. Then, we propose two algorithms, named as DPSDA-C and DPSDA-PS, under this framework. In DPSDA-C, the nodes implement a circulation-based communication in the primal updates so as to alleviate the disagreements over time-varying undirected networks. In addition, for the extension to time-varying directed ones, the nodes implement the broadcast-based push-sum dynamics in DPSDA-PS, which can achieve average consensus over arbitrary directed networks. Theoretical results show that both algorithms attain an expected regret upper bound in $\mathcal{O}( \sqrt{T} )$ when the objective function is convex, which matches the best utility achievable by cutting-edge algorithms. Finally, numerical experiment results on both synthetic and real-world datasets verify the effectiveness of our algorithms. | 翻訳日:2023-08-04 19:54:30 公開日:2023-08-03 |
# 多重アクセスチャネルの相関支援和容量の分離について On the separation of correlation-assisted sum capacities of multiple access channels ( http://arxiv.org/abs/2205.13538v3 ) ライセンス: Link先を確認 | Akshay Seshadri, Felix Leditzky, Vikesh Siddhu, Graeme Smith | (参考訳) チャネルの容量は、チャネルを通じて情報が漸近的に忠実に送信できる最大レートを特徴付ける。
複数の送信機と単一受信機を持つチャネルでは、理論上は総和容量を計算できるが、非凸最適化が関与しているため実際は困難である。
この課題に対処するため,本研究では3つのトピックについて検討する。
第1部では,非ローカルゲームから得られた複数のアクセスチャネル(mac)の合計容量について検討する。
この族内の任意のMACに対して、送り手間の任意の相関の集合からの補助を許すとき、ゲームの性質にのみ依存する和率の上限を得る。
このアプローチは、送信者が古典的、量子的、あるいは無シグナリング関係のような異なる相関の集合を共有することを許されたときの和容量の分離を証明するために用いられる。
また、特定の非局所ゲームを構築し、非凸最適化の緩和による和容量の有界化のアプローチが任意にゆるやかな境界を与えることを示す。
この結果から,第2部では,リプシッツ関数と呼ばれる関数群を非凸最適化するアルゴリズムについて検討する。
このクラスはエントロピー量を含み、したがってこれらの結果は情報理論に独立した関心を持つ可能性がある。
第三部では、これらの手法を用いて任意の2次元MACの和容量を準多項式時間で固定加算精度で計算できることが示される。
入力アルファベットの1つがサイズ2の2次元MACのファミリーの和容量を効率よく計算することで,本手法を実証する。
さらに,本アルゴリズムでは,対流緩和を用いた場合よりも高い精度で和を計算できることを示す。 The capacity of a channel characterizes the maximum rate at which information can be transmitted through the channel asymptotically faithfully. For a channel with multiple senders and a single receiver, computing its sum capacity is possible in theory, but challenging in practice because of the nonconvex optimization involved. To address this challenge, we investigate three topics in our study. In the first part, we study the sum capacity of a family of multiple access channels (MACs) obtained from nonlocal games. For any MAC in this family, we obtain an upper bound on the sum rate that depends only on the properties of the game when allowing assistance from an arbitrary set of correlations between the senders. This approach can be used to prove separations between sum capacities when the senders are allowed to share different sets of correlations, such as classical, quantum or no-signalling correlations. We also construct a specific nonlocal game to show that the approach of bounding the sum capacity by relaxing the nonconvex optimization can give arbitrarily loose bounds. Owing to this result, in the second part, we study algorithms for non-convex optimization of a class of functions we call Lipschitz-like functions. This class includes entropic quantities, and hence these results may be of independent interest in information theory. Subsequently, in the third part, we show that one can use these techniques to compute the sum capacity of an arbitrary two-sender MACs to a fixed additive precision in quasi-polynomial time. We showcase our method by efficiently computing the sum capacity of a family of two-sender MACs for which one of the input alphabets has size two. Furthermore, we demonstrate with an example that our algorithm may compute the sum capacity to a higher precision than using the convex relaxation. | 翻訳日:2023-08-04 19:54:04 公開日:2023-08-03 |
# 勾配ブースティング法による銀河系外電波源の形態分類 Morphological Classification of Extragalactic Radio Sources Using Gradient Boosting Methods ( http://arxiv.org/abs/2304.12729v2 ) ライセンス: Link先を確認 | Abdollah Masoud Darya, Ilias Fernini, Marley Vellasco, Abir Hussain | (参考訳) 電波天文学の分野は、新しく任命された電波望遠鏡によって、1日に生成されるデータ量の増加を目撃している。
この分野で最も重要な問題の1つは、銀河系外電波源のモルフォロジーに基づく自動分類である。
銀河系外電波源の形態分類の分野での最近の貢献は、畳み込みニューラルネットワークに基づく分類器の提案である。
あるいは、畳み込みニューラルネットワークに対するデータ効率の代替として、主成分分析を伴う勾配向上機械学習手法を提案する。
近年, 表型データを用いた分類問題に対して, 深層学習における勾配促進法の有効性が示されている。
この研究で考慮された勾配向上手法は、XGBoost、LightGBM、CatBoostの実装に基づいている。
本研究は,データセットサイズが分類器の性能に及ぼす影響についても検討する。
この研究では、Best-Heckmanサンプルからの電波源を用いて、クラス0、クラスI、クラスIIの3つの主要なファナロフ・ライリークラスに基づいて、3クラス分類問題を考える。
提案された3つの勾配向上手法は、画像の4分の1未満を使用して、最先端の畳み込みニューラルネットワークベースの分類器より優れており、CatBoostが最も精度が高い。
これは主にファナロフ・ライリー級IIのソースを3$\unicode{x2013}$4%高いリコールで分類する際の勾配促進法が優れているためである。 The field of radio astronomy is witnessing a boom in the amount of data produced per day due to newly commissioned radio telescopes. One of the most crucial problems in this field is the automatic classification of extragalactic radio sources based on their morphologies. Most recent contributions in the field of morphological classification of extragalactic radio sources have proposed classifiers based on convolutional neural networks. Alternatively, this work proposes gradient boosting machine learning methods accompanied by principal component analysis as data-efficient alternatives to convolutional neural networks. Recent findings have shown the efficacy of gradient boosting methods in outperforming deep learning methods for classification problems with tabular data. The gradient boosting methods considered in this work are based on the XGBoost, LightGBM, and CatBoost implementations. This work also studies the effect of dataset size on classifier performance. A three-class classification problem is considered in this work based on the three main Fanaroff-Riley classes: class 0, class I, and class II, using radio sources from the Best-Heckman sample. All three proposed gradient boosting methods outperformed a state-of-the-art convolutional neural networks-based classifier using less than a quarter of the number of images, with CatBoost having the highest accuracy. This was mainly due to the superior accuracy of gradient boosting methods in classifying Fanaroff-Riley class II sources, with 3$\unicode{x2013}$4% higher recall. | 翻訳日:2023-08-04 19:48:11 公開日:2023-08-03 |
# 松原 n-点関数のスペクトル表現:実核関数とその応用 Spectral representation of Matsubara n-point functions: Exact kernel functions and applications ( http://arxiv.org/abs/2304.03774v3 ) ライセンス: Link先を確認 | Johannes Halbinger, Benedikt Schneider and Bj\"orn Sbierski | (参考訳) 量子多体物理学の分野において、スペクトル(あるいはリーマン)表現は、ハミルトニアンの固有系が知られている場合、松原 n-点相関関数の計算を単純化する。
これは普遍カーネル関数と行列要素のシステムおよび相関子固有の積を介して表現される。
ここでは、任意の n に対して、ボソニック作用素またはフェルミオン作用素の任意の組み合わせ、および任意の数の異常項に対して、核関数を全一般性で提供する。
応用として、フェルミオンハバード原子と長さSの自由スピンに対するボソニック3点と4点の相関関数を考える。 In the field of quantum many-body physics, the spectral (or Lehmann) representation simplifies the calculation of Matsubara n-point correlation functions if the eigensystem of a Hamiltonian is known. It is expressed via a universal kernel function and a system- and correlator-specific product of matrix elements. Here we provide the kernel functions in full generality, for arbitrary n, arbitrary combinations of bosonic or fermionic operators and an arbitrary number of anomalous terms. As an application, we consider bosonic 3- and 4-point correlation functions for the fermionic Hubbard atom and a free spin of length S, respectively. | 翻訳日:2023-08-04 19:47:29 公開日:2023-08-03 |
# ボソンの第三量子化:シンプレクティック対角化、非エルミートハミルトニアン、対称性 Third quantization for bosons: symplectic diagonalization, non-Hermitian Hamiltonian, and symmetries ( http://arxiv.org/abs/2304.02367v2 ) ライセンス: Link先を確認 | Steven Kim and Fabian Hassler | (参考訳) マルコフ環境と相互作用する開量子系はリンドブラッドマスター方程式によって記述することができる。
時間変換の生成元は、系の密度行列に作用するリウィリア超作用素 $\mathcal{L}$ によって与えられる。
単一のボソニックモードのフォック空間は既に無限次元であるため、リウヴィリアンの対角化は「第三量子化」と呼ばれる過程の創造と消滅のスーパーオペレーター上で行う必要がある。
単一シンプレクティック変換を用いた二次系に対するリウビリアンの解法を提案する。
系の非エルミート実効ハミルトニアンは、系のダイナミクスを組み込むのに隣接して、その対称性を分析するツールであることを示す。
例えば、有効ハミルトニアンを用いて開システムの $\mathcal{pt}$-`symmetry' を定式化する。
ソース項の包含により、光子電流などの観測可能な可観測値に対して累積生成関数が得られることを示す。 Open quantum systems that interact with a Markovian environment can be described by a Lindblad master equation. The generator of time-translation is given by a Liouvillian superoperator $\mathcal{L}$ acting on the density matrix of the system. As the Fock space for a single bosonic mode is already infinite-dimensional, the diagonalization of the Liouvillian has to be done on the creation- and annihilation-superoperators, a process called `third quantization'. We propose a method to solve the Liouvillian for quadratic systems using a single symplectic transformation. We show that the non-Hermitian effective Hamiltonian of the system, next to incorporating the dynamics of the system, is a tool to analyze its symmetries. As an example, we use the effective Hamiltonian to formulate a $\mathcal{PT}$-`symmetry' of an open system. We describe how the inclusion of source terms allows us to obtain the cumulant generating function for observables such as the photon current. | 翻訳日:2023-08-04 19:47:18 公開日:2023-08-03 |
# 時間データからの因果発見 : 概観と新たな展望 Causal Discovery from Temporal Data: An Overview and New Perspectives ( http://arxiv.org/abs/2303.10112v3 ) ライセンス: Link先を確認 | Chang Gong, Di Yao, Chuzhe Zhang, Wenbin Li and Jingping Bi | (参考訳) 複雑なシステムの時系列観測を表す時間データは、常に典型的なデータ構造であり、産業、医療、金融など多くの領域で広く利用されている。
このタイプのデータを分析することは、様々なアプリケーションにとって非常に価値がある。
このように,過去数十年間,分類,クラスタリング,予測といった時間的データ分析タスクが提案されてきた。
その中でも,時間的データから因果関係を学習する因果発見は興味深いが重要な課題であり,研究の注目を集めている。
既存の因果発見作業は、時間データの校正、多変量時系列因果発見、イベントシーケンス因果発見の2つの高い相関カテゴリに分けられる。
しかし、過去の調査のほとんどは時系列の因果発見のみに焦点を当てており、第2のカテゴリーを無視している。
本稿では,2つのカテゴリ間の相関関係を定義し,既存のソリューションの体系的概要を提供する。
さらに,公開データセット,評価指標,時間的データ因果発見のための新たな視点を提供する。 Temporal data, representing chronological observations of complex systems, has always been a typical data structure that can be widely generated by many domains, such as industry, medicine and finance. Analyzing this type of data is extremely valuable for various applications. Thus, different temporal data analysis tasks, eg, classification, clustering and prediction, have been proposed in the past decades. Among them, causal discovery, learning the causal relations from temporal data, is considered an interesting yet critical task and has attracted much research attention. Existing causal discovery works can be divided into two highly correlated categories according to whether the temporal data is calibrated, ie, multivariate time series causal discovery, and event sequence causal discovery. However, most previous surveys are only focused on the time series causal discovery and ignore the second category. In this paper, we specify the correlation between the two categories and provide a systematical overview of existing solutions. Furthermore, we provide public datasets, evaluation metrics and new perspectives for temporal data causal discovery. | 翻訳日:2023-08-04 19:46:42 公開日:2023-08-03 |
# Q-Map:ブール関数の量子回路実装 Q-Map: Quantum Circuit Implementation of Boolean Functions ( http://arxiv.org/abs/2303.00075v2 ) ライセンス: Link先を確認 | Hassan Hajjdiab, Ashraf Khalil, Hichem Eleuch | (参考訳) 近年,量子コンピューティング技術の進歩により,量子コンピューティングが注目されている。
今日、IBM、Google、Microsoftのような多くの企業が研究と商業用の量子コンピュータとシミュレータを開発した。
量子技術とアルゴリズムの開発は、量子コンピュータの全力を活用するために不可欠である。
本稿では,古典論理回路の量子化のための単純な視覚的手法(Q-Mapと呼ぶ)を提案する。
提案手法はブール代数の概念を利用して最小数の量子ゲートを持つ量子回路を生成する。 Quantum computing has gained attention in recent years due to the significant progress in quantum computing technology. Today many companies like IBM, Google and Microsoft have developed quantum computers and simulators for research and commercial use. The development of quantum techniques and algorithms is essential to exploit the full power of quantum computers. In this paper we propose a simple visual technique (we call Q-Map) for quantum realisation of classical Boolean logic circuits. The proposed method utilises concepts from Boolean algebra to produce a quantum circuit with minimal number of quantum gates. | 翻訳日:2023-08-04 19:46:25 公開日:2023-08-03 |
# 極端量子化に着目したLightGBMによる衛星とゲージ計測降雨の融合 Merging satellite and gauge-measured precipitation using LightGBM with an emphasis on extreme quantiles ( http://arxiv.org/abs/2302.03606v2 ) ライセンス: Link先を確認 | Hristos Tyralis, Georgia Papacharalampous, Nikolaos Doulamis, Anastasios Doulamis | (参考訳) 宇宙と時間の実際の降水を知ることは水文学的モデリングアプリケーションでは重要であるが、雨量計の駅の空間範囲は経済的な制約のため限られている。
格子状衛星降水データセットは、一様に広い領域をカバーして実際の降水量を推定する代替オプションを提供するが、関連する見積もりは正確ではない。
降水量の予測を改善するため、雨量計に基づく計測と格子状衛星降水生成物の統合に機械学習を適用した。
この文脈では、観測された降水は依存変数の役割を担い、衛星データは予測変数の役割を担っている。
ランダムフォレストは、関連するアプリケーションにおける機械学習アルゴリズムの主流である。
これらの空間予測設定では、依存変数の点予測(主に条件分布の平均または中央値)が発行される。
本研究の目的は,空間補間設定における極端量子化に着目した降水確率予測の課題を解決することである。
本稿では,light gradient boosting machine (lightgbm) を用いた降水の確率的空間予測手法を提案する。
LightGBMは、予測と予測の競争において賞を獲得したエントリーによって強調される、ブースティングアルゴリズムである。
光GBMを評価するために,日中降水量測定とPERSIANNとGPM-IMERG衛星降水データを組み合わせた大規模アプリケーションを開発した。
我々は、依存変数の確率分布の極端量子化に着目し、LightGBMは極端量子化における量子化スコアの観点で、量子化回帰林(QRF、ランダムな森林の変種)より優れる。
本研究は,機械学習を用いた空間環境における確率的予測の理解を提供する。 Knowing the actual precipitation in space and time is critical in hydrological modelling applications, yet the spatial coverage with rain gauge stations is limited due to economic constraints. Gridded satellite precipitation datasets offer an alternative option for estimating the actual precipitation by covering uniformly large areas, albeit related estimates are not accurate. To improve precipitation estimates, machine learning is applied to merge rain gauge-based measurements and gridded satellite precipitation products. In this context, observed precipitation plays the role of the dependent variable, while satellite data play the role of predictor variables. Random forests is the dominant machine learning algorithm in relevant applications. In those spatial predictions settings, point predictions (mostly the mean or the median of the conditional distribution) of the dependent variable are issued. The aim of the manuscript is to solve the problem of probabilistic prediction of precipitation with an emphasis on extreme quantiles in spatial interpolation settings. Here we propose, issuing probabilistic spatial predictions of precipitation using Light Gradient Boosting Machine (LightGBM). LightGBM is a boosting algorithm, highlighted by prize-winning entries in prediction and forecasting competitions. To assess LightGBM, we contribute a large-scale application that includes merging daily precipitation measurements in contiguous US with PERSIANN and GPM-IMERG satellite precipitation data. We focus on extreme quantiles of the probability distribution of the dependent variable, where LightGBM outperforms quantile regression forests (QRF, a variant of random forests) in terms of quantile score at extreme quantiles. Our study offers understanding of probabilistic predictions in spatial settings using machine learning. | 翻訳日:2023-08-04 19:46:19 公開日:2023-08-03 |
# 固有クロックとしての量子不確かさ Quantum Uncertainty as an Intrinsic Clock ( http://arxiv.org/abs/2212.09442v3 ) ライセンス: Link先を確認 | Etera R. Livine | (参考訳) 量子力学において、古典粒子は波動関数に上昇し、より多くの自由度を得る。
例えば、半古典的状態において、位置と運動量期待値は古典的軌道に従うが、波束の不確かさは独立に進化し、打ち負かすことができる。
この知見を用いて、時間依存調和井戸における1次元粒子のダイナミクスを再検討する。
時間再パラメータ化とヴィラソロ群作用を考慮して、一定周波数の高調波発振器に系をマッピングすることで解くことができる。
このような単純化時間変数の同定は,ガウス波束の幅の進化を定量的に検討することにより,自然に解けることを示す。
さらに、時間依存調和ポテンシャルにおける古典的進化に対するエルマコフ・ルイス不変量は、ガウス波パックの量子不確かさであることを示した。
これは自然に古典的エルマコフ=ルイス不変量をシュロディンガー方程式に従って量子系の運動定数に拡張する。
量子重力と量子宇宙論への潜在的な応用について論じる。 In quantum mechanics, a classical particle is raised to a wave-function, thereby acquiring many more degrees of freedom. For instance, in the semi-classical regime, while the position and momentum expectation values follow the classical trajectory, the uncertainty of a wave-packet can evolve and beat independently. We use this insight to revisit the dynamics of a 1d particle in a time-dependent harmonic well. One can solve it by considering time reparameterizations and the Virasoro group action to map the system to the harmonic oscillator with constant frequency. We prove that identifying such a simplifying time variable is naturally solved by quantizing the system and looking at the evolution of the width of a Gaussian wave-packet. We further show that the Ermakov-Lewis invariant for the classical evolution in a time-dependent harmonic potential is actually the quantum uncertainty of a Gaussian wave-packet. This naturally extends the classical Ermakov-Lewis invariant to a constant of motion for quantum systems following Schrodinger equation. We conclude with a discussion of potential applications to quantum gravity and quantum cosmology. | 翻訳日:2023-08-04 19:45:16 公開日:2023-08-03 |
# 量子安定符号からの超対称共形場理論 Supersymmetric conformal field theories from quantum stabilizer codes ( http://arxiv.org/abs/2307.14602v2 ) ライセンス: Link先を確認 | Kohki Kawabata, Tatsuma Nishioka and Takuya Okuda | (参考訳) 我々は、スペクトルが量子安定化符号によって特徴づけられるフェルミオン共形場理論(CFT)を構築する。
我々は,カルダーバンク・ソール・ステアン型の量子安定化符号に着目し,超対称性を持つフェルミオン性cftの探索を行い,理論の超対称性に対する簡単な基準を導出する。
基準を満たすフェルミオンCFTのいくつかの例を示し、$\mathcal{N} =4$超対称性を実現する量子符号を求める。
我々の研究は量子符号の新しい応用を構成し、超対称CFTの体系的探索の道を開く。 We construct fermionic conformal field theories (CFTs) whose spectra are characterized by quantum stabilizer codes. We exploit our construction to search for fermionic CFTs with supersymmetry by focusing on quantum stabilizer codes of the Calderbank-Shor-Steane type, and derive simple criteria for the theories to be supersymmetric. We provide several examples of fermionic CFTs that meet the criteria, and find quantum codes that realize $\mathcal{N} =4$ supersymmetry. Our work constitutes a new application of quantum codes and paves the way for the methodical search for supersymmetric CFTs. | 翻訳日:2023-08-04 19:39:16 公開日:2023-08-03 |
# アルミジョ線探索による確率勾配降下の非凸最適化に必要なバッチサイズとステップ数の関係 Relationship between Batch Size and Number of Steps Needed for Nonconvex Optimization of Stochastic Gradient Descent using Armijo Line Search ( http://arxiv.org/abs/2307.13831v2 ) ライセンス: Link先を確認 | Yuki Tsukada, Hideaki Iiduka | (参考訳) 確率勾配降下(SGD)は、ディープニューラルネットワークをトレーニングする最も単純なディープラーニングオプティマイザである。
SGDは、定数や減少率などの様々な学習率を使用することができるが、以前の数値結果は、ラインサーチ法で与えられた学習率を使用する場合、他のディープラーニングオプティマイザよりも優れた性能を示した。
本稿では,非凸最適化のためのArmijoライン探索によって与えられる学習率を用いて,SGDの収束解析を行う。
解析の結果,ステップ数とバッチサイズが大きいと,全勾配の2乗ノルムの期待値の上限が小さくなることがわかった。
次に、Armijo-line-search 学習率を持つSGDの場合、非凸最適化に必要なステップの数は、バッチサイズの単調減少凸関数であり、非凸最適化に必要なステップの数は、バッチサイズが大きくなるにつれて減少することを示す。
さらに、確率的勾配計算コストである確率的一階オラクル(SFO)の複雑性は、バッチサイズの凸関数であり、すなわち、SFOの複雑性を最小限に抑える重要なバッチサイズが存在することを示す。
最後に、理論的結果を支持する数値結果を提供する。
計算結果から,ディープニューラルネットワークの訓練に必要なステップ数は,バッチサイズの増加に伴って減少し,理論結果から推定可能なクリティカルバッチサイズが存在することが示された。 Stochastic gradient descent (SGD) is the simplest deep learning optimizer with which to train deep neural networks. While SGD can use various learning rates, such as constant or diminishing rates, the previous numerical results showed that SGD performs better than other deep learning optimizers using when it uses learning rates given by line search methods. In this paper, we perform a convergence analysis on SGD with a learning rate given by an Armijo line search for nonconvex optimization. The analysis indicates that the upper bound of the expectation of the squared norm of the full gradient becomes small when the number of steps and the batch size are large. Next, we show that, for SGD with the Armijo-line-search learning rate, the number of steps needed for nonconvex optimization is a monotone decreasing convex function of the batch size; that is, the number of steps needed for nonconvex optimization decreases as the batch size increases. Furthermore, we show that the stochastic first-order oracle (SFO) complexity, which is the stochastic gradient computation cost, is a convex function of the batch size; that is, there exists a critical batch size that minimizes the SFO complexity. Finally, we provide numerical results that support our theoretical results. The numerical results indicate that the number of steps needed for training deep neural networks decreases as the batch size increases and that there exist the critical batch sizes that can be estimated from the theoretical results. | 翻訳日:2023-08-04 19:39:06 公開日:2023-08-03 |
# 海洋科学のための時空間データマイニング:データ,方法論,機会 Spatial-Temporal Data Mining for Ocean Science: Data, Methodologies, and Opportunities ( http://arxiv.org/abs/2307.10803v2 ) ライセンス: Link先を確認 | Hanchen Yang, Wengen Li, Shuyu Wang, Hui Li, Jihong Guan, Shuigeng Zhou, Jiannong Cao | (参考訳) 時空間(ST)海洋データの急速な蓄積により、気象予報や災害警報など様々な海洋問題に対処するため、時空間データマイニング(STDM)研究が数多く行われている。
典型的なSTデータ(例えば交通データ)と比較すると、ST海洋データはより複雑であるが、例えば、多様な地域性や高い空間性がある。
これらの特徴はst海洋データに基づくstdmモデルの設計と訓練を困難にしている。
私たちの知る限りでは、既存の研究の包括的な調査が文献に欠落しており、これはコンピュータ科学者が海洋データマイニングの研究課題を特定することだけでなく、海洋科学者が高度なstdm技術を適用することを妨げている。
本稿では,海洋科学における既存のSTDM研究を包括的に調査する。
具体的には,広く使用されているst oceanデータセットを初めてレビューし,その特徴を強調する。
次に、典型的なst ocean data quality enhancement techniqueについて考察する。
次に,海洋科学における既存のstm研究を,予測,事象検出,パターンマイニング,異常検出という4種類のタスクに分類し,これらのタスクの手法について詳述する。
最後に、有望な研究機会について論じる。
この調査は、コンピュータ科学と海洋科学の両方の科学者が、海洋科学におけるSTDMの基本的な概念、鍵となる技術、オープンな課題を理解するのに役立つ。 With the rapid amassing of spatial-temporal (ST) ocean data, many spatial-temporal data mining (STDM) studies have been conducted to address various oceanic issues, including climate forecasting and disaster warning. Compared with typical ST data (e.g., traffic data), ST ocean data is more complicated but with unique characteristics, e.g., diverse regionality and high sparsity. These characteristics make it difficult to design and train STDM models on ST ocean data. To the best of our knowledge, a comprehensive survey of existing studies remains missing in the literature, which hinders not only computer scientists from identifying the research issues in ocean data mining but also ocean scientists to apply advanced STDM techniques. In this paper, we provide a comprehensive survey of existing STDM studies for ocean science. Concretely, we first review the widely-used ST ocean datasets and highlight their unique characteristics. Then, typical ST ocean data quality enhancement techniques are explored. Next, we classify existing STDM studies in ocean science into four types of tasks, i.e., prediction, event detection, pattern mining, and anomaly detection, and elaborate on the techniques for these tasks. Finally, promising research opportunities are discussed. This survey can help scientists from both computer science and ocean science better understand the fundamental concepts, key techniques, and open challenges of STDM for ocean science. | 翻訳日:2023-08-04 19:38:41 公開日:2023-08-03 |
# 散逸相転移とパッシブエラー補正 Dissipative phase transitions and passive error correction ( http://arxiv.org/abs/2307.09512v2 ) ライセンス: Link先を確認 | Yu-Jie Liu and Simon Lieu | (参考訳) 古典的および量子的な情報を受動的に保護する方法を分類し、スピン系の局所リンドブラッドモデルでは、シンドロームの測定を許可しない。
このモデルの族の中では、受動的誤差補正は物質の非自明な相と結びついており、熱力学極限におけるリンドブラディアンの安定な状態退化に基づく散逸相の定義を提案する。
2次元イジングモデル,2次元トーリックコード,4次元トーリックコードという3つの熱化モデルについて検討した。
低温状態では、2D Isingモデルは頑健な古典的定常状態縮退を、4Dトーリックコードは頑健な量子定常状態縮退をホストする。
我々は、詳細なバランスに違反する項でモデルを摂動させ、質的特徴が変わらないことを観測し、lindbladian における $\mathbb{z}_2$ symmetry breaking が古典ビットを保護するのに役立つことを示唆する。 We classify different ways to passively protect classical and quantum information, i.e. we do not allow for syndrome measurements, in the context of local Lindblad models for spin systems. Within this family of models, we suggest that passive error correction is associated with nontrivial phases of matter and propose a definition for dissipative phases based on robust steady state degeneracy of a Lindbladian in the thermodynamic limit. We study three thermalizing models in this context: the 2D Ising model, the 2D toric code, and the 4D toric code. In the low-temperature phase, the 2D Ising model hosts a robust classical steady state degeneracy while the 4D toric code hosts a robust quantum steady state degeneracy. We perturb the models with terms that violate detailed balance and observe that qualitative features remain unchanged, suggesting that $\mathbb{Z}_2$ symmetry breaking in a Lindbladian is useful to protect a classical bit while intrinsic topological order protects a qubit. | 翻訳日:2023-08-04 19:38:18 公開日:2023-08-03 |
# CMOSスピン量子ビットにおける交換相互作用の経路積分シミュレーション Path integral simulation of exchange interactions in CMOS spin qubits ( http://arxiv.org/abs/2307.03455v3 ) ライセンス: Link先を確認 | Jes\'us D. Cifuentes, Philip Y. Mai, Fr\'ed\'eric Schlattner, H. Ekmel Ercan, MengKe Feng, Christopher C. Escott, Andrew S. Dzurak, Andre Saraiva | (参考訳) 半導体量子コンピューティングプラットフォームのブームは、量子デバイスのコンピュータ支援設計と製造の需要を生み出した。
パス積分モンテカルロ(PIMC)は、これらの多電子系にしばしば現れる強い量子相関を本質的に統合するため、この取り組みにおいて重要な役割を果たす。
本稿では,3次元電気的に定義された量子ドットの交換相互作用を推定するPIMCアルゴリズムを提案する。
このモデルをシリコン金属-酸化物-半導体(MOS)デバイスに適用し,FCIシミュレーションとの比較を行った。
アプリケーションとして、単一電荷トラップが2つの交換点に与える影響について検討し、CMOSデバイスの障害に対する耐性をテストするためにこのコードを使用する可能性を明らかにする。
このアルゴリズムはこのシステムの正確な記述を提供し、PIMCアルゴリズムを半導体量子コンピュータの開発に組み込むための最初のステップを設定する。 The boom of semiconductor quantum computing platforms created a demand for computer-aided design and fabrication of quantum devices. Path integral Monte Carlo (PIMC) can have an important role in this effort because it intrinsically integrates strong quantum correlations that often appear in these multi-electron systems. In this paper we present a PIMC algorithm that estimates exchange interactions of three-dimensional electrically defined quantum dots. We apply this model to silicon metal-oxide-semiconductor (MOS) devices and we benchmark our method against well-tested full configuration interaction (FCI) simulations. As an application, we study the impact of a single charge trap on two exchanging dots, opening the possibility of using this code to test the tolerance to disorder of CMOS devices. This algorithm provides an accurate description of this system, setting up an initial step to integrate PIMC algorithms into development of semiconductor quantum computers. | 翻訳日:2023-08-04 19:37:57 公開日:2023-08-03 |
# 双対ユニタリティの階層的一般化 Hierarchical generalization of dual unitarity ( http://arxiv.org/abs/2307.03138v2 ) ライセンス: Link先を確認 | Xie-Hang Yu, Zhiyuan Wang and Pavel Kos | (参考訳) 格子モデルにおける局所的な相互作用を伴う量子力学は、リッチな物理学を示すが、研究は困難である。
二重単位回路は、1次元または高次元の量子系における興味深い物理問題に対する正確な答えを可能にする。
しかし、このモデル群は、光円錐内における相関の消失や、局所的な可観測物の瞬時熱化など、普遍的な特徴を示す。
本研究では, 正確な計算可能な空間-時間相関関数がよりリッチな振る舞いを示し, 局所観測可能な非自明な熱化を持つデュアルユニタリ回路の一般化を提案する。
これは、単一ゲート条件をマルチゲート条件の階層に一般化することで実現され、第1レベルがデュアルユニタリモデルを復元し、第2レベルがこれら新しい興味深い特徴を示す。
また、議論を拡張して、わずかなサイトオブザーバブルを持つコリエータに正確なソリューションを提供し、量子クエンチ後のものを含む高階について議論する。
さらに、量子ビットの場合の徹底的なパラメトリゼーションを提供し、また、2より大きい局所次元のモデルの新しいファミリーを提案し、また二元単位モデルの新しいファミリーを提供する。 Quantum dynamics with local interactions in lattice models display rich physics, but is notoriously hard to study. Dual-unitary circuits allow for exact answers to interesting physical questions in clean or disordered one- and higher-dimensional quantum systems. However, this family of models shows some non-universal features, like vanishing correlations inside the light-cone and instantaneous thermalization of local observables. In this work we propose a generalization of dual-unitary circuits where the exactly calculable spatial-temporal correlation functions display richer behavior, and have non-trivial thermalization of local observables. This is achieved by generalizing the single-gate condition to a hierarchy of multi-gate conditions, where the first level recovers dual-unitary models, and the second level exhibits these new interesting features. We also extend the discussion and provide exact solutions to correlators with few-site observables and discuss higher-orders, including the ones after a quantum quench. In addition, we provide exhaustive parametrizations for qubit cases, and propose a new family of models for local dimensions larger than two, which also provides a new family of dual-unitary models. | 翻訳日:2023-08-04 19:37:42 公開日:2023-08-03 |
# c*-代数フレームワークにおけるステアリングについて On steering in the C*-algebraic framework ( http://arxiv.org/abs/2306.14344v2 ) ライセンス: Link先を確認 | Michal Banacki | (参考訳) 本稿では,特定の作用素代数によってモデル化されたパーティの局所サブシステムと二部ステアリングのシナリオについて論じる。
特に、可換可観測性パラダイムにおける量子集合の概念を定式化し、そのような対象の等価な記述に注目し、以前に散在したアプローチを体系的に分析する。
任意の有限次元アンシラによる信頼サブシステムの拡張の下で安定な量子交換およびテンソルモデルの等価性に必要な十分条件を提供する。
最後に,この最も一般的な二部体パラダイムにおける量子後ステアリングの可能性について,no-goの結果を示し,自由確率とオペレーターシステムアプローチに関する関連系について考察する。 We discuss a scenario of bipartite steering with local subsystems of the parties modeled by certain operator algebras. In particular, we formalize the notion of quantum assemblages in a commuting observables paradigm and focus on equivalent descriptions of such objects providing a systematic analysis of previously scattered approaches. We provide necessary and sufficient conditions for the equivalence of quantum commuting and tensor models that is stable under extensions of the trusted subsystem by arbitrary finite-dimensional ancillae. Finally, we provide no-go results concerning the possibility of post-quantum steering in this most general bipartite paradigm and discuss related corollaries concerning free probability and operator system approach. | 翻訳日:2023-08-04 19:37:21 公開日:2023-08-03 |
# レーザー被覆固体の光吸収に関するフロケット理論と計算法 Floquet theory and computational method for the optical absorption of laser-dressed solids ( http://arxiv.org/abs/2305.09808v2 ) ライセンス: Link先を確認 | Vishal Tiwari, Bing Gu, and Ignacio Franco | (参考訳) レーザー技術の最近の進歩により、強い光間相互作用によって物質の電子構造を工学化できるようになった。
しかし, レーザー処理した非平衡材料の物理化学的特性はよく分かっていない。
ここでは, 任意の強度と光子エネルギーの光に準じた固体の線形光吸収をモデル化し, 解釈できる一般理論を考案する。
この理論はどんな結晶性固体や量子材料にも当てはまる。
この理論では、駆動レーザーによるブロッホ電子のドレッシングはフロケ理論を用いて正確に扱われる。
このレーザ被覆材料の有効光学特性は、摂動理論において効果を第一次に捉えた弱いレーザーを通してプローブされる。
驚くべきことに、この非平衡系では、時間・空間周期フロッケブロッホモードは、光吸収がそれらの遷移から現れるのを見て、物質の原始固有状態の役割を果たす。
理論的なフレームワークをコードフロークティックに実装する。 floquet optics in solids) githubから入手可能です。
創発性現象を分離するため,強い非共鳴光によって駆動されるコサイン型格子電位を持つモデルで計算を行った。
計算は、動的フランツ・ケルディシュ効果を回復し、駆動レーザの振幅を増大させると、光学吸収の新たな劇的な変化を同定する。
Floquetは、駆動光子エネルギーの整数倍数で分離されたオープン吸収側バンドを複製する。
Floquet-Blochモードのハイブリッド化により、強い低周波吸収と励起放出が生じ、吸収スペクトルが低下する。
我々はこれらの新興効果をフロケ・ブロッホモードの純粋光学的テレテールシグネチャとして割り当てる。
これらの進歩は、レーザー被覆材料の応答特性をモデル化し、制御し、特徴付けるのに利用できる。 Recent advances in laser technology now enable engineering the electronic structure of matter through strong light-matter interactions. However, the effective physicochemical properties of these laser-dressed nonequilibrium materials are not well understood. Here we develop a general theory that now enables modeling and interpreting the linear optical absorption of solids that are dressed by light of arbitrary strength and photon energy. The theory applies to any crystalline solid and quantum materials. In the theory, the dressing of Bloch electrons by the driving laser is treated exactly using Floquet theory. The effective optical properties of this laser-dressed material are probed through a weak laser whose effects are captured to first order in perturbation theory. Remarkably, in this nonequilibrium system the time- and space-periodic Floquet-Bloch modes play the role of the pristine eigenstates of matter as the optical absorption is seen to emerge from transitions among them. We implement the theoretical framework into a code FloqticS: Floquet optics in Solids) available through Github. To isolate the emergent phenomenology, we performed computations in a model solid with a cosine-shaped lattice potential driven by strong nonresonant light. The computations recover the dynamical Franz-Keldysh effect and identify novel dramatic changes in the optical absorption upon increasing the amplitude of the driving laser. The Floquet replicas open absorption sidebands separated by integer multiples of the drive photon energy. The hybridization of the Floquet-Bloch modes, create intense low-frequency absorption and stimulated emissions, and dips in the absorption spectrum. We assign these emerging effects as purely-optical tell-tale signatures of the Floquet-Bloch modes. These advances can be used to model, control and characterize the response properties of laser-dressed materials. | 翻訳日:2023-08-04 19:36:51 公開日:2023-08-03 |
# ゼロデイマルウェアの分類とオンラインクラスタリング Classification and Online Clustering of Zero-Day Malware ( http://arxiv.org/abs/2305.00605v2 ) ライセンス: Link先を確認 | Olha Jure\v{c}kov\'a, Martin Jure\v{c}ek, Mark Stamp, Fabio Di Troia, R\'obert L\'orencz | (参考訳) 大量の新しいマルウェアが常に生成され、良質なサンプルと区別されるだけでなく、マルウェアファミリーにも分類されなければならない。
この目的のために、既存のマルウェアファミリーがどのように発展し、新興家族を調べる必要がある。
本稿では,悪意のあるサンプルのオンライン処理を,既存の家族に割り当てたり,新たな家族からサンプルを収集してクラスタ化する。
EMBERデータセットから有望な7つのマルウェアファミリー,トレーニングセットの4つ,テストセットの3つの新たなファミリーを実験した。
マルチ層パーセプトロンの分類スコアに基づいて,どのサンプルを分類し,どのサンプルを新しいマルウェア群に分類するかを決定した。
ストリーミングデータの97.21%を95.33%の精度で分類した。
そして、残りのデータを自己組織化マップを用いてクラスタ化し、4つのクラスタで47.61%から10個のクラスタで77.68%まで純度を得た。
これらの結果から,本手法はゼロデイマルウェアの分類とクラスタリングに応用できる可能性が示唆された。 A large amount of new malware is constantly being generated, which must not only be distinguished from benign samples, but also classified into malware families. For this purpose, investigating how existing malware families are developed and examining emerging families need to be explored. This paper focuses on the online processing of incoming malicious samples to assign them to existing families or, in the case of samples from new families, to cluster them. We experimented with seven prevalent malware families from the EMBER dataset, four in the training set and three additional new families in the test set. Based on the classification score of the multilayer perceptron, we determined which samples would be classified and which would be clustered into new malware families. We classified 97.21% of streaming data with a balanced accuracy of 95.33%. Then, we clustered the remaining data using a self-organizing map, achieving a purity from 47.61% for four clusters to 77.68% for ten clusters. These results indicate that our approach has the potential to be applied to the classification and clustering of zero-day malware into malware families. | 翻訳日:2023-08-04 19:36:23 公開日:2023-08-03 |
# ランダム植林:直接解釈可能な木のアンサンブル Random Planted Forest: a directly interpretable tree ensemble ( http://arxiv.org/abs/2012.14563v3 ) ライセンス: Link先を確認 | Munir Hiabu, Enno Mammen, Joseph T. Meyer | (参考訳) 回帰設定における予測のための新しい解釈可能な木ベースアルゴリズムを提案する。
我々のモチベーションは、関数成分が低次相互作用項に対応する機能分解の観点から未知の回帰関数を推定することである。
ランダムな森林アルゴリズムは、葉を削除せずに分割した後に保持することで修正する。
これは、私たちが植木と呼ぶ非二分木に繋がる。
森林への拡張は、ランダムに植林された森林アルゴリズムに繋がる。
さらに、葉の中で相互作用できる共変数の最大数は有界である。
この相互作用を 1 に束縛すると、結果として得られる推定値は 1-次元関数の和となる。
その他の極端な場合、極限をセットしない場合、結果として得られる推定子と対応するモデルは回帰関数の形式に制限を課さない。
シミュレーション研究により,無作為植林手法の予測と可視化特性について検討した。
また, 相互作用境界が低く, ランダム植林の理想化版に対する理論を考案する。
3より小さい場合、理想化されたバージョンは対数係数まで漸近的に最適な収束率を達成する。
コードはGitHub https://github.com/PlantedML/randomPlantedForestで公開されている。 We introduce a novel interpretable tree based algorithm for prediction in a regression setting. Our motivation is to estimate the unknown regression function from a functional decomposition perspective in which the functional components correspond to lower order interaction terms. The idea is to modify the random forest algorithm by keeping certain leaves after they are split instead of deleting them. This leads to non-binary trees which we refer to as planted trees. An extension to a forest leads to our random planted forest algorithm. Additionally, the maximum number of covariates which can interact within a leaf can be bounded. If we set this interaction bound to one, the resulting estimator is a sum of one-dimensional functions. In the other extreme case, if we do not set a limit, the resulting estimator and corresponding model place no restrictions on the form of the regression function. In a simulation study we find encouraging prediction and visualisation properties of our random planted forest method. We also develop theory for an idealized version of random planted forests in cases where the interaction bound is low. We show that if it is smaller than three, the idealized version achieves asymptotically optimal convergence rates up to a logarithmic factor. Code is available on GitHub https://github.com/PlantedML/randomPlantedForest. | 翻訳日:2023-08-04 17:52:02 公開日:2023-08-03 |
# 事前知識を活用したガンマ・ミニマックス推定器の対数メタラーニング Adversarial Meta-Learning of Gamma-Minimax Estimators That Leverage Prior Knowledge ( http://arxiv.org/abs/2012.05465v5 ) ライセンス: Link先を確認 | Hongxiang Qiu, Alex Luedtke | (参考訳) ベイズ推定器は、単一の事前分布で表現できる事前知識を組み込む手段としてよく知られている。
しかし、この知識が単一の事前で表現するには曖昧すぎる場合、別のアプローチが必要である。
ガンマ-ミニマックス推定器はそのようなアプローチを提供する。
これらの推定者は、利用可能な知識と互換性のある事前分布のセットの$\gamma$に対する最悪のベイズリスクを最小限に抑える。
伝統的に、ガンマ極大はパラメトリックモデルに対して定義される。
本研究では,一般モデルに対するガンマ・ミニマックス推定器を定義し,事前分布の集合が一般化モーメントによって制約された場合に,その計算を行う逆メタ学習アルゴリズムを提案する。
収束保証も用意されている。
また,ガンマ・ミニマックス推定器を選択可能な,リッチだが有限次元の推定器クラスを提供するニューラルネットワーククラスも導入する。
本手法は,生物多様性研究で発生するエントロピー推定と予測問題という2つの設定で説明する。 Bayes estimators are well known to provide a means to incorporate prior knowledge that can be expressed in terms of a single prior distribution. However, when this knowledge is too vague to express with a single prior, an alternative approach is needed. Gamma-minimax estimators provide such an approach. These estimators minimize the worst-case Bayes risk over a set $\Gamma$ of prior distributions that are compatible with the available knowledge. Traditionally, Gamma-minimaxity is defined for parametric models. In this work, we define Gamma-minimax estimators for general models and propose adversarial meta-learning algorithms to compute them when the set of prior distributions is constrained by generalized moments. Accompanying convergence guarantees are also provided. We also introduce a neural network class that provides a rich, but finite-dimensional, class of estimators from which a Gamma-minimax estimator can be selected. We illustrate our method in two settings, namely entropy estimation and a prediction problem that arises in biodiversity studies. | 翻訳日:2023-08-04 17:51:47 公開日:2023-08-03 |
# ROME: トポロジアンタングルメントとグラディエント蓄積によるメモリ効率NASのロバスト化 ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and Gradient Accumulation ( http://arxiv.org/abs/2011.11233v2 ) ライセンス: Link先を確認 | Xiaoxing Wang and Xiangxiang Chu and Yuda Fan and Zhexi Zhang and Bo Zhang and Xiaokang Yang and Junchi Yan | (参考訳) 一般的なアーキテクチャ探索手法であるにもかかわらず、DARTS(Dariable Architecture Search)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。
ここでシングルパスDARTSが登場し、各ステップでシングルパスサブモデルのみを選択する。
メモリフレンドリーだが、計算コストも低い。
しかし,特に注目されていないシングルパスDARTSの致命的な問題を発見した。
つまり、DARTSのように、スキップ接続のようなパラメータフリーな操作が多すぎるため、パフォーマンスが著しく低下する。
本稿では, RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
まず、トポロジ検索を操作探索から切り離して、検索と評価を一貫性のあるものにする。
次に、Gumbel-Top2再パラメータ化と勾配累積を導入し、不安定な二段階最適化の強化を図る。
我々はROMEを15のベンチマークで広範囲に検証し、その有効性と堅牢性を示す。 Albeit being a prevalent architecture searching approach, differentiable architecture search (DARTS) is largely hindered by its substantial memory cost since the entire supernet resides in the memory. This is where the single-path DARTS comes in, which only chooses a single-path submodel at each step. While being memory-friendly, it also comes with low computational costs. Nonetheless, we discover a critical issue of single-path DARTS that has not been primarily noticed. Namely, it also suffers from severe performance collapse since too many parameter-free operations like skip connections are derived, just like DARTS does. In this paper, we propose a new algorithm called RObustifying Memory-Efficient NAS (ROME) to give a cure. First, we disentangle the topology search from the operation search to make searching and evaluation consistent. We then adopt Gumbel-Top2 reparameterization and gradient accumulation to robustify the unwieldy bi-level optimization. We verify ROME extensively across 15 benchmarks to demonstrate its effectiveness and robustness. | 翻訳日:2023-08-04 17:51:31 公開日:2023-08-03 |
# 複合測定による相関 Correlations constrained by composite measurements ( http://arxiv.org/abs/2009.04994v4 ) ライセンス: Link先を確認 | John H. Selby, Ana Bel\'en Sainz, Victor Magron, {\L}ukasz Czekaj, Micha{\l} Horodecki | (参考訳) 自然界で許容される相関の集合をどう理解するかは、量子論の基礎の中核における際立ったオープンな問題である。
ここでは、デバイス非依存のアプローチを補完的に捉え、物理理論がそれらの測定値の特定の制約によって制限される場合の相関について検討する。
理論が {a Composite} の測定を要求されることは、その状態と効果の集合の構造に制約の階層を課し、許容される相関自体に制約の階層を課すことが示される。
さらに我々は,局所的な実測値のパリティを読み出す相関測定の存在を要求した場合に焦点をあてる。
非線形最適化問題とそれに対する半定値緩和を定式化し,ベル不等式違反に対するパリティ読解法の存在の帰結を考察する。
特に、ある状況において、この仮定は驚くほど強い結果、すなわち、tsirelson の束縛が回復できることを示す。 How to understand the set of correlations admissible in nature is one outstanding open problem in the core of the foundations of quantum theory. Here we take a complementary viewpoint to the device-independent approach, and explore the correlations that physical theories may feature when restricted by some particular constraints on their measurements. We show that demanding that a theory exhibits {a composite} measurement imposes a hierarchy of constraints on the structure of its sets of states and effects, which translate to a hierarchy of constraints on the allowed correlations themselves. We moreover focus on the particular case where one demands the existence of a correlated measurement that reads out the parity of local fiducial measurements. By formulating a non-linear Optimisation Problem, and semidefinite relaxations of it, we explore the consequences of the existence of such a parity reading measurement for violations of Bell inequalities. In particular, we show that in certain situations this assumption has surprisingly strong consequences, namely, that Tsirelson's bound can be recovered. | 翻訳日:2023-08-04 17:51:15 公開日:2023-08-03 |
# 多パラメータ持続性による安定かつ一貫した密度クラスタリング Stable and consistent density-based clustering via multiparameter persistence ( http://arxiv.org/abs/2005.09048v3 ) ライセンス: Link先を確認 | Alexander Rolle, Luis Scoccola | (参考訳) 本研究では,密度に敏感なマルチパラメータ階層クラスタリングアルゴリズムを提供するトポロジカルデータ解析から,次数リップス構成を考える。
本稿では,階層クラスタリングの指標である対応インターリーブ距離を用いて,入力データの摂動に対する安定性を解析する。
等級の1パラメータスライスを取ると、密度に基づくクラスタリングでよく知られた手法が回復するが、これらの手法は不安定であることを示す。
しかし、多パラメータオブジェクトとして次数リップが安定であることを証明するとともに、より優れた安定性を持つ1パラメータ階層クラスタリングアルゴリズムである次数リップのスライスを取るための別のアプローチを提案する。
我々は,このアルゴリズムが一致していることを証明する。
本研究では,1パラメータ階層クラスタリングから単一クラスタリングを抽出するアルゴリズムを提案する。
そして、これらのメソッドを密度ベースのクラスタリングのためのパイプラインに統合します。
多パラメータの永続的ホモロジーからツールに適応し、パイプラインの全てのパラメータの選択をガイドする可視化ツールを提案する。
ベンチマークデータセット上で永続性を示し,マルチスケールなクラスタ構造を識別する。 We consider the degree-Rips construction from topological data analysis, which provides a density-sensitive, multiparameter hierarchical clustering algorithm. We analyze its stability to perturbations of the input data using the correspondence-interleaving distance, a metric for hierarchical clusterings that we introduce. Taking certain one-parameter slices of degree-Rips recovers well-known methods for density-based clustering, but we show that these methods are unstable. However, we prove that degree-Rips, as a multiparameter object, is stable, and we propose an alternative approach for taking slices of degree-Rips, which yields a one-parameter hierarchical clustering algorithm with better stability properties. We prove that this algorithm is consistent, using the correspondence-interleaving distance. We provide an algorithm for extracting a single clustering from one-parameter hierarchical clusterings, which is stable with respect to the correspondence-interleaving distance. And, we integrate these methods into a pipeline for density-based clustering, which we call Persistable. Adapting tools from multiparameter persistent homology, we propose visualization tools that guide the selection of all parameters of the pipeline. We demonstrate Persistable on benchmark datasets, showing that it identifies multi-scale cluster structure in data. | 翻訳日:2023-08-04 17:50:57 公開日:2023-08-03 |
# RAB: バックドア攻撃に対するロバスト性 RAB: Provable Robustness Against Backdoor Attacks ( http://arxiv.org/abs/2003.08904v8 ) ライセンス: Link先を確認 | Maurice Weber, Xiaojun Xu, Bojan Karla\v{s}, Ce Zhang, Bo Li | (参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)は、回避やバックドア(中毒)攻撃を含む敵の攻撃に弱いことが示されている。
防衛面では、回避攻撃に対する経験的かつ証明可能なロバスト性の向上に力を入れてきたが、バックドア攻撃に対する証明可能なロバスト性は依然としてほとんど解明されていない。
本稿では,一般的な脅威モデル,特にバックドア攻撃に対する機械学習モデルの堅牢性を検証することに焦点を当てる。
まず,ランダム化平滑化手法による統一フレームワークを提供し,回避とバックドア攻撃の両方に対するロバスト性を確認するためのインスタンス化方法を示す。
次に,最初のロバストなトレーニングプロセスであるrabを提案し,トレーニングモデルを円滑にし,バックドア攻撃に対するロバスト性を確認する。
我々は、RABでトレーニングされた機械学習モデルのロバスト性バウンドを証明し、ロバスト性バウンドが厳密であることを証明する。
さらに,K-アネレス近傍分類器などの単純なモデルに対して,ロバストな滑らかなモデルを効率的に訓練できることを理論的に示し,そのようなモデルに対する雑音分布からサンプルを除去するスムーズな学習アルゴリズムを提案する。
実験では,MNIST,CIFAR-10,ImageNetteデータセット上で,DNN,サポートベクタマシン,K-NNモデルなどの機械学習(ML)モデルの総合的な実験を行い,バックドア攻撃に対するロバスト性を示す最初のベンチマークを提供する。
さらに,提案アルゴリズムの利点を示すために,スパムベース表付きデータセットを用いたK-NNモデルの評価を行った。
さまざまなMLモデルとデータセットに関する理論分析と包括的な評価の両方が、一般的なトレーニング時間攻撃に対するさらなる堅牢な学習戦略に光を当てた。 Recent studies have shown that deep neural networks (DNNs) are vulnerable to adversarial attacks, including evasion and backdoor (poisoning) attacks. On the defense side, there have been intensive efforts on improving both empirical and provable robustness against evasion attacks; however, the provable robustness against backdoor attacks still remains largely unexplored. In this paper, we focus on certifying the machine learning model robustness against general threat models, especially backdoor attacks. We first provide a unified framework via randomized smoothing techniques and show how it can be instantiated to certify the robustness against both evasion and backdoor attacks. We then propose the first robust training process, RAB, to smooth the trained model and certify its robustness against backdoor attacks. We prove the robustness bound for machine learning models trained with RAB and prove that our robustness bound is tight. In addition, we theoretically show that it is possible to train the robust smoothed models efficiently for simple models such as K-nearest neighbor classifiers, and we propose an exact smooth-training algorithm that eliminates the need to sample from a noise distribution for such models. Empirically, we conduct comprehensive experiments for different machine learning (ML) models such as DNNs, support vector machines, and K-NN models on MNIST, CIFAR-10, and ImageNette datasets and provide the first benchmark for certified robustness against backdoor attacks. In addition, we evaluate K-NN models on a spambase tabular dataset to demonstrate the advantages of the proposed exact algorithm. Both the theoretic analysis and the comprehensive evaluation on diverse ML models and datasets shed light on further robust learning strategies against general training time attacks. | 翻訳日:2023-08-04 17:50:37 公開日:2023-08-03 |
# ブートストラップしたディープアンサンブルを用いたニューラルネットワークの信頼度 Confident Neural Network Regression with Bootstrapped Deep Ensembles ( http://arxiv.org/abs/2202.10903v2 ) ライセンス: Link先を確認 | Laurens Sluijterman, Eric Cator, Tom Heskes | (参考訳) ニューラルネットワークの人気と利用が高まり、信頼性の高い不確実性推定がますます重要になっている。
最も顕著な不確実性推定手法の1つはDeep Ensembles (Lakshminarayanan et al., 2017)である。
古典的パラメトリックモデルは、モデルが構築されているデータがランダムサンプルであるという事実から、パラメータに不確実性がある。
現代のニューラルネットワークは、ネットワークの最適化がランダムであるため、さらなる不確実性を持つ。
Lakshminarayanan et al. (2017) は、Deep Ensembles は有限データの影響によって引き起こされる古典的な不確実性を含まないことを指摘した。
本稿では,パラメータブートストラップの修正版を用いて,この有限データの古典的効果を考慮に入れた,Bootstrapped Deep Ensemblesと呼ばれる回帰設定のための,計算的に安価なDeep Ensembles拡張を提案する。
実験により,本手法が標準のDeep Ensemblesで大幅に改善されることを示す。 With the rise of the popularity and usage of neural networks, trustworthy uncertainty estimation is becoming increasingly essential. One of the most prominent uncertainty estimation methods is Deep Ensembles (Lakshminarayanan et al., 2017) . A classical parametric model has uncertainty in the parameters due to the fact that the data on which the model is build is a random sample. A modern neural network has an additional uncertainty component since the optimization of the network is random. Lakshminarayanan et al. (2017) noted that Deep Ensembles do not incorporate the classical uncertainty induced by the effect of finite data. In this paper, we present a computationally cheap extension of Deep Ensembles for the regression setting, called Bootstrapped Deep Ensembles, that explicitly takes this classical effect of finite data into account using a modified version of the parametric bootstrap. We demonstrate through an experimental study that our method significantly improves upon standard Deep Ensembles | 翻訳日:2023-08-04 17:47:01 公開日:2023-08-03 |
# オンライン手書き認識のための三重項損失関数を用いた補助クロスモーダル表現学習 Auxiliary Cross-Modal Representation Learning with Triplet Loss Functions for Online Handwriting Recognition ( http://arxiv.org/abs/2202.07901v3 ) ライセンス: Link先を確認 | Felix Ott and David R\"ugamer and Lucas Heublein and Bernd Bischl and Christopher Mutschler | (参考訳) クロスモーダル表現学習は、2つ以上のモダリティ間の共有埋め込みを学び、与えられたタスクのパフォーマンスを改善する。
画像や時系列データ(音声やテキストデータなど)などの異なるデータタイプから学習するクロスモーダル表現は、モダリティ埋め込み間の距離を最小化する深層学習の損失を必要とする。
本稿では,画像と時系列のモダリティ(CMR-IS)間のクロスモーダルな表現学習において,正と負の同一性を用いて異なるラベルを持つサンプルペアを生成することを提案する。
クロスモーダル表現学習にトリプレットロスを適用することにより、補助(画像分類)タスクの追加情報を利用することにより、メイン(時系列分類)タスクの精度を高めることができる。
本稿では,単一ラベルとシーケンス列の分類タスクに対して動的マージンを持つ三重項損失を提案する。
我々は, 合成画像と時系列データ, オフライン手書き文字認識(HWR)のためのデータと, センサ付ペンによる文字分類のためのオンラインHWRについて, 広範囲な評価を行った。
提案実験は, 分類精度の向上, 収束の高速化, クロスモーダル表現の改善による一般化性の向上を示す。
さらに、より適切な一般化可能性により、オンラインHWRに対するライター間の適合性が向上する。 Cross-modal representation learning learns a shared embedding between two or more modalities to improve performance in a given task compared to using only one of the modalities. Cross-modal representation learning from different data types -- such as images and time-series data (e.g., audio or text data) -- requires a deep metric learning loss that minimizes the distance between the modality embeddings. In this paper, we propose to use the contrastive or triplet loss, which uses positive and negative identities to create sample pairs with different labels, for cross-modal representation learning between image and time-series modalities (CMR-IS). By adapting the triplet loss for cross-modal representation learning, higher accuracy in the main (time-series classification) task can be achieved by exploiting additional information of the auxiliary (image classification) task. We present a triplet loss with a dynamic margin for single label and sequence-to-sequence classification tasks. We perform extensive evaluations on synthetic image and time-series data, and on data for offline handwriting recognition (HWR) and on online HWR from sensor-enhanced pens for classifying written words. Our experiments show an improved classification accuracy, faster convergence, and better generalizability due to an improved cross-modal representation. Furthermore, the more suitable generalizability leads to a better adaptability between writers for online HWR. | 翻訳日:2023-08-04 17:46:43 公開日:2023-08-03 |
# Lawin Transformer: セマンティックセグメンテーションのためのマルチスケール表現による新しいEraビジョンバックボーンの改良 Lawin Transformer: Improving New-Era Vision Backbones with Multi-Scale Representations for Semantic Segmentation ( http://arxiv.org/abs/2201.01615v2 ) ライセンス: Link先を確認 | Haotian Yan and Chuang Zhang and Ming Wu | (参考訳) マルチレベルアグリゲーション(MLA)モジュールは、セマンティックセグメンテーションにおいて、新しい時代のビジョンバックボーンを前進させる重要なコンポーネントとして登場した。
本稿では,視覚バックボーンからのマルチスケール特徴マップを創造的に活用する新しいMLAアーキテクチャであるLawin (large window) Transformerを提案する。
lawin transformerのコアはlawin attentionであり、ローカルウィンドウよりもずっと大きなコンテキストウィンドウをクエリできる、新たに設計されたウィンドウアテンションメカニズムである。
我々は,大規模ウィンドウパラダイムの効率的かつ簡易な応用について研究することに注力し,大規模コンテクストのクエリとマルチスケール表現のキャプチャに対する比率の柔軟な規制を可能にした。
我々はLawin TransformerがCityscapesおよびADE20Kに与える影響を検証し、新しい視覚バックボーンと組み合わせることで、広く使われているMLAモジュールに優れた優位性を示す。
コードはhttps://github.com/yan-hao-tian/lawinで入手できる。 The multi-level aggregation (MLA) module has emerged as a critical component for advancing new-era vision back-bones in semantic segmentation. In this paper, we propose Lawin (large window) Transformer, a novel MLA architecture that creatively utilizes multi-scale feature maps from the vision backbone. At the core of Lawin Transformer is the Lawin attention, a newly designed window attention mechanism capable of querying much larger context windows than local windows. We focus on studying the efficient and simplistic application of the large-window paradigm, allowing for flexible regulation of the ratio of large context to query and capturing multi-scale representations. We validate the effectiveness of Lawin Transformer on Cityscapes and ADE20K, consistently demonstrating great superiority to widely-used MLA modules when combined with new-era vision backbones. The code is available at https://github.com/yan-hao-tian/lawin. | 翻訳日:2023-08-04 17:46:19 公開日:2023-08-03 |
# リレーショナル・エクスペリエンス・リプレイ:タスク・アズ・リレーションを適応的に調整した継続的学習 Relational Experience Replay: Continual Learning by Adaptively Tuning Task-wise Relationship ( http://arxiv.org/abs/2112.15402v3 ) ライセンス: Link先を確認 | Quanziang Wang, Renzhen Wang, Yuexiang Li, Dong Wei, Kai Ma, Yefeng Zheng, Deyu Meng | (参考訳) 継続的学習は、ストリーミングトレーニングデータに関する学習知識を維持しながら、新しいタスクを学ぶための、有望な機械学習パラダイムである。
現在、古いタスクからのデータの一部をメモリバッファとして保持するリハーサルベースの手法は、これまで学んだ知識に対する破滅的な忘れを緩和する優れた性能を示している。
しかし、これらの手法の多くは、通常、それぞれの新しいタスクを等しく扱い、古いタスクと新しいタスクの関係や類似性を適切に考慮していない。
さらに、これらの手法は、連続的なトレーニングプロセスにおけるサンプルの重要性を一般的に無視し、特定のタスクにおける準最適性能をもたらす。
この課題に対処するため,両レベルの学習フレームワークであるリレーショナル・エクスペリエンス・リプレイ(RER)を提案し,タスク間の関係やサンプルの重要性を適応的に調整し,より優れた「安定性」と「塑性」トレードオフを実現する。
そこで,提案手法は,学習中に学習した古い知識を集約しながら,新しい知識を蓄積することができる。
CIFAR-10、CIFAR-100、Tiny ImageNetの3つの公開データセットで実施された大規模な実験により、提案手法は全てのベースラインの性能を一貫して改善し、現在の最先端の手法を上回ることができることが示された。 Continual learning is a promising machine learning paradigm to learn new tasks while retaining previously learned knowledge over streaming training data. Till now, rehearsal-based methods, keeping a small part of data from old tasks as a memory buffer, have shown good performance in mitigating catastrophic forgetting for previously learned knowledge. However, most of these methods typically treat each new task equally, which may not adequately consider the relationship or similarity between old and new tasks. Furthermore, these methods commonly neglect sample importance in the continual training process and result in sub-optimal performance on certain tasks. To address this challenging problem, we propose Relational Experience Replay (RER), a bi-level learning framework, to adaptively tune task-wise relationships and sample importance within each task to achieve a better `stability' and `plasticity' trade-off. As such, the proposed method is capable of accumulating new knowledge while consolidating previously learned old knowledge during continual learning. Extensive experiments conducted on three publicly available datasets (i.e., CIFAR-10, CIFAR-100, and Tiny ImageNet) show that the proposed method can consistently improve the performance of all baselines and surpass current state-of-the-art methods. | 翻訳日:2023-08-04 17:46:02 公開日:2023-08-03 |
# ビームスプリッター、双極子-双極子相互作用、イジング相互作用を持つ多部ハイブリッド量子系のダイナミクス Dynamics of a multipartite hybrid quantum system with beamsplitter, dipole-dipole, and Ising interactions ( http://arxiv.org/abs/2112.11521v4 ) ライセンス: Link先を確認 | Pradip Laha | (参考訳) 異種量子システムを高精度に活用し、情報の保存、処理、送信を行うことは、量子通信におけるマルチタスクのための理想的な候補となる。
相互に増大する相互作用の司法的選択を含む適切な量子系は、量子状態に深く入り込むのに役立つ可能性がある。
ここでは、一対の量子ビットと一対の発振器からなる1つのサブシステムからなるそのようなハイブリッド二部量子モデルを用いて、絡み合いのダイナミクスと離散変数と連続変数間の絡み合いの遷移を研究する。
我々の基本的なモデルは、適切な条件下で、絡み合いの伝達と絡み合いの突然死の両方をサポートする標準のjaynes-cummingsシステムである。
本研究では,振動子間のビームスプリッタ型交換相互作用,ダイポールダイポールおよびアイシング型相互作用などの実験的な相互作用を含むように一般化する。
種々の相互作用と初期発振器状態が絡み合いダイナミクスに影響を及ぼす方法について, 一般実験条件について理論的に検討した。
正確な解析解を用いて,ビームスプリッタや双極子-双極子相互作用と比較して,Ising相互作用は死と生の絡み合いに有意な影響を及ぼしうること,そして死の時間的短縮に加えて,これらの現象の開始が延期されることが示唆された。 The possibility of exploiting heterogeneous quantum systems to high precision, for storing, processing, and transmitting information makes them ideal candidates for multi-tasking purposes in quantum communication. Appropriate quantum systems involving a judicious choice of interactions which augment each other, are potentially useful for probing deep into quantum regimes. Here, we make use of one such hybrid bipartite quantum model, with one subsystem made of a pair of qubits and another comprising a pair of oscillators, to study the entanglement dynamics, and the entanglement transfer between discrete and continuous variables. Our basic model is the standard double Jaynes-Cummings system, which is known to support both entanglement transfer and entanglement sudden death, under suitable conditions. In this work, we generalise this model to include further experimentally relevant interactions, such as the beamsplitter-type exchange interaction between the oscillators, and dipole-dipole and Ising-type interactions between the qubits. The manner in which various interactions and initial oscillator states affect the entanglement dynamics, is examined theoretically, for generic experimental conditions. Using exact analytical solutions, we show that compared to the beamsplitter or dipole-dipole interaction, the Ising interaction can have a significant positive impact on entanglement sudden death and birth, and postponement of the onset of these phenomena, apart from producing substantial reduction in the time duration of the death. | 翻訳日:2023-08-04 17:45:36 公開日:2023-08-03 |
# 学習の共有と共有の学習 -- メタラーニング、マルチタスク学習、トランスファーラーニングをまとめて - メタレビュー Sharing to learn and learning to share -- Fitting together Meta-Learning, Multi-Task Learning, and Transfer Learning: A meta review ( http://arxiv.org/abs/2111.12146v6 ) ライセンス: Link先を確認 | Richa Upadhyay, Ronald Phlypo, Rajkumar Saini, Marcus Liwicki | (参考訳) 異なる領域にまたがる知識の統合は、人間学習の重要な特徴である。
トランスファーラーニング、メタラーニング、マルチタスクラーニングといった学習パラダイムは、従来の知識を新しいタスクに活用することで人間の学習プロセスを反映し、より高速な学習と新しいタスクの優れた一般化を促進する。
本稿では,これらの学習パラダイムとその比較分析について概観する。
ある学習アルゴリズムの弱さは、他のアルゴリズムの強みであることが判明し、それらを統合することは文学における一般的な特徴である。
これらの学習パラダイムを別々に扱う多くの研究論文があり、それらを総合的に概観している。
しかし,本稿では,これらの学習アルゴリズムを2つ組み合わせた研究のレビューを行う。
本研究は, コンピュータビジョン, 自然言語処理, ハイパースペクトルイメージングなど, 様々な分野の課題を教師あり環境で解決するために, これらの手法が組み合わされた方法について述べる。
その結果,グローバル・ジェネリック・ラーニング・ネットワークはメタラーニング,トランスファーラーニング,マルチタスクラーニングの融合を図り,オープンな研究課題とマルチタスク・セッティングにおける今後の研究方向性を紹介する。 Integrating knowledge across different domains is an essential feature of human learning. Learning paradigms such as transfer learning, meta learning, and multi-task learning reflect the human learning process by exploiting the prior knowledge for new tasks, encouraging faster learning and good generalization for new tasks. This article gives a detailed view of these learning paradigms and their comparative analysis. The weakness of one learning algorithm turns out to be a strength of another, and thus merging them is a prevalent trait in the literature. There are numerous research papers that focus on each of these learning paradigms separately and provide a comprehensive overview of them. However, this article provides a review of research studies that combine (two of) these learning algorithms. This survey describes how these techniques are combined to solve problems in many different fields of study, including computer vision, natural language processing, hyperspectral imaging, and many more, in supervised setting only. As a result, the global generic learning network an amalgamation of meta learning, transfer learning, and multi-task learning is introduced here, along with some open research questions and future research directions in the multi-task setting. | 翻訳日:2023-08-04 17:45:06 公開日:2023-08-03 |
# チープ空間変換を用いたプルーンドフィルタの再構成 Reconstructing Pruned Filters using Cheap Spatial Transformations ( http://arxiv.org/abs/2110.12844v2 ) ライセンス: Link先を確認 | Roy Miles and Krystian Mikolajczyk | (参考訳) 安価な空間変換を用いた畳み込み層の効率的な代替手段を提案する。
この構成は、学習された畳み込みフィルタの固有の空間的冗長性を利用して、より高いパラメータ効率を実現し、その密集したカウンターパートの最上位精度を維持している。
これらのネットワークのトレーニングは一般化されたプルーニング問題としてモデル化され、プルーニングフィルタは非プルーニングフィルタの集合からの安価な変換に置き換えられる。
提案手法では, 過剰な特徴圧縮を回避し, 変換された特徴の表現性を向上するため, 提案する層を効率的に実装する。
これらのネットワークはcifar-10とimagenet-1kの両方のデータセットで最先端のpruningモデルに匹敵する性能や性能を実現できる。 We present an efficient alternative to the convolutional layer using cheap spatial transformations. This construction exploits an inherent spatial redundancy of the learned convolutional filters to enable a much greater parameter efficiency, while maintaining the top-end accuracy of their dense counter-parts. Training these networks is modelled as a generalised pruning problem, whereby the pruned filters are replaced with cheap transformations from the set of non-pruned filters. We provide an efficient implementation of the proposed layer, followed by two natural extensions to avoid excessive feature compression and to improve the expressivity of the transformed features. We show that these networks can achieve comparable or improved performance to state-of-the-art pruning models across both the CIFAR-10 and ImageNet-1K datasets. | 翻訳日:2023-08-04 17:44:27 公開日:2023-08-03 |
# 回帰のための機械学習における不確実性評価方法 How to Evaluate Uncertainty Estimates in Machine Learning for Regression? ( http://arxiv.org/abs/2106.03395v2 ) ライセンス: Link先を確認 | Laurens Sluijterman, Eric Cator, Tom Heskes | (参考訳) ニューラルネットワークが普及するにつれて、不確実性推定に伴う必要性が増加する。
現在、これらの見積もりの品質をテストする2つの主要なアプローチがあります。
ほとんどの方法は密度を出す。
テストセット上でloglikelihoodを評価することで比較することができる。
他の方法は予測間隔を直接出力する。
これらの方法は、対応する予測間隔内にあるテストポイントの分数を調べることでしばしばテストされる。
直感的にはどちらのアプローチも論理的だ。
しかし, 理論的な議論とシミュレーションによって, 不確実性評価の両手法に重大な欠陥があることを実証する。
第一に、どちらのアプローチも予測の不確実性を共同生成する別々のコンポーネントを分離できないため、これらのコンポーネントの見積もりの品質を評価するのが困難である。
第二に、より優れたloglikelihoodでは、より良い予測間隔が保証されない。
さらに、予測間隔を直接テストする現在のアプローチには、さらなる欠陥がある。
一つのテストセットで予測や信頼区間をテストすることが根本的な欠陥である理由を示す。
せいぜい、限界カバレッジは測定され、自信過剰で信頼できない予測を暗黙的に平均する。
より望ましい特性は、各予測に対して適切なカバレッジを必要とするポイントワイズカバレッジである。
これらの効果が信頼度や予測間隔の望ましくない振る舞いを持つ予測的不確実性に基づく方法に有利な結果をもたらすことを実例で示す。
最後に,これらの問題に対処しつつ,異なる手法の比較を容易にするシミュレーションベースのテスト手法を提案する。 As neural networks become more popular, the need for accompanying uncertainty estimates increases. There are currently two main approaches to test the quality of these estimates. Most methods output a density. They can be compared by evaluating their loglikelihood on a test set. Other methods output a prediction interval directly. These methods are often tested by examining the fraction of test points that fall inside the corresponding prediction intervals. Intuitively both approaches seem logical. However, we demonstrate through both theoretical arguments and simulations that both ways of evaluating the quality of uncertainty estimates have serious flaws. Firstly, both approaches cannot disentangle the separate components that jointly create the predictive uncertainty, making it difficult to evaluate the quality of the estimates of these components. Secondly, a better loglikelihood does not guarantee better prediction intervals, which is what the methods are often used for in practice. Moreover, the current approach to test prediction intervals directly has additional flaws. We show why it is fundamentally flawed to test a prediction or confidence interval on a single test set. At best, marginal coverage is measured, implicitly averaging out overconfident and underconfident predictions. A much more desirable property is pointwise coverage, requiring the correct coverage for each prediction. We demonstrate through practical examples that these effects can result in favoring a method, based on the predictive uncertainty, that has undesirable behaviour of the confidence or prediction intervals. Finally, we propose a simulation-based testing approach that addresses these problems while still allowing easy comparison between different methods. | 翻訳日:2023-08-04 17:44:14 公開日:2023-08-03 |
# Auto-COP:強化学習オプションを用いたコンテキスト指向プログラミングにおける適応生成 Auto-COP: Adaptation Generation in Context-Oriented Programming using Reinforcement Learning Options ( http://arxiv.org/abs/2103.06757v2 ) ライセンス: Link先を確認 | Nicol\'as Cardozo and Ivana Dusparic | (参考訳) 自己適応型ソフトウェアシステムは、実行環境の内部および外部の変化に応じて継続的に適応し、コンテキストとして捉えられる。
COPパラダイムは自己適応型システムを開発するための技術であり、その主な特徴を特殊プログラミング言語で捉えている。
COP適応は、周囲の環境から感知された状況に応じてコンテキストが活性化され、非活性化されるため、ベースシステム内外の独立したモジュールとして指定される。
しかし、適応の定義、それらの文脈、関連する特別な振る舞いは、設計時に指定する必要がある。
複雑なCPSでは、新しい予測不能な動作条件のために、これは難解である。
本稿では,実行時の適応生成を可能にする新しい手法であるAuto-COPを提案する。
Auto-COPは、以前のシステム実行のインスタンスに基づいてアクションシーケンスを構築するためにRLオプションを使用する。
オプションは環境とのインタラクションにおいて探索され、それぞれのコンテキストに最も適したオプションはCOPを利用した適応を生成するために使用される。
Auto-COPを検証するために,ドライブアシスタントとロボット配送システムという,異なるシステム特性と応用領域を示す2つのケーススタディを提案する。
本稿では,実行時に生成されたauto-copコードの例を示し,適応に必要な状況(コンテキスト)の種類と,対応する各コンテキストに対する適応について述べる。
生成した適応は、ドメイン固有のパフォーマンス指標によって測定された正しいシステム動作を示すとともに、必要な実行/アクティベーションステップの数を2倍に削減し、適応動作がプリミティブアクションの実行よりも適切であることを示す。 Self-adaptive software systems continuously adapt in response to internal and external changes in their execution environment, captured as contexts. The COP paradigm posits a technique for the development of self-adaptive systems, capturing their main characteristics with specialized programming language constructs. COP adaptations are specified as independent modules composed in and out of the base system as contexts are activated and deactivated in response to sensed circumstances from the surrounding environment. However, the definition of adaptations, their contexts and associated specialized behavior, need to be specified at design time. In complex CPS this is intractable due to new unpredicted operating conditions. We propose Auto-COP, a new technique to enable generation of adaptations at run time. Auto-COP uses RL options to build action sequences, based on the previous instances of the system execution. Options are explored in interaction with the environment, and the most suitable options for each context are used to generate adaptations exploiting COP. To validate Auto-COP, we present two case studies exhibiting different system characteristics and application domains: a driving assistant and a robot delivery system. We present examples of Auto-COP code generated at run time, to illustrate the types of circumstances (contexts) requiring adaptation, and the corresponding generated adaptations for each context. We confirm that the generated adaptations exhibit correct system behavior measured by domain-specific performance metrics, while reducing the number of required execution/actuation steps by a factor of two showing that the adaptations are regularly selected by the running system as adaptive behavior is more appropriate than the execution of primitive actions. | 翻訳日:2023-08-04 17:43:52 公開日:2023-08-03 |
# 低解像度サーベイランス画像のマスク付き顔分類ベンチマーク A Masked Face Classification Benchmark on Low-Resolution Surveillance Images ( http://arxiv.org/abs/2211.13061v2 ) ライセンス: Link先を確認 | Federico Cunico, Andrea Toaiari and Marco Cristani | (参考訳) マスク分類のためにマスクを被った小さな顔に焦点をあてた新しい画像データセットである small face mask (sf-mask) を提案する。これは7 x 7から64 x 64ピクセルの解像度まで、多種多様なデータセットからエクスポートされた20kの低解像度画像から成る。
このコレクションの正確な視覚化は、グリッドを数えることで、歩行者の頭部が想定するさまざまなポーズのギャップを強調することができる。
特に、非常に高いカメラで撮影された顔は、顔の特徴が強く歪んでいるように見える。
この構造的欠陥に対処するため,我々は一連の合成画像を作成し,クラス内分散を良好にカバーした。
さらに1701枚の小さなサブサンプルには、摩耗の悪いフェイスマスクが含まれており、多種分類の課題に直面している。
SF-MASKの実験は、複数の分類器を用いたマスク分類に焦点を当てている。
その結果,SF-MASK(実画像+合成画像)の豊かさは,テスト対象の分類器を,固定された1077枚の画像検定セット上で比較マスクデータセットの活用よりも優れていることがわかった。
データセットと評価コードはここで公開されている。 https://github.com/humaticslab/sf-mask We propose a novel image dataset focused on tiny faces wearing face masks for mask classification purposes, dubbed Small Face MASK (SF-MASK), composed of a collection made from 20k low-resolution images exported from diverse and heterogeneous datasets, ranging from 7 x 7 to 64 x 64 pixel resolution. An accurate visualization of this collection, through counting grids, made it possible to highlight gaps in the variety of poses assumed by the heads of the pedestrians. In particular, faces filmed by very high cameras, in which the facial features appear strongly skewed, are absent. To address this structural deficiency, we produced a set of synthetic images which resulted in a satisfactory covering of the intra-class variance. Furthermore, a small subsample of 1701 images contains badly worn face masks, opening to multi-class classification challenges. Experiments on SF-MASK focus on face mask classification using several classifiers. Results show that the richness of SF-MASK (real + synthetic images) leads all of the tested classifiers to perform better than exploiting comparative face mask datasets, on a fixed 1077 images testing set. Dataset and evaluation code are publicly available here: https://github.com/HumaticsLAB/sf-mask | 翻訳日:2023-08-04 17:36:51 公開日:2023-08-03 |
# 損失のない合意なし:ピアレビューにおける学習と社会的選択 No Agreement Without Loss: Learning and Social Choice in Peer Review ( http://arxiv.org/abs/2211.02144v2 ) ライセンス: Link先を確認 | Pablo Barcel\'o and Mauricio Duarte and Crist\'obal Rojas and Tomasz Steifer | (参考訳) ピアレビューシステムでは、レビュアーは、技術的品質や新規性など、提出の様々な特徴を評価するよう求められることが多い。
事前に定義された特徴ごとにスコアが与えられ、それに基づいてレビュアーは全体的な定量的なレコメンデーションを提供する必要がある。
それぞれのレビュアーがそれぞれの機能セットからレビュアーへのマッピングを持ち、異なるレビュアーが異なるマッピングを念頭に置いていると仮定できる。
これは、開始バイアスとして知られる任意性の要素を導入する。
本稿では,Noothigattu,Shah,Procacciaによって導入されたフレームワークについて論じ,その後,AAAI 2022カンファレンスの主催者が適用した。
Noothigattu, Shah and Procaccia は、ある損失関数を最小化することでレビュアーのマッピングを集約することを提案し、社会選択論の意味でこのアプローチの公理的性質を研究した。
彼らの仕事で使われるいくつかの結果と仮定に挑戦し、多くの否定的な結果を報告します。
一方,本稿では,提案する公理のいくつかと,大多数のレビュアーの合意を適切に把握する手法のトレードオフについて検討する。
一方,非現実的な仮定を下げることには劇的な効果があり,その方法が不連続になることも示されている。 In peer review systems, reviewers are often asked to evaluate various features of submissions, such as technical quality or novelty. A score is given to each of the predefined features and based on these the reviewer has to provide an overall quantitative recommendation. It may be assumed that each reviewer has her own mapping from the set of features to a recommendation, and that different reviewers have different mappings in mind. This introduces an element of arbitrariness known as commensuration bias. In this paper we discuss a framework, introduced by Noothigattu, Shah and Procaccia, and then applied by the organizers of the AAAI 2022 conference. Noothigattu, Shah and Procaccia proposed to aggregate reviewer's mapping by minimizing certain loss functions, and studied axiomatic properties of this approach, in the sense of social choice theory. We challenge several of the results and assumptions used in their work and report a number of negative results. On the one hand, we study a trade-off between some of the axioms proposed and the ability of the method to properly capture agreements of the majority of reviewers. On the other hand, we show that dropping a certain unrealistic assumption has dramatic effects, including causing the method to be discontinuous. | 翻訳日:2023-08-04 17:36:27 公開日:2023-08-03 |
# 特徴融合強化オートエンコーダに基づく欠落値充足モデル A Missing Value Filling Model Based on Feature Fusion Enhanced Autoencoder ( http://arxiv.org/abs/2208.13495v2 ) ライセンス: Link先を確認 | Xinyao Liu, Shengdong Du, Tianrui Li, Fei Teng and Yan Yang | (参考訳) ビッグデータ時代の到来により、データ品質の問題はさらに重要になりつつある。
多くの要因のうち、値が欠けているデータは主要な問題の一つであり、効果的なインプテーションモデルの開発は研究コミュニティの重要なトピックである。
最近では、自己組織化マッピングや自動エンコーダなどのニューラルネットワークモデルを用いて、不足した値を埋めることが主な研究方向である。
しかし、これらの古典的手法は、データ属性間で相互に関係する特徴や共通の特徴を同時に発見することができない。
特に、古典的なオートエンコーダにとって、しばしば無効な定数マッピングを学ぶことは典型的な問題であり、これは充填性能を劇的に損なう。
上記の問題を解決するために,機能融合型オートエンコーダに基づく不備値充足モデルを提案する。
まず,非追跡ニューロンと放射状基底関数ニューロンからなる隠れた層を自動エンコーダに組み込み,相互関連特徴や共通特徴を学習する能力を高める。
さらに、反復最適化プロセスに組み込まれた動的クラスタリングに基づく、不足値の充足戦略を開発する。
この設計により,多次元機能融合能力が向上し,ダイナミックなコラボレーティブな欠落値充足性能が向上する。
提案モデルの有効性は,13データセット上の様々なベースライン手法と比較して,広範囲な実験により検証される。 With the advent of the big data era, the data quality problem is becoming more critical. Among many factors, data with missing values is one primary issue, and thus developing effective imputation models is a key topic in the research community. Recently, a major research direction is to employ neural network models such as self-organizing mappings or automatic encoders for filling missing values. However, these classical methods can hardly discover interrelated features and common features simultaneously among data attributes. Especially, it is a very typical problem for classical autoencoders that they often learn invalid constant mappings, which dramatically hurts the filling performance. To solve the above-mentioned problems, we propose a missing-value-filling model based on a feature-fusion-enhanced autoencoder. We first incorporate into an autoencoder a hidden layer that consists of de-tracking neurons and radial basis function neurons, which can enhance the ability of learning interrelated features and common features. Besides, we develop a missing value filling strategy based on dynamic clustering that is incorporated into an iterative optimization process. This design can enhance the multi-dimensional feature fusion ability and thus improves the dynamic collaborative missing-value-filling performance. The effectiveness of the proposed model is validated by extensive experiments compared to a variety of baseline methods on thirteen data sets. | 翻訳日:2023-08-04 17:35:29 公開日:2023-08-03 |
# 視覚質問応答のための双方向コントラスト分割学習 Bidirectional Contrastive Split Learning for Visual Question Answering ( http://arxiv.org/abs/2208.11435v3 ) ライセンス: Link先を確認 | Yuwei Sun, Hideya Ochiai | (参考訳) マルチモーダルデータに基づく視覚質問応答(VQA)は、ホームロボットや診断などの現実的な応用を促進する。
重要な課題のひとつは、機密性の懸念から集中的なデータ収集を控えるさまざまなクライアントモデルに対して、堅牢な分散学習フレームワークを開発することだ。
本研究の目的は,マルチモーダルモデルを表現モジュールとコントラストモジュールに分離し,モジュール間勾配の共有とクライアント間重量共有を活用することにより,プライバシ保護VQAに取り組むことである。
そこで本研究では,分散化クライアントのデータ分布全体に対するグローバルマルチモーダルモデルを学習するために,双方向のコントラストスプリット学習(bicsl)を提案する。
我々は、分散モジュールのより効率的な自己教師付き学習を可能にする対照的な損失を用いる。
5つのSOTA VQAモデルに基づくVQA-v2データセットの総合実験を行い,提案手法の有効性を実証した。
さらに,VQAに対するデュアルキーバックドア攻撃に対するBiCSLの堅牢性についても検討した。
その結果,BiCSLは,分散型マルチモーダル学習に対して有望なアプローチを提供する集中型学習法に比べて,マルチモーダル攻撃に対するロバスト性が高いことがわかった。 Visual Question Answering (VQA) based on multi-modal data facilitates real-life applications such as home robots and medical diagnoses. One significant challenge is to devise a robust decentralized learning framework for various client models where centralized data collection is refrained due to confidentiality concerns. This work aims to tackle privacy-preserving VQA by decoupling a multi-modal model into representation modules and a contrastive module and leveraging inter-module gradients sharing and inter-client weight sharing. To this end, we propose Bidirectional Contrastive Split Learning (BiCSL) to train a global multi-modal model on the entire data distribution of decentralized clients. We employ the contrastive loss that enables a more efficient self-supervised learning of decentralized modules. Comprehensive experiments are conducted on the VQA-v2 dataset based on five SOTA VQA models, demonstrating the effectiveness of the proposed method. Furthermore, we inspect BiCSL's robustness against a dual-key backdoor attack on VQA. Consequently, BiCSL shows much better robustness to the multi-modal adversarial attack compared to the centralized learning method, which provides a promising approach to decentralized multi-modal learning. | 翻訳日:2023-08-04 17:35:07 公開日:2023-08-03 |
# s$^2$contact:半教師付き学習による3次元物体接触推定のためのグラフベースネットワーク S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation with Semi-Supervised Learning ( http://arxiv.org/abs/2208.00874v2 ) ライセンス: Link先を確認 | Tze Ho Elden Tse, Zhongqun Zhang, Kwang In Kim, Ales Leonardis, Feng Zheng, Hyung Jin Chang | (参考訳) 正確な3Dアノテーションとオブジェクトデータセットに対する最近の取り組みにもかかわらず、3Dの手とオブジェクトの再構築にはまだギャップがある。
既存の作業は接触マップを活用し、不正確な手動ポーズ推定を洗練し、与えられた対象モデルの把握を生成する。
しかし、これらは、ほとんど利用できない明示的な3D監視を必要とするため、熱カメラが操作対象の残留熱を観測するなど、制限された設定に限られる。
本稿では,単眼画像からの接触を学習できる,新しい半教師付きフレームワークを提案する。
具体的には、半教師付き学習において擬似ラベルを生成する大規模データセットにおける視覚的および幾何学的整合性制約を活用し、接触を推論するための効率的なグラフベースネットワークを提案する。
半教師付き学習フレームワークは,既存の教師付き学習手法よりも,‘限定’アノテーションで訓練されたデータに対して好適な改善を実現している。
特に,提案手法は,ネットワークパラメータとメモリアクセスコストの半分未満で,一般的なpointnetベースの手法と比較して優れた結果が得られる。
より正確な再構築を行うために手動インタラクションを規定するコンタクトマップを使用することの利点を示す。
さらに,疑似ラベルを用いたトレーニングがコンタクトマップ推定をドメイン外オブジェクトに拡張し,複数のデータセットにまたがってより一般化できることを実証する。 Despite the recent efforts in accurate 3D annotations in hand and object datasets, there still exist gaps in 3D hand and object reconstructions. Existing works leverage contact maps to refine inaccurate hand-object pose estimations and generate grasps given object models. However, they require explicit 3D supervision which is seldom available and therefore, are limited to constrained settings, e.g., where thermal cameras observe residual heat left on manipulated objects. In this paper, we propose a novel semi-supervised framework that allows us to learn contact from monocular images. Specifically, we leverage visual and geometric consistency constraints in large-scale datasets for generating pseudo-labels in semi-supervised learning and propose an efficient graph-based network to infer contact. Our semi-supervised learning framework achieves a favourable improvement over the existing supervised learning methods trained on data with `limited' annotations. Notably, our proposed model is able to achieve superior results with less than half the network parameters and memory access cost when compared with the commonly-used PointNet-based approach. We show benefits from using a contact map that rules hand-object interactions to produce more accurate reconstructions. We further demonstrate that training with pseudo-labels can extend contact map estimations to out-of-domain objects and generalise better across multiple datasets. | 翻訳日:2023-08-04 17:34:45 公開日:2023-08-03 |
# テロ攻撃は「Us」対「Them」の二進的認識を鋭くする Terrorist attacks sharpen the binary perception of "Us" vs. "Them" ( http://arxiv.org/abs/2207.01352v2 ) ライセンス: Link先を確認 | Milan Jovi\'c, Lovro \v{S}ubelj, Tea Golob, Matej Makarovi\v{c}, Taha Yasseri, Danijela Boberi\'c Krsti\'cev, Srdjan \v{S}krbi\'c, Zoran Levnaji\'c | (参考訳) テロ攻撃は市民を害するだけでなく、人々の関心を移し、世論や政府の政策に長年影響している。
しかし、メディア報道以外の公共の関心の変化を計測することは、方法論的に難しい。
ここでは、ウィキペディアの580万記事のr'epertoireと15件のテロ攻撃のサンプルから始め、この問題にアプローチする。
これらの出来事によって常に注目を集めているトピックやテーマを特定するために,複雑な排除手順をデプロイする。
テロ攻撃は「Us」(標的社会)と「Them」(敵としてのテロリスト)の間に鋭い境界を確立することを促進する。
この中で、双方のアイデンティティを構築しようと試みる。
これは好奇心を喚起し、"them"と"us"のより明確な理解のためのソウルサーチについて学ぶ。
破壊的な出来事に対する公共反応の体系的な分析は、社会的結果の緩和に役立つ。 Terrorist attacks not only harm citizens but also shift their attention, which has long-lasting impacts on public opinion and government policies. Yet measuring the changes in public attention beyond media coverage has been methodologically challenging. Here we approach this problem by starting from Wikipedia's r\'epertoire of 5.8 million articles and a sample of 15 recent terrorist attacks. We deploy a complex exclusion procedure to identify topics and themes that consistently received a significant increase in attention due to these incidents. Examining their contents reveals a clear picture: terrorist attacks foster establishing a sharp boundary between "Us" (the target society) and "Them" (the terrorist as the enemy). In the midst of this, one seeks to construct identities of both sides. This triggers curiosity to learn more about "Them" and soul-search for a clearer understanding of "Us". This systematic analysis of public reactions to disruptive events could help mitigate their societal consequences. | 翻訳日:2023-08-04 17:34:22 公開日:2023-08-03 |
# 線形光学過程の強いシミュレーション Strong Simulation of Linear Optical Processes ( http://arxiv.org/abs/2206.10549v2 ) ライセンス: Link先を確認 | Nicolas Heurtel, Shane Mansfield, Jean Senellart, Beno\^it Valiron | (参考訳) 本稿では,線形光干渉計を通過する光子のシミュレーションのためのアルゴリズムと一般フレームワークを提案する。
我々のアルゴリズムは、$m$モード干渉計の入力時に$n$光子を与えられたとき、時間的複雑性を持つ全ての出力状態の確率を$O\left({n\binom{n+m-1}{m-1}}\right)$, linear in the number of output state $\binom{n+m-1}{m-1}$とする。
指数係数による永続的手法よりも優れており、与えられた出力に対する確率の制限された問題に対して、複数の行や列を持つ行列の永続的状態に対する時間的複雑さを改善し、メモリ使用量にトレードオフをもたらす。
我々のアルゴリズムはまた、記憶(中間結果の保存)の使用により、いくつかの入力状態が興味のある状況で有利な、さらなる汎用性も持っている。
さらに、与えられたしきい値を超える出力状態から出力をサンプリングするハイブリッドシミュレーションや、制限された一連の状態から出力をサンプリングすることができる。
具体的で最適化された実装を検討し、既存のツールと比較してアプローチの効率をベンチマークします。 In this paper, we provide an algorithm and general framework for the simulation of photons passing through linear optical interferometers. Given $n$ photons at the input of an $m$-mode interferometer, our algorithm computes the probabilities of all possible output states with time complexity $O\left({n\binom{n+m-1}{m-1}}\right)$, linear in the number of output states $\binom{n+m-1}{m-1}$. It outperforms the permanent-based method by an exponential factor, and for the restricted problem of computing the probability for one given output it improves the time complexity over the state-of-the-art for the permanent of matrices with multiple rows or columns, with a tradeoff in the memory usage. Our algorithm also has additional versatility by virtue of its use of memorisation -- the storing of intermediate results -- which is advantageous in situations where several input states may be of interest. Additionally it allows for hybrid simulations, in which outputs are sampled from output states whose probability exceeds a given threshold, or from a restricted set of states. We consider a concrete, optimised implementation, and we benchmark the efficiency of our approach compared to existing tools. | 翻訳日:2023-08-04 17:34:06 公開日:2023-08-03 |
# 量子普遍構成可能な線形評価 Quantum Universally Composable Oblivious Linear Evaluation ( http://arxiv.org/abs/2204.14171v2 ) ライセンス: Link先を確認 | Manuel B. Santos, Paulo Mateus and Chrysoula Vlachou | (参考訳) 公約線型評価(英: Oblivious linear evaluation)とは、不確実移動の一般化であり、2つの不確実な当事者が線形関数 f (x) = ax + b を不完全に計算することで、それぞれが互いに未知な入力を提供し、一方の出力 f (x) のみを計算する。
構造的・セキュリティ的両面から見れば、算術ベースのセキュアなマルチパーティ計算プロトコルの基本的線形評価である。
古典的な場合、暗黙的線形評価プロトコルは暗黙的変換を用いて生成することができ、その量子的評価プロトコルは原則として、量子暗示的変換を用いて単純な拡張として構築することができる。
ここでは、第一に、我々の知識を最大限に生かした、斜め線型評価のための量子プロトコルを提示し、さらに、量子斜め変換に依存しないことを示す。
まず、半正直なプロトコルを示し、コミット・アンド・オープン戦略を用いて不名誉な設定に拡張します。
我々のプロトコルは高次元量子状態を用いて、素数次元と素数次元のガロア場上のf(x)を鮮明に計算する。
これらの構成は、素数次元ヒルベルト空間における相互に偏りのない基底の完全集合の存在と、ハイゼンベルク・ワイル作用素上の線型挙動を利用する。
また,このプロトコルを一般化してベクトルオブリバストな線形評価を実現し,いくつかのオブリバストな線形評価が生成されることにより,プロトコルの効率が向上する。
我々は,量子ユニバーサルコンポーザビリティの枠組みにおいて静的セキュリティを有するプロトコルを証明した。 Oblivious linear evaluation is a generalization of oblivious transfer, whereby two distrustful parties obliviously compute a linear function, f (x) = ax + b, i.e., each one provides their inputs that remain unknown to the other, in order to compute the output f (x) that only one of them receives. From both a structural and a security point of view, oblivious linear evaluation is fundamental for arithmetic-based secure multi-party computation protocols. In the classical case, oblivious linear evaluation protocols can be generated using oblivious transfer, and their quantum counterparts can, in principle, be constructed as straightforward extensions using quantum oblivious transfer. Here, we present the first, to the best of our knowledge, quantum protocol for oblivious linear evaluation that, furthermore, does not rely on quantum oblivious transfer. We start by presenting a semi-honest protocol and then extend it to the dishonest setting employing a commit-and-open strategy. Our protocol uses high-dimensional quantum states to obliviously compute f (x) on Galois Fields of prime and prime-power dimension. These constructions utilize the existence of a complete set of mutually unbiased bases in prime-power dimension Hilbert spaces and their linear behaviour upon the Heisenberg-Weyl operators. We also generalize our protocol to achieve vector oblivious linear evaluation, where several instances of oblivious linear evaluation are generated, thus making the protocol more efficient. We prove the protocols to have static security in the framework of quantum universal composability. | 翻訳日:2023-08-04 17:33:43 公開日:2023-08-03 |
# 全方位画像補完を用いた新しいビュー合成の促進 Enhancement of Novel View Synthesis Using Omnidirectional Image Completion ( http://arxiv.org/abs/2203.09957v3 ) ライセンス: Link先を確認 | Takayuki Hara and Tatsuya Harada | (参考訳) 本研究では,ニューラルラジアンス場(NeRF)に基づく単一の360度RGB-D画像から新しいビューを合成する方法を提案する。
それまでの研究は、多層パーセプトロンの近傍補間能力を、閉塞とズームによる完全な欠損領域に頼っていた。
本研究では,入力画像を他のカメラ位置の360度RGB画像に再投影し,2次元画像生成モデルにより再投影された画像の欠落領域を完了し,完成した画像を用いてNeRFを訓練する手法を提案する。
複数枚の画像に3Dの矛盾が生じているため, 対象画像のサブセットを用いてNeRFモデルを学習し, 領域の重複を少なくする手法を提案する。
このような画像のサブセットの選択は、シミュレーションアニールによって解決される最大重量独立セット問題に起因する。
実験により,提案手法は実世界と実世界の両方でシーンの特徴を保ちながら,可塑性新規ビューを合成できることが実証された。 In this study, we present a method for synthesizing novel views from a single 360-degree RGB-D image based on the neural radiance field (NeRF) . Prior studies relied on the neighborhood interpolation capability of multi-layer perceptrons to complete missing regions caused by occlusion and zooming, which leads to artifacts. In the method proposed in this study, the input image is reprojected to 360-degree RGB images at other camera positions, the missing regions of the reprojected images are completed by a 2D image generative model, and the completed images are utilized to train the NeRF. Because multiple completed images contain inconsistencies in 3D, we introduce a method to learn the NeRF model using a subset of completed images that cover the target scene with less overlap of completed regions. The selection of such a subset of images can be attributed to the maximum weight independent set problem, which is solved through simulated annealing. Experiments demonstrated that the proposed method can synthesize plausible novel views while preserving the features of the scene for both artificial and real-world data. | 翻訳日:2023-08-04 17:33:13 公開日:2023-08-03 |
# データストリームから学ぶ:概要と最新情報 Learning from Data Streams: An Overview and Update ( http://arxiv.org/abs/2212.14720v2 ) ライセンス: Link先を確認 | Jesse Read and Indr\.e \v{Z}liobait\.e | (参考訳) データストリームのコンテキストにおける機械学習に関する文献は、広く成長しています。
しかしながら、データストリーム学習タスクに関する定義上の前提の多くは、実際に保持するには強すぎるか、あるいは教師あり学習の文脈では満たせないような矛盾さえある。
アルゴリズムは、しばしば明確に定義されていない基準に基づいて選択・設計され、問題設定は明確に定義されず、非現実的な設定でテストされ、より広範な文献における関連するアプローチとは分離される。
これは、このような文脈で考えられた多くのアプローチが現実世界に影響を及ぼす可能性と、誤った研究の焦点を伝播するリスクに疑問を呈する。
本稿では,概念の漂流と時間的依存の現代的考察に基づいて,教師付きデータストリーム学習の基本的定義と設定を改訂し,教師付きデータストリーム学習の課題を構成するものを新たに検討し,そのような課題に対処するアルゴリズムの再検討を行う。
実世界のデータストリームを扱うインダストリアル・プレイヤーの非公式な調査によって、この定式化と概観を通じ、我々は推奨する。
データストリームからの学習には、シングルパスやオンライン学習のアプローチ、あるいは特定の学習環境が必須ではない、という点が重視されています。
一方、文献の他の分野では、時間的依存や概念の漂流を扱うための技術が確立されている。
データストリームコミュニティにとって、私たちは、しばしば技術的な制約や学習モードの仮定を扱うことから、堅牢性、プライバシー、解釈可能性といった学術的および産業的環境におけるデータストリームの学習にますます関係している問題へと、研究の焦点を移すことを奨励します。 The literature on machine learning in the context of data streams is vast and growing. However, many of the defining assumptions regarding data-stream learning tasks are too strong to hold in practice, or are even contradictory such that they cannot be met in the contexts of supervised learning. Algorithms are chosen and designed based on criteria which are often not clearly stated, for problem settings not clearly defined, tested in unrealistic settings, and/or in isolation from related approaches in the wider literature. This puts into question the potential for real-world impact of many approaches conceived in such contexts, and risks propagating a misguided research focus. We propose to tackle these issues by reformulating the fundamental definitions and settings of supervised data-stream learning with regard to contemporary considerations of concept drift and temporal dependence; and we take a fresh look at what constitutes a supervised data-stream learning task, and a reconsideration of algorithms that may be applied to tackle such tasks. Through and in reflection of this formulation and overview, helped by an informal survey of industrial players dealing with real-world data streams, we provide recommendations. Our main emphasis is that learning from data streams does not impose a single-pass or online-learning approach, or any particular learning regime; and any constraints on memory and time are not specific to streaming. Meanwhile, there exist established techniques for dealing with temporal dependence and concept drift, in other areas of the literature. For the data streams community, we thus encourage a shift in research focus, from dealing with often-artificial constraints and assumptions on the learning mode, to issues such as robustness, privacy, and interpretability which are increasingly relevant to learning in data streams in academic and industrial settings. | 翻訳日:2023-08-04 17:27:52 公開日:2023-08-03 |
# 多視点表現学習のためのクラスタリング誘導コントラスト融合 A Clustering-guided Contrastive Fusion for Multi-view Representation Learning ( http://arxiv.org/abs/2212.13726v3 ) ライセンス: Link先を確認 | Guanzhou Ke, Guoqing Chao, Xiaoli Wang, Chenyang Xu, Yongqi Zhu, and Yang Yu | (参考訳) 過去20年間、多視点表現学習の分野では、多様なドメインから有用な情報を抽出し、多視点アプリケーションの開発を促進するために急速に進歩してきた。
しかし、コミュニティは2つの課題に直面している。
一 大量のラベルのないデータからノイズ又は不完全なビュー設定に対するロバスト表現の学習方法
二 様々な下流業務の整合性と相補性のバランスをとる方法
そこで我々はdeep fusion networkを用いてビュー固有の表現をview-common表現に融合し,高レベルセマンティクスを抽出してロバスト表現を得る。
さらに,融合ネットワークが自明な解決策に導くのを防ぐために,クラスタリングタスクを用いる。
一貫性と相補性のバランスをとるために、ビュー共通表現とビュー固有表現を整合させる非対称なコントラスト戦略を設計する。
これらのモジュールはClustering-guided cOntrastiVE fusioN (CLOVEN)として知られる統一的なメソッドに組み込まれる。
CLOVENはクラスタリングと分類において,11の競合的多視点学習方法よりも優れており,提案手法を5つのデータセット上で定量的に定性的に評価する。
不完全視シナリオでは,提案手法は競争相手よりもノイズ干渉に耐性がある。
さらに, 可視化解析により, cloven はビュー・コモム表現のコンパクト性を改善しつつ, ビュー固有表現の固有構造を保存できることを示した。
ソースコードは近くhttps://github.com/guanzhou-ke/cloven.comで入手できる。 The past two decades have seen increasingly rapid advances in the field of multi-view representation learning due to it extracting useful information from diverse domains to facilitate the development of multi-view applications. However, the community faces two challenges: i) how to learn robust representations from a large amount of unlabeled data to against noise or incomplete views setting, and ii) how to balance view consistency and complementary for various downstream tasks. To this end, we utilize a deep fusion network to fuse view-specific representations into the view-common representation, extracting high-level semantics for obtaining robust representation. In addition, we employ a clustering task to guide the fusion network to prevent it from leading to trivial solutions. For balancing consistency and complementary, then, we design an asymmetrical contrastive strategy that aligns the view-common representation and each view-specific representation. These modules are incorporated into a unified method known as CLustering-guided cOntrastiVE fusioN (CLOVEN). We quantitatively and qualitatively evaluate the proposed method on five datasets, demonstrating that CLOVEN outperforms 11 competitive multi-view learning methods in clustering and classification. In the incomplete view scenario, our proposed method resists noise interference better than those of our competitors. Furthermore, the visualization analysis shows that CLOVEN can preserve the intrinsic structure of view-specific representation while also improving the compactness of view-commom representation. Our source code will be available soon at https://github.com/guanzhou-ke/cloven. | 翻訳日:2023-08-04 17:27:21 公開日:2023-08-03 |
# 異なる領域間のロバスト変化検出のためのセミ・シームズネットワークと3次元印刷への応用 Semi-Siamese Network for Robust Change Detection Across Different Domains with Applications to 3D Printing ( http://arxiv.org/abs/2212.08583v2 ) ライセンス: Link先を確認 | Yushuo Niu, Ethan Chadwick, Anson W. K. Ma, Qian Yang | (参考訳) 変化検出問題と多くの特性を共有できる3dプリントプロセスの欠陥自動検出は、3dプリント製品の品質管理にとって重要なステップである。
しかし、現在の状況にはいくつかの重大な課題がある。
まず、コンピュータビジョンに基づくプロセス監視の既存の方法は、通常、特定のカメラ視点や照明状況下でのみうまく機能し、高価な前処理、アライメント、カメラの設定を必要とする。
第2に、多くの欠陥検出技術は、予め定義された欠陥パターンやプリントスキーマに特化している。
本研究では,所望のプリントの参照図式と達成したプリントのカメラ画像とを直接比較する,新たな半シアム深層学習モデルを用いて欠陥検出問題にアプローチする。
そして、モデルが画像分割問題を解決し、参照スキーマに関して異なるタイプの欠陥の位置を正確に特定する。
本モデルは,異なる領域の異種画像の比較を可能にするとともに,異なるカメラアングルや照明などの画像設定の摂動に対して頑健であるように設計されている。
重要なことに、我々の単純なアーキテクチャは、新しいデータセットの性能向上のために事前訓練が容易であり、生成的敵ネットワークやトランスフォーマーに基づいて、より複雑な最先端のアプローチより優れています。
本モデルを用いて,標準MacBook Proを用いて1層あたりの欠陥位置推定を半秒未満で行うことができ,F1スコアの0.9以上を達成し,本手法を用いた3Dプリンティングにおける欠陥検出の有効性を示した。 Automatic defect detection for 3D printing processes, which shares many characteristics with change detection problems, is a vital step for quality control of 3D printed products. However, there are some critical challenges in the current state of practice. First, existing methods for computer vision-based process monitoring typically work well only under specific camera viewpoints and lighting situations, requiring expensive pre-processing, alignment, and camera setups. Second, many defect detection techniques are specific to pre-defined defect patterns and/or print schematics. In this work, we approach the defect detection problem using a novel Semi-Siamese deep learning model that directly compares a reference schematic of the desired print and a camera image of the achieved print. The model then solves an image segmentation problem, precisely identifying the locations of defects of different types with respect to the reference schematic. Our model is designed to enable comparison of heterogeneous images from different domains while being robust against perturbations in the imaging setup such as different camera angles and illumination. Crucially, we show that our simple architecture, which is easy to pre-train for enhanced performance on new datasets, outperforms more complex state-of-the-art approaches based on generative adversarial networks and transformers. Using our model, defect localization predictions can be made in less than half a second per layer using a standard MacBook Pro while achieving an F1-score of more than 0.9, demonstrating the efficacy of using our method for in-situ defect detection in 3D printing. | 翻訳日:2023-08-04 17:26:58 公開日:2023-08-03 |
# HS拡散:ヘッドスワップ用セマンティックミキシング拡散 HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping ( http://arxiv.org/abs/2212.06458v3 ) ライセンス: Link先を確認 | Qinghe Wang, Lijie Liu, Miao Hua, Pengfei Zhu, Wangmeng Zuo, Qinghua Hu, Huchuan Lu, Bing Cao | (参考訳) 画像ベースのヘッドスワップタスクは、ソースヘッドを他のソースボディに完璧に縫い合わせることを目的としている。
この研究課題は2つの大きな課題に直面します。
1)シームレスな遷移領域を生成しつつ、様々なソースから頭と体を保存する。
2) ヘッドスワップデータセットとベンチマークのペアは今のところない。
本稿では,遅延拡散モデル (LDM) と意味的レイアウト生成器からなるヘッドスワップ (HS-Diffusion) のための意味混合拡散モデルを提案する。
ソースヘッドとソースボディのセマンティクスレイアウトをブレンドし、セマンティクスレイアウト生成器によって遷移領域を塗り込み、粒度の粗いヘッドスワップを実現する。
セマンティクスミックスldmは、高品質な再構築で頭と体を保ちつつ、プログレッシブ融合プロセスにより、インペインテッドレイアウトと交換した細粒度のヘッドを条件としてさらに実装することができる。
そこで本研究では,自然塗布のセマンティックキャリブレーション戦略と幾何学的リアリズムのネックアライメントを提案する。
重要な点として、画像ベースの新しいヘッドスワップベンチマークを構築し、Mask-FIDとFocal-FIDの2つを設計する。
広範な実験が我々の枠組みの優越性を示している。
コードはhttps://github.com/qinghew/hs-diffusion。 Image-based head swapping task aims to stitch a source head to another source body flawlessly. This seldom-studied task faces two major challenges: 1) Preserving the head and body from various sources while generating a seamless transition region. 2) No paired head swapping dataset and benchmark so far. In this paper, we propose a semantic-mixing diffusion model for head swapping (HS-Diffusion) which consists of a latent diffusion model (LDM) and a semantic layout generator. We blend the semantic layouts of source head and source body, and then inpaint the transition region by the semantic layout generator, achieving a coarse-grained head swapping. Semantic-mixing LDM can further implement a fine-grained head swapping with the inpainted layout as condition by a progressive fusion process, while preserving head and body with high-quality reconstruction. To this end, we propose a semantic calibration strategy for natural inpainting and a neck alignment for geometric realism. Importantly, we construct a new image-based head swapping benchmark and design two tailor-designed metrics (Mask-FID and Focal-FID). Extensive experiments demonstrate the superiority of our framework. The code will be available: https://github.com/qinghew/HS-Diffusion. | 翻訳日:2023-08-04 17:26:31 公開日:2023-08-03 |
# BEVBert: 言語誘導ナビゲーションのためのマルチモーダルマップ事前トレーニング BEVBert: Multimodal Map Pre-training for Language-guided Navigation ( http://arxiv.org/abs/2212.04385v2 ) ライセンス: Link先を確認 | Dong An, Yuankai Qi, Yangguang Li, Yan Huang, Liang Wang, Tieniu Tan, Jing Shao | (参考訳) 大規模事前学習は視覚・言語ナビゲーション(VLN)タスクにおいて有望な結果を示している。
しかしながら、既存のほとんどの事前学習方法は、視覚的・テキスト関連を学ぶために離散的なパノラマを用いる。
このモデルでは、パノラマ内の不完全で重複した観測を暗黙的に相関させる必要があり、エージェントの空間的理解を損なう可能性がある。
そこで本研究では,VLNにおける空間認識型事前学習パラダイムを提案する。
具体的には、グローバルトポロジカルマップのナビゲーション依存性をモデル化しながら、不完全な観測を明示的に集約し、重複を取り除くためのローカルメトリックマップを構築します。
このハイブリッド設計は、短期推論と長期計画の両方においてVLNの需要のバランスをとることができる。
そこで,ハイブリッドマップをベースとしたマルチモーダルマップ表現学習のための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
広汎な実験により、VLNのマップベース事前学習経路の有効性が示され、提案手法は、4つのVLNベンチマークの最先端化を実現する。 Large-scale pre-training has shown promising results on the vision-and-language navigation (VLN) task. However, most existing pre-training methods employ discrete panoramas to learn visual-textual associations. This requires the model to implicitly correlate incomplete, duplicate observations within the panoramas, which may impair an agent's spatial understanding. Thus, we propose a new map-based pre-training paradigm that is spatial-aware for use in VLN. Concretely, we build a local metric map to explicitly aggregate incomplete observations and remove duplicates, while modeling navigation dependency in a global topological map. This hybrid design can balance the demand of VLN for both short-term reasoning and long-term planning. Then, based on the hybrid map, we devise a pre-training framework to learn a multimodal map representation, which enhances spatial-aware cross-modal reasoning thereby facilitating the language-guided navigation goal. Extensive experiments demonstrate the effectiveness of the map-based pre-training route for VLN, and the proposed method achieves state-of-the-art on four VLN benchmarks. | 翻訳日:2023-08-04 17:26:05 公開日:2023-08-03 |
# 地動スペクトルクラスタリングと選択のための教師なし機械学習手法 An Unsupervised Machine Learning Approach for Ground-Motion Spectra Clustering and Selection ( http://arxiv.org/abs/2212.03188v2 ) ライセンス: Link先を確認 | R. Bailey Bond, Pu Ren, Jerome F. Hajjar, and Hao Sun | (参考訳) シーケンスデータのクラスタリング分析は、応用科学における機械学習の急速な成長に助けられて、エンジニアリング設計における多くの応用に引き続き取り組んでいる。
本稿では,地震動スペクトル(潜時特徴)の特徴を抽出し,地震動選択(gms)を支援する教師なし機械学習アルゴリズムを提案する。
この文脈では、潜伏特徴は、ニューラルネットワークオートエンコーダの非線形関係を通じて学習される低次元機械によるスペクトル特性である。
検出された潜在機能は、従来定義されていた強度測定と組み合わせて、大規模な地動スイートから代表サブグループを選択するクラスタリングを行うことができる。
効率的なGMSの目的は、その構造が生後どのように確率的に経験するかを表す特徴レコードを選択することである。
合成およびフィールド記録された地動データセットの使用など、このアプローチを検証するための3つの例が提示される。
地中移動スペクトルの深層埋め込みクラスタリングには3つの利点がある。
1. オートエンコーダのトレーニングにより, 接地運動のスパーススペクトル量を表す特性を効率的に検出する。
2. 深層埋め込み方式における条件変数を持つ機械学習フレームワークにドメイン知識が組み込まれている。
3. 基準震害解析と比較すると, 優れた性能を示す。 Clustering analysis of sequence data continues to address many applications in engineering design, aided with the rapid growth of machine learning in applied science. This paper presents an unsupervised machine learning algorithm to extract defining characteristics of earthquake ground-motion spectra, also called latent features, to aid in ground-motion selection (GMS). In this context, a latent feature is a low-dimensional machine-discovered spectral characteristic learned through nonlinear relationships of a neural network autoencoder. Machine discovered latent features can be combined with traditionally defined intensity measures and clustering can be performed to select a representative subgroup from a large ground-motion suite. The objective of efficient GMS is to choose characteristic records representative of what the structure will probabilistically experience in its lifetime. Three examples are presented to validate this approach, including the use of synthetic and field recorded ground-motion datasets. The presented deep embedding clustering of ground-motion spectra has three main advantages: 1. defining characteristics the represent the sparse spectral content of ground-motions are discovered efficiently through training of the autoencoder, 2. domain knowledge is incorporated into the machine learning framework with conditional variables in the deep embedding scheme, and 3. method exhibits excellent performance when compared to a benchmark seismic hazard analysis. | 翻訳日:2023-08-04 17:25:45 公開日:2023-08-03 |
# DiffuPose:拡散確率モデルによる単眼的3次元人物位置推定 DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion Probabilistic Model ( http://arxiv.org/abs/2212.02796v3 ) ライセンス: Link先を確認 | Jeongjun Choi, Dongseok Shim, H. Jin Kim | (参考訳) 2Dキーポイント検出器の開発により、2D-to-3Dアップリフトアプローチによる単眼的3次元ポーズ推定(HPE)は目覚ましい改善を遂げた。
しかし, 単眼の3d hpeは, 内在的な奥行きあいまいさと咬合性のため, 難しい問題である。
この問題に対処するため、過去の多くの研究は時間的情報を利用してそのような困難を緩和した。
しかし、フレームシーケンスがアクセスできない現実世界のアプリケーションも数多く存在する。
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構成することに焦点を当てる。
時間的情報を活用するのではなく、同一の2Dキーポイントにマッピング可能な複数の3Dポーズ候補を生成することにより、深さの曖昧さを軽減する。
市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
従来の分節u-netをグラフ畳み込みネットワークに置き換えることでヒト関節間の相関を考慮し,さらなる性能向上を実現する。
本手法は広く採用されているhuman3.6mおよびhumaneva-iデータセットを用いて評価する。
提案手法の有効性を証明するための総合的な実験を行い,本モデルが最先端のマルチハイポテーシス3D HPE法より優れていることを確認した。 Thanks to the development of 2D keypoint detectors, monocular 3D human pose estimation (HPE) via 2D-to-3D uplifting approaches have achieved remarkable improvements. Still, monocular 3D HPE is a challenging problem due to the inherent depth ambiguities and occlusions. To handle this problem, many previous works exploit temporal information to mitigate such difficulties. However, there are many real-world applications where frame sequences are not accessible. This paper focuses on reconstructing a 3D pose from a single 2D keypoint detection. Rather than exploiting temporal information, we alleviate the depth ambiguity by generating multiple 3D pose candidates which can be mapped to an identical 2D keypoint. We build a novel diffusion-based framework to effectively sample diverse 3D poses from an off-the-shelf 2D detector. By considering the correlation between human joints by replacing the conventional denoising U-Net with graph convolutional network, our approach accomplishes further performance improvements. We evaluate our method on the widely adopted Human3.6M and HumanEva-I datasets. Comprehensive experiments are conducted to prove the efficacy of the proposed method, and they confirm that our model outperforms state-of-the-art multi-hypothesis 3D HPE methods. | 翻訳日:2023-08-04 17:25:28 公開日:2023-08-03 |
# AIは来年の韓国のCSATに現れる単語を知っている AI Knows Which Words Will Appear in Next Year's Korean CSAT ( http://arxiv.org/abs/2211.15426v2 ) ライセンス: Link先を確認 | Byunghyun Ban, Jejong Lee, Hyeonmok Hwang | (参考訳) 本稿では,テキストマイニングに基づく単語分類法とLSTMに基づく語彙パターン予測手法を提案する。
まず,簡単なテキスト出現頻度分析に基づく事前処理手法について述べる。
この方法はデータスクリーニングツールとして開発されたが、以前の作業よりも4.35 ~ 6.21 倍高い値を示した。
また,語彙出現パターン予測法としてLSTM深層学習法を提案する。
aiは、前の試験のさまざまなサイズのデータウィンドウで回帰を行い、次の試験で単語出現の確率を予測する。
各種データウィンドウ上のAIの予測値は、重み付け和として単一のスコアに処理され、これは、来年の試験における単語の出現確率を表す「AIスコア」と呼ばれる。
提案手法は100スコアの範囲で100%精度を示し,60点以上の区間では予測誤差が1.7%であった。
すべてのソースコードは、著者のgit hubリポジトリから無料で入手できる。
(https://github.com/needleworm/bigdata_voca) A text-mining-based word class categorization method and LSTM-based vocabulary pattern prediction method are introduced in this paper. A preprocessing method based on simple text appearance frequency analysis is first described. This method was developed as a data screening tool but showed 4.35 ~ 6.21 times higher than previous works. An LSTM deep learning method is also suggested for vocabulary appearance pattern prediction method. AI performs a regression with various size of data window of previous exams to predict the probabilities of word appearance in the next exam. Predicted values of AI over various data windows are processed into a single score as a weighted sum, which we call an "AI-Score", which represents the probability of word appearance in next year's exam. Suggested method showed 100% accuracy at the range 100-score area and showed only 1.7% error of prediction in the section where the scores were over 60 points. All source codes are freely available at the authors' Git Hub repository. (https://github.com/needleworm/bigdata_voca) | 翻訳日:2023-08-04 17:25:10 公開日:2023-08-03 |
# セマンティックセグメンテーションにおける画素単位の分布検出のための残差パターン学習 Residual Pattern Learning for Pixel-wise Out-of-Distribution Detection in Semantic Segmentation ( http://arxiv.org/abs/2211.14512v2 ) ライセンス: Link先を確認 | Yuyuan Liu, Choubo Ding, Yu Tian, Guansong Pang, Vasileios Belagiannis, Ian Reid and Gustavo Carneiro | (参考訳) セマンティックセグメンテーションモデルは、ピクセルを既知の(`in-distribution'')視覚クラスに分類する。
オープンな世界に展開する場合、これらのモデルの信頼性は、分布内画素を分類するだけでなく、分布外画素(OoD)を検出する能力にも依存する。
歴史的に、これらのモデルのood検出性能の低さは、oodビジュアルオブジェクトを含む合成トレーニングイメージを用いたモデル再トレーニングに基づくメソッドの設計を動機付けた。
成功したとはいえ、これらの再訓練手法には2つの問題がある。
1)再訓練中に分配分節精度が低下し得る。
2) そのood検出精度は, 訓練施設外の新たな状況(例えば, 都市環境)にはあまり一般化しない。
本稿では,これらの問題を次のように緩和する。
(i)不規則なセグメンテーション性能に影響を与えることなく、セグメンテーションモデルによるood画素の検出を支援する新しい残差パターン学習(rpl)モジュール
(ii)rplが様々な文脈でood画素を頑健に検出することを強制する新しいコンテキストロバストコントラスト学習(corocl)。
本手法は,魚類景観,セグメンテーション・ミー・イ・ユー・カン,ロードアノマリーデータセットにおいて,これまでの最先端技術であるfprと7-% auprcを約10-%改善する。
私たちのコードは、https://github.com/yyliu01/rplで利用可能です。 Semantic segmentation models classify pixels into a set of known (``in-distribution'') visual classes. When deployed in an open world, the reliability of these models depends on their ability not only to classify in-distribution pixels but also to detect out-of-distribution (OoD) pixels. Historically, the poor OoD detection performance of these models has motivated the design of methods based on model re-training using synthetic training images that include OoD visual objects. Although successful, these re-trained methods have two issues: 1) their in-distribution segmentation accuracy may drop during re-training, and 2) their OoD detection accuracy does not generalise well to new contexts (e.g., country surroundings) outside the training set (e.g., city surroundings). In this paper, we mitigate these issues with: (i) a new residual pattern learning (RPL) module that assists the segmentation model to detect OoD pixels without affecting the inlier segmentation performance; and (ii) a novel context-robust contrastive learning (CoroCL) that enforces RPL to robustly detect OoD pixels among various contexts. Our approach improves by around 10\% FPR and 7\% AuPRC the previous state-of-the-art in Fishyscapes, Segment-Me-If-You-Can, and RoadAnomaly datasets. Our code is available at: https://github.com/yyliu01/RPL. | 翻訳日:2023-08-04 17:24:56 公開日:2023-08-03 |
# temporalstereo:効率的な空間-時間ステレオマッチングネットワーク TemporalStereo: Efficient Spatial-Temporal Stereo Matching Network ( http://arxiv.org/abs/2211.13755v2 ) ライセンス: Link先を確認 | Youmin Zhang, Matteo Poggi, Stefano Mattoccia | (参考訳) 本稿では,高効率で,過去の幾何情報や文脈情報を効果的に活用し,マッチング精度を向上させることのできる,粗粒度対細ステレオマッチングネットワークであるtemporstereoを提案する。
我々のネットワークは、少ないコストのボリュームを活用し、1つのステレオペアが与えられると効果的であることが証明される。
しかし,ステレオ列にまたがる時空間情報を利用する特異な能力は,この場合においても高い効率を享受しながら,咬合や反射領域などの問題を軽減できる。
特に、ステレオビデオでトレーニングされた私たちのモデルは、単一ペアモードと時間モードの両方でシームレスに実行できる。
実験の結果,ビデオ実行時の動的物体に対しても,カメラ動作に依存するネットワークは頑健であることが判明した。
我々は、合成(SceneFlow, TartanAir)および実(KITTI 2012, KITTI 2015)データセットに関する広範な実験を通じて、TemporalStereoを検証する。
我々のモデルは、これらのデータセットのどれでも最先端のパフォーマンスを達成する。
コードは \url{https://github.com/youmi-zym/temporalstereo.git} で入手できる。 We present TemporalStereo, a coarse-to-fine stereo matching network that is highly efficient, and able to effectively exploit the past geometry and context information to boost matching accuracy. Our network leverages sparse cost volume and proves to be effective when a single stereo pair is given. However, its peculiar ability to use spatio-temporal information across stereo sequences allows TemporalStereo to alleviate problems such as occlusions and reflective regions while enjoying high efficiency also in this latter case. Notably, our model -- trained once with stereo videos -- can run in both single-pair and temporal modes seamlessly. Experiments show that our network relying on camera motion is robust even to dynamic objects when running on videos. We validate TemporalStereo through extensive experiments on synthetic (SceneFlow, TartanAir) and real (KITTI 2012, KITTI 2015) datasets. Our model achieves state-of-the-art performance on any of these datasets. Code is available at \url{https://github.com/youmi-zym/TemporalStereo.git}. | 翻訳日:2023-08-04 17:24:23 公開日:2023-08-03 |
# 量子機械学習のための古典特異値変換の改良 An Improved Classical Singular Value Transformation for Quantum Machine Learning ( http://arxiv.org/abs/2303.01492v3 ) ライセンス: Link先を確認 | Ainesh Bakshi and Ewin Tang | (参考訳) 量子機械学習(QML)において量子特異値変換(QSVT)フレームワークを解析することにより量子スピードアップを研究する。
GSLW, STOC'19, arXiv:1806.01838]によって導入されたQSVTは、全ての主要な量子スピードアップを統一する。
本稿では,この方式におけるQSVTの性能を,多項式オーバーヘッドを小さくする古典的アルゴリズムを提供することにより,これらの提案に挑戦する。
行列 $a \in \mathbb{c}^{m\times n}$, a vector $b \in \mathbb{c}^{n}$, a bounded degree-$d$ polynomial $p$, and linear-time pre-processing が与えられると、$\|vp(a) b\| \leq \varepsilon\|b\|$ in $\widetilde{\mathcal{o}}(d^{11} \|a\|_{\mathrm{f}}^4 / (\varepsilon^2 \|a\|^4 )$ time となるベクトル $v$ の記述を出力することができる。
CGLLTW, STOC'20, arXiv:1910.06151], $\widetilde{\mathcal{O}}(d^{22} \|A\|_{\mathrm{F}}^6 /(\varepsilon^6 \|A\|^6 ) )$ timeで改善され、量子アクセス可能なメモリに入力をロードするための線形時間前処理の後、$$p(A)b$から$\varepsilon\|b\|$の誤差を$\widetilde{\mathcal{O}}(d^{22} \|A\|_{\mathrm{F}}/(\varepsilon^6 \|A\|^6 )$ timeで推定できるQSVTとのギャップを狭める。
我々の重要な洞察は、行列多項式の反復的計算法であるクレンショー繰り返しと、QSVTを古典的にシミュレートするスケッチ技法を組み合わせることである。
我々は、この作品にいくつかの新しい古典的技法を導入する。
(a)双線型形式をほぼ保存するための非聖書行列スケッチ
b) clenshaw 再発に対する新しい安定性解析,および
(c) 有界関数のチェビシェフ級数展開に現れる係数の算術進行を有界化するための新しい手法。 We study quantum speedups in quantum machine learning (QML) by analyzing the quantum singular value transformation (QSVT) framework. QSVT, introduced by [GSLW, STOC'19, arXiv:1806.01838], unifies all major types of quantum speedup; in particular, a wide variety of QML proposals are applications of QSVT on low-rank classical data. We challenge these proposals by providing a classical algorithm that matches the performance of QSVT in this regime up to a small polynomial overhead. We show that, given a matrix $A \in \mathbb{C}^{m\times n}$, a vector $b \in \mathbb{C}^{n}$, a bounded degree-$d$ polynomial $p$, and linear-time pre-processing, we can output a description of a vector $v$ such that $\|v - p(A) b\| \leq \varepsilon\|b\|$ in $\widetilde{\mathcal{O}}(d^{11} \|A\|_{\mathrm{F}}^4 / (\varepsilon^2 \|A\|^4 ))$ time. This improves upon the best known classical algorithm [CGLLTW, STOC'20, arXiv:1910.06151], which requires $\widetilde{\mathcal{O}}(d^{22} \|A\|_{\mathrm{F}}^6 /(\varepsilon^6 \|A\|^6 ) )$ time, and narrows the gap with QSVT, which, after linear-time pre-processing to load input into a quantum-accessible memory, can estimate the magnitude of an entry $p(A)b$ to $\varepsilon\|b\|$ error in $\widetilde{\mathcal{O}}(d\|A\|_{\mathrm{F}}/(\varepsilon \|A\|))$ time. Our key insight is to combine the Clenshaw recurrence, an iterative method for computing matrix polynomials, with sketching techniques to simulate QSVT classically. We introduce several new classical techniques in this work, including (a) a non-oblivious matrix sketch for approximately preserving bi-linear forms, (b) a new stability analysis for the Clenshaw recurrence, and (c) a new technique to bound arithmetic progressions of the coefficients appearing in the Chebyshev series expansion of bounded functions, each of which may be of independent interest. | 翻訳日:2023-08-04 17:17:44 公開日:2023-08-03 |
# オンライン討論におけるヘイト、毒性、過激な集団的モデレーション Collective moderation of hate, toxicity, and extremity in online discussions ( http://arxiv.org/abs/2303.00357v3 ) ライセンス: Link先を確認 | Jana Lasser and Alina Herderich and Joshua Garland and Segun Taofeek Aroyehun and David Garcia and Mirta Galesic | (参考訳) ネット上でのヘイト、毒性、過激主義を市民はどうやって抑えられるのか?
我々は、移民危機と政治的混乱が続く4年間にわたる混乱の中で、ドイツTwitterに関する13万人以上の議論の大規模なコーパスを分析した。
人間の注釈、言語モデル、機械学習の分類器の助けを借りて、会話の異なる次元を特定する。
我々は,マイクロレベル(個別ツイート対),メソレベル(判断木),マクロレベル(日)の会話における異なる対声戦略の有効性を明らかにするために,マッチングアプローチと縦断統計分析を用いた。
事実から必ずしも支持されるのではなく、侮辱のない単純な意見を表現することは、その後の議論において、憎悪、毒性、言論の過激さに関係している。
サルカズムはこれらの結果を達成するのにも役立ち、特にメソレベルの組織的な極端なグループの存在に寄与する。
事実の提供や矛盾の露呈といった建設的なコメントは、バックファイアを発生させ、さらに過激さを引き付ける。
アウトグループまたはイングループへの言及は、典型的には談話の劣化に関連している。
怒りや恐怖などの否定的な感情のトーンや、熱意やプライドなどの肯定的な感情のトーンも、より悪い結果をもたらす。
会話の小さなサンプルをワンショット分析するだけでなく,集合的市民モデレーションによるオンラインコモンズの管理が成功に繋がる可能性が示唆された。 How can citizens moderate hate, toxicity, and extremism in online discourse? We analyze a large corpus of more than 130,000 discussions on German Twitter over the turbulent four years marked by the migrant crisis and political upheavals. With the help of human annotators, language models and machine learning classifiers, we identify different dimensions of discourse. We use a matching approach and longitudinal statistical analyses to discern the effectiveness of different counter speech strategies on the micro-level (individual tweet pairs), meso-level (discussion trees) and macro-level (days) of discourse. We find that expressing simple opinions, not necessarily supported by facts, but also without insults, relates to the least hate, toxicity, and extremity of speech and speakers in subsequent discussions. Sarcasm also helps in achieving those outcomes, in particular in the presence of organized extreme groups on the meso-level. Constructive comments such as providing facts or exposing contradictions can backfire and attract more extremity. Mentioning either outgroups or ingroups is typically related to a deterioration of discourse. A pronounced emotional tone, either negative such as anger or fear, or positive such as enthusiasm and pride, also leads to worse outcomes. Going beyond one-shot analyses on smaller samples of discourse, our findings have implications for the successful management of online commons through collective civic moderation. | 翻訳日:2023-08-04 17:16:31 公開日:2023-08-03 |
# EDMAE:小児心エコー図における高効率非結合型マスク付きオートエンコーダ EDMAE: An Efficient Decoupled Masked Autoencoder for Standard View Identification in Pediatric Echocardiography ( http://arxiv.org/abs/2302.13869v3 ) ライセンス: Link先を確認 | Yiman Liu, Xiaoxiang Han, Tongtong Liang, Bin Dong, Jiajun Yuan, Menghan Hu, Qiaohong Liu, Jiangang Chen, Qingli Li, Yuqi Zhang | (参考訳) 本稿では,小児心エコー図における標準視の認識のための自己教師型手法EDMAEを紹介する。
EDMAEはエンコーダ-デコーダ構造に基づいた新しいプロキシタスクを導入した。
EDMAEエンコーダは教師と学生エンコーダからなる。
教師エンコーダはマスク画像ブロックの潜在的な表現を抽出し、学生エンコーダは可視画像ブロックの潜在的な表現を抽出する。
損失は、2つのエンコーダが出力する特徴写像間で計算され、抽出した潜在表現の一貫性が保証される。
EDMAEは、MAEエンコーダのViT構造の代わりに純粋な畳み込み演算を使用する。
これにより、訓練効率と収束速度が向上する。
EDMAEは、自己教師付き学習を用いて、小児心エコー図の大規模プライベートデータセット上で事前訓練され、次に標準視認のために微調整される。
提案手法は,27の標準心エコー図で高い分類精度を実現する。
提案手法の有効性をさらに検証するため, 著者らは, パブリックデータセットCAMUS上で, 心臓超音波セグメンテーションの下流課題を実行する。
実験結果から,提案手法は人気の高い教師付き手法や近年の自己教師型手法よりも優れており,下流タスクの競争力が高いことが示された。 This paper introduces the Efficient Decoupled Masked Autoencoder (EDMAE), a novel self-supervised method for recognizing standard views in pediatric echocardiography. EDMAE introduces a new proxy task based on the encoder-decoder structure. The EDMAE encoder is composed of a teacher and a student encoder. The teacher encoder extracts the potential representation of the masked image blocks, while the student encoder extracts the potential representation of the visible image blocks. The loss is calculated between the feature maps output by the two encoders to ensure consistency in the latent representations they extract. EDMAE uses pure convolution operations instead of the ViT structure in the MAE encoder. This improves training efficiency and convergence speed. EDMAE is pre-trained on a large-scale private dataset of pediatric echocardiography using self-supervised learning, and then fine-tuned for standard view recognition. The proposed method achieves high classification accuracy in 27 standard views of pediatric echocardiography. To further verify the effectiveness of the proposed method, the authors perform another downstream task of cardiac ultrasound segmentation on the public dataset CAMUS. The experimental results demonstrate that the proposed method outperforms some popular supervised and recent self-supervised methods, and is more competitive on different downstream tasks. | 翻訳日:2023-08-04 17:16:07 公開日:2023-08-03 |
# マルチコンパートメントニューロンと非ヘビアン可塑性を有するニューラルネットワークの導出のための規範的枠組み Normative framework for deriving neural networks with multi-compartmental neurons and non-Hebbian plasticity ( http://arxiv.org/abs/2302.10051v2 ) ライセンス: Link先を確認 | David Lipshutz, Yanis Bahroun, Siavash Golkar, Anirvan M. Sengupta, Dmitri B. Chklovskii | (参考訳) 神経計算のアルゴリズム的基礎を理解するための確立された規範的アプローチは、原理計算の目的からオンラインアルゴリズムを導出し、解剖学的および生理学的観察との適合性を評価することである。
類似性マッチングの目標は、ニューラルネットワーク(nns)に点ニューロンとヘビアン/反ヘビアン可塑性をマップするオンラインアルゴリズムを導出する成功の出発点となった。
これらのNNモデルは解剖学および生理学的な観察を多く含んでいるが、目的は計算能力に限られており、派生したNNは脳全体に広く分布する多部分神経構造や非ヘビーンの可塑性を説明できない。
本稿では,非教師なし・自己教師あり学習タスクを,対称一般化固有値問題や非負行列分解問題として定式化できる大規模クラスを含む,より複雑な目的に対処するための類似性マッチングアプローチの最近の拡張を統一し,一般化する。
興味深いことに、これらの目的から導かれるオンラインアルゴリズムは、自然にマルチセクションのニューロンとローカルな非ヘビーンの学習ルールを持つNNにマップされる。
したがって、この類似性マッチングアプローチの統一的な拡張は、脳全体に見られる多部分神経構造と非ヘビアン可塑性の理解を容易にする規範的な枠組みを提供する。 An established normative approach for understanding the algorithmic basis of neural computation is to derive online algorithms from principled computational objectives and evaluate their compatibility with anatomical and physiological observations. Similarity matching objectives have served as successful starting points for deriving online algorithms that map onto neural networks (NNs) with point neurons and Hebbian/anti-Hebbian plasticity. These NN models account for many anatomical and physiological observations; however, the objectives have limited computational power and the derived NNs do not explain multi-compartmental neuronal structures and non-Hebbian forms of plasticity that are prevalent throughout the brain. In this article, we unify and generalize recent extensions of the similarity matching approach to address more complex objectives, including a large class of unsupervised and self-supervised learning tasks that can be formulated as symmetric generalized eigenvalue problems or nonnegative matrix factorization problems. Interestingly, the online algorithms derived from these objectives naturally map onto NNs with multi-compartmental neurons and local, non-Hebbian learning rules. Therefore, this unified extension of the similarity matching approach provides a normative framework that facilitates understanding multi-compartmental neuronal structures and non-Hebbian plasticity found throughout the brain. | 翻訳日:2023-08-04 17:15:46 公開日:2023-08-03 |
# 平均変動推定ニューラルネットワークの最適学習 Optimal Training of Mean Variance Estimation Neural Networks ( http://arxiv.org/abs/2302.08875v2 ) ライセンス: Link先を確認 | Laurens Sluijterman, Eric Cator, Tom Heskes | (参考訳) 本稿では,平均変数推定ネットワーク(MVEネットワーク)の最適実装に焦点を当てた(Nix and Weigend,1994)。
このタイプのネットワークは、例えばコンクリート投棄(Gal et al., 2017)やDeep Ensembles(Lakshminarayanan et al., 2017)など、回帰環境での不確実性推定手法のビルディングブロックとしてよく使用される。
具体的には、MVEネットワークは、平均関数と分散関数を持つ正規分布からデータを生成すると仮定する。
mveネットワークは平均および分散推定を出力し、負対数を最小化することによりネットワークパラメータを最適化する。
本稿では,二つの重要な知見を紹介する。
第一に、最近の研究で報告されている収束困難は、ウォームアップ期間を使おうという原作者からの単純で見過ごされる推奨に従えば比較的容易に防げる。
この期間、平均のみが一定の分散で最適化される。
実験を通じてこのステップの有効性を実証し,標準的実践であることを強調した。
注意点として、ウォームアップ後、分散を最適化しながら平均値を修正するか、両方を同時に最適化するかを検討する。
ここでは、大きな違いは観測しません。
次に,mveネットワークの新たな改良について紹介する。平均の正規化と分散推定を分離する。
おもちゃの例でも、多くのベンチマーク UCI 回帰データセットでも、オリジナルのレコメンデーションと新しい別個の正規化に従えば、大幅な改善がもたらされることを示す。 This paper focusses on the optimal implementation of a Mean Variance Estimation network (MVE network) (Nix and Weigend, 1994). This type of network is often used as a building block for uncertainty estimation methods in a regression setting, for instance Concrete dropout (Gal et al., 2017) and Deep Ensembles (Lakshminarayanan et al., 2017). Specifically, an MVE network assumes that the data is produced from a normal distribution with a mean function and variance function. The MVE network outputs a mean and variance estimate and optimizes the network parameters by minimizing the negative loglikelihood. In our paper, we present two significant insights. Firstly, the convergence difficulties reported in recent work can be relatively easily prevented by following the simple yet often overlooked recommendation from the original authors that a warm-up period should be used. During this period, only the mean is optimized with a fixed variance. We demonstrate the effectiveness of this step through experimentation, highlighting that it should be standard practice. As a sidenote, we examine whether, after the warm-up, it is beneficial to fix the mean while optimizing the variance or to optimize both simultaneously. Here, we do not observe a substantial difference. Secondly, we introduce a novel improvement of the MVE network: separate regularization of the mean and the variance estimate. We demonstrate, both on toy examples and on a number of benchmark UCI regression data sets, that following the original recommendations and the novel separate regularization can lead to significant improvements. | 翻訳日:2023-08-04 17:15:21 公開日:2023-08-03 |
# 個人フェアネスの行列推定 Matrix Estimation for Individual Fairness ( http://arxiv.org/abs/2302.02096v2 ) ライセンス: Link先を確認 | Cindy Y. Zhang, Sarah H. Cen, Devavrat Shah | (参考訳) 近年、アルゴリズム的公正性の複数の概念が生まれている。
そのような概念の1つは個人公正(IF)であり、類似した個人が同様の治療を受ける必要がある。
並行して、行列推定(me)は、値が欠けているノイズデータを扱うための自然なパラダイムとして現れた。
この作品では、2つの概念をつなぐ。
meを用いた前処理は性能を犠牲にすることなくアルゴリズムのifを改善できることを示す。
具体的には,データ前処理に特異値しきい値(SVT)と呼ばれる一般的なME手法を用いることで,適切な条件下での強力なIF保証が得られることを示す。
次に、類似した条件下では、SVT前処理が一貫したほぼ最小値の推定値も得られることを示す。
したがって、ME前処理ステップは、前述の条件の下では、ベースアルゴリズムの予測誤差、すなわち、フェアネスとパフォーマンスのトレードオフを課さない。
これらの結果を合成データと実データで検証する。 In recent years, multiple notions of algorithmic fairness have arisen. One such notion is individual fairness (IF), which requires that individuals who are similar receive similar treatment. In parallel, matrix estimation (ME) has emerged as a natural paradigm for handling noisy data with missing values. In this work, we connect the two concepts. We show that pre-processing data using ME can improve an algorithm's IF without sacrificing performance. Specifically, we show that using a popular ME method known as singular value thresholding (SVT) to pre-process the data provides a strong IF guarantee under appropriate conditions. We then show that, under analogous conditions, SVT pre-processing also yields estimates that are consistent and approximately minimax optimal. As such, the ME pre-processing step does not, under the stated conditions, increase the prediction error of the base algorithm, i.e., does not impose a fairness-performance trade-off. We verify these results on synthetic and real data. | 翻訳日:2023-08-04 17:14:42 公開日:2023-08-03 |
# 周期的焼成系における量子相転移 Quantum Phase Transitions in periodically quenched systems ( http://arxiv.org/abs/2302.00382v2 ) ライセンス: Link先を確認 | \'A. S\'aiz, J. Khalouf-Rivera, J. M. Arias, P. P\'erez-Fern\'andez, and J. Casado-Pascual | (参考訳) 量子相転移は、いくつかの可能な対称性を示す量子系で起こる様々な現象を含む。
伝統的に、これらの遷移は、2つの異なる対称性構成を接続する制御パラメータを連続的に変化させることによって探索される。
本稿では,制御パラメータの急激な変化と2つの値間の時間周期的なジャンプを行う方法を提案する。
この手法は従来の手法と驚くほどよく似ており、制御パラメータへのアクセスが困難である状況では実験的に有用である。 Quantum phase transitions encompass a variety of phenomena that occur in quantum systems exhibiting several possible symmetries. Traditionally, these transitions are explored by continuously varying a control parameter that connects two different symmetry configurations. Here we propose an alternative approach where the control parameter undergoes abrupt and time-periodic jumps between only two values. This approach yields results surprisingly similar to those obtained by the traditional one and may prove experimentally useful in situations where accessing the control parameter is challenging. | 翻訳日:2023-08-04 17:14:26 公開日:2023-08-03 |
# マルチモダリティは一様性を助ける:マルチモダリティモデルを用いたクロスモーダル・ファウショット学習 Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models ( http://arxiv.org/abs/2301.06267v4 ) ライセンス: Link先を確認 | Zhiqiu Lin, Samuel Yu, Zhiyi Kuang, Deepak Pathak, Deva Ramanan | (参考訳) 少数ショット学習として知られる最小限の命令で新しいタスクを素早く学習する能力は、インテリジェントエージェントの中心的な側面である。
古典的な少数ショットベンチマークでは、単一のモダリティから少数ショットのサンプルを使用するが、そのようなサンプルでは概念クラス全体を特徴付けるには不十分である。
対照的に、人間はクロスモーダル情報を使って新しい概念を効率的に学習する。
この研究で、実際に${\bf visual}$dog classifier by ${\bf read} $ing about dog and ${\bf listen} $ing to them bark. で、より優れた${\bf visual}$dog classifierを構築できることを示した。
そのため、最近のCLIPのようなマルチモーダル基盤モデルは本質的にクロスモーダルであり、異なるモダリティを同じ表現空間にマッピングする。
具体的には,異なるモダリティにまたがる少数の例から学ぶ,単純なクロスモーダル適応手法を提案する。
クラス名を追加のワンショットトレーニングサンプルとして再利用することにより、視覚言語適応のための恥ずかしいほど単純な線形分類器を用いてSOTA結果を得る。
さらに,提案手法は,プレフィックスチューニングやアダプタ,分類器アンサンブルといった既存の手法の恩恵を受けることができることを示す。
最後に、視覚と言語以外のモダリティを検討するために、最初の(知識のある)オーディオビジュアルのマイノリティベンチマークを構築し、クロスモーダルトレーニングを使用して、画像と音声の分類のパフォーマンスを向上させる。 The ability to quickly learn a new task with minimal instruction - known as few-shot learning - is a central aspect of intelligent agents. Classical few-shot benchmarks make use of few-shot samples from a single modality, but such samples may not be sufficient to characterize an entire concept class. In contrast, humans use cross-modal information to learn new concepts efficiently. In this work, we demonstrate that one can indeed build a better ${\bf visual}$ dog classifier by ${\bf read}$ing about dogs and ${\bf listen}$ing to them bark. To do so, we exploit the fact that recent multimodal foundation models such as CLIP are inherently cross-modal, mapping different modalities to the same representation space. Specifically, we propose a simple cross-modal adaptation approach that learns from few-shot examples spanning different modalities. By repurposing class names as additional one-shot training samples, we achieve SOTA results with an embarrassingly simple linear classifier for vision-language adaptation. Furthermore, we show that our approach can benefit existing methods such as prefix tuning, adapters, and classifier ensembling. Finally, to explore other modalities beyond vision and language, we construct the first (to our knowledge) audiovisual few-shot benchmark and use cross-modal training to improve the performance of both image and audio classification. | 翻訳日:2023-08-04 17:14:17 公開日:2023-08-03 |
# 低次元横場イジングモデルにおける相関拡散のダイナミクス Dynamics of correlation spreading in low-dimensional transverse-field Ising models ( http://arxiv.org/abs/2301.01407v3 ) ライセンス: Link先を確認 | Ryui Kaneko, Ippei Danshita | (参考訳) 本研究では, 横場イジングモデルにおける磁気乱れ状態から始まる量子クエンチ後の空間相関の動的拡散について, 1(1D)と2つの空間次元(2D)で検討した。
本研究では, 複数手法を用いて, 縦および横のスピンスピン-スピン相関関数を等時間に解析する。
線形スピン波近似(LSWA)と厳密な解析手法(LSWA)による1Dの結果との比較から、LSWAは相関関数の詳細な時間依存性を捉えるのに失敗しながら、強い横磁場の極限における正確な群速度を漸近的に再現できることを示した。
厳密な解析的アプローチが不可能な2DケースにLSWAを適用することで、伝播速度を強磁場限界において$Ja/(2\hbar)$と推定し、$J$はイジング相互作用であり、$a$は格子間隔である。
また,2次元の投影された対状態に基づくテンソルネットワーク法を用い,相対的に短時間で相関関数の時間発展を定量的に計算する。
本研究は, 将来のリブ・ロビンソン境界の相関拡散と理論的洗練に関する量子シミュレーション実験に有用である。 We investigate the dynamical spreading of spatial correlations after a quantum quench starting from a magnetically disordered state in the transverse-field Ising model at one (1D) and two spatial dimensions (2D). We analyze specifically the longitudinal and transverse spin-spin correlation functions at equal time with use of several methods. From the comparison of the results in 1D obtained by the linear spin-wave approximation (LSWA) and those obtained by the rigorous analytical approach, we show that the LSWA can asymptotically reproduce the exact group velocity in the limit of strong transverse fields while it fails to capture the detailed time dependence of the correlation functions. By applying the LSWA to the 2D case, in which the rigorous analytical approach is unavailable, we estimate the propagation velocity to be $Ja/(2\hbar)$ at the strong-field limit, where $J$ is the Ising interaction and $a$ is the lattice spacing. We also utilize the tensor-network method based on the projected-entangled pair states for 2D and quantitatively compute the time evolution of the correlation functions for a relatively short time. Our findings provide useful benchmarks for quantum simulation experiments of correlation spreading and theoretical refinement of the Lieb-Robinson bound in the future. | 翻訳日:2023-08-04 17:13:49 公開日:2023-08-03 |
# 不確実性誘導型次ベストビュー最適化を用いたアクティブインプリシトオブジェクト再構成 Active Implicit Object Reconstruction using Uncertainty-guided Next-Best-View Optimization ( http://arxiv.org/abs/2303.16739v3 ) ライセンス: Link先を確認 | Dongyu Yan, Jianheng Liu, Fengyu Quan, Haoyao Chen and Mengmeng Fu | (参考訳) オブジェクト再構築時のセンサビューのアクティブな計画は、自律移動ロボットにとって不可欠である。
有効な方法は、正確性と効率のバランスをとることができるべきである。
本稿では,新たな暗黙表現とアクティブ再構築タスクをシームレスに統合することを提案する。
私たちは幾何学的プロキシとして暗黙の占有領域を構築します。
トレーニング中、事前のオブジェクトバウンディングボックスを補助情報として活用し、クリーンで詳細な再構築を生成する。
視点の不確実性を評価するために,再構成された占有確率場から直接エントロピーを抽出するサンプリングベースアプローチを,視点情報獲得の尺度として採用する。
これにより、さらなる不確実性マップや学習の必要性がなくなる。
有限個の候補集合内のビューの不確実性を比較する従来の方法とは異なり、連続多様体上の次のベストビュー(NBV)を求める。
暗黙的表現の微分可能性を活用することで、NBVは勾配降下を用いたビューの不確実性を最大化することで直接最適化することができる。
異なるシナリオに対するメソッドの適応性を大幅に向上させる。
シミュレーションおよび実世界の実験により,本手法はアクティブな再構築作業におけるビュープランニングの精度と効率を効果的に向上することを示した。
提案されたシステムはhttps://github.com/HITSZ-NRSL/ActiveImplicitRecon.gitでオープンソース化される。 Actively planning sensor views during object reconstruction is crucial for autonomous mobile robots. An effective method should be able to strike a balance between accuracy and efficiency. In this paper, we propose a seamless integration of the emerging implicit representation with the active reconstruction task. We build an implicit occupancy field as our geometry proxy. While training, the prior object bounding box is utilized as auxiliary information to generate clean and detailed reconstructions. To evaluate view uncertainty, we employ a sampling-based approach that directly extracts entropy from the reconstructed occupancy probability field as our measure of view information gain. This eliminates the need for additional uncertainty maps or learning. Unlike previous methods that compare view uncertainty within a finite set of candidates, we aim to find the next-best-view (NBV) on a continuous manifold. Leveraging the differentiability of the implicit representation, the NBV can be optimized directly by maximizing the view uncertainty using gradient descent. It significantly enhances the method's adaptability to different scenarios. Simulation and real-world experiments demonstrate that our approach effectively improves reconstruction accuracy and efficiency of view planning in active reconstruction tasks. The proposed system will open source at https://github.com/HITSZ-NRSL/ActiveImplicitRecon.git. | 翻訳日:2023-08-04 17:08:22 公開日:2023-08-03 |
# Uni-Fusion: ユニバーサルな継続的マッピング Uni-Fusion: Universal Continuous Mapping ( http://arxiv.org/abs/2303.12678v2 ) ライセンス: Link先を確認 | Yijun Yuan, Andreas Nuechter | (参考訳) 本稿では,表面の普遍的な連続マッピングフレームワークであるuni-fusionと,表面特性(色,赤外線など)など(クリップ埋め込み空間の相対的特徴など)について述べる。
本稿では,幾何と異なる特性(rgb,赤外線,特徴など)のエンコーディングをトレーニングを必要とせずにサポートする,最初の普遍的暗黙的符号化モデルを提案する。
これに基づいて,本フレームワークは点雲を正規格子ボクセルに分割し,各ボクセルに潜時特徴を生成し,測地および任意特性のための潜時インプリシットマップ(LIM)を作成する。
そして、局所的なLIMをグローバルなLIMにフレームワイズすることで、漸進的な再構成を実現する。
対応するタイプのデータをエンコードして、Latent Implicit Mapは、連続した表面、表面特性フィールド、表面特徴フィールド、その他のあらゆるオプションを生成することができます。
1) 表面と色をインクリメンタルに再構成する(2) 作製された特性の2D-to-3D変換を行う(3) テキストCLIP機能フィールドを表面上に作成することで、オープン語彙のシーン理解を実現する。
我々は、UniFusionを対応するアプリケーションで比較することで評価し、UniFusionは様々なアプリケーションで高い柔軟性を示しながら、最高の性能や競争力を発揮する。
Uni-Fusionのプロジェクトページはhttps://jarrome.github.io/Uni-Fusion/ で公開されている。 We present Uni-Fusion, a universal continuous mapping framework for surfaces, surface properties (color, infrared, etc.) and more (latent features in CLIP embedding space, etc.). We propose the first universal implicit encoding model that supports encoding of both geometry and different types of properties (RGB, infrared, features, etc.) without requiring any training. Based on this, our framework divides the point cloud into regular grid voxels and generates a latent feature in each voxel to form a Latent Implicit Map (LIM) for geometries and arbitrary properties. Then, by fusing a local LIM frame-wisely into a global LIM, an incremental reconstruction is achieved. Encoded with corresponding types of data, our Latent Implicit Map is capable of generating continuous surfaces, surface property fields, surface feature fields, and all other possible options. To demonstrate the capabilities of our model, we implement three applications: (1) incremental reconstruction for surfaces and color (2) 2D-to-3D transfer of fabricated properties (3) open-vocabulary scene understanding by creating a text CLIP feature field on surfaces. We evaluate Uni-Fusion by comparing it in corresponding applications, from which Uni-Fusion shows high-flexibility in various applications while performing best or being competitive. The project page of Uni-Fusion is available at https://jarrome.github.io/Uni-Fusion/ . | 翻訳日:2023-08-04 17:08:02 公開日:2023-08-03 |
# 微視的画像例による材料特性の自動予測 Automatically Predict Material Properties with Microscopic Image Example Polymer Compatibility ( http://arxiv.org/abs/2303.12360v2 ) ライセンス: Link先を確認 | Zhilong Liang, Zhenzhi Tan, Ruixin Hong, Wanli Ouyang, Jinying Yuan and Changshui Zhang | (参考訳) 多くの材料特性は形態学的外観に現れ、走査電子顕微鏡(SEM)のような顕微鏡像で特徴づけられる。
高分子の不連続性は, 高分子材料の物理量として重要であり, SEM画像から一般的に直感的に判断される。
しかし、人間の観察と画像の判断は時間がかかり、労力がかかり、定量化が困難である。
機械学習によるコンピュータ画像認識は、人工判断の欠陥を補い、正確かつ定量的な判断を与えることができる。
畳み込みニューラルネットワークと転送学習法を用いた自動ミスシビリティ認識を実現し,最大94%の精度を得る。
また, このモデルを用いて, ポリマーの不連続性に関する定量的基準を提出した。
提案手法は, 各種材料の微細構造および物性の定量的評価に広く応用可能である。 Many material properties are manifested in the morphological appearance and characterized with microscopic image, such as scanning electron microscopy (SEM). Polymer miscibility is a key physical quantity of polymer material and commonly and intuitively judged by SEM images. However, human observation and judgement for the images is time-consuming, labor-intensive and hard to be quantified. Computer image recognition with machine learning method can make up the defects of artificial judging, giving accurate and quantitative judgement. We achieve automatic miscibility recognition utilizing convolution neural network and transfer learning method, and the model obtains up to 94% accuracy. We also put forward a quantitative criterion for polymer miscibility with this model. The proposed method can be widely applied to the quantitative characterization of the microstructure and properties of various materials. | 翻訳日:2023-08-04 17:07:34 公開日:2023-08-03 |
# 知識蒸留のトレーニングダイナミクスについて A closer look at the training dynamics of knowledge distillation ( http://arxiv.org/abs/2303.11098v2 ) ライセンス: Link先を確認 | Roy Miles and Krystian Mikolajczyk | (参考訳) 本稿では,機能マッチングと計量学習問題としての知識蒸留の有効性を再考する。
そこで我々は,3つの重要な設計決定,すなわち正規化,ソフト最大関数,投影層を重要な要素として検証する。
理論的には、プロジェクタが過去の例に関する情報を暗黙的に符号化し、学生に関係勾配を与える。
次に,表現の正規化とプロジェクタのトレーニングダイナミクスが密結合していることを示し,学生のパフォーマンスに大きな影響を与えることを示した。
最後に,単純なソフト最大関数を用いてキャパシティギャップ問題に対処することができることを示す。
様々なベンチマークデータセットにおける実験の結果は、計算効率がはるかに高いにもかかわらず、これらの洞察を使うことは最先端の知識蒸留技術に匹敵する性能をもたらすことを証明している。
特に、画像分類(CIFAR100とImageNet)、オブジェクト検出(COCO2017)、およびトレーニングデータ効率のよいトランスフォーマーなどのより難しい蒸留目標において、画像Net上でDeiT-Tiを用いて77.2%のトップ-1精度を得る。 In this paper we revisit the efficacy of knowledge distillation as a function matching and metric learning problem. In doing so we verify three important design decisions, namely the normalisation, soft maximum function, and projection layers as key ingredients. We theoretically show that the projector implicitly encodes information on past examples, enabling relational gradients for the student. We then show that the normalisation of representations is tightly coupled with the training dynamics of this projector, which can have a large impact on the students performance. Finally, we show that a simple soft maximum function can be used to address any significant capacity gap problems. Experimental results on various benchmark datasets demonstrate that using these insights can lead to superior or comparable performance to state-of-the-art knowledge distillation techniques, despite being much more computationally efficient. In particular, we obtain these results across image classification (CIFAR100 and ImageNet), object detection (COCO2017), and on more difficult distillation objectives, such as training data efficient transformers, whereby we attain a 77.2% top-1 accuracy with DeiT-Ti on ImageNet. | 翻訳日:2023-08-04 17:07:22 公開日:2023-08-03 |
# 野生における感情反応強度のコンピュータビジョンによる推定 Computer Vision Estimation of Emotion Reaction Intensity in the Wild ( http://arxiv.org/abs/2303.10741v2 ) ライセンス: Link先を確認 | Yang Qian, Ali Kargarandehkordi, Onur Cezmi Mutlu, Saimourya Surabhi, Mohammadmahdi Honarmand, Dennis Paul Wall, Peter Washington | (参考訳) 感情は人間のコミュニケーションにおいて重要な役割を果たす。
感情表現の自動認識のためのコンピュータビジョンモデルの開発は、ロボティクス、デジタル行動医療、メディア分析など、さまざまな領域で助けとなる。
感情的な表現は、伝統的に感情的なコンピューティング研究でモデル化されている3つのタイプがある:アクションユニット、ヴァレンス・オーラル(VA)、カテゴリー的感情。
これらの表現をよりきめ細かなラベルへと進める取り組みの一環として、我々は新たに導入された感情反応強度(ERI)推定課題を、ABAW(Affective Behavior Analysis in-the-Wild)の第5回コンペティションで紹介する。
視覚領域で訓練された4つの深層ニューラルネットワークと、感情反応強度を予測するために視覚と音声の両方を訓練したマルチモーダルモデルを開発した。
hume-reactionデータセット上でのベストパフォーマンスモデルは,事前学習されたresnet50モデルを用いて,テストセット上で平均ピアソン相関係数0.4080を達成した。
この研究は、個別の感情カテゴリではなく、感情反応の強度を予測する生産段階モデルの開発に向けた第一歩となる。 Emotions play an essential role in human communication. Developing computer vision models for automatic recognition of emotion expression can aid in a variety of domains, including robotics, digital behavioral healthcare, and media analytics. There are three types of emotional representations which are traditionally modeled in affective computing research: Action Units, Valence Arousal (VA), and Categorical Emotions. As part of an effort to move beyond these representations towards more fine-grained labels, we describe our submission to the newly introduced Emotional Reaction Intensity (ERI) Estimation challenge in the 5th competition for Affective Behavior Analysis in-the-Wild (ABAW). We developed four deep neural networks trained in the visual domain and a multimodal model trained with both visual and audio features to predict emotion reaction intensity. Our best performing model on the Hume-Reaction dataset achieved an average Pearson correlation coefficient of 0.4080 on the test set using a pre-trained ResNet50 model. This work provides a first step towards the development of production-grade models which predict emotion reaction intensities rather than discrete emotion categories. | 翻訳日:2023-08-04 17:07:00 公開日:2023-08-03 |
# 開システム行列生成シミュレーション法における二成分エントロピー成長の比較 Comparing bipartite entropy growth in open-system matrix-product simulation methods ( http://arxiv.org/abs/2303.09426v2 ) ライセンス: Link先を確認 | Guillermo Preisser, David Wellnitz, Thomas Botzung, Johannes Schachenmayer | (参考訳) 1次元量子多体系のダイナミクスは、しばしば行列生成状態(mpss)で数値シミュレーションされる。
MPS法の計算複雑性は、鎖の分岐に対する密度行列の減少のエントロピーの成長と関連していることが知られている。
閉系では、複雑性に関連するエントロピーはエントロピーによって一意的に定義されるが、開系では表現の選択に依存する。
本稿では,オープンシステムシミュレーションにおける行列積表現の複雑さに関連する異なるエントロピーの成長を系統的に比較する。
我々は自発放出と吸収の存在下でXXZスピン1/2鎖をシミュレートし,デファス化を行う。
行列-積密度演算子 (MPDO) としての全密度行列を表現したシミュレーションと、各軌道自体がMPS(QT+MPS)で表される量子軌道の解法を比較する。
我々は,MPDO記述における両部エントロピーが,一般にQT+MPSのエントロピーよりも時間とともに拡大していることを示す。
一 自発放出及び吸収のために、TEが成長している間にOEは消滅し、大きな放散率及び十分に長い時間に一定の値に達すること。
ii) OEの劣化は対数成長のみを示し, TEは多項式成長する。
QT+MPSはより小さな局所状態空間を必要とするが、より好ましいエントロピー成長により、MPDOシミュレーションはQT+MPSよりも根本的に効率的になる。
さらに、MPDOシミュレーションにより、高階トロッター分解と翻訳不変性を容易に利用でき、より大きな時間ステップとシステムサイズを実現することができる。 The dynamics of one-dimensional quantum many-body systems is often numerically simulated with matrix-product states (MPSs). The computational complexity of MPS methods is known to be related to the growth of entropies of reduced density matrices for bipartitions of the chain. While for closed systems the entropy relevant for the complexity is uniquely defined by the entanglement entropy, for open systems it depends on the choice of the representation. Here, we systematically compare the growth of different entropies relevant to the complexity of matrix-product representations in open-system simulations. We simulate an XXZ spin-1/2 chain in the presence of spontaneous emission and absorption, and dephasing. We compare simulations using a representation of the full density matrix as a matrix-product density operator (MPDO) with a quantum trajectory unraveling, where each trajectory is itself represented by an MPS (QT+MPS). We show that the bipartite entropy in the MPDO description (operator entanglement, OE) generally scales more favorably with time than the entropy in QT+MPS (trajectory entanglement, TE): i) For spontaneous emission and absorption the OE vanishes while the TE grows and reaches a constant value for large dissipative rates and sufficiently long times; ii) for dephasing the OE exhibits only logarithmic growth while the TE grows polynomially. Although QT+MPS requires a smaller local state space, the more favorable entropy growth can thus make MPDO simulations fundamentally more efficient than QT+MPS. Furthermore, MPDO simulations allow for easier exploitation of higher-order Trotter decompositions and translational invariance, allowing for larger time steps and system sizes. | 翻訳日:2023-08-04 17:06:39 公開日:2023-08-03 |
# 虚血性脳卒中患者の4D CNNによるPenumbraとCoreの分離 CT Perfusion is All We Need: 4D CNN Segmentation of Penumbra and Core in Patient With Suspected Ischemic Stroke ( http://arxiv.org/abs/2303.08757v2 ) ライセンス: Link先を確認 | Luca Tomasetti, Kjersti Engan, Liv Jorunn H{\o}llesli, Kathinka D{\ae}hli Kurz, Mahdieh Khanmohammadi | (参考訳) 急性期脳卒中 (ais) 患者における死組織, コア, 回収可能組織, ペナンブラの虚血部位の精密かつ迅速な予測法が臨床的に重要な関心事である。
診断と治療計画の改善に不可欠な役割を担っている。
CTスキャンはAISを疑う患者の早期評価における主要な指標の1つである。
CT Perfusion (CTP) は脳卒中の位置, 重症度, および虚血性病変の容積を決定する一次評価としてしばしば用いられる。
現在のCTPの自動セグメンテーション法は, 従来, 放射線技師による臨床解釈に用いられていた3次元パラメトリックマップを入力として用いている。
また、生のctpデータを2d+time入力としてスライスバイスライスベースで使用し、ボリューム上の空間情報を無視する。
さらに、これらの手法はコア領域のセグメント化のみに関心を持ち、ペナンブラの予測は治療計画に不可欠である。
本稿では,4次元CTP全体を入力として活用し,時空間情報を完全に活用する方法について検討し,新しい4次元畳み込み層を提案する。
3つのグループに分けた152人のローカルデータセットに関する包括的実験により,提案手法は他の手法よりも精度の高い結果が得られた。
提案した4D mJ-Netを用いることで、ペニブラとコア領域の分割にそれぞれ0.53と0.23のDice係数が得られる。
コードはhttps://github.com/biomedical-data- analysis-laboratory/4d-mj-net.gitで入手できる。 Precise and fast prediction methods for ischemic areas comprised of dead tissue, core, and salvageable tissue, penumbra, in acute ischemic stroke (AIS) patients are of significant clinical interest. They play an essential role in improving diagnosis and treatment planning. Computed Tomography (CT) scan is one of the primary modalities for early assessment in patients with suspected AIS. CT Perfusion (CTP) is often used as a primary assessment to determine stroke location, severity, and volume of ischemic lesions. Current automatic segmentation methods for CTP mostly use already processed 3D parametric maps conventionally used for clinical interpretation by radiologists as input. Alternatively, the raw CTP data is used on a slice-by-slice basis as 2D+time input, where the spatial information over the volume is ignored. In addition, these methods are only interested in segmenting core regions, while predicting penumbra can be essential for treatment planning. This paper investigates different methods to utilize the entire 4D CTP as input to fully exploit the spatio-temporal information, leading us to propose a novel 4D convolution layer. Our comprehensive experiments on a local dataset of 152 patients divided into three groups show that our proposed models generate more precise results than other methods explored. Adopting the proposed 4D mJ-Net, a Dice Coefficient of 0.53 and 0.23 is achieved for segmenting penumbra and core areas, respectively. The code is available on https://github.com/Biomedical-Data-Analysis-Laboratory/4D-mJ-Net.git. | 翻訳日:2023-08-04 17:06:14 公開日:2023-08-03 |
# FAC: 前景認識特徴コントラストによる3次元表現学習 FAC: 3D Representation Learning via Foreground Aware Feature Contrast ( http://arxiv.org/abs/2303.06388v3 ) ライセンス: Link先を確認 | Kangcheng Liu, Aoran Xiao, Xiaoqin Zhang, Shijian Lu, Ling Shao | (参考訳) コントラスト学習は3次元シーン理解タスクにおける教師なし事前学習に大きな可能性を示した。
しかし、既存のほとんどの作業は、コントラストを構築しながらアンカーとしてポイントの特徴をランダムに選び、しばしば3Dシーンで支配される背景点に対して明確なバイアスをもたらす。
また、物体認識と前景間識別は無視され、対照的な学習がより効果的になる。
これらの課題に対処するために,事前学習においてより効果的なポイントクラウド表現を学習するための,一般のフォアグラウンド対応機能コントラスト(FAC)フレームワークを提案する。
FACは2つの新しいコントラスト設計で構成され、より効果的で情報的なコントラストペアを構築する。
1つは、ポイントが同じ意味を持つ傾向にある同じ前景セグメント内で正のペアを構築することである。
2つ目は,3次元セグメント/オブジェクト間の過度な識別を防止し,セグメンテーションレベルでの背景と背景の区別をシムズ対応ネットワークの適応的特徴学習により促進することである。
点アクティベーションマップを用いた可視化により, コントラストペアが事前学習中に前景領域間の明確な対応を捉えることを示す。
定量的実験により、FACは様々な下流3次元セマンティックセグメンテーションやオブジェクト検出タスクにおいて、優れた知識伝達とデータ効率を達成することが示された。 Contrastive learning has recently demonstrated great potential for unsupervised pre-training in 3D scene understanding tasks. However, most existing work randomly selects point features as anchors while building contrast, leading to a clear bias toward background points that often dominate in 3D scenes. Also, object awareness and foreground-to-background discrimination are neglected, making contrastive learning less effective. To tackle these issues, we propose a general foreground-aware feature contrast (FAC) framework to learn more effective point cloud representations in pre-training. FAC consists of two novel contrast designs to construct more effective and informative contrast pairs. The first is building positive pairs within the same foreground segment where points tend to have the same semantics. The second is that we prevent over-discrimination between 3D segments/objects and encourage foreground-to-background distinctions at the segment level with adaptive feature learning in a Siamese correspondence network, which adaptively learns feature correlations within and across point cloud views effectively. Visualization with point activation maps shows that our contrast pairs capture clear correspondences among foreground regions during pre-training. Quantitative experiments also show that FAC achieves superior knowledge transfer and data efficiency in various downstream 3D semantic segmentation and object detection tasks. | 翻訳日:2023-08-04 17:05:45 公開日:2023-08-03 |
# 最適な採餌戦略が学べる Optimal foraging strategies can be learned ( http://arxiv.org/abs/2303.06050v3 ) ライセンス: Link先を確認 | Gorka Mu\~noz-Gil, Andrea L\'opez-Incera, Lukas J. Fiderer and Hans J. Briegel | (参考訳) 動物の採餌行動は自然界における標的探索のパラダイムである。
どの捕食戦略が最適か、どのように動物が学習するかを理解することは、捕食をモデル化する上で重要な課題である。
最適性の問題は、経済、物理学、生態学といった分野に幅広く影響を及ぼすが、学習可能性に関する問題は進化生物学における議論の的となっている。
これらの課題の相互接続性を認識し,強化学習フレームワークによる最適採餌戦略を検討することで,同時に課題に対処した。
この目的のために、我々は学習エージェントとしてフォアジャーをモデル化する。
まず, 強化学習モデルにおける報酬の最大化が, 捕食効率の最適化と等価であることを理論的に証明する。
そして,非破壊探索のパラダイムモデルにおいて,l\'evy walk などの既知の戦略の効率を上回っている飼料戦略をエージェントが学習することを示す数値実験を行った。
これらの知見は,検索戦略の最適化だけでなく,学習プロセスをモデル化するための汎用フレームワークとしての強化学習の可能性を強調し,自然最適化プロセスにおける学習の役割に光を当てている。 The foraging behavior of animals is a paradigm of target search in nature. Understanding which foraging strategies are optimal and how animals learn them are central challenges in modeling animal foraging. While the question of optimality has wide-ranging implications across fields such as economy, physics, and ecology, the question of learnability is a topic of ongoing debate in evolutionary biology. Recognizing the interconnected nature of these challenges, this work addresses them simultaneously by exploring optimal foraging strategies through a reinforcement learning framework. To this end, we model foragers as learning agents. We first prove theoretically that maximizing rewards in our reinforcement learning model is equivalent to optimizing foraging efficiency. We then show with numerical experiments that, in the paradigmatic model of non-destructive search, our agents learn foraging strategies which outperform the efficiency of some of the best known strategies such as L\'evy walks. These findings highlight the potential of reinforcement learning as a versatile framework not only for optimizing search strategies but also to model the learning process, thus shedding light on the role of learning in natural optimization processes. | 翻訳日:2023-08-04 17:05:20 公開日:2023-08-03 |
# slca:事前学習モデルを用いた連続学習のための分類器アライメント付き遅い学習者 SLCA: Slow Learner with Classifier Alignment for Continual Learning on a Pre-trained Model ( http://arxiv.org/abs/2303.05118v3 ) ライセンス: Link先を確認 | Gengwei Zhang, Liyuan Wang, Guoliang Kang, Ling Chen, Yunchao Wei | (参考訳) 連続学習の目的は、逐次到達データ学習における認識モデルの性能を向上させることである。
既存の作品の多くはスクラッチから学ぶという前提で構築されているが、事前学習の利点を取り入れることに努力が注がれている。
しかし、その一般化性を維持しつつ、各漸進的なタスクに対する事前学習された知識を適応的に活用する方法は、未解決の問題である。
本研究では,事前学習モデル (CLPM) を用いた継続学習の広範な解析を行い,その課題を進歩的オーバーフィッティング問題に帰着させる。
学習率を選択的に減少させることで、この問題を表現層でほぼ解決することができることを観察し、クラスワイズ分布をモデル化し、ポストホックな方法で分類層を整列させることにより、分類層をさらに改善するSlow Learner with Classifier Alignment (SLCA) という、シンプルだが極めて効果的なアプローチを提案する。
さまざまなシナリオにおいて、当社の提案はCLPMの大幅な改善(例えば、Split CIFAR-100、Split ImageNet-R、Split CUB-200、Split Cars-196で最大49.76%、50.05%、44.69%、40.16%)を提供し、その結果、最先端のアプローチを大きなマージンで上回っている。
このような強いベースラインに基づいて、重要な要因と有望な方向性を詳細に分析し、その後の研究を促進する。
コードはhttps://github.com/GengDavid/SLCA.comで公開されている。 The goal of continual learning is to improve the performance of recognition models in learning sequentially arrived data. Although most existing works are established on the premise of learning from scratch, growing efforts have been devoted to incorporating the benefits of pre-training. However, how to adaptively exploit the pre-trained knowledge for each incremental task while maintaining its generalizability remains an open question. In this work, we present an extensive analysis for continual learning on a pre-trained model (CLPM), and attribute the key challenge to a progressive overfitting problem. Observing that selectively reducing the learning rate can almost resolve this issue in the representation layer, we propose a simple but extremely effective approach named Slow Learner with Classifier Alignment (SLCA), which further improves the classification layer by modeling the class-wise distributions and aligning the classification layers in a post-hoc fashion. Across a variety of scenarios, our proposal provides substantial improvements for CLPM (e.g., up to 49.76%, 50.05%, 44.69% and 40.16% on Split CIFAR-100, Split ImageNet-R, Split CUB-200 and Split Cars-196, respectively), and thus outperforms state-of-the-art approaches by a large margin. Based on such a strong baseline, critical factors and promising directions are analyzed in-depth to facilitate subsequent research. Code has been made available at: https://github.com/GengDavid/SLCA. | 翻訳日:2023-08-04 17:05:01 公開日:2023-08-03 |
# 量子コンピュータ上の確率的想像時間進化における最適スケジューリング Optimal scheduling in probabilistic imaginary-time evolution on a quantum computer ( http://arxiv.org/abs/2305.04600v2 ) ライセンス: Link先を確認 | Hirofumi Nishi, Koki Hamada, Yusuke Nishiya, Taichi Kosugi, Yu-ichiro Matsushita | (参考訳) 基底状態の準備は量子計算において重要なタスクである。
確率的想像時間進化法(PITE)は、単一のアンシラ量子ビットと前方および後方制御されたリアルタイム進化演算子からなるハミルトニアンの基底状態を作成するための有望な候補である。
基底状態の準備は、複雑性クラス量子Merlin-Arthurに分類される量子計算においても難しい課題である。
しかし、PITEの最適パラメータは計算効率をある程度向上させる可能性がある。
本研究では,PITE法の計算コストを,仮想時間ステップサイズを線形および指数的にスケジューリングし,計算コストを削減するために解析する。
まず, 状態間の密接性として定義される誤差を, 直交時間と近似時間発展演算子により解析的に考察する。
また,最適な仮想時間ステップサイズと時間変化率についても論じる。
解析的議論は1次元ハイゼンベルク鎖の数値シミュレーションを用いて検証される。
結果から、ハミルトンの未知固有値の場合、線形スケジューリングはうまく機能することがわかった。
幅広い固有状態に対して、線形スケジューリングは平均より小さなエラーを返す。
しかし、スケジューリングの線形性は固有状態の特定のエネルギー領域に問題を引き起こす。
これらの問題を回避するためには、指数的キャラクタを含むようなスケジューリングにある種の非線形性を組み込むことで、pite法の計算コストを削減することが望ましい。
この研究の結果は、量子コンピュータ上での多体ハミルトニアンの基底状態準備の分野に大きく貢献することができる。 Ground-state preparation is an important task in quantum computation. The probabilistic imaginary-time evolution (PITE) method is a promising candidate for preparing the ground state of the Hamiltonian, which comprises a single ancilla qubit and forward- and backward-controlled real-time evolution operators. The ground state preparation is a challenging task even in the quantum computation, classified as complexity-class quantum Merlin-Arthur. However, optimal parameters for PITE could potentially enhance the computational efficiency to a certain degree. In this study, we analyze the computational costs of the PITE method for both linear and exponential scheduling of the imaginary-time step size for reducing the computational cost. First, we analytically discuss an error defined as the closeness between the states acted on by exact and approximate imaginary-time evolution operators. The optimal imaginary-time step size and rate of change of imaginary time are also discussed. Subsequently, the analytical discussion is validated using numerical simulations for a one-dimensional Heisenberg chain. From the results, we find that linear scheduling works well in the case of unknown eigenvalues of the Hamiltonian. For a wide range of eigenstates, the linear scheduling returns smaller errors on average. However, the linearity of the scheduling causes problems for some specific energy regions of eigenstates. To avoid these problems, incorporating a certain level of nonlinearity into the scheduling, such as by inclusion of an exponential character, is preferable for reducing the computational costs of the PITE method. The findings of this study can make a significant contribute to the field of ground-state preparation of many-body Hamiltonians on quantum computers. | 翻訳日:2023-08-04 16:57:09 公開日:2023-08-03 |
# 自動的に発見された連鎖的思考プロンプトは、新しいモデルとデータセットに一般化する An automatically discovered chain-of-thought prompt generalizes to novel models and datasets ( http://arxiv.org/abs/2305.02897v2 ) ライセンス: Link先を確認 | Konstantin Hebenstreit, Robert Praas, Louis P Kiesewetter, Matthias Samwald | (参考訳) emergent chain-of-thought (cot) 推論能力は、大規模言語モデル(llm)のパフォーマンスと説明可能性を改善することを約束する。
しかし、以前のモデル世代で定式化された推論戦略が、新しいモデル世代と異なるデータセットにどのように一般化するかについては、不確実性が残っている。
本研究では,最近リリースされた6つのLCM(davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl, Cohere command-xlarge)を,科学的領域と医学領域のデータセットを含む6つの問合せデータセットで比較した。
この結果から,CoT推論戦略のメリットは,様々なモデルやデータセットに対して頑健であることが示唆された。
gpt-4は最先端の推論戦略の利点が最も多く、自動発見によって以前に発見されたプロンプトを適用することで最高のパフォーマンスを示す。 Emergent chain-of-thought (CoT) reasoning capabilities promise to improve performance and explainability of large language models (LLMs). However, uncertainties remain about how reasoning strategies formulated for previous model generations generalize to new model generations and different datasets. In this small-scale study, we compare different reasoning strategies induced by zero-shot prompting across six recently released LLMs (davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl and Cohere command-xlarge) on a mixture of six question-answering datasets, including datasets from scientific and medical domains. Our findings demonstrate that while some variations in effectiveness occur, gains from CoT reasoning strategies remain robust across different models and datasets. GPT-4 has the most benefit from current state-of-the-art reasoning strategies and exhibits the best performance by applying a prompt previously discovered through automated discovery. | 翻訳日:2023-08-04 16:56:45 公開日:2023-08-03 |
# 超高分解能リモートセンシングシーン分類のためのマルチレベル機能強化 Enhanced Multi-level Features for Very High Resolution Remote Sensing Scene Classification ( http://arxiv.org/abs/2305.00679v3 ) ライセンス: Link先を確認 | Chiranjibi Sitaula, Sumesh KC, Jagannath Aryal | (参考訳) 超高分解能(VHR)リモートセンシング(RS)シーン分類は、クラス間類似度とクラス内変動性の問題により難しい課題である。
近年,既存の深層学習(dl)に基づく手法がvhr rsのシーン分類に大きな期待を寄せている。
しかし、それらは依然として不安定な分類性能を提供している。
このような問題に対処するため,我々は新たなDLベースのアプローチを提案する。
そこで我々は,拡張VHRアテンションモジュール (EAM) を考案し,その後にアトラス空間ピラミッドプール (ASPP) とグローバル平均プール (GAP) を開発した。
この手順は、強化された特徴を対応するレベルから付与する。
そして、マルチレベル特徴融合を行う。
2つの広く利用されているVHR RSデータセットによる実験結果から,提案手法は最小標準偏差0.001で,競争性と安定性,ロバストな分類性能が得られることが示された。
さらに、AIDとNWPUのデータセットにおける最も高い総合的な精度は、それぞれ95.39%と93.04%である。 Very high-resolution (VHR) remote sensing (RS) scene classification is a challenging task due to the higher inter-class similarity and intra-class variability problems. Recently, the existing deep learning (DL)-based methods have shown great promise in VHR RS scene classification. However, they still provide an unstable classification performance. To address such a problem, we, in this letter, propose a novel DL-based approach. For this, we devise an enhanced VHR attention module (EAM), followed by the atrous spatial pyramid pooling (ASPP) and global average pooling (GAP). This procedure imparts the enhanced features from the corresponding level. Then, the multi-level feature fusion is performed. Experimental results on two widely-used VHR RS datasets show that the proposed approach yields a competitive and stable/robust classification performance with the least standard deviation of 0.001. Further, the highest overall accuracies on the AID and the NWPU datasets are 95.39% and 93.04%, respectively. | 翻訳日:2023-08-04 16:56:22 公開日:2023-08-03 |
# オール・トゥ・オール系の深いヒルベルト空間におけるサプライズ:超指数スクランブルからスロー・エンタングルメント成長へ Surprises in the Deep Hilbert Space of all-to-all systems: From super-exponential scrambling to slow entanglement growth ( http://arxiv.org/abs/2304.11138v2 ) ライセンス: Link先を確認 | Zihao Qi and Thomas Scaffidi and Xiangyu Cao | (参考訳) 一様全対全相互作用を持つスピン系の量子力学は、最大全スピンの完全対称空間(TSS)でしばしば研究される。
しかし、TSS状態は全多体ヒルベルト空間において非定型である。
本研究では,tssから遠ざかる全量子力学のいくつかの側面を探索し,dhs(deep hilbert space)の驚くべき特徴を明らかにする。
我々は、全ヒルベルト空間の無限温度アンサンブルにおける時間外順序コリレータ(otoc)について研究する。
DHS OTOC の位相空間表現を導出し、非有界位相空間の高速なダイナミクスにより、OTOC が大きな$N$極限で超指数的に成長可能であることを示す(有限系では、超指数的成長が意図的に終了し、飽和するまではパワーロッドに道を譲ることが数値的に観察される)。
同様の機構により、クリロフの複雑性は爆発的に増大する。
また、dhs積状態から量子クエンチにおける絡み合い成長、すなわち集合スピンの統計に関してdhs無限温度アンサンブルに類似した非アライメントスピンの1つを研究する。
場の理論的手法を用いて、大きな$N$極限における絡み合いエントロピーを正確に計算する。
以上の結果から,DHS では OTOC の急激な成長は,TSS 由来の Zurek-Paz 関係とは対照的に,急速に絡み合う成長を示唆しないことが示された。 The quantum dynamics of spin systems with uniform all-to-all interaction are often studied in the totally symmetric space (TSS) of maximal total spin. However the TSS states are atypical in the full many-body Hilbert space. In this work, we explore several aspects of the all-to-all quantum dynamics away from the TSS, and reveal surprising features of the "deep Hilbert space" (DHS). We study the out-of-time order correlator (OTOC) in the infinite-temperature ensemble of the full Hilbert space. We derive a phase-space representation of the DHS OTOC and show that the OTOC can grow super-exponentially in the large $N$ limit, due to the fast dynamics in an unbounded phase space (in finite systems, we observe numerically that the super-exponential growth ends precociously and gives way to a power-law one until saturation). By a similar mechanism, the Krylov complexity grows explosively. We also study the entanglement growth in a quantum quench from a DHS product state, i.e., one of non-aligned spins that resemble the DHS infinite-temperature ensemble with respect to the statistics of the collective spins. Using a field-theoretical method, We exactly calculate the entanglement entropy in the large $N$ limit. We show that, in the DHS, fast OTOC growth does not imply fast entanglement growth, in contrast to the Zurek-Paz relation derived in the TSS. | 翻訳日:2023-08-04 16:55:49 公開日:2023-08-03 |
# 量子超伝導デバイスにおける導電損失の同定と緩和 Identification and Mitigation of Conducting Package Losses for Quantum Superconducting Devices ( http://arxiv.org/abs/2304.08629v2 ) ライセンス: Link先を確認 | Yizhou Huang, Yi-Hsiang Huang, Haozhi Wang, Zach Steffen, Jonathan Cripe, F. C. Wellstood, B. S. Palmer | (参考訳) 量子計算には低損失超伝導rfデバイスが必要である。
本稿では,超伝導共振器のパッケージングにおける損失が,基本共振周波数が4.9ghzから5.8ghzの薄膜al四波共振器の最大内部品質因子(qi)に与える影響を示す一連の測定とシミュレーションについて述べる。
幅とギャップの異なる共振器を用いて, 蓄積した電磁エネルギーの異なる体積をサンプリングし, Qiに影響を及ぼした。
共振器装置のサファイア基板の裏面を導電性銀接着剤でCuパッケージに付着させると、電磁サンプリング体積が増大するにつれて、最大到達可能なQiの単調低下が生じる。
これは、大きな表面抵抗領域における誘導電流と基板下の散逸の結果である。
基板の下に穴をあけ, 超伝導材料をパッケージに使用することにより, オーミック損失を低減し, より大きな共振器の最大Qiを増加させる。 Low-loss superconducting rf devices are required when used for quantum computation. Here, we present a series of measurements and simulations showing that conducting losses in the packaging of our superconducting resonator devices affect the maximum achievable internal quality factors (Qi) for a series of thin-film Al quarter-wave resonators with fundamental resonant frequencies varying between 4.9 and 5.8 GHz. By utilizing resonators with different widths and gaps, different volumes of the stored electromagnetic energy were sampled thus affecting Qi. When the backside of the sapphire substrate of the resonator device is adhered to a Cu package with a conducting silver glue, a monotonic decrease in the maximum achievable Qi is found as the electromagnetic sampling volume is increased. This is a result of induced currents in large surface resistance regions and dissipation underneath the substrate. By placing a hole underneath the substrate and using superconducting material for the package, we decrease the ohmic losses and increase the maximum Qi for the larger size resonators. | 翻訳日:2023-08-04 16:55:21 公開日:2023-08-03 |
# LLMはタスク指向対話に必要なすべてか? Are LLMs All You Need for Task-Oriented Dialogue? ( http://arxiv.org/abs/2304.06556v2 ) ライセンス: Link先を確認 | Vojt\v{e}ch Hude\v{c}ek and Ond\v{r}ej Du\v{s}ek | (参考訳) インストラクション調整された大規模言語モデル(llms)は最近、会話を通じてユーザと対話できることで大きな人気を得た。
本研究では,マルチターンタスクを完了し,既存のタスク指向対話ベンチマークの文脈で外部データベースと対話する能力を評価することを目的とする。
明示的な信念状態追跡では、LLMは特定のタスク固有モデルに比べて性能が劣ることを示す。
それでも、正しいスロット値が与えられた場合、対話を成功まで導く能力を示す。
さらに、この能力は真の信念状態分布やドメイン内例へのアクセスによって改善される。 Instructions-tuned Large Language Models (LLMs) gained recently huge popularity thanks to their ability to interact with users through conversation. In this work we aim to evaluate their ability to complete multi-turn tasks and interact with external databases in the context of established task-oriented dialogue benchmarks. We show that for explicit belief state tracking, LLMs underperform compared to specialized task-specific models. Nevertheless, they show ability to guide the dialogue to successful ending if given correct slot values. Furthermore this ability improves with access to true belief state distribution or in-domain examples. | 翻訳日:2023-08-04 16:55:00 公開日:2023-08-03 |
# WindowNet: 胸部X線分類のための学習可能なWindows WindowNet: Learnable Windows for Chest X-ray Classification ( http://arxiv.org/abs/2306.06038v2 ) ライセンス: Link先を確認 | Alessandro Wollek, Sardi Hyska, Bastian Sabel, Michael Ingrisch, Tobias Lasser | (参考訳) 胸部X線(CXR)画像は低解像度でビット深度に圧縮され、そのサイズを小さくし、微妙な診断特性を変化させる可能性がある。
放射線技師は画像コントラストを高めるためにウィンドウ操作を用いるが、これらの操作がCXR分類性能に与える影響は明らかでない。
本研究では,CXR分類性能が向上することを示すとともに,最適なウィンドウ設定を学習するモデルであるWindowNetを提案する。
まず、ビット深度が分類性能に与える影響について検討し、高いビット深度(12ビット)で性能が向上することを示した。
次に,異なるウィンドウ設定を評価し,異なるウィンドウでのトレーニングが一般に病理学的分類性能を改善することを示す。
最後に,ウィンドウ設定を学習するモデルであるwindownetを提案し,その評価を行った。 Chest X-ray (CXR) images are commonly compressed to a lower resolution and bit depth to reduce their size, potentially altering subtle diagnostic features. Radiologists use windowing operations to enhance image contrast, but the impact of such operations on CXR classification performance is unclear. In this study, we show that windowing can improve CXR classification performance, and propose WindowNet, a model that learns optimal window settings. We first investigate the impact of bit-depth on classification performance and find that a higher bit-depth (12-bit) leads to improved performance. We then evaluate different windowing settings and show that training with a distinct window generally improves pathology-wise classification performance. Finally, we propose and evaluate WindowNet, a model that learns optimal window settings, and show that it significantly improves performance compared to the baseline model without windowing. | 翻訳日:2023-08-04 16:48:36 公開日:2023-08-03 |
# テキスト・画像生成モデルによる教師なし合成概念の発見 Unsupervised Compositional Concepts Discovery with Text-to-Image Generative Models ( http://arxiv.org/abs/2306.05357v2 ) ライセンス: Link先を確認 | Nan Liu, Yilun Du, Shuang Li, Joshua B. Tenenbaum, Antonio Torralba | (参考訳) テキストから画像への生成モデルは、異なるドメイン間で高解像度の画像合成を可能にするが、ユーザーは生成したいコンテンツを指定する必要がある。
本稿では,異なる画像の集合が与えられた場合,各画像を表す生成概念を見つけることができるかという逆問題を考える。
本稿では,画像の集合から生成概念を発見し,絵画,絵画,絵画,照明の異なるスタイルをキッチンシーンから切り離し,イメージネット画像から画像クラスを発見するための教師なしアプローチを提案する。
このような生成概念が画像の内容を正確に表現し,再結合して新たな芸術的およびハイブリッドな画像を生成する方法を示し,下流分類タスクの表現としてさらに活用する。 Text-to-image generative models have enabled high-resolution image synthesis across different domains, but require users to specify the content they wish to generate. In this paper, we consider the inverse problem -- given a collection of different images, can we discover the generative concepts that represent each image? We present an unsupervised approach to discover generative concepts from a collection of images, disentangling different art styles in paintings, objects, and lighting from kitchen scenes, and discovering image classes given ImageNet images. We show how such generative concepts can accurately represent the content of images, be recombined and composed to generate new artistic and hybrid images, and be further used as a representation for downstream classification tasks. | 翻訳日:2023-08-04 16:48:20 公開日:2023-08-03 |
# AtTRACTive:アクティブラーニングを用いた半自動白質トラクションセグメンテーション atTRACTive: Semi-automatic white matter tract segmentation using active learning ( http://arxiv.org/abs/2305.18905v3 ) ライセンス: Link先を確認 | Robin Peretzke, Klaus Maier-Hein, Jonas Bohn, Yannick Kirchhoff, Saikat Roy, Sabrina Oberli-Palma, Daniela Becker, Pavlina Lenga, Peter Neher | (参考訳) 医用画像における白質の正確な識別は,手術計画や臓器特異的解析など,様々な応用に不可欠である。
教師付き機械学習モデルは、このタスクを自動的に解決する最新技術に到達した。
しかし、これらのモデルは主に健康な被験者で訓練され、脳腫瘍によって引き起こされる強い解剖学的収差に苦しむ。
この制限は、通常、目標経路の時間的および挑戦的な手作業による記述が使用される場合、術前計画のようなタスクには適さない。
数百万のストリームラインからなる全脳トラクトグラフィーから,ホワイトマターの高速かつ直感的なセグメンテーションのための半自動エントロピーに基づくアクティブラーニングを提案する。
ヒトコネクトームプロジェクトおよび神経外科10例の内部データセットから,21名の健常者を対象に評価を行った。
提案手法では, 健常者と同等な腫瘍症例(dice=0.71)に区分できるが, 自動的手法(dice=0.34)の性能は, 健常者と比較して大幅に低下した。
この方法はMITK DiffusionというフリーソフトウェアでTRACTiveという名前のプロトタイプとして実装されている。
腫瘍データを用いた手動実験では, 従来のROIベースのセグメンテーションに比べて, セグメンテーション時間が少なくて高い効率を示した。 Accurately identifying white matter tracts in medical images is essential for various applications, including surgery planning and tract-specific analysis. Supervised machine learning models have reached state-of-the-art solving this task automatically. However, these models are primarily trained on healthy subjects and struggle with strong anatomical aberrations, e.g. caused by brain tumors. This limitation makes them unsuitable for tasks such as preoperative planning, wherefore time-consuming and challenging manual delineation of the target tract is typically employed. We propose semi-automatic entropy-based active learning for quick and intuitive segmentation of white matter tracts from whole-brain tractography consisting of millions of streamlines. The method is evaluated on 21 openly available healthy subjects from the Human Connectome Project and an internal dataset of ten neurosurgical cases. With only a few annotations, the proposed approach enables segmenting tracts on tumor cases comparable to healthy subjects (dice=0.71), while the performance of automatic methods, like TractSeg dropped substantially (dice=0.34) in comparison to healthy subjects. The method is implemented as a prototype named atTRACTive in the freely available software MITK Diffusion. Manual experiments on tumor data showed higher efficiency due to lower segmentation times compared to traditional ROI-based segmentation. | 翻訳日:2023-08-04 16:47:49 公開日:2023-08-03 |
# 潜時グラフから潜時位相推定へ:微分可能な細胞複合体モジュール From Latent Graph to Latent Topology Inference: Differentiable Cell Complex Module ( http://arxiv.org/abs/2305.16174v2 ) ライセンス: Link先を確認 | Claudio Battiloro, Indro Spinelli, Lev Telyatnikov, Michael Bronstein, Simone Scardapane, Paolo Di Lorenzo | (参考訳) 潜在グラフ推論(LGI)は、グラフトポロジへのグラフニューラルネットワーク(GNN)の依存を動的に学習することで緩和した。
しかし、ほとんどのlgi手法は(ノイズ、不完全、即興、...)入力グラフをリワイヤし、正規グラフトポロジのみを学習できると仮定している。
トポロジカル・ディープ・ラーニング(tdl)の成功を受けて、データポイント間のマルチウェイインタラクションを記述する高次セル複合体(正規トポロジーではなくスパース)を学習するための潜時トポロジー推論(lti)の研究を行った。
この目的のために, 下流課題を改善するために, コンプレックス内の細胞確率を計算する新しい学習可能機能である微分可能セル複合体モジュール(dcm)を導入する。
そこで本稿では,DCMとセル複雑なメッセージパッシングネットワーク層を統合してエンドツーエンドでトレーニングする方法を示す。
提案手法は,複数の同好・異好のグラフデータセットを用いて検証し,入力グラフが提供されない場合,特に顕著な改善が期待できる。 Latent Graph Inference (LGI) relaxed the reliance of Graph Neural Networks (GNNs) on a given graph topology by dynamically learning it. However, most of LGI methods assume to have a (noisy, incomplete, improvable, ...) input graph to rewire and can solely learn regular graph topologies. In the wake of the success of Topological Deep Learning (TDL), we study Latent Topology Inference (LTI) for learning higher-order cell complexes (with sparse and not regular topology) describing multi-way interactions between data points. To this aim, we introduce the Differentiable Cell Complex Module (DCM), a novel learnable function that computes cell probabilities in the complex to improve the downstream task. We show how to integrate DCM with cell complex message passing networks layers and train it in a end-to-end fashion, thanks to a two-step inference procedure that avoids an exhaustive search across all possible cells in the input, thus maintaining scalability. Our model is tested on several homophilic and heterophilic graph datasets and it is shown to outperform other state-of-the-art techniques, offering significant improvements especially in cases where an input graph is not provided. | 翻訳日:2023-08-04 16:47:27 公開日:2023-08-03 |
# LaDI-VTON:潜在拡散テキスト変換による仮想トライオン LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On ( http://arxiv.org/abs/2305.13501v3 ) ライセンス: Link先を確認 | Davide Morelli, Alberto Baldrati, Giuseppe Cartella, Marcella Cornia, Marco Bertini, Rita Cucchiara | (参考訳) 電子商取引とメタバースの急速な発展は、消費者エクスペリエンスを高める革新的なアプローチを模索し続けている。
同時に、近年の拡散モデルの発展により、生成ネットワークは驚くほどリアルな画像を作成できるようになった。
この文脈では、所定のショップ内の衣服を身に着けたターゲットモデルの斬新なイメージを生成することからなるイメージベースの仮想トライオンは、これらの強力な生成的ソリューションの可能性を生かしていない。
この研究は、仮想トライ-ONタスクのための最初のラテント拡散テキスト変換強化モデルであるLaDI-VTONを紹介する。
提案アーキテクチャは,学習可能なスキップ接続を利用する新たなオートエンコーダモジュールによって拡張された潜時拡散モデルに依存し,モデルの特徴を保存する生成プロセスを強化する。
着物のテクスチャと細部を効果的に維持するために,CLIPトークン埋め込み空間に衣服の視覚的特徴をマッピングし,生成プロセスの条件付けが可能な擬似単語トークン埋め込みのセットを生成するテキスト・インバージョン・コンポーネントを提案する。
Dress CodeとVITON-HDデータセットの実験的結果は、我々のアプローチが競争相手を一貫したマージンで上回り、タスクにとって重要なマイルストーンを達成していることを示している。
ソースコードとトレーニングされたモデルは、https://github.com/miccunifi/ladi-vton.comで公開されている。 The rapidly evolving fields of e-commerce and metaverse continue to seek innovative approaches to enhance the consumer experience. At the same time, recent advancements in the development of diffusion models have enabled generative networks to create remarkably realistic images. In this context, image-based virtual try-on, which consists in generating a novel image of a target model wearing a given in-shop garment, has yet to capitalize on the potential of these powerful generative solutions. This work introduces LaDI-VTON, the first Latent Diffusion textual Inversion-enhanced model for the Virtual Try-ON task. The proposed architecture relies on a latent diffusion model extended with a novel additional autoencoder module that exploits learnable skip connections to enhance the generation process preserving the model's characteristics. To effectively maintain the texture and details of the in-shop garment, we propose a textual inversion component that can map the visual features of the garment to the CLIP token embedding space and thus generate a set of pseudo-word token embeddings capable of conditioning the generation process. Experimental results on Dress Code and VITON-HD datasets demonstrate that our approach outperforms the competitors by a consistent margin, achieving a significant milestone for the task. Source code and trained models are publicly available at: https://github.com/miccunifi/ladi-vton. | 翻訳日:2023-08-04 16:46:36 公開日:2023-08-03 |
# 説明可能な動画品質評価に向けて:データベースと言語プロンプトアプローチ Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted Approach ( http://arxiv.org/abs/2305.12726v2 ) ライセンス: Link先を確認 | Haoning Wu, Erli Zhang, Liang Liao, Chaofeng Chen, Jingwen Hou, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin | (参考訳) インザ・ワイルド・ビデオの普及は、ビデオ品質評価(vqa)の問題を大きく広げた。
通常、限られた歪みタイプにフォーカスする初期の定義とは異なり、VQAの動画は、様々な歪みや多様な内容を含む複雑な要因の影響を受けやすいため、特に難しい。
主観的研究はこれらのビデオの全体的な品質スコアを収集しているが、抽象的な品質スコアが特定の要因とどのように関連しているかはいまだ不明であり、より具体的な品質評価(例えばビデオのシャープネス)からVQA手法を妨げている。
この問題を解決するために,本研究では,映像品質に関連する13次元の要素について,映像中の歪み(動きのぼやき,ノイズ,フリックなど),圧縮と伝達による誤差,意味的内容や美的問題(合成,カメラの軌跡など)に関する高レベルな経験など,4,543本以上の意見を収集し,多次元のmaxwellデータベースを構築した。
具体的には,各次元に対する肯定的,否定的,中立的選択のラベル付けを被験者に依頼する。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測り、各次元の異なるVQAアルゴリズムのカテゴリをベンチマークすることで、その強みと弱みをより包括的に分析することができる。
さらに,視覚言語基盤モデルCLIPを改良したVQA手法であるMaxVQAを提案する。
MaxVQAは、様々な特定の品質要因と最終的な品質スコアを、すべての次元で最先端の精度で共同評価し、既存のデータセット上での一般化能力を超越することができる。
コードとデータはhttps://github.com/vqassessment/maxvqaで入手できる。 The proliferation of in-the-wild videos has greatly expanded the Video Quality Assessment (VQA) problem. Unlike early definitions that usually focus on limited distortion types, VQA on in-the-wild videos is especially challenging as it could be affected by complicated factors, including various distortions and diverse contents. Though subjective studies have collected overall quality scores for these videos, how the abstract quality scores relate with specific factors is still obscure, hindering VQA methods from more concrete quality evaluations (e.g. sharpness of a video). To solve this problem, we collect over two million opinions on 4,543 in-the-wild videos on 13 dimensions of quality-related factors, including in-capture authentic distortions (e.g. motion blur, noise, flicker), errors introduced by compression and transmission, and higher-level experiences on semantic contents and aesthetic issues (e.g. composition, camera trajectory), to establish the multi-dimensional Maxwell database. Specifically, we ask the subjects to label among a positive, a negative, and a neutral choice for each dimension. These explanation-level opinions allow us to measure the relationships between specific quality factors and abstract subjective quality ratings, and to benchmark different categories of VQA algorithms on each dimension, so as to more comprehensively analyze their strengths and weaknesses. Furthermore, we propose the MaxVQA, a language-prompted VQA approach that modifies vision-language foundation model CLIP to better capture important quality issues as observed in our analyses. The MaxVQA can jointly evaluate various specific quality factors and final quality scores with state-of-the-art accuracy on all dimensions, and superb generalization ability on existing datasets. Code and data available at https://github.com/VQAssessment/MaxVQA. | 翻訳日:2023-08-04 16:46:13 公開日:2023-08-03 |
# 変分分類 Variational Classification ( http://arxiv.org/abs/2305.10406v2 ) ライセンス: Link先を確認 | Shehzaad Dhuliawala, Mrinmaya Sachan, Carl Allen | (参考訳) 本稿では,クロスエントロピー損失を訓練したニューラルネットワークソフトマックス分類の潜在変数一般化を,変分分類 (vc) と呼ぶ。
提案手法は,ソフトマックス分類モデルにおいて,変分と従来のオートエンコーダの関連性に類似した,新しい確率論的視点を提供する。
我々は,最適化が非自明なエビデンスローバウンド(elbo)に基づくトレーニング目標を導出し,それを最大化するための敵意的アプローチを提案する。
我々は,VCがソフトマックス分類における固有の矛盾に対処する一方で,非シェルフソフトマックス分類器内での暗黙の仮定に代えて,潜在空間における事前分布の柔軟な選択を可能にすることを示した。
画像とテキストの分類データセットに対する実証的な評価は、変分分類が予測精度を維持しつつ、特に分布シフトや低データ設定の下で、キャリブレーションや対向ロバスト性などの他の望ましい特性を改善していることを示している。 We present a latent variable generalisation of neural network softmax classification trained with cross-entropy loss, referred to as variational classification (VC). Our approach offers a novel probabilistic perspective on the highly familiar softmax classification model, to which it relates similarly to how variational and traditional autoencoders relate. We derive a training objective based on the evidence lower bound (ELBO) that is non-trivial to optimize, and therefore propose an adversarial approach to maximise it. We show that VC addresses an inherent inconsistency within softmax classification, whilst also allowing more flexible choices of prior distributions in the latent space in place of implicit assumptions revealed within off-the-shelf softmax classifiers. Empirical evaluation on image and text classification datasets demonstrates that variational classification maintains prediction accuracy while improving other desirable properties such as calibration and adversarial robustness, particularly under distribution shift and low data settings. | 翻訳日:2023-08-04 16:45:35 公開日:2023-08-03 |
# Mlinear: 時系列予測の線形モデルを再考する Mlinear: Rethink the Linear Model for Time-series Forecasting ( http://arxiv.org/abs/2305.04800v2 ) ライセンス: Link先を確認 | Wei Li, Xiangxu Meng, Chuhao Chen and Jianing Chen | (参考訳) 近年、時系列予測研究において、洗練された予測モデルの設計のみに焦点をあてるのではなく、時系列データ(チャネル独立性(ci)とチャネル依存性(cd)の性質を分析することに重点が置かれている。
しかし、現在の研究は主にCIまたはCDの分離に重点を置いており、これら2つの対立する特性を効果的に組み合わせて相乗効果を達成するという課題は未解決の問題のままである。
本稿では,ci と cd の相反する性質を慎重に検討し,「時系列のci と cd の特性を効果的に混合し,より良い予測性能を実現するにはどのようにすればよいか」というような,実効的な疑問を提起する。
そこで本研究では,線形層を主とする単純かつ効果的な手法であるmlinear (mix-linear)を提案する。
Mlinearの設計哲学は、(1)異なる入力時系列の時間意味に基づいて、CIとCDのプロパティを動的にチューニングすること、(2)「CI予測器」と「CD予測器」の個々の性能を調整するための深い監督を提供することである。
さらに,複数のデータセット上で広く使用されている平均二乗誤差(MSE)を大幅に上回る新たな損失関数を導入する。
複数のフィールドを対象とする時系列データセットを用いた実験により,同一のシーケンス入力を持つ7つのデータセット上でのMSEおよびMAEメトリクス(336または512)の遅延セットトランスフォーマー法であるPatchTSTに対して,本手法の優位性を実証した。
具体的には, 336シーケンス長入力で21:3, 512シーケンス長入力で29:10の比でpattstを有意に上回っている。
さらに、我々のアプローチは、トレーニング時間と推論時間の両方を考慮して、ユニットレベルで10$\times$効率の利点があります。 Recently, significant advancements have been made in time-series forecasting research, with an increasing focus on analyzing the nature of time-series data, e.g, channel-independence (CI) and channel-dependence (CD), rather than solely focusing on designing sophisticated forecasting models. However, current research has primarily focused on either CI or CD in isolation, and the challenge of effectively combining these two opposing properties to achieve a synergistic effect remains an unresolved issue. In this paper, we carefully examine the opposing properties of CI and CD, and raise a practical question that has not been effectively answered, e.g.,"How to effectively mix the CI and CD properties of time series to achieve better predictive performance?" To answer this question, we propose Mlinear (MIX-Linear), a simple yet effective method based mainly on linear layers. The design philosophy of Mlinear mainly includes two aspects:(1) dynamically tuning the CI and CD properties based on the time semantics of different input time series, and (2) providing deep supervision to adjust the individual performance of the "CI predictor" and "CD predictor". In addition, empirically, we introduce a new loss function that significantly outperforms the widely used mean squared error (MSE) on multiple datasets. Experiments on time-series datasets covering multiple fields and widely used have demonstrated the superiority of our method over PatchTST which is the lateset Transformer-based method in terms of the MSE and MAE metrics on 7 datasets with identical sequence inputs (336 or 512). Specifically, our method significantly outperforms PatchTST with a ratio of 21:3 at 336 sequence length input and 29:10 at 512 sequence length input. Additionally, our approach has a 10 $\times$ efficiency advantage at the unit level, taking into account both training and inference times. | 翻訳日:2023-08-04 16:45:17 公開日:2023-08-03 |
# 画像分割の2つのアプローチ Two Approaches to Supervised Image Segmentation ( http://arxiv.org/abs/2307.10123v2 ) ライセンス: Link先を確認 | Alexandre Benatti, Luciano da F. Costa | (参考訳) 人間によってほとんど努力がかからないが、2Dグレースケールまたはカラー画像を興味のある領域(例えば、背景、物体、または物体の一部)で分割することは、関連する次元的縮小(3Dから2D)、ノイズ、反射、陰影、およびオクルージョンなど、科学と技術における最大の課題の1つである。
過去数十年間、多くの興味深い関連したアプローチが提案されてきたが、主に近年のディープラーニングの発展により、より効果的で一般的なソリューションが得られ、現在ではこの種の操作の基本的な比較基準を構成している。
また、近年、空間的精度、安定性、頑健性を両立しつつ、計算資源(ハードウェアおよび/またはトレーニングおよび認識時間)をほとんど必要とせず、画像のセグメンテーション性能を向上させるマルチセット方式が提案されている。
マルチセットニューロン方法論の興味深い特徴は、選択性や感度の向上、データの摂動や異常値に対するロバスト性、教師付き画像分割に対するマルチセットアプローチがベースとなる偶然類似性指数によって許容される点である。
深層学習とマルチセットニューロンのアプローチについて記述した後,本研究は2つの比較実験を展開する。
ディープラーニングアプローチは、画像のセグメンテーションを実行する可能性を確認したが、代替のマルチセット手法は、計算リソースをほとんど必要とせず、精度を高めた。 Though performed almost effortlessly by humans, segmenting 2D gray-scale or color images in terms of regions of interest (e.g.~background, objects, or portions of objects) constitutes one of the greatest challenges in science and technology as a consequence of the involved dimensionality reduction(3D to 2D), noise, reflections, shades, and occlusions, among many other possible effects. While a large number of interesting related approaches have been suggested along the last decades, it was mainly thanks to the recent development of deep learning that more effective and general solutions have been obtained, currently constituting the basic comparison reference for this type of operation. Also developed recently, a multiset-based methodology has been described that is capable of encouraging image segmentation performance while combining spatial accuracy, stability, and robustness while requiring little computational resources (hardware and/or training and recognition time). The interesting features of the multiset neurons methodology mostly follow from the enhanced selectivity and sensitivity, as well as good robustness to data perturbations and outliers, allowed by the coincidence similarity index on which the multiset approach to supervised image segmentation is based. After describing the deep learning and multiset neurons approaches, the present work develops two comparison experiments between them which are primarily aimed at illustrating their respective main interesting features when applied to the adopted specific type of data and parameter configurations. While the deep learning approach confirmed its potential for performing image segmentation, the alternative multiset methodology allowed for enhanced accuracy while requiring little computational resources. | 翻訳日:2023-08-04 16:38:40 公開日:2023-08-03 |
# スキップ接続を伴わない顔スワップ用強化アンタングル Reinforced Disentanglement for Face Swapping without Skip Connection ( http://arxiv.org/abs/2307.07928v4 ) ライセンス: Link先を確認 | Xiaohang Ren, Xingyu Chen, Pengfei Yao, Heung-Yeung Shum, Baoyuan Wang | (参考訳) SOTAのフェイススワップモデルでは、ターゲットのアイデンティティ(形状)がリークされたり、ターゲットの非アイデンティティ属性(背景、毛髪)が最終結果に完全に保存されないという問題がまだ残っている。
We show that this insufficient disentanglement is caused by two flawed designs that were commonly adopted in prior models: (1) counting on only one compressed encoder to represent both the semantic-level non-identity facial attributes(i.e., pose) and the pixel-level non-facial region details, which is contradictory to satisfy at the same time; (2) highly relying on long skip-connections between the encoder and the final generator, leaking a certain amount of target face identity into the result.
そこで我々は,2つのターゲットエンコーダを用いて,顔領域の画素レベルの非顔領域属性と意味的非顔領域属性をそれぞれキャプチャする「WSCスワップ」という新しい顔スワップフレームワークを提案する。
対象エンコーダの絡み合い学習をさらに強化するために,逆訓練(gan)によるid消去損失と,[11]のような先行3dmmモデルによる非id化保存損失の両方を用いる。
faceforensics++ と celeba-hq の両方の広範な実験により、我々の結果は、以前完全に無視されたアイデンティティ一貫性を測定するための新しいメトリックを含む、リッチなメトリクスセットの以前の成果を大きく上回っていることが分かりました。 The SOTA face swap models still suffer the problem of either target identity (i.e., shape) being leaked or the target non-identity attributes (i.e., background, hair) failing to be fully preserved in the final results. We show that this insufficient disentanglement is caused by two flawed designs that were commonly adopted in prior models: (1) counting on only one compressed encoder to represent both the semantic-level non-identity facial attributes(i.e., pose) and the pixel-level non-facial region details, which is contradictory to satisfy at the same time; (2) highly relying on long skip-connections between the encoder and the final generator, leaking a certain amount of target face identity into the result. To fix them, we introduce a new face swap framework called 'WSC-swap' that gets rid of skip connections and uses two target encoders to respectively capture the pixel-level non-facial region attributes and the semantic non-identity attributes in the face region. To further reinforce the disentanglement learning for the target encoder, we employ both identity removal loss via adversarial training (i.e., GAN) and the non-identity preservation loss via prior 3DMM models like [11]. Extensive experiments on both FaceForensics++ and CelebA-HQ show that our results significantly outperform previous works on a rich set of metrics, including one novel metric for measuring identity consistency that was completely neglected before. | 翻訳日:2023-08-04 16:38:10 公開日:2023-08-03 |
# 量子基底状態における浮遊粒子の速度不確かさの解明 Revealing the velocity uncertainties of a levitated particle in the quantum ground state ( http://arxiv.org/abs/2306.16598v2 ) ライセンス: Link先を確認 | M. Kamba and K. Aikawa | (参考訳) 我々は超低温浮遊ナノ粒子の飛行時間測定を実演し、量子基底状態に導かれる翻訳運動の速度を明らかにする。
その結果, ナノ粒子の振動運動により, 繰り返し放出・回収測定により得られた速度分布は著しく拡大することがわかった。
すべてのリリレー運動に対するフィードバック冷却の下で、占有数からの期待値と合理的に一致する速度分布を量子限界の約2倍の幅で回復する。
振動中心と質量中心との偏差はナノ粒子の非対称性によって引き起こされるため, 振動運動の翻訳運動に対する強い影響は理解されている。
その結果、振動運動の制御の重要性が解明され、浮遊ナノ粒子の速度の観点から量子力学的性質を探求する基礎が確立された。 We demonstrate time-of-flight measurements for an ultracold levitated nanoparticle and reveal its velocity for the translational motion brought to the quantum ground state. We discover that the velocity distributions obtained with repeated release-and-recapture measurements are significantly broadened via librational motions of the nanoparticle. Under feedback cooling on all the librational motions, we recover the velocity distributions in reasonable agreement with an expectation from the occupation number, with approximately twice the width of the quantum limit. The strong impact of librational motions on the translational motions is understood as a result of the deviation between the libration center and the center of mass, induced by the asymmetry of the nanoparticle. Our results elucidate the importance of the control over librational motions and establish the basis for exploring quantum mechanical properties of levitated nanoparticles in terms of their velocity. | 翻訳日:2023-08-04 16:37:24 公開日:2023-08-03 |
# MIRACLE:多タスク学習に基づく共通潜伏エピジェネティックスによる自己免疫疾患の解釈制御 MIRACLE: Multi-task Learning based Interpretable Regulation of Autoimmune Diseases through Common Latent Epigenetics ( http://arxiv.org/abs/2306.13866v2 ) ライセンス: Link先を確認 | Pengcheng Xu, Jinpu Cai, Yulin Gao, Ziqi Rong | (参考訳) DNAメチル化は遺伝子転写の重要な調節因子であり、自己免疫疾患やがんなど様々な疾患と関連付けられている。
しかし、DNAメチル化に基づく診断は、大きな特徴セットと小さなサンプルサイズのために困難に直面し、過度な適合と準最適性能をもたらす。
これらの問題に対処するために、オートエンコーダに基づくマルチタスク学習を利用して複数のデータセットを統合し、DNAメチル化の共通パターンを共同で識別する新しい解釈可能なニューラルネットワークであるMIRACLEを提案する。
MIRACLEのアーキテクチャはメチル化部位、遺伝子、経路間の関係を反映し、生物学的解釈性と意味性を保証する。
ネットワークは、遺伝の基本的な単位として経路情報を表すボトルネック層を有するエンコーダとデコーダとを備える。
カスタマイズされたマスクドリニア層は、説明可能性を提供し、サイト-ジェネ-パスウェイ階層構造を明示的に表現するsite-gene-pathway graph adjacency matrix情報によって制約される。
そして埋め込みから、病気を予測するための様々なマルチタスク分類器が存在する。
慢性関節リウマチ、全身性エリテマトーデス、多発性硬化症、炎症性腸疾患、乾皮症、MIRACLEの6つのデータセットで試験されたMIRACLEは、異なる表現型間でのDNAメチル化の共通機能を同定する上で、ベースライン法よりも高い精度で、堅牢な性能を示す。
生物学的事前知識を取り入れることで、MIRACLEは自己免疫疾患の文脈において、DNAメチル化データ解析のための有意義で解釈可能なフレームワークを提供する。 DNA methylation is a crucial regulator of gene transcription and has been linked to various diseases, including autoimmune diseases and cancers. However, diagnostics based on DNA methylation face challenges due to large feature sets and small sample sizes, resulting in overfitting and suboptimal performance. To address these issues, we propose MIRACLE, a novel interpretable neural network that leverages autoencoder-based multi-task learning to integrate multiple datasets and jointly identify common patterns in DNA methylation. MIRACLE's architecture reflects the relationships between methylation sites, genes, and pathways, ensuring biological interpretability and meaningfulness. The network comprises an encoder and a decoder, with a bottleneck layer representing pathway information as the basic unit of heredity. Customized defined MaskedLinear Layer is constrained by site-gene-pathway graph adjacency matrix information, which provides explainability and expresses the site-gene-pathway hierarchical structure explicitly. And from the embedding, there are different multi-task classifiers to predict diseases. Tested on six datasets, including rheumatoid arthritis, systemic lupus erythematosus, multiple sclerosis, inflammatory bowel disease, psoriasis, and type 1 diabetes, MIRACLE demonstrates robust performance in identifying common functions of DNA methylation across different phenotypes, with higher accuracy in prediction dieseases than baseline methods. By incorporating biological prior knowledge, MIRACLE offers a meaningful and interpretable framework for DNA methylation data analysis in the context of autoimmune diseases. | 翻訳日:2023-08-04 16:37:09 公開日:2023-08-03 |
# マスケ拡散モデルは高速でプライバシーに配慮した学習者 Masked Diffusion Models Are Fast and Privacy-Aware Learners ( http://arxiv.org/abs/2306.11363v2 ) ライセンス: Link先を確認 | Jiachen Lei, Peng Cheng, Zhongjie Ba, Kui Ren | (参考訳) 拡散モデルは、画像生成のための \emph{de-facto} テクニックとして登場したが、それらはかなりの計算オーバーヘッドを伴い、研究コミュニティにおけるこの技術の幅広い応用を妨げる。
本稿では,事前学習と微調整のパラダイムを拡散モデルトレーニングプロセスに組み込んだ事前学習訓練フレームワークを提案する。
提案手法は,入力画像の高比率(最大90→%)をマスキングすることに集中し,可視領域を識別するためにマスキング・デノージングスコアマッチングを用いることで,拡散モデルに事前知識としてトレーニングデータからより優れた特徴を学ぶように誘導する。
予備学習段階におけるマスク学習を利用して,CelebA-HQ 256 256$で ViT ベースの拡散モデルを効率的に訓練し,4x 加速を実現し,拡散確率モデル (DDPM) と比較して生成画像の品質を向上させる。
さらに,マスキングプリトレーニング技術は,ピクセル空間内で直接画像を生成する様々な拡散モデルに普遍的に適用でき,より一般化性の高い事前学習モデルの学習を支援する。
例えば、vggface2で事前トレーニングされた拡散モデルは、異なる分布から10\%のデータだけを微調整することで、46\%の品質改善を達成する。
さらに,本手法は拡散モデルのプライバシー保護能力を高めるための訓練パラダイムとして機能する可能性を示す。
私たちのコードは \url{https://github.com/jiachenlei/maskdm} で利用可能です。 Diffusion models have emerged as the \emph{de-facto} technique for image generation, yet they entail significant computational overhead, hindering the technique's broader application in the research community. We propose a prior-based denoising training framework, the first to incorporate the pre-train and fine-tune paradigm into the diffusion model training process, which substantially improves training efficiency and shows potential in facilitating various downstream tasks. Our approach centers on masking a high proportion (e.g., up to 90\%) of the input image and employing masked denoising score matching to denoise the visible areas, thereby guiding the diffusion model to learn more salient features from training data as prior knowledge. By utilizing masked learning in a pre-training stage, we efficiently train the ViT-based diffusion model on CelebA-HQ $256 \times 256$ in the pixel space, achieving a 4x acceleration and enhancing the quality of generated images compared to denoising diffusion probabilistic model (DDPM). Moreover, our masked pre-training technique can be universally applied to various diffusion models that directly generate images in the pixel space, aiding in the learning of pre-trained models with superior generalizability. For instance, a diffusion model pre-trained on VGGFace2 attains a 46\% quality improvement through fine-tuning with merely 10\% data from a different distribution. Moreover, our method shows the potential to serve as a training paradigm for enhancing the privacy protection capabilities of diffusion models. Our code is available at \url{https://github.com/jiachenlei/maskdm}. | 翻訳日:2023-08-04 16:35:24 公開日:2023-08-03 |
# ヒトと大言語モデルにおける帰納的推論 Inductive reasoning in humans and large language models ( http://arxiv.org/abs/2306.06548v2 ) ライセンス: Link先を確認 | Simon J. Han, Keith Ransom, Andrew Perfors, Charles Kemp | (参考訳) 近年の大規模言語モデルのパフォーマンスは、一般の知性モデルとして、あるいは人間の認知と類似する程度に疑問を呈する声が多かった。
本稿では,GPT-3.5 と GPT-4 を人間誘導推論における古典的問題に適用することにより,この問題に対処する。
2つの実験で、複数のドメインにまたがる様々な特性誘導タスクについて、人間の判断を導き出す。
GPT-3.5は人間の行動の多くの側面を捉えるのに苦労しているが、GPT-4はより成功している。
我々の研究は、プロパティ誘導が人間と機械のインテリジェンスを興味深い比較を可能にし、この領域における将来の作業のベンチマークとして機能する2つの大きなデータセットを提供することを示した。 The impressive recent performance of large language models has led many to wonder to what extent they can serve as models of general intelligence or are similar to human cognition. We address this issue by applying GPT-3.5 and GPT-4 to a classic problem in human inductive reasoning known as property induction. Over two experiments, we elicit human judgments on a range of property induction tasks spanning multiple domains. Although GPT-3.5 struggles to capture many aspects of human behaviour, GPT-4 is much more successful: for the most part, its performance qualitatively matches that of humans, and the only notable exception is its failure to capture the phenomenon of premise non-monotonicity. Our work demonstrates that property induction allows for interesting comparisons between human and machine intelligence and provides two large datasets that can serve as benchmarks for future work in this vein. | 翻訳日:2023-08-04 16:34:56 公開日:2023-08-03 |
# 胸部X線高分解能による分類性能の向上 Higher Chest X-ray Resolution Improves Classification Performance ( http://arxiv.org/abs/2306.06051v2 ) ライセンス: Link先を確認 | Alessandro Wollek, Sardi Hyska, Bastian Sabel, Michael Ingrisch, Tobias Lasser | (参考訳) 画像分類のためのディープラーニングモデルは、歴史的および効率上の理由から、224 x 224ピクセルの解像度で訓練されることが多い。
しかし、胸部X線は微妙な病態を示すためにはるかに高解像度で取得される。
本研究は,胸部X線14データセットを用いた胸部X線分類性能に及ぼすトレーニング精度の影響について検討した。
その結果,高解像度,特に1024 x 1024ピクセルのトレーニングでは,256 x 256ピクセルのトレーニングでは82.7 %に対して平均84.2 %のaucで分類性能が最高であった。
さらに、バウンディングボックスとgradcamのサリエンシーマップを比較すると、256 x 256ピクセルのような低解像度は小さな病理を識別するのに不十分であり、モデルに散発的な識別機能の使用を強制することを示唆している。
私たちのコードはhttps://gitlab.lrz.de/IP/cxr- resolutionで公開されています。 Deep learning models for image classification are often trained at a resolution of 224 x 224 pixels for historical and efficiency reasons. However, chest X-rays are acquired at a much higher resolution to display subtle pathologies. This study investigates the effect of training resolution on chest X-ray classification performance, using the chest X-ray 14 dataset. The results show that training with a higher image resolution, specifically 1024 x 1024 pixels, results in the best overall classification performance with a mean AUC of 84.2 % compared to 82.7 % when trained with 256 x 256 pixel images. Additionally, comparison of bounding boxes and GradCAM saliency maps suggest that low resolutions, such as 256 x 256 pixels, are insufficient for identifying small pathologies and force the model to use spurious discriminating features. Our code is publicly available at https://gitlab.lrz.de/IP/cxr-resolution | 翻訳日:2023-08-04 16:34:40 公開日:2023-08-03 |
# 自動駆動のための自由空間光フローモデリング Freespace Optical Flow Modeling for Automated Driving ( http://arxiv.org/abs/2307.15989v2 ) ライセンス: Link先を確認 | Yi Feng, Ruge Zhang, Jiayuan Du, Qijun Chen, Rui Fan | (参考訳) 光の流れと相違は、自律運転知覚の2つの視覚的特徴である。
これらは障害物やレーン検出など、さまざまな用途で使用されてきた。
U-V-Disparity」という概念は文献で広く研究されているが、光学的流れに匹敵する概念は比較的注目されていない。
従来の動き解析アルゴリズムは、環境情報と幾何学的制約の完全利用を制限する2つの連続したビデオフレーム間の対応によって光の流れを推定する。
そこで我々は,3次元駆動環境における形状情報を完全に活用して,衝突自由空間(乾燥可能な領域,あるいは単に自由空間とも呼ばれる)における光学的流れをモデル化する新しい手法を提案する。
我々は,光学フローの明示的な表現を提供し,光学フロー成分と垂直座標との二次関係を導出する。
いくつかの公開データセットに関する広範囲な実験を通じて,モデルの高精度と堅牢性を示す。
さらに,提案する自由空間オプティカルフローモデルは,自動運転分野における多様なアプリケーション群を誇示し,自由空間検出や車両のローカライゼーションなどにおいて幾何学的制約を与える。
ソースコードをhttps://mias.group/FSOF.comで公開しました。 Optical flow and disparity are two informative visual features for autonomous driving perception. They have been used for a variety of applications, such as obstacle and lane detection. The concept of "U-V-Disparity" has been widely explored in the literature, while its counterpart in optical flow has received relatively little attention. Traditional motion analysis algorithms estimate optical flow by matching correspondences between two successive video frames, which limits the full utilization of environmental information and geometric constraints. Therefore, we propose a novel strategy to model optical flow in the collision-free space (also referred to as drivable area or simply freespace) for intelligent vehicles, with the full utilization of geometry information in a 3D driving environment. We provide explicit representations of optical flow and deduce the quadratic relationship between the optical flow component and the vertical coordinate. Through extensive experiments on several public datasets, we demonstrate the high accuracy and robustness of our model. Additionally, our proposed freespace optical flow model boasts a diverse array of applications within the realm of automated driving, providing a geometric constraint in freespace detection, vehicle localization, and more. We have made our source code publicly available at https://mias.group/FSOF. | 翻訳日:2023-08-04 16:27:38 公開日:2023-08-03 |
# videocontrolnet:ディフュージョンモデルとコントロールネットを用いた動画対ビデオ翻訳フレームワーク VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by Using Diffusion Model with ControlNet ( http://arxiv.org/abs/2307.14073v2 ) ライセンス: Link先を確認 | Zhihao Hu, Dong Xu | (参考訳) 近年,stablediffusionのような拡散モデルが印象的な画像生成結果を得ている。
しかし、そのような拡散モデルの生成プロセスは制御不能であり、連続的かつ一貫したコンテンツを持つビデオを生成するのが困難である。
本研究では、制御ネットを用いた拡散モデルを用いて、入力されたプロンプトと条件に基づいて様々な動画を生成するために、ビデオコントロルネットと呼ばれる動き誘導型動画翻訳フレームワークを提案する。
映像コーデックにインスパイアされ、時間的冗長性を低減させる動き情報を用いて、コンテンツ一貫性のための冗長領域の再生を防止する。
具体的には,制御ネットを用いた拡散モデルを用いて第1フレーム(すなわちIフレーム)を生成する。
そして、新しい動き誘導型Pフレーム生成法(MgPG)を用いて、従来のI/Pフレームに基づく他の鍵フレーム(すなわちPフレーム)を生成し、この拡散モデルを用いてPフレームを動作情報に基づいて生成し、閉塞領域を印加する。
最後に、動作誘導Bフレーム補間(MgBI)モジュールを用いて、残りのフレーム(Bフレーム)を生成する。
提案するビデオコントロールネットは,事前学習した大規模拡散モデルの生成能力を継承し,映像拡散モデルを運動情報を用いてビデオ拡散モデルに拡張する。
さらなる結果は、プロジェクトのページにある。 Recently, diffusion models like StableDiffusion have achieved impressive image generation results. However, the generation process of such diffusion models is uncontrollable, which makes it hard to generate videos with continuous and consistent content. In this work, by using the diffusion model with ControlNet, we proposed a new motion-guided video-to-video translation framework called VideoControlNet to generate various videos based on the given prompts and the condition from the input video. Inspired by the video codecs that use motion information for reducing temporal redundancy, our framework uses motion information to prevent the regeneration of the redundant areas for content consistency. Specifically, we generate the first frame (i.e., the I-frame) by using the diffusion model with ControlNet. Then we generate other key frames (i.e., the P-frame) based on the previous I/P-frame by using our newly proposed motion-guided P-frame generation (MgPG) method, in which the P-frames are generated based on the motion information and the occlusion areas are inpainted by using the diffusion model. Finally, the rest frames (i.e., the B-frame) are generated by using our motion-guided B-frame interpolation (MgBI) module. Our experiments demonstrate that our proposed VideoControlNet inherits the generation capability of the pre-trained large diffusion model and extends the image diffusion model to the video diffusion model by using motion information. More results are provided at our project page. | 翻訳日:2023-08-04 16:26:24 公開日:2023-08-03 |
# 適応ラベル摂動を用いたディエンス分類におけるモデル校正 Model Calibration in Dense Classification with Adaptive Label Perturbation ( http://arxiv.org/abs/2307.13539v2 ) ライセンス: Link先を確認 | Jiawei Liu, Changkun Ye, Shan Wang, Ruikai Cui, Jing Zhang, Kaihao Zhang, Nick Barnes | (参考訳) 安全関連アプリケーションにとって、後の意思決定の正確性を示す信頼と関連する予測を行う、信頼できるディープニューラルネットワークを作成することが不可欠である。
既存の二分分類モデルは過信される傾向がある。
モデルキャリブレーションを改善するために,各トレーニング画像に対して独自のラベル摂動レベルを学習する適応確率ラベル摂動(ASLP)を提案する。
aslpは,確率的アプローチ(外乱ラベルなど)やラベル平滑化を含むラベル摂動過程を統一し,分類率を維持しつつキャリブレーションを補正する,自己調整型二成分クロスエントロピー(sc-bce)損失法を提案する。
ASLPは、行方不明情報に対する予測エントロピーを最大化する古典統計力学の最大エントロピー推論に従う。
1) 既知のデータの分類精度を保守的解として保存するか、(2) 予測精度と目標トレーニングラベルの予測信頼性とのギャップを最小化することにより、モデル校正度を特に向上させる。
その結果,ASLPは分布内および分布外の両方で高密度二分分類モデルの校正度を著しく改善できることがわかった。
コードはhttps://github.com/Carlisle-Liu/ASLPで公開されている。 For safety-related applications, it is crucial to produce trustworthy deep neural networks whose prediction is associated with confidence that can represent the likelihood of correctness for subsequent decision-making. Existing dense binary classification models are prone to being over-confident. To improve model calibration, we propose Adaptive Stochastic Label Perturbation (ASLP) which learns a unique label perturbation level for each training image. ASLP employs our proposed Self-Calibrating Binary Cross Entropy (SC-BCE) loss, which unifies label perturbation processes including stochastic approaches (like DisturbLabel), and label smoothing, to correct calibration while maintaining classification rates. ASLP follows Maximum Entropy Inference of classic statistical mechanics to maximise prediction entropy with respect to missing information. It performs this while: (1) preserving classification accuracy on known data as a conservative solution, or (2) specifically improves model calibration degree by minimising the gap between the prediction accuracy and expected confidence of the target training label. Extensive results demonstrate that ASLP can significantly improve calibration degrees of dense binary classification models on both in-distribution and out-of-distribution data. The code is available on https://github.com/Carlisle-Liu/ASLP. | 翻訳日:2023-08-04 16:25:57 公開日:2023-08-03 |
# CNOS:CADベースの新しいオブジェクトセグメンテーションのための強力なベースライン CNOS: A Strong Baseline for CAD-based Novel Object Segmentation ( http://arxiv.org/abs/2307.11067v2 ) ライセンス: Link先を確認 | Van Nguyen Nguyen, Tomas Hodan, Georgy Ponimatkin, Thibault Groueix, Vincent Lepetit | (参考訳) CADモデルを用いて,RGB画像中の未確認オブジェクトを分割する手法を提案する。
最近の強力な基盤モデルであるDINOv2とSegment Anythingを活用して、記述子を作成し、与えられた入力RGBイメージのバイナリマスクを含む提案を生成する。
CADモデルから生成された参照記述子と提案を一致させることで、モーダルマスクとともに正確なオブジェクトID割り当てを実現する。
我々は,本手法がCADに基づく新しいオブジェクトセグメンテーションにおいて,BOP課題の7つのコアデータセットに対する既存のアプローチを19.8%のAPで上回り,最先端の成果を達成できることを実験的に実証した。
ソースコードはhttps://github.com/nv-nguyen/cnosで入手できます。 We propose a simple three-stage approach to segment unseen objects in RGB images using their CAD models. Leveraging recent powerful foundation models, DINOv2 and Segment Anything, we create descriptors and generate proposals, including binary masks for a given input RGB image. By matching proposals with reference descriptors created from CAD models, we achieve precise object ID assignment along with modal masks. We experimentally demonstrate that our method achieves state-of-the-art results in CAD-based novel object segmentation, surpassing existing approaches on the seven core datasets of the BOP challenge by 19.8% AP using the same BOP evaluation protocol. Our source code is available at https://github.com/nv-nguyen/cnos. | 翻訳日:2023-08-04 16:25:33 公開日:2023-08-03 |
# 大きな言語モデルは、新しい文学的メタファーを解釈する創発的な能力を示す Large Language Model Displays Emergent Ability to Interpret Novel Literary Metaphors ( http://arxiv.org/abs/2308.01497v1 ) ライセンス: Link先を確認 | Nicholas Ichien, Du\v{s}an Stamenkovi\'c, Keith J. Holyoak | (参考訳) 大規模言語モデル(LLM)の性能の最近の進歩は、十分な訓練を受けて、そのような汎用人工知能(AI)にハイレベルな人間の能力が出現するかどうかという議論を引き起こしている。
自然言語処理や推論を含む幅広いタスクにおけるLLMの例外的なパフォーマンスにもかかわらず、それらの能力がより創造的な人間の能力に拡張されるかどうかについては、明確な意見の相違がある。
主な例は、新しいメタファーを解釈する能力である。
LLMのトレーニングに使用される巨大な非キュレートテキストコーパスを考えると、テストの設計において重大な障害となるのは、トレーニングデータに含まれないような、新しくて高品質なメタファを見つけることである。
そこで我々は,セルビアの詩から引用され,英語に翻訳された小説のメタファーを自然言語で解釈する,最先端の大規模言語モデルであるGPT-4の能力を評価した。
これまでこれらのメタファーに暴露された兆候は示さなかったが、AIシステムは一貫して詳細で切迫した解釈を生み出した。
人間の審査員は、AIモデルが関与しているという事実に盲目で、GPT-4によって生成されたメタファの解釈を、大学生のグループによって提供されるものよりも優れていると評価した。
逆比喩の解釈において、GPT-4はヒトと同様にグリサンの協調原理に対する感受性の兆候を示した。
これらの結果から, GPT-4などのLPMは, 複雑な新規なメタファーを解釈する創発的な能力を得たことが示唆された。 Recent advances in the performance of large language models (LLMs) have sparked debate over whether, given sufficient training, high-level human abilities emerge in such generic forms of artificial intelligence (AI). Despite the exceptional performance of LLMs on a wide range of tasks involving natural language processing and reasoning, there has been sharp disagreement as to whether their abilities extend to more creative human abilities. A core example is the ability to interpret novel metaphors. Given the enormous and non-curated text corpora used to train LLMs, a serious obstacle to designing tests is the requirement of finding novel yet high-quality metaphors that are unlikely to have been included in the training data. Here we assessed the ability of GPT-4, a state-of-the-art large language model, to provide natural-language interpretations of novel literary metaphors drawn from Serbian poetry and translated into English. Despite exhibiting no signs of having been exposed to these metaphors previously, the AI system consistently produced detailed and incisive interpretations. Human judge - blind to the fact that an AI model was involved - rated metaphor interpretations generated by GPT-4 as superior to those provided by a group of college students. In interpreting reversed metaphors, GPT-4, as well as humans, exhibited signs of sensitivity to the Gricean cooperative principle. These results indicate that LLMs such as GPT-4 have acquired an emergent ability to interpret complex novel metaphors. | 翻訳日:2023-08-04 15:38:21 公開日:2023-08-03 |
# minimax optimal $q$ learning with nearest neighbors (特集 ミニマックス) Minimax Optimal $Q$ Learning with Nearest Neighbors ( http://arxiv.org/abs/2308.01490v1 ) ライセンス: Link先を確認 | Puning Zhao, Lifeng Lai | (参考訳) q$ learningは人気のあるモデルフリーの強化学習方法だ。
既存の作業の多くは、有限状態およびアクション空間に対する$Q$学習の分析に重点を置いている。
状態空間が連続であれば、元の$Q$学習メソッドを直接使用することはできない。
元の$q$学習法の修正が (shah and xie, 2018) で提案され、これは$q$の値が近辺の値と推定される。
このような修正により、連続状態空間に適した学習が$Q$になる。
(Shah and Xie, 2018) は、推定$Q$関数の収束速度が $\tilde{O}(T^{-1/(d+3)})$ であることを示し、これはミニマックス下界$\tilde{\Omega}(T^{-1/(d+2)})$ よりも遅く、この方法が効率的でないことを示している。
本稿では,収束率のギャップを埋める2つの新しいQ$学習法(Shah and Xie, 2018)を提案し,そのうちの1つはオフラインであり,もう1つはオンラインである。
Q$関数を推定するために、近傍のアプローチは依然として使われているが、アルゴリズムは(Shah and Xie, 2018)非常に異なる。
特に、離散化された領域におけるカーネル近傍のアプローチを、直接近接したアプローチで置き換える。
したがって,本手法は収束率を大幅に向上させる。
さらに、高次元状態空間においても時間複雑性が著しく改善される。
分析の結果,オフラインとオンラインの両方の手法が最適であることがわかった。 $Q$ learning is a popular model free reinforcement learning method. Most of existing works focus on analyzing $Q$ learning for finite state and action spaces. If the state space is continuous, then the original $Q$ learning method can not be directly used. A modification of the original $Q$ learning method was proposed in (Shah and Xie, 2018), which estimates $Q$ values with nearest neighbors. Such modification makes $Q$ learning suitable for continuous state space. (Shah and Xie, 2018) shows that the convergence rate of estimated $Q$ function is $\tilde{O}(T^{-1/(d+3)})$, which is slower than the minimax lower bound $\tilde{\Omega}(T^{-1/(d+2)})$, indicating that this method is not efficient. This paper proposes two new $Q$ learning methods to bridge the gap of convergence rates in (Shah and Xie, 2018), with one of them being offline, while the other is online. Despite that we still use nearest neighbor approach to estimate $Q$ function, the algorithms are crucially different from (Shah and Xie, 2018). In particular, we replace the kernel nearest neighbor in discretized region with a direct nearest neighbor approach. Consequently, our approach significantly improves the convergence rate. Moreover, the time complexity is also significantly improved in high dimensional state spaces. Our analysis shows that both offline and online methods are minimax rate optimal. | 翻訳日:2023-08-04 15:37:54 公開日:2023-08-03 |
# ニューラルスーパーサンプリングによる新しいゲームデータセットの構築 Efficient neural supersampling on a novel gaming dataset ( http://arxiv.org/abs/2308.01483v1 ) ライセンス: Link先を確認 | Antoine Mercier and Ruan Erasmus and Yashesh Savani and Manik Dhingra and Fatih Porikli and Guillaume Berger | (参考訳) 解像度、フレームレート、フォトリアリズムの必要性から、ビデオゲームのリアルタイムレンダリングはますます困難になっている。
この課題に対処するための効果的なソリューションとしてスーパーサンプリングが登場した。
本研究は,既存の手法の4倍の効率で,同じ精度を保ちながら,レンダリングされたコンテンツをスーパーサンプリングする新しいニューラルアルゴリズムを提案する。
さらに,ビューポートジッタリングやmipmapバイアスといったグラフィックレンダリング機能を用いて,動きベクトルや奥行きといった補助的なモダリティを異なる解像度で提供する,新たなデータセットも導入する。
このデータセットは、現在のデータセットの状況のギャップを埋め、この分野の進捗を計測し、ゲームコンテンツの超解像技術における最先端技術を進める上で、貴重なリソースとして機能することができると考えています。 Real-time rendering for video games has become increasingly challenging due to the need for higher resolutions, framerates and photorealism. Supersampling has emerged as an effective solution to address this challenge. Our work introduces a novel neural algorithm for supersampling rendered content that is 4 times more efficient than existing methods while maintaining the same level of accuracy. Additionally, we introduce a new dataset which provides auxiliary modalities such as motion vectors and depth generated using graphics rendering features like viewport jittering and mipmap biasing at different resolutions. We believe that this dataset fills a gap in the current dataset landscape and can serve as a valuable resource to help measure progress in the field and advance the state-of-the-art in super-resolution techniques for gaming content. | 翻訳日:2023-08-04 15:37:27 公開日:2023-08-03 |
# マルコフサンプリングによる確率勾配勾配のオンライン共分散推定 Online covariance estimation for stochastic gradient descent under Markovian sampling ( http://arxiv.org/abs/2308.01481v1 ) ライセンス: Link先を確認 | Abhishek Roy, Krishnakumar Balasubramanian | (参考訳) マルコフサンプリングによる確率勾配Descent (SGD) のオンライン重畳バッチ平均共分散推定器について検討した。
共分散推定器の収束率は、各状態依存および状態非依存マルコフサンプリングの下でそれぞれ$o\big(\sqrt{d}\,n^{-1/8}(\log n)^{1/4}\big)$と$o\big(\sqrt{d}\,n^{-1/8}\big)$である。
驚くべきことに、これらの率は、独立かつ同一に分布する(zhu2021online)ケースに対して、対数因子によって確立された最もよく知られた収束率と一致する。
我々の分析はマルコフサンプリングによって生じる重要な課題を克服し、バッチ平均共分散推定器のブロック間に追加のエラー項と複雑な依存関係を導入する。
さらに、状態依存マルコフデータの下でSGDダイナミックスの誤差の$\ell_2$ノルムの最初の4つのモーメントに対する収束率を確立し、独立な結果として潜在的関心を持つ。
マルコフサンプリング下で線形およびロジスティック回帰モデルのトレーニングを行う際に,sgdの信頼区間を導出するための数値的な図示を提供する。
さらに,ロジスティック回帰(ロジスティック回帰)を伴う戦略的分類の興味をそそる問題に対して,学習過程中に敵が適応的に特徴を修飾し,特定の対象クラスに分類される可能性を高める手法を適用する。 We study the online overlapping batch-means covariance estimator for Stochastic Gradient Descent (SGD) under Markovian sampling. We show that the convergence rates of the covariance estimator are $O\big(\sqrt{d}\,n^{-1/8}(\log n)^{1/4}\big)$ and $O\big(\sqrt{d}\,n^{-1/8}\big)$ under state-dependent and state-independent Markovian sampling, respectively, with $d$ representing dimensionality and $n$ denoting the number of observations or SGD iterations. Remarkably, these rates match the best-known convergence rate previously established for the independent and identically distributed ($\iid$) case by \cite{zhu2021online}, up to logarithmic factors. Our analysis overcomes significant challenges that arise due to Markovian sampling, leading to the introduction of additional error terms and complex dependencies between the blocks of the batch-means covariance estimator. Moreover, we establish the convergence rate for the first four moments of the $\ell_2$ norm of the error of SGD dynamics under state-dependent Markovian data, which holds potential interest as an independent result. To validate our theoretical findings, we provide numerical illustrations to derive confidence intervals for SGD when training linear and logistic regression models under Markovian sampling. Additionally, we apply our approach to tackle the intriguing problem of strategic classification with logistic regression, where adversaries can adaptively modify features during the training process to increase their chances of being classified in a specific target class. | 翻訳日:2023-08-04 15:37:14 公開日:2023-08-03 |
# タスク開始型設定におけるコミュニケーション戦略の強化学習の検討 Investigating Reinforcement Learning for Communication Strategies in a Task-Initiative Setting ( http://arxiv.org/abs/2308.01479v1 ) ライセンス: Link先を確認 | Baber Khalid and Matthew Stone | (参考訳) 多くの会話ドメインは、ユーザにニュアンス情報を提示するシステムを必要とする。
そのようなシステムは、明確化の質問と修復の誤解に対処するために、彼らの発言に従う必要がある。
本研究では,この対話的戦略を参照型コミュニケーションタスクで探求する。
シミュレーションを用いて,初回プレゼンテーションとその後のフォローアップとのコミュニケーショントレードオフをユーザの明確化戦略の関数として分析し,いくつかのベースライン戦略のパフォーマンスと強化学習によるポリシーを比較した。
データ要件の最小化,説明可能な選択,強力な監査機能を備えた対話戦略の一貫性に基づく表現には驚くべきメリットがあるが,幅広いユーザモデルにおける予測結果の損失はほとんどない。 Many conversational domains require the system to present nuanced information to users. Such systems must follow up what they say to address clarification questions and repair misunderstandings. In this work, we explore this interactive strategy in a referential communication task. Using simulation, we analyze the communication trade-offs between initial presentation and subsequent followup as a function of user clarification strategy, and compare the performance of several baseline strategies to policies derived by reinforcement learning. We find surprising advantages to coherence-based representations of dialogue strategy, which bring minimal data requirements, explainable choices, and strong audit capabilities, but incur little loss in predicted outcomes across a wide range of user models. | 翻訳日:2023-08-04 15:36:40 公開日:2023-08-03 |
# 多人数会話における行動分析のためのデータ強化 Data Augmentation for Human Behavior Analysis in Multi-Person Conversations ( http://arxiv.org/abs/2308.01526v1 ) ライセンス: Link先を確認 | Kun Li, Dan Guo, Guoliang Chen, Feiyang Liu, Meng Wang | (参考訳) 本稿では,ACM Multimedia 2023 の MultiMediate Grand Challenge 2023 に対して,我々のチーム HFUT-VUT のソリューションを提案する。
このソリューションは、身体的行動認識、アイコンタクト検出、次の話者予測の3つの下位課題をカバーする。
swin transformerをベースラインとして選択し、上記の3つのタスクに対処するためにデータ拡張戦略を利用する。
具体的には、生のビデオをトリミングして、他の部分からノイズを取り除く。
同時に、モデルの一般化を改善するためにデータ拡張を利用する。
その結果, 生体行動認識において, 平均精度, 眼接触検出精度0.7771において, 0.6262 の最適結果を得た。
さらに,非重み付け平均リコールの観点から,次の話者予測における0.5281の比較結果も達成した。 In this paper, we present the solution of our team HFUT-VUT for the MultiMediate Grand Challenge 2023 at ACM Multimedia 2023. The solution covers three sub-challenges: bodily behavior recognition, eye contact detection, and next speaker prediction. We select Swin Transformer as the baseline and exploit data augmentation strategies to address the above three tasks. Specifically, we crop the raw video to remove the noise from other parts. At the same time, we utilize data augmentation to improve the generalization of the model. As a result, our solution achieves the best results of 0.6262 for bodily behavior recognition in terms of mean average precision and the accuracy of 0.7771 for eye contact detection on the corresponding test set. In addition, our approach also achieves comparable results of 0.5281 for the next speaker prediction in terms of unweighted average recall. | 翻訳日:2023-08-04 15:29:53 公開日:2023-08-03 |
# VisAlign: 視覚知覚におけるAIと人間のアライメントの度合いを測定するデータセット VisAlign: Dataset for Measuring the Degree of Alignment between AI and Humans in Visual Perception ( http://arxiv.org/abs/2308.01525v1 ) ライセンス: Link先を確認 | Jiyoung Lee, Seungho Kim, Seunghyun Won, Joonseok Lee, Marzyeh Ghassemi, James Thorne, Jaeseok Choi, O-Kil Kwon, Edward Choi | (参考訳) AIアライメント(AIアライメント)とは、人間の意図した目標、好み、倫理的原則に向くモデルを指す。
ほとんどの大規模ディープラーニングモデルはブラックボックスとして機能し、手動では制御できないため、モデルと人間の類似性を分析することは、AIの安全性を確保するための代替手段となる。
本稿では、モデルと人間の視覚知覚アライメント(さらにAIと人間の視覚アライメントと呼ばれる)に焦点を当てる。
具体的には、画像分類の観点からAIと人間の視覚的アライメントを測定するための新しいデータセットを提案する。
AIと人間の視覚的アライメントを評価するために、データセットは現実世界で発生し、金色の人間の知覚ラベルを持つ様々なシナリオのサンプルを含むべきである。
我々のデータセットは、画像中の視覚情報の量と明度に基づいて、Must-Act(Must-Classify)、Must-Abstain、Uncertainの3つのグループから構成され、さらに8つのカテゴリに分けられる。
すべてのサンプルには金色の人間の知覚ラベルがあり、不確定な(ぼやけた)サンプルラベルでさえ、クラウドソーシングによって得られる。
このデータセットの有効性は,サンプリング理論,調査設計に関する統計理論,関連分野の専門家によって検証される。
このデータセットを用いて,5つの視覚知覚モデルと7つの回避方法の視覚的アライメントと信頼性を解析した。
我々のコードとデータは \url{https://github.com/jiyounglee-0523/VisAlign} で利用可能です。 AI alignment refers to models acting towards human-intended goals, preferences, or ethical principles. Given that most large-scale deep learning models act as black boxes and cannot be manually controlled, analyzing the similarity between models and humans can be a proxy measure for ensuring AI safety. In this paper, we focus on the models' visual perception alignment with humans, further referred to as AI-human visual alignment. Specifically, we propose a new dataset for measuring AI-human visual alignment in terms of image classification, a fundamental task in machine perception. In order to evaluate AI-human visual alignment, a dataset should encompass samples with various scenarios that may arise in the real world and have gold human perception labels. Our dataset consists of three groups of samples, namely Must-Act (i.e., Must-Classify), Must-Abstain, and Uncertain, based on the quantity and clarity of visual information in an image and further divided into eight categories. All samples have a gold human perception label; even Uncertain (severely blurry) sample labels were obtained via crowd-sourcing. The validity of our dataset is verified by sampling theory, statistical theories related to survey design, and experts in the related fields. Using our dataset, we analyze the visual alignment and reliability of five popular visual perception models and seven abstention methods. Our code and data is available at \url{https://github.com/jiyounglee-0523/VisAlign}. | 翻訳日:2023-08-04 15:29:39 公開日:2023-08-03 |
# PPI-NET: エンドツーエンドのパラメトリックプリミティブ推論 PPI-NET: End-to-End Parametric Primitive Inference ( http://arxiv.org/abs/2308.01521v1 ) ライセンス: Link先を確認 | Liang Wang and Xiaogang Wang | (参考訳) 工学の応用では、線、円、弧、点を総称してプリミティブと呼び、経路計画、シミュレーション分析、製造において重要な役割を果たしている。
CADモデルを設計する場合、エンジニアは通常、モデルの正書法ビューを紙やホワイトボードにスケッチし、設計意図をCADプログラムに変換することから始める。
この設計手法は強力だが、しばしば挑戦的で反復的なタスクを伴い、各設計においてエンジニアが同様の操作を行う必要がある。
この変換処理に対処するために,手書きスケッチ画像からパラメトリックプリミティブを推定する自動回帰モデルを用いた場合の非効率性とエラー蓄積問題を回避する効率的かつ高精度なエンド・ツー・エンド法を提案する。
モデルサンプルは標準CADソフトウェアの表現形式と一致しているため、下流の設計タスクの解決、編集、適用のためにCADソフトウェアにインポートすることができる。 In engineering applications, line, circle, arc, and point are collectively referred to as primitives, and they play a crucial role in path planning, simulation analysis, and manufacturing. When designing CAD models, engineers typically start by sketching the model's orthographic view on paper or a whiteboard and then translate the design intent into a CAD program. Although this design method is powerful, it often involves challenging and repetitive tasks, requiring engineers to perform numerous similar operations in each design. To address this conversion process, we propose an efficient and accurate end-to-end method that avoids the inefficiency and error accumulation issues associated with using auto-regressive models to infer parametric primitives from hand-drawn sketch images. Since our model samples match the representation format of standard CAD software, they can be imported into CAD software for solving, editing, and applied to downstream design tasks. | 翻訳日:2023-08-04 15:29:09 公開日:2023-08-03 |
# Contrastive Multi-Face Forensics: Multi-face Forgery 検出のためのエンドツーエンドのコントラスト学習アプローチ Contrastive Multi-FaceForensics: An End-to-end Bi-grained Contrastive Learning Approach for Multi-face Forgery Detection ( http://arxiv.org/abs/2308.01520v1 ) ライセンス: Link先を確認 | Cong Zhang, Honggang Qi, Yuezun Li, Siwei Lyu | (参考訳) 近年、DeepFakesは深刻な社会的懸念を生じさせており、検出に基づく法医学手法の急増につながっている。
顔偽造認識は、通常二相パイプラインに従う従来の検出手法であり、まず顔を抽出し、次に分類によって真正性を決定する。
野生のディープフェイクは、通常複数の顔を含むため、顔偽造検出法は、後続の顔を処理する必要があるため、一つの顔のみを同時に処理するだけである。
この問題に対処する簡単な方法の1つは、高度なオブジェクト検出アーキテクチャを適応させることで、エンドツーエンドで顔抽出と偽造検出を統合することである。
しかしながら、これらのオブジェクト検出アーキテクチャは顔間の微妙な偽の痕跡ではなく、異なるオブジェクトカテゴリのセマンティック情報をキャプチャするために設計されているため、直接適応は最適には程遠い。
本稿では,新たなエンドツーエンドフレームワークであるCOMICS(Contrastive Multi-Face Forensics)について述べる。
提案フレームワークのコアは,粗粒度と細粒度の両方で効果的な顔偽造跡を探索する,新しい2粒度コントラスト学習手法である。
具体的には、粗粒度コントラスト学習は、提案生成装置の指示により複数スケールで正と負のプロポーザルペア間の識別特徴を捕捉し、細粒度コントラスト学習は、同一面の偽領域と原領域と、異なる面間の画素ワイドコンテンツ不整合をキャプチャする。
OpenForensicsデータセットの大規模な実験は、我々の手法が他の手法よりも大きく(約18.5%)、様々なアーキテクチャとの統合の可能性を示している。 DeepFakes have raised serious societal concerns, leading to a great surge in detection-based forensics methods in recent years. Face forgery recognition is the conventional detection method that usually follows a two-phase pipeline: it extracts the face first and then determines its authenticity by classification. Since DeepFakes in the wild usually contain multiple faces, using face forgery detection methods is merely practical as they have to process faces in a sequel, i.e., only one face is processed at the same time. One straightforward way to address this issue is to integrate face extraction and forgery detection in an end-to-end fashion by adapting advanced object detection architectures. However, as these object detection architectures are designed to capture the semantic information of different object categories rather than the subtle forgery traces among the faces, the direct adaptation is far from optimal. In this paper, we describe a new end-to-end framework, Contrastive Multi-FaceForensics (COMICS), to enhance multi-face forgery detection. The core of the proposed framework is a novel bi-grained contrastive learning approach that explores effective face forgery traces at both the coarse- and fine-grained levels. Specifically, the coarse-grained level contrastive learning captures the discriminative features among positive and negative proposal pairs in multiple scales with the instruction of the proposal generator, and the fine-grained level contrastive learning captures the pixel-wise discrepancy between the forged and original areas of the same face and the pixel-wise content inconsistency between different faces. Extensive experiments on the OpenForensics dataset demonstrate our method outperforms other counterparts by a large margin (~18.5%) and shows great potential for integration into various architectures. | 翻訳日:2023-08-04 15:28:53 公開日:2023-08-03 |
# 自律移動協調のための量子マルチエージェント強化学習 Quantum Multi-Agent Reinforcement Learning for Autonomous Mobility Cooperation ( http://arxiv.org/abs/2308.01519v1 ) ライセンス: Link先を確認 | Soohyun Park, Jae Pyoung Kim, Chanyoung Park, Soyi Jung, Joongheon Kim | (参考訳) 産業4.0革命では,マルチエージェント強化学習(marl)に基づく協調型自律移動システムが広く利用されている。
しかし、MARLに基づくアルゴリズムは、多くのエージェントのパラメータ利用と収束困難に悩まされている。
これらの問題に対処するために,アクタ-クリティックネットワークの概念に基づく量子マル(qmarl)アルゴリズムが提案されている。
さらに、QMARLは、量子超越性による効率的なパラメータ利用と高速収束の観点からも有益である。
QMARLの報酬は、複数のエージェントの計算時間に対するタスク精度として定義されるので、マルチエージェント協調を実現することができる。
さらなる改善のために、プロジェクション値測度(PVM)と呼ばれる拡張性のための追加技術を提案する。
PVMに基づいて,提案したQMARLは,動作次元を対数スケールに減らし,最も高い報酬を得ることができる。
最後に、PVMを用いた提案QMARLは、効率的なパラメータ利用、高速収束、スケーラビリティの観点から、他のアルゴリズムよりも優れていると結論付けることができる。 For Industry 4.0 Revolution, cooperative autonomous mobility systems are widely used based on multi-agent reinforcement learning (MARL). However, the MARL-based algorithms suffer from huge parameter utilization and convergence difficulties with many agents. To tackle these problems, a quantum MARL (QMARL) algorithm based on the concept of actor-critic network is proposed, which is beneficial in terms of scalability, to deal with the limitations in the noisy intermediate-scale quantum (NISQ) era. Additionally, our QMARL is also beneficial in terms of efficient parameter utilization and fast convergence due to quantum supremacy. Note that the reward in our QMARL is defined as task precision over computation time in multiple agents, thus, multi-agent cooperation can be realized. For further improvement, an additional technique for scalability is proposed, which is called projection value measure (PVM). Based on PVM, our proposed QMARL can achieve the highest reward, by reducing the action dimension into a logarithmic-scale. Finally, we can conclude that our proposed QMARL with PVM outperforms the other algorithms in terms of efficient parameter utilization, fast convergence, and scalability. | 翻訳日:2023-08-04 15:28:18 公開日:2023-08-03 |
# Brody間隔分布を持つ2 X 2相関ランダム行列モデルのクラス A class of 2 X 2 correlated random-matrix models with Brody spacing distribution ( http://arxiv.org/abs/2308.01514v1 ) ライセンス: Link先を確認 | Jamal Sakhr | (参考訳) ブロディ分布が正確な固有値間隔分布である 2 X 2 個のランダム行列モデルのクラスを導入する。
行列要素は、ブロディパラメータに依存する様々なパワーに上げられた指数確率確率変数の線形結合である。
ここで導入されたランダム行列は、ガウス直交アンサンブル(GOE)の3つの重要な方法で異なる: 行列要素は独立でなく、同分布(すなわち IID ではない)でもなく、ガウス分布でもなく、行列は必ずしも実あるいは対称ではない。
最初の2つの特徴は古典的な独立の前提を外すことから生じ、3つ目の特徴はGOEの構築で課される量子力学条件を外すことから生じる。
特に、本モデルにおいて固有値が実数となるための十分だが必要ではないエルミーティ条件は課されない。
したがって、実あるいは複素固有値を持つ複素非エルミート 2 X 2 のランダム行列は、ポアソン級数とウィグナー級数の中間の間隔分布を持つことができる。
数値例は、実または複素共役固有値を持つ複素対称行列を含む、異なる種類のランダム行列に対して与えられる。 A class of 2 X 2 random-matrix models is introduced for which the Brody distribution is the exact eigenvalue spacing distribution. The matrix elements are linear combinations of an exponential random variable raised to various powers that depend on the Brody parameter. The random matrices introduced here differ from those of the Gaussian Orthogonal Ensemble (GOE) in three important ways: the matrix elements are not independent and identically distributed (i.e., not IID) nor Gaussian-distributed, and the matrices are not necessarily real and/or symmetric. The first two features arise from dropping the classical independence assumption, and the third feature arises from dropping the quantum-mechanical conditions that are imposed in the construction of the GOE. In particular, the hermiticity condition, which in the present model, is a sufficient but not necessary condition for the eigenvalues to be real, is not imposed. Consequently, complex non-Hermitian 2 X 2 random matrices with real or complex eigenvalues can also have spacing distributions that are intermediate between those of the Poisson and Wigner classes. Numerical examples are provided for different types of random matrices, including complex-symmetric matrices with real or complex-conjugate eigenvalues. | 翻訳日:2023-08-04 15:28:00 公開日:2023-08-03 |
# 仮想アンテナアレイを用いたUAVSwarm支援IoTの多目的最適化 Multi-Objective Optimization for UAV Swarm-Assisted IoT with Virtual Antenna Arrays ( http://arxiv.org/abs/2308.01511v1 ) ライセンス: Link先を確認 | Jiahui Li, Geng Sun, Lingjie Duan, Qingqing Wu | (参考訳) 無人航空機(UAV)ネットワークはIoT(Internet-of-Things)を支援するための有望な技術であり、UAVはその限られたサービスカバレッジを使用して、送信能力の低いIoTデバイスからデータを収集および拡散することができる。
既存のUAV支援データ収集および拡散方式では、UAVがIoTとアクセスポイントの間を頻繁に飛行する必要があるため、余分なエネルギーと時間的コストがかかる。
エネルギーと時間の両方のコストを削減するために、重要な方法はIoTとUAVの伝送性能を高めることである。
本研究では,複数のIoTクラスタから遠隔基地局(BS)へのエネルギー・時間効率のデータ収集・拡散を実現するために,IoTとUAVに協調ビームフォーミングを導入する。
これらのコストの削減を除けば、もうひとつの無視できない脅威は潜在的な盗聴者の存在であり、盗聴者の取り扱いはエネルギーと時間コストを増加させ、その結果、コストの最小化と衝突する。
さらに、これらの目標の重要性は、異なるアプリケーションで比較的異なるかもしれない。
したがって,多目的最適化問題(MOP)を定式化し,ミッション完了時間,盗聴者への信号強度,UAVの総エネルギーコストを同時に最小化する。
定式化 MOP はNPハード,混合変数最適化,大規模最適化問題であることを示す。
そこで本稿では,異なるトレードオフを持つ候補解の集合を,低計算量で様々な要件を満たすことのできる群知能に基づくアルゴリズムを提案する。
また,swarm intelligence手法は,混合変数最適化や大規模問題を扱う際に,解初期化,解更新,アルゴリズムパラメータ更新フェーズを強化する必要があることを示した。
シミュレーションの結果,提案アルゴリズムは最先端のSwarmインテリジェンスアルゴリズムよりも優れていた。 Unmanned aerial vehicle (UAV) network is a promising technology for assisting Internet-of-Things (IoT), where a UAV can use its limited service coverage to harvest and disseminate data from IoT devices with low transmission abilities. The existing UAV-assisted data harvesting and dissemination schemes largely require UAVs to frequently fly between the IoTs and access points, resulting in extra energy and time costs. To reduce both energy and time costs, a key way is to enhance the transmission performance of IoT and UAVs. In this work, we introduce collaborative beamforming into IoTs and UAVs simultaneously to achieve energy and time-efficient data harvesting and dissemination from multiple IoT clusters to remote base stations (BSs). Except for reducing these costs, another non-ignorable threat lies in the existence of the potential eavesdroppers, whereas the handling of eavesdroppers often increases the energy and time costs, resulting in a conflict with the minimization of the costs. Moreover, the importance of these goals may vary relatively in different applications. Thus, we formulate a multi-objective optimization problem (MOP) to simultaneously minimize the mission completion time, signal strength towards the eavesdropper, and total energy cost of the UAVs. We prove that the formulated MOP is an NP-hard, mixed-variable optimization, and large-scale optimization problem. Thus, we propose a swarm intelligence-based algorithm to find a set of candidate solutions with different trade-offs which can meet various requirements in a low computational complexity. We also show that swarm intelligence methods need to enhance solution initialization, solution update, and algorithm parameter update phases when dealing with mixed-variable optimization and large-scale problems. Simulation results demonstrate the proposed algorithm outperforms state-of-the-art swarm intelligence algorithms. | 翻訳日:2023-08-04 15:27:36 公開日:2023-08-03 |
# テキスト・画像生成モデルにおける概念消去手法の概略 Circumventing Concept Erasure Methods For Text-to-Image Generative Models ( http://arxiv.org/abs/2308.01508v1 ) ライセンス: Link先を確認 | Minh Pham, Kelly O. Marshall, Chinmay Hegde | (参考訳) テキスト・ツー・イメージ生成モデルは、非常に幅広い概念のフォトリアリスティック・イメージを生成でき、その利用は一般大衆に広まっている。
逆に、これらのモデルには多くの欠点があり、性的に明示的な内容、無許可のミラーアートスタイル、さらには有名人の幻覚(またはディープフェイク)といったイメージを生成する可能性がある。
その結果、テキストから画像へのモデルからセンシティブな概念を「緩和する」ために様々な方法が提案されている。
本研究では,最近提案された5つの概念消去手法について検討し,これらの手法から対象概念が完全に抽出されていないことを示す。
具体的には、重みを変更せずに、衛生化されたモデルから「消去された」概念を抽出できる特別な学習語埋め込みの存在を利用する。
本研究は,ポストホック概念消去手法の不安定性に着目し,ai安全性のためのアルゴリズムツールキットとしての利用を問うものである。 Text-to-image generative models can produce photo-realistic images for an extremely broad range of concepts, and their usage has proliferated widely among the general public. On the flip side, these models have numerous drawbacks, including their potential to generate images featuring sexually explicit content, mirror artistic styles without permission, or even hallucinate (or deepfake) the likenesses of celebrities. Consequently, various methods have been proposed in order to "erase" sensitive concepts from text-to-image models. In this work, we examine five recently proposed concept erasure methods, and show that targeted concepts are not fully excised from any of these methods. Specifically, we leverage the existence of special learned word embeddings that can retrieve "erased" concepts from the sanitized models with no alterations to their weights. Our results highlight the brittleness of post hoc concept erasure methods, and call into question their use in the algorithmic toolkit for AI safety. | 翻訳日:2023-08-04 15:27:06 公開日:2023-08-03 |
# 一般化量子信号処理 Generalized Quantum Signal Processing ( http://arxiv.org/abs/2308.01501v1 ) ライセンス: Link先を確認 | Danial Motlagh and Nathan Wiebe | (参考訳) 量子信号処理(QSP)と量子特異値変換(QSVT)は現在、最も著名な量子アルゴリズムの中心にあるブロック符号化行列の関数を実装するための最も効率的な手法である。
しかし、現在のqspアプローチは、達成可能な多項式の族に課される制限や、特定の変換に必要な位相角を計算することの難しさなど、いくつかの課題に直面している。
本稿では,一般化量子信号処理(gqsp)の手法を提案する。
提案手法は,量子計算のユニタリ性による制約である$|P|\leq 1$を唯一の条件として,達成可能な変換の族に対する実効的な制限を解き放つ。
さらに、GQSPは、$P$と$Q$が知られている場合に多項式を構成するのに必要な回転角を決定するための簡単な再帰公式を提供する。
p$が知られている場合、私たちは1分以内のgpu時間で識別できる効率的な最適化アルゴリズムを提供し、それに対応する次数の多項式に対して10^7$の順番でq$を提供します。
さらに、gqspはハミルトニアンシミュレーションのためのqspベースの戦略を単純化し、$o(\frac{1}{\delta} + \log(\large\frac{1}{\epsilon}))$クエリを必要とする$\epsilon$-approximate fractional query問題に対する最適な解を提供し、$o(1/\delta)$が証明された下界である場合を実行するために、bosonic operatorを実装するための新しいアプローチを導入する。
さらに、通常の行列の実装のための新しいフレームワークを提案し、長さのフィルタに対して$O(d \log{N} + \log^2N)$ 1 および 2-qubit ゲートで動作する新しい畳み込みアルゴリズムを開発し、その適用性を実証する。 Quantum Signal Processing (QSP) and Quantum Singular Value Transformation (QSVT) currently stand as the most efficient techniques for implementing functions of block encoded matrices, a central task that lies at the heart of most prominent quantum algorithms. However, current QSP approaches face several challenges, such as the restrictions imposed on the family of achievable polynomials and the difficulty of calculating the required phase angles for specific transformations. In this paper, we present a Generalized Quantum Signal Processing (GQSP) approach, employing general SU(2) rotations as our signal processing operators, rather than relying solely on rotations in a single basis. Our approach lifts all practical restrictions on the family of achievable transformations, with the sole remaining condition being that $|P|\leq 1$, a restriction necessary due to the unitary nature of quantum computation. Furthermore, GQSP provides a straightforward recursive formula for determining the rotation angles needed to construct the polynomials in cases where $P$ and $Q$ are known. In cases where only $P$ is known, we provide an efficient optimization algorithm capable of identifying in under a minute of GPU time, a corresponding $Q$ for polynomials of degree on the order of $10^7$. We further illustrate GQSP simplifies QSP-based strategies for Hamiltonian simulation, offer an optimal solution to the $\epsilon$-approximate fractional query problem that requires $O(\frac{1}{\delta} + \log(\large\frac{1}{\epsilon}))$ queries to perform where $O(1/\delta)$ is a proved lower bound, and introduces novel approaches for implementing bosonic operators. Moreover, we propose a novel framework for the implementation of normal matrices, demonstrating its applicability through the development of a new convolution algorithm that runs in $O(d \log{N} + \log^2N)$ 1 and 2-qubit gates for a filter of lengths $d$. | 翻訳日:2023-08-04 15:26:47 公開日:2023-08-03 |
# TDMD:動的カラーメッシュの主観的および客観的品質探索のためのデータベース TDMD: A Database for Dynamic Color Mesh Subjective and Objective Quality Explorations ( http://arxiv.org/abs/2308.01499v1 ) ライセンス: Link先を確認 | Qi Yang, Joel Jung, Timon Deschamps, Xiaozhong Xu, and Shan Liu | (参考訳) ダイナミックカラーメッシュ(dcm)は様々な用途で広く使われているが、圧縮や伝達などの異なるプロセスを経て、それらを歪め、品質を低下させることがある。
DCMの客観的指標の開発を容易にし、典型的な歪みが知覚に与える影響を研究するために、典型的歪みを6つ含む8つの参照DCMオブジェクトを含むTencent-Dynamic Color Mesh Database(TDMD)を作成する。
DCMから派生したプロセッシングビデオシーケンス(PVS)を用いて大規模な主観的実験を行い、303個の歪みDCMサンプルを平均評価スコアで分析し、TDMDが我々の知る限り最大のDCMデータベースとなった。
本データベースは,異なる種類の歪みが人間の知覚に与える影響を調査し,DCM圧縮および関連タスクの推奨を行う。
さらに,TDMDでは画像ベース,ポイントベース,ビデオベースなど,最先端の客観的指標を3種類評価した。
実験結果は,それぞれの指標の長所と短所を強調し,実用的DCMアプリケーションにおけるメトリクスの選択について提案する。
TDMDは以下の場所で公開される。 https://multimedia.tencent.com/resources/tdmd。 Dynamic colored meshes (DCM) are widely used in various applications; however, these meshes may undergo different processes, such as compression or transmission, which can distort them and degrade their quality. To facilitate the development of objective metrics for DCMs and study the influence of typical distortions on their perception, we create the Tencent - dynamic colored mesh database (TDMD) containing eight reference DCM objects with six typical distortions. Using processed video sequences (PVS) derived from the DCM, we have conducted a large-scale subjective experiment that resulted in 303 distorted DCM samples with mean opinion scores, making the TDMD the largest available DCM database to our knowledge. This database enabled us to study the impact of different types of distortion on human perception and offer recommendations for DCM compression and related tasks. Additionally, we have evaluated three types of state-of-the-art objective metrics on the TDMD, including image-based, point-based, and video-based metrics, on the TDMD. Our experimental results highlight the strengths and weaknesses of each metric, and we provide suggestions about the selection of metrics in practical DCM applications. The TDMD will be made publicly available at the following location: https://multimedia.tencent.com/resources/tdmd. | 翻訳日:2023-08-04 15:26:06 公開日:2023-08-03 |
# 両世界のベストを尽くす - grassmann クラス表現による精度と転送性の向上 Get the Best of Both Worlds: Improving Accuracy and Transferability by Grassmann Class Representation ( http://arxiv.org/abs/2308.01547v1 ) ライセンス: Link先を確認 | Haoqi Wang, Zhizhong Li and Wayne Zhang | (参考訳) ニューラルネットワークで見つかるクラスベクトルを線形部分空間(すなわちグラスマン多様体の~点)に一般化し、グラスマンクラス表現(GCR)が精度と特徴伝達性を同時に改善できることを示す。
gcr において、各クラスは部分空間であり、ロジットはクラス部分空間への特徴の射影のノルムとして定義される。
我々はリーマンSGDを、グラスマンのクラス部分空間が残りのモデルパラメータと共に最適化されるようなディープラーニングフレームワークに統合する。
ベクトル形式と比較して、部分空間の代表能力はより強力である。
ImageNet-1Kでは,ResNet50-D,ResNeXt50,Swin-T,Deit3-Sの各トップ1エラーをそれぞれ5.6%,4.5%,3.0%,3.5%削減した。
部分空間は特徴が変化する自由も提供し、サブ空間次元が大きくなるとクラス内の特徴変数が増加することを観察した。
その結果,gcr機能の品質は下流タスクより優れていることがわかった。
ResNet50-Dでは、6つのデータセットの平均線形転送精度が77.98%から79.70%に向上する。
Swin-Tでは81.5%から83.4%に改善され、Deit3では73.8%から81.4%に改善されている。
これらの奨励的な結果により、より多くのアプリケーションがグラスマンクラス表現の恩恵を受けると信じています。
コードはhttps://github.com/innerlee/gcrでリリースされる。 We generalize the class vectors found in neural networks to linear subspaces (i.e.~points in the Grassmann manifold) and show that the Grassmann Class Representation (GCR) enables the simultaneous improvement in accuracy and feature transferability. In GCR, each class is a subspace and the logit is defined as the norm of the projection of a feature onto the class subspace. We integrate Riemannian SGD into deep learning frameworks such that class subspaces in a Grassmannian are jointly optimized with the rest model parameters. Compared to the vector form, the representative capability of subspaces is more powerful. We show that on ImageNet-1K, the top-1 error of ResNet50-D, ResNeXt50, Swin-T and Deit3-S are reduced by 5.6%, 4.5%, 3.0% and 3.5%, respectively. Subspaces also provide freedom for features to vary and we observed that the intra-class feature variability grows when the subspace dimension increases. Consequently, we found the quality of GCR features is better for downstream tasks. For ResNet50-D, the average linear transfer accuracy across 6 datasets improves from 77.98% to 79.70% compared to the strong baseline of vanilla softmax. For Swin-T, it improves from 81.5% to 83.4% and for Deit3, it improves from 73.8% to 81.4%. With these encouraging results, we believe that more applications could benefit from the Grassmann class representation. Code is released at https://github.com/innerlee/GCR. | 翻訳日:2023-08-04 15:18:27 公開日:2023-08-03 |
# MusicLDM:Beats-Synchronous Mixup Strategies を用いたテキスト・音楽生成におけるノベルティ向上 MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies ( http://arxiv.org/abs/2308.01546v1 ) ライセンス: Link先を確認 | Ke Chen, Yusong Wu, Haohe Liu, Marianna Nezhurina, Taylor Berg-Kirkpatrick, Shlomo Dubnov | (参考訳) 拡散モデルは、テキストから画像への生成やテキストから音声への生成を含む、クロスモーダル生成タスクにおいて有望な結果を示している。
しかし、音楽は特別なタイプのオーディオとして、音楽データの入手が限られており、著作権や盗作にまつわるセンシティブな問題が生じる。
本稿では,これらの課題に対処するため,まず,安定拡散とオーディオLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、音楽データサンプルのコレクション上で、コントラッシブ言語-オーディオ事前学習モデル(CLAP)とHifi-GANボコーダをMusicLDMのコンポーネントとして再訓練することで、これを実現する。
次に、トレーニングデータの制限に対処し、盗作を避けるために、ビートトラッキングモデルを利用し、データ拡張のための2つの異なるミックスアップ戦略を提案する:ビート同期オーディオミックスアップとビート同期潜在ミックスアップであり、それぞれ、トレーニングオーディオを直接または潜在埋め込み空間を介して再結合する。
このようなミックスアップ戦略は、モデルのトレーニングサンプル間を補間し、トレーニングデータの凸包内で新しい音楽を生成することを奨励し、生成された音楽は対応するスタイルに忠実に保たれながら、より多様なものにする。
一般的な評価指標に加えて,CLAPスコアに基づく新たな評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質と新規性,および入力テキストと生成された音楽の対応性を改善することを示す。 Diffusion models have shown promising results in cross-modal generation tasks, including text-to-image and text-to-audio generation. However, generating music, as a special type of audio, presents unique challenges due to limited availability of music data and sensitive issues related to copyright and plagiarism. In this paper, to tackle these challenges, we first construct a state-of-the-art text-to-music model, MusicLDM, that adapts Stable Diffusion and AudioLDM architectures to the music domain. We achieve this by retraining the contrastive language-audio pretraining model (CLAP) and the Hifi-GAN vocoder, as components of MusicLDM, on a collection of music data samples. Then, to address the limitations of training data and to avoid plagiarism, we leverage a beat tracking model and propose two different mixup strategies for data augmentation: beat-synchronous audio mixup and beat-synchronous latent mixup, which recombine training audio directly or via a latent embeddings space, respectively. Such mixup strategies encourage the model to interpolate between musical training samples and generate new music within the convex hull of the training data, making the generated music more diverse while still staying faithful to the corresponding style. In addition to popular evaluation metrics, we design several new evaluation metrics based on CLAP score to demonstrate that our proposed MusicLDM and beat-synchronous mixup strategies improve both the quality and novelty of generated music, as well as the correspondence between input text and generated music. | 翻訳日:2023-08-04 15:17:59 公開日:2023-08-03 |
# イジング鎖の1次元量子シミュレーションにおける量子ビット数を半減する Reducing the number of qubits by a half in one dimensional quantum simulations of Ising chains ( http://arxiv.org/abs/2308.01545v1 ) ライセンス: Link先を確認 | Somayeh Mehrabankar, Miguel \'Angel Garc\'ia-March, Carmen G. Almud\'ever, and Armando P\'erez | (参考訳) ブロック再正規化群法 (brgm) を用いたイジングモデルの検討を行い, 異なるシステムサイズにおけるイジングの挙動について検討した。
BRGMはスピンの数を1/2に減らし、半分のスピンを使いながらイジングモデルの本質的な物理的特徴を効果的に保存する。
比較分析により, 系の大きさが大きくなるにつれて, カップリング定数が再定義された場合, 元のハミルトニアンの値と再正規化ハミルトニアンの値の間に収束があることが示されている。
驚くべきことに、24個のスピンを持つスピン鎖では、磁化、相関関数、絡み合いエントロピーを含む全ての物理的特徴は、元のハミルトニアンの結果と正確に対応している。
BRGMが比較的少数のスピンでも正確にIsingモデルを特徴づけることの成功は、複雑な物理システムの研究における堅牢性と有用性を強調し、利用可能な量子ビットの数がほとんど制約されている現在のNISQコンピュータでのシミュレーションを促進する。 We investigate the Ising model using the Block Renormalization Group Method (BRGM), focusing on its behavior across different system sizes. The BRGM reduces the number of spins by a factor of 1/2, effectively preserving essential physical features of the Ising model while using only half the spins. Through a comparative analysis, we demonstrate that as the system size increases, there is a convergence between results obtained from the original and renormalized Hamiltonians, provided the coupling constants are redefined accordingly. Remarkably, for a spin chain with 24 spins, all physical features, including magnetization, correlation function, and entanglement entropy, exhibit an exact correspondence with the results from the original Hamiltonian. The success of BRGM in accurately characterizing the Ising model, even with a relatively small number of spins, underscores its robustness and utility in studying complex physical systems, and facilitates its simulation on current NISQ computers, where the available number of qubits is largely constrained. | 翻訳日:2023-08-04 15:17:26 公開日:2023-08-03 |
# テキストオンリートランスにおけるマルチモーダルニューロン Multimodal Neurons in Pretrained Text-Only Transformers ( http://arxiv.org/abs/2308.01544v1 ) ライセンス: Link先を確認 | Sarah Schwettmann, Neil Chowdhury, Antonio Torralba | (参考訳) 言語モデルは、1つのモダリティで学んだ表現を他のモダリティで下流のタスクに一般化する能力を示す。
この能力を個々のニューロンに追跡できますか?
自己教師付き視覚エンコーダと、画像からテキストへのタスクで学習した1つの線形投影を用いて、凍結テキストトランスフォーマが視覚で拡張される場合について検討する。
プロジェクション層の出力は、画像内容を記述する言語に即座にデオード可能ではなく、変換器の内部でモダリティ間の変換がより深く発生する。
本稿では,視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定し,モデルの残差ストリームに注入する概念を復号する手法を提案する。
一連の実験において、マルチモーダルニューロンは入力間の特定の視覚的概念で動作し、画像キャプションに系統的な因果効果を持つことを示す。 Language models demonstrate remarkable capacity to generalize representations learned in one modality to downstream tasks in other modalities. Can we trace this ability to individual neurons? We study the case where a frozen text transformer is augmented with vision using a self-supervised visual encoder and a single linear projection learned on an image-to-text task. Outputs of the projection layer are not immediately decodable into language describing image content; instead, we find that translation between modalities occurs deeper within the transformer. We introduce a procedure for identifying "multimodal neurons" that convert visual representations into corresponding text, and decoding the concepts they inject into the model's residual stream. In a series of experiments, we show that multimodal neurons operate on specific visual concepts across inputs, and have a systematic causal effect on image captioning. | 翻訳日:2023-08-04 15:17:05 公開日:2023-08-03 |
# Lode Enhancer: スケーリングによるレベルの共創 Lode Enhancer: Level Co-creation Through Scaling ( http://arxiv.org/abs/2308.01543v1 ) ライセンス: Link先を確認 | Debosmita Bhaumik, Julian Togelius, Georgios N. Yannakakis, Ahmed Khalifa | (参考訳) 2Dゲームレベルを作成するコンテキストにおいて、デザイン支援ツールとしてAIを活用したアップスケーリングについて検討する。
ディープニューラルネットワークは、パズルプラットフォームゲームlode runnerのレベルを人工的にダウンスケールするパッチをスケールアップするために使用される。
トレーニングされたネットワークはWebベースのエディタに組み込まれ、4x4、8x8、16x16という3段階の解像度でレベルを作成し編集することができる。
任意の解像度での編集はすぐに他の解像度に転送される。
upscalingでは、低解像度で存在しない可能性のある機能を発明する必要があるため、これらの機能を再現するためにニューラルネットワークをトレーニングします。
我々は,高スケーリングを学習するだけでなく,より頻度の低いタイルに対して高い優先度を与えるニューラルネットワークアーキテクチャを導入する。
このツールの可能性を調査し、さらなる開発を導くため、3人のデザイナーによる質的研究を行い、その使い方を理解する。
デザイナーはツールとの共同設計を楽しみ、基礎となるコンセプトを気に入り、さらなる改善のためのフィードバックを提供した。 We explore AI-powered upscaling as a design assistance tool in the context of creating 2D game levels. Deep neural networks are used to upscale artificially downscaled patches of levels from the puzzle platformer game Lode Runner. The trained networks are incorporated into a web-based editor, where the user can create and edit levels at three different levels of resolution: 4x4, 8x8, and 16x16. An edit at any resolution instantly transfers to the other resolutions. As upscaling requires inventing features that might not be present at lower resolutions, we train neural networks to reproduce these features. We introduce a neural network architecture that is capable of not only learning upscaling but also giving higher priority to less frequent tiles. To investigate the potential of this tool and guide further development, we conduct a qualitative study with 3 designers to understand how they use it. Designers enjoyed co-designing with the tool, liked its underlying concept, and provided feedback for further improvement. | 翻訳日:2023-08-04 15:16:48 公開日:2023-08-03 |
# DMDC:スナップショットハイパースペクトルイメージングのための動的マスク型デュアルカメラ設計 DMDC: Dynamic-mask-based dual camera design for snapshot Hyperspectral Imaging ( http://arxiv.org/abs/2308.01541v1 ) ライセンス: Link先を確認 | Zeyu Cai, Chengqian Jin, Feipeng Da | (参考訳) 深層学習法はCASSI(Coded Aperture Spectrum Imaging)において急速に発展している。
既存の最先端手法(SOTA)のパラメータやFLOPの数は増え続けているが、再構築精度は徐々に向上している。
現在の方法はまだ2つの問題に直面している。
1)空間光変調器(slm)の性能は固定マスク符号化の限界のため十分には開発されていない。
2)単一入力はネットワーク性能を制限する。
本稿では,rgbカメラとcassiシステムを並列に動作させるダイナミックマスク方式デュアルカメラシステムを提案する。
まず、RGB画像に基づいてシーンの空間的特徴分布を学習し、SLMに各シーンをエンコードするよう指示し、最後にRGB画像とCASSI画像の両方をネットワークに送信して再構成を行う。
さらに,2つのネットワークからなるDMDC-net,マスクの動的調整のための小型CNNベースの動的マスクネットワーク,RGBおよびCASSI測定を用いた再構成のためのマルチモーダル再構成ネットワークを設計した。
複数のデータセットに対する大規模な実験により,SOTAによるPSNRの9dB改善が達成された。
(https://github.com/caizeyu1992/dmdc) Deep learning methods are developing rapidly in coded aperture snapshot spectral imaging (CASSI). The number of parameters and FLOPs of existing state-of-the-art methods (SOTA) continues to increase, but the reconstruction accuracy improves slowly. Current methods still face two problems: 1) The performance of the spatial light modulator (SLM) is not fully developed due to the limitation of fixed Mask coding. 2) The single input limits the network performance. In this paper we present a dynamic-mask-based dual camera system, which consists of an RGB camera and a CASSI system running in parallel. First, the system learns the spatial feature distribution of the scene based on the RGB images, then instructs the SLM to encode each scene, and finally sends both RGB and CASSI images to the network for reconstruction. We further designed the DMDC-net, which consists of two separate networks, a small-scale CNN-based dynamic mask network for dynamic adjustment of the mask and a multimodal reconstruction network for reconstruction using RGB and CASSI measurements. Extensive experiments on multiple datasets show that our method achieves more than 9 dB improvement in PSNR over the SOTA. (https://github.com/caizeyu1992/DMDC) | 翻訳日:2023-08-04 15:16:32 公開日:2023-08-03 |
# 非平衡物理学:スピングラスから機械・ニューラルラーニングへ Non-equilibrium physics: from spin glasses to machine and neural learning ( http://arxiv.org/abs/2308.01538v1 ) ライセンス: Link先を確認 | Weishun Zhong | (参考訳) 乱れた多体系は、様々なスケールで様々な創発現象を示す。
これらの複雑な振る舞いは、誤り訂正、学習、最適化といった様々な情報処理タスクに利用できる。
これらのシステムを知的なタスクに活用するという実証的な成功にもかかわらず、その創発的な知的な行動を支配する根底にある原則はほとんど不明である。
本論では、統計物理学を通して、乱れたシステムにおけるそのような創発的な知性を特徴付けることを目的とする。
学習機構(長期記憶と作業記憶)と学習ダイナミクス(人工記憶と自然)の2つの軸に基づいて、この論文における取り組みのロードマップを図示します。
私たちの旅を通じて、インテリジェントなシステムを設計するための指針となる学習メカニズムと物理力学の関係を明らかにする。
一見異なる学習システムの突発的なインテリジェンスに関する調査が、ニューラルネットワークを超えて現在のインテリジェンスに対する理解を広げ、AIアプリケーションに適した幅広い計算基板を明らかにすることを期待しています。 Disordered many-body systems exhibit a wide range of emergent phenomena across different scales. These complex behaviors can be utilized for various information processing tasks such as error correction, learning, and optimization. Despite the empirical success of utilizing these systems for intelligent tasks, the underlying principles that govern their emergent intelligent behaviors remain largely unknown. In this thesis, we aim to characterize such emergent intelligence in disordered systems through statistical physics. We chart a roadmap for our efforts in this thesis based on two axes: learning mechanisms (long-term memory vs. working memory) and learning dynamics (artificial vs. natural). Throughout our journey, we uncover relationships between learning mechanisms and physical dynamics that could serve as guiding principles for designing intelligent systems. We hope that our investigation into the emergent intelligence of seemingly disparate learning systems can expand our current understanding of intelligence beyond neural systems and uncover a wider range of computational substrates suitable for AI applications. | 翻訳日:2023-08-04 15:16:12 公開日:2023-08-03 |
# MFIM:メガピクセルの顔認証操作 MFIM: Megapixel Facial Identity Manipulation ( http://arxiv.org/abs/2308.01536v1 ) ライセンス: Link先を確認 | Sanghyeon Na | (参考訳) 顔スワップ(英: face swapping)とは、ある人物の顔のアイデンティティを他人の顔に変更するタスクである。
本稿では,Megapixel Facial Identity Manipulation (MFIM) と呼ばれる新しい顔スワッピングフレームワークを提案する。
フェイススワッピングモデルは2つの目標を達成するべきです。
まず、高品質な画像を生成することができるべきです。
我々は、メガピクセル画像の生成に熟練したモデルがこの目標を達成することができると論じる。
しかし、メガピクセル画像の生成は、慎重なモデル設計なしには一般に困難である。
そこで本モデルは,GAN変換方式で事前学習したStyleGANを利用してメガピクセル画像を生成する。
第二に、与えられた画像のアイデンティティを効果的に変換できること。
具体的には、特定の画像のID属性(例えば、顔の形や目)を他人の属性に積極的に変換し、ID非関連属性(例えば、ポーズや表情)を保存できるべきである。
この目的を達成するために、様々な顔属性をキャプチャできる3dmmを利用する。
具体的には, 3DMMを用いて, 望ましい属性を持つ顔認識画像を生成するために, モデルを明確に監督する。
実験により,本モデルが最先端の性能を達成することを示す。
さらに,複数の人物の身元を意味的に混合したIDミキシングという新たな操作を提案する。
ユーザーは新しいIDをカスタマイズできる。 Face swapping is a task that changes a facial identity of a given image to that of another person. In this work, we propose a novel face-swapping framework called Megapixel Facial Identity Manipulation (MFIM). The face-swapping model should achieve two goals. First, it should be able to generate a high-quality image. We argue that a model which is proficient in generating a megapixel image can achieve this goal. However, generating a megapixel image is generally difficult without careful model design. Therefore, our model exploits pretrained StyleGAN in the manner of GAN-inversion to effectively generate a megapixel image. Second, it should be able to effectively transform the identity of a given image. Specifically, it should be able to actively transform ID attributes (e.g., face shape and eyes) of a given image into those of another person, while preserving ID-irrelevant attributes (e.g., pose and expression). To achieve this goal, we exploit 3DMM that can capture various facial attributes. Specifically, we explicitly supervise our model to generate a face-swapped image with the desirable attributes using 3DMM. We show that our model achieves state-of-the-art performance through extensive experiments. Furthermore, we propose a new operation called ID mixing, which creates a new identity by semantically mixing the identities of several people. It allows the user to customize the new identity. | 翻訳日:2023-08-04 15:15:55 公開日:2023-08-03 |
# 数値的視点生成のためのスケーラブル戦略の比較 Comparing scalable strategies for generating numerical perspectives ( http://arxiv.org/abs/2308.01535v1 ) ライセンス: Link先を確認 | Hancheng Cao, Sofia Eleni Spatharioti, Daniel G. Goldstein, Jake M. Hofman | (参考訳) 数値的な視点は、人々が極端に不慣れな数字を理解するのに役立つ(例えば、3300億ドルは1人当たり約1000ドル)。
研究は役に立ちそうな視点を示しているが、いくつかのアナロジーを他のものよりも役に立たせるものを特定することが困難であることや、最も役立つものは、与えられた数値が現れる状況によって異なるため、スケールでそれを生成することは困難である。
ここでは,ルールベースのアプローチ,クラウドソースシステム,およびウィキペディアのデータとセマンティックな類似性(BERT埋め込みによる)を用いてコンテキスト固有の視点を生成するモデルという,大規模視点生成のための3つのポリシーを提示し比較する。
これらの3つのアプローチの組み合わせは、異なる設定で優れたアプローチと、複数のアプローチにまたがる不均一な好みを表示するユーザによって、どの方法でも支配的であることがわかった。
我々は、広く使われているオンラインワードプロセッサにおける視点の展開について論じる。 Numerical perspectives help people understand extreme and unfamiliar numbers (e.g., \$330 billion is about \$1,000 per person in the United States). While research shows perspectives to be helpful, generating them at scale is challenging both because it is difficult to identify what makes some analogies more helpful than others, and because what is most helpful can vary based on the context in which a given number appears. Here we present and compare three policies for large-scale perspective generation: a rule-based approach, a crowdsourced system, and a model that uses Wikipedia data and semantic similarity (via BERT embeddings) to generate context-specific perspectives. We find that the combination of these three approaches dominates any single method, with different approaches excelling in different settings and users displaying heterogeneous preferences across approaches. We conclude by discussing our deployment of perspectives in a widely-used online word processor. | 翻訳日:2023-08-04 15:15:37 公開日:2023-08-03 |
# Few-Shot行動認識のためのCLIPのマルチモーダル適応 Multimodal Adaptation of CLIP for Few-Shot Action Recognition ( http://arxiv.org/abs/2308.01532v1 ) ライセンス: Link先を確認 | Jiazheng Xing, Mengmeng Wang, Xiaojun Hou, Guang Dai, Jingdong Wang, Yong Liu | (参考訳) CLIPのような大規模トレーニング済みのビジュアルモデルを数ショットのアクション認識タスクに適用することで、パフォーマンスと効率性が向上する。
事前トレーニング、微調整”パラダイムを利用することで、ネットワークのトレーニングをスクラッチから回避することが可能になります。
しかし、この方法には2つの欠点がある。
第一に、少数のアクション認識のための限定されたラベル付きサンプルは、調整可能なパラメータの数を最小限に抑え、過剰適合を緩和し、資源消費を増大させ、モデルの一般化表現を阻害する不適切な微調整をもたらす。
第2に、ビデオの時間外次元は、ほとんどショット認識の効果的な時間モデルに挑戦するが、事前訓練された視覚モデルは通常イメージモデルである。
本稿では,これらの問題に対処するMultimodal Adaptation of CLIP (MA-CLIP)を提案する。
軽量なアダプタを追加し、学習可能なパラメータの数を最小化し、モデルをさまざまなタスク間で素早く転送できるようにする。
我々の設計したアダプタは、タスク指向の時空間モデリングのためのビデオテキストマルチモーダルソースからの情報を組み合わせることができる。
さらに,注意機構に基づいて,ビデオプロトタイプの表現性を高めるために,映像テキスト情報を十分に活用できるテキスト誘導型プロトタイプ構築モジュールを設計する。
当社のma-clipはプラグ・アンド・プレイであり、あらゆる異なるマイナショットアクション認識時間アライメントメトリックで使用できる。 Applying large-scale pre-trained visual models like CLIP to few-shot action recognition tasks can benefit performance and efficiency. Utilizing the "pre-training, fine-tuning" paradigm makes it possible to avoid training a network from scratch, which can be time-consuming and resource-intensive. However, this method has two drawbacks. First, limited labeled samples for few-shot action recognition necessitate minimizing the number of tunable parameters to mitigate over-fitting, also leading to inadequate fine-tuning that increases resource consumption and may disrupt the generalized representation of models. Second, the video's extra-temporal dimension challenges few-shot recognition's effective temporal modeling, while pre-trained visual models are usually image models. This paper proposes a novel method called Multimodal Adaptation of CLIP (MA-CLIP) to address these issues. It adapts CLIP for few-shot action recognition by adding lightweight adapters, which can minimize the number of learnable parameters and enable the model to transfer across different tasks quickly. The adapters we design can combine information from video-text multimodal sources for task-oriented spatiotemporal modeling, which is fast, efficient, and has low training costs. Additionally, based on the attention mechanism, we design a text-guided prototype construction module that can fully utilize video-text information to enhance the representation of video prototypes. Our MA-CLIP is plug-and-play, which can be used in any different few-shot action recognition temporal alignment metric. | 翻訳日:2023-08-04 15:15:20 公開日:2023-08-03 |
# MVFlow:モーションベクトルを用いた圧縮映像の深部光学的流れ推定 MVFlow: Deep Optical Flow Estimation of Compressed Videos with Motion Vector Prior ( http://arxiv.org/abs/2308.01568v1 ) ライセンス: Link先を確認 | Shili Zhou, Xuhao Jiang, Weimin Tan, Ruian He and Bo Yan | (参考訳) 近年,光フロー推定問題に取り組むための深層学習に基づく手法が数多く提案され,有望な結果が得られた。
しかし、ほとんどのビデオが圧縮されているとは考え難いため、圧縮されたビデオストリームの事前計算情報を無視する。
圧縮情報の1つである動きベクトルは、ビデオフレームの動作を記録する。
これらは計算コストなしで圧縮コードストリームから直接抽出することができ、光フロー推定の固い先行として機能する。
そこで本研究では,映像の光学的フロー推定の高速化と精度向上のために,運動ベクトルを用いた光フローモデルMVFlowを提案する。
MVFlowには、モーションベクトル変換モジュール(Motion-Vector Converting Module)が含まれており、運動ベクトルを光フローの同じ領域に変換し、フロー推定モジュールによって完全に利用できるようにする。
一方,フレームと動きベクトルを対に含む圧縮ビデオに対して,光フローデータセットを4つ構築した。
実験の結果,既存のモデルと比較してAEPEを1.09削減したり,既存のモデルと同等の精度で52%の時間を節約できるMVFlowの優位性を示した。 In recent years, many deep learning-based methods have been proposed to tackle the problem of optical flow estimation and achieved promising results. However, they hardly consider that most videos are compressed and thus ignore the pre-computed information in compressed video streams. Motion vectors, one of the compression information, record the motion of the video frames. They can be directly extracted from the compression code stream without computational cost and serve as a solid prior for optical flow estimation. Therefore, we propose an optical flow model, MVFlow, which uses motion vectors to improve the speed and accuracy of optical flow estimation for compressed videos. In detail, MVFlow includes a key Motion-Vector Converting Module, which ensures that the motion vectors can be transformed into the same domain of optical flow and then be utilized fully by the flow estimation module. Meanwhile, we construct four optical flow datasets for compressed videos containing frames and motion vectors in pairs. The experimental results demonstrate the superiority of our proposed MVFlow, which can reduce the AEPE by 1.09 compared to existing models or save 52% time to achieve similar accuracy to existing models. | 翻訳日:2023-08-04 15:08:54 公開日:2023-08-03 |
# 共振器内の単一分子の回転運動の高精度制御のためのパルス領域定理 Pulse-area theorem for precision control of the rotational motions of a single molecule in a cavity ( http://arxiv.org/abs/2308.01567v1 ) ライセンス: Link先を確認 | Li-Bao Fan, and Chuan-Cun Shu | (参考訳) 解析設計したパルスが、低線回転状態と単モードキャビティとの強い結合によって形成される単分子偏光子の回転運動を正確に制御する方法について、解析的および数値的研究を行った。
この目的のために、ポラリトンを与えられた初期状態から任意のコヒーレント状態へ駆動するための周波数領域におけるパルスの振幅と位相条件を与えるパルス面積定理を導出する。
パルス領域定理は、一対のパルスを用いて最大配向度を生成するために検討される。
2つの重なり合ったパルスの初期位相を設定するか、パルス間の時間遅延を実用的な用途に制御することで位相条件を満たすことができることを示す。 We perform a combined analytical and numerical investigation to explore how an analytically designed pulse can precisely control the rotational motions of a single-molecular polariton formed by the strong coupling of two low-lying rotational states with a single-mode cavity. To this end, we derive a pulse-area theorem that gives amplitude and phase conditions of the pulses in the frequency domain for driving the polariton from a given initial state to an arbitrary coherent state. The pulse-area theorem is examined for generating the maximum degree of orientation using a pair of pulses. We show that the phase condition can be satisfied by setting the initial phases of the two identically overlapped pulses or by controlling the time delay between pulses for practical applications. | 翻訳日:2023-08-04 15:08:35 公開日:2023-08-03 |
# スレート政策の迅速な最適化 - plackett-luceを超越 Fast Slate Policy Optimization: Going Beyond Plackett-Luce ( http://arxiv.org/abs/2308.01566v1 ) ライセンス: Link先を確認 | Otmane Sakhi, David Rohde, Nicolas Chopin | (参考訳) 大規模機械学習システムのますます重要になっているビルディングブロックは、スレートを返すことに基づいている。
この技術には、検索、情報検索、推薦システムが含まれる。
アクションスペースが大きい場合には、決定システムは特定の構造に制限され、オンラインクエリを迅速に完了する。
本稿では,任意の報酬関数を与えられた大規模意思決定システムの最適化について述べる。
我々は,この学習問題を政策最適化フレームワークにキャストし,決定関数の新たな緩和から生まれた新しい種類の政策を提案する。
これにより、巨大なアクション空間にスケールする単純で効率的な学習アルゴリズムが実現される。
提案手法を一般に採用されているPlanet-Luceポリシークラスと比較し,数百万のアクション空間サイズの問題に対するアプローチの有効性を示す。 An increasingly important building block of large scale machine learning systems is based on returning slates; an ordered lists of items given a query. Applications of this technology include: search, information retrieval and recommender systems. When the action space is large, decision systems are restricted to a particular structure to complete online queries quickly. This paper addresses the optimization of these large scale decision systems given an arbitrary reward function. We cast this learning problem in a policy optimization framework and propose a new class of policies, born from a novel relaxation of decision functions. This results in a simple, yet efficient learning algorithm that scales to massive action spaces. We compare our method to the commonly adopted Plackett-Luce policy class and demonstrate the effectiveness of our approach on problems with action space sizes in the order of millions. | 翻訳日:2023-08-04 15:08:22 公開日:2023-08-03 |
# 無線ネットワークにおける階層的フェデレーション学習--タックルバンド幅スカシティとシステム不均一性 Hierarchical Federated Learning in Wireless Networks: Pruning Tackles Bandwidth Scarcity and System Heterogeneity ( http://arxiv.org/abs/2308.01562v1 ) ライセンス: Link先を確認 | Md Ferdous Pervej, Richeng Jin, Huaiyu Dai | (参考訳) 実用的な無線ネットワークは、エンドユーザが中央サーバと直接通信しない多くの層を持つが、ユーザのデバイスは計算能力とバッテリ能力に制限があり、サービスベースステーション(BS)は固定帯域幅を持つ。
これらの実用的制約とシステムモデルにより、モデルプルーニングを活用し、ヘテロジニアスネットワーク(HetNets)におけるプルーニング可能な階層型学習(PHFL)を提案する。
まず、モデルプルーニングとクライアントと関連するBS間の無線通信の影響を明確に示す収束率の上限を導出する。
そして、厳密な遅延とエネルギー制約の下での収束の制御可能な項を最小化するために、モデルプルーニング比、中央処理ユニット(CPU)周波数および送信電力を協調的に最適化する。
しかし、元の問題は凸ではないため、連続凸近似(SCA)を行い、緩和凸問題のパラメータを共同最適化する。
提案するPHFLアルゴリズムの有効性を,実験精度,壁面時計時間,エネルギー消費量,帯域幅要求量の観点から検証した。 While a practical wireless network has many tiers where end users do not directly communicate with the central server, the users' devices have limited computation and battery powers, and the serving base station (BS) has a fixed bandwidth. Owing to these practical constraints and system models, this paper leverages model pruning and proposes a pruning-enabled hierarchical federated learning (PHFL) in heterogeneous networks (HetNets). We first derive an upper bound of the convergence rate that clearly demonstrates the impact of the model pruning and wireless communications between the clients and the associated BS. Then we jointly optimize the model pruning ratio, central processing unit (CPU) frequency and transmission power of the clients in order to minimize the controllable terms of the convergence bound under strict delay and energy constraints. However, since the original problem is not convex, we perform successive convex approximation (SCA) and jointly optimize the parameters for the relaxed convex problem. Through extensive simulation, we validate the effectiveness of our proposed PHFL algorithm in terms of test accuracy, wall clock time, energy consumption and bandwidth requirement. | 翻訳日:2023-08-04 15:08:10 公開日:2023-08-03 |
# 量子デバイス上のm{\o}ller-plesset摂動理論計算 M{\o}ller-Plesset Perturbation Theory Calculations on Quantum Devices ( http://arxiv.org/abs/2308.01559v1 ) ライセンス: Link先を確認 | Junxu Li, Xingyu Gao, Manas Sajjan, Ji-Hu Su, Zhao-Kai Li, Sabre Kais | (参考訳) 正確な電子構造計算は、量子コンピューティングの最も期待されている応用の1つかもしれない。最近のHartree-Fock近似における量子シミュレーションの展望は、この文脈における実質的な理論とハードウェアの発展の見通しを高め、以下、M{\o}ller-Plesset摂動理論(MPPT)計算のための一般的な量子回路を提案し、これは電子構造問題の解法として、人気があり強力なポストハート法である。
MPPTはレイリー・シュロディンガー摂動理論による電子相関効果を含むことでハートリー・フォック法を改善する。
Hartree-Fockの結果から,提案回路はMPPT法による2次エネルギー補正を推定する。
理論的スキームの実証に加えて,提案回路を用いてヘリウム原子の基底状態の2次エネルギー補正を行い,総誤差率は約2.3%である。
IBM 27量子ビット量子コンピュータの実験は、短期量子デバイスにおける実現可能性と、2次エネルギー補正を正確に推定する能力を示す。
古典的MPPTの模倣として、我々のアプローチは非ヒューリスティックであり、回路内の全てのパラメータが与えられたハートリー・フォックの結果によって直接決定されることを保証する。
さらに,提案回路は,従来のMPPT計算と比較して,潜在的な量子スピードアップを示す。
我々の研究は、量子コンピューティングプラットフォーム上で電子構造問題を解くツールキットを充実させ、より複雑なハートリー・フォック法を量子ハードウェア上で実装する道を開く。 Accurate electronic structure calculations might be one of the most anticipated applications of quantum computing.The recent landscape of quantum simulations within the Hartree-Fock approximation raises the prospect of substantial theory and hardware developments in this context.Here we propose a general quantum circuit for M{\o}ller-Plesset perturbation theory (MPPT) calculations, which is a popular and powerful post-Hartree-Fock method widly harnessed in solving electronic structure problems. MPPT improves on the Hartree-Fock method by including electron correlation effects wherewith Rayleigh-Schrodinger perturbation theory. Given the Hartree-Fock results, the proposed circuit is designed to estimate the second order energy corrections with MPPT methods. In addition to demonstration of the theoretical scheme, the proposed circuit is further employed to calculate the second order energy correction for the ground state of Helium atom, and the total error rate is around 2.3%. Experiments on IBM 27-qubit quantum computers express the feasibility on near term quantum devices, and the capability to estimate the second order energy correction accurately. In imitation of the classical MPPT, our approach is non-heuristic, guaranteeing that all parameters in the circuit are directly determined by the given Hartree-Fock results. Moreover, the proposed circuit shows a potential quantum speedup comparing to the traditional MPPT calculations. Our work paves the way forward the implementation of more intricate post-Hartree-Fock methods on quantum hardware, enriching the toolkit solving electronic structure problems on quantum computing platforms. | 翻訳日:2023-08-04 15:07:48 公開日:2023-08-03 |
# 運動計画拡散:拡散モデルを用いたロボット運動の学習と計画 Motion Planning Diffusion: Learning and Planning of Robot Motions with Diffusion Models ( http://arxiv.org/abs/2308.01557v1 ) ライセンス: Link先を確認 | Joao Carvalho, An T. Le, Mark Baierl, Dorothea Koert, Jan Peters | (参考訳) 軌道分布の事前学習は、ロボットの動き計画最適化の加速に役立つ。
従来成功した計画を考えると、新しい計画問題の事前として学習軌道生成モデルが非常に望ましい。
先行研究は、運動計画問題をブートストラップする前にこれを利用するいくつかの方法を提案する。
初期化の事前をサンプリングするか、軌道最適化のための最大後定式化において事前分布を使用するかのいずれかである。
本研究では,学習拡散モデルを先行として提案する。
次に, 拡散モデルの逆発振過程を活用し, タスク目標を条件とした後方軌道分布から直接サンプル化を行うことができる。
さらに、拡散は高次元設定におけるデータ多様性を効果的に符号化することが最近示されており、これは特に大きな軌跡データセットに適している。
提案手法の有効性を実証するために,提案手法である運動計画拡散法を,模擬平面ロボットと7ドアロボットアームマニピュレータ環境におけるいくつかのベースラインと比較した。
提案手法の一般化性能を評価するために,これまで見つからなかった障害のある環境でテストを行う。
実験により, 拡散モデルはロボットの運動の高次元軌道分布を符号化するために強い先行性を示す。 Learning priors on trajectory distributions can help accelerate robot motion planning optimization. Given previously successful plans, learning trajectory generative models as priors for a new planning problem is highly desirable. Prior works propose several ways on utilizing this prior to bootstrapping the motion planning problem. Either sampling the prior for initializations or using the prior distribution in a maximum-a-posterior formulation for trajectory optimization. In this work, we propose learning diffusion models as priors. We then can sample directly from the posterior trajectory distribution conditioned on task goals, by leveraging the inverse denoising process of diffusion models. Furthermore, diffusion has been recently shown to effectively encode data multimodality in high-dimensional settings, which is particularly well-suited for large trajectory dataset. To demonstrate our method efficacy, we compare our proposed method - Motion Planning Diffusion - against several baselines in simulated planar robot and 7-dof robot arm manipulator environments. To assess the generalization capabilities of our method, we test it in environments with previously unseen obstacles. Our experiments show that diffusion models are strong priors to encode high-dimensional trajectory distributions of robot motions. | 翻訳日:2023-08-04 15:07:20 公開日:2023-08-03 |
# ガウスベイジアンネットワークに基づく鉄道交通のグローバル交通容量リスク予測手法 A Global Transport Capacity Risk Prediction Method for Rail Transit Based on Gaussian Bayesian Network ( http://arxiv.org/abs/2308.01556v1 ) ライセンス: Link先を確認 | Zhang Zhengyang and Dong Wei and Liu jun and Sun Xinya and Ji Yindong | (参考訳) 本稿では,鉄道交通網の搬送容量と旅客流量需要のミスマッチによる輸送容量リスクの予測問題に着目し,リニアガウス・ベイズネットワークに基づく鉄道交通網輸送容量リスクの説明可能な予測手法を提案する。
この方法は、鉄道交通網、列車流れ、旅客流を含む3層構造を有する鉄道交通システムのシミュレーションモデルに基づいて予測モデルのトレーニングデータを得る。
鉄道交通網のトポロジに基づくベイジアンネットワーク構造構築手法を提案し, ベイジアンネットワークのパラメータ学習を実現するために, MLE (Maximum Likelihood Estimation) 手法を用いた。
最後に,提案手法の有効性をシミュレーション例で検証した。 Aiming at the prediction problem of transport capacity risk caused by the mismatch between the carrying capacity of rail transit network and passenger flow demand, this paper proposes an explainable prediction method of rail transit network transport capacity risk based on linear Gaussian Bayesian network. This method obtains the training data of the prediction model based on the simulation model of the rail transit system with a three-layer structure including rail transit network, train flow and passenger flow. A Bayesian network structure construction method based on the topology of the rail transit network is proposed, and the MLE (Maximum Likelihood Estimation) method is used to realize the parameter learning of the Bayesian network. Finally, the effectiveness of the proposed method is verified by simulation examples. | 翻訳日:2023-08-04 15:07:00 公開日:2023-08-03 |
# InterAct: 協調エージェントとしてのChatGPTの可能性を探る InterAct: Exploring the Potentials of ChatGPT as a Cooperative Agent ( http://arxiv.org/abs/2308.01552v1 ) ライセンス: Link先を確認 | Po-Lin Chen, Cheng-Shang Chang | (参考訳) 本研究は,OpenAIのChatGPTを具体化エージェントシステムに統合し,対話型意思決定ベンチマークへの影響を評価した。
個性に応じて役割を仮定する人々の概念と平行して、InterActを紹介します。
このアプローチでは、ChatGPTにさまざまなプロンプトを与え、チェッカーやソータのような多数のロールを割り当て、元の言語モデルと統合します。
本研究は,家庭環境をシミュレートした6つの異なるタスクからなるalfworldの98%の成功率を示し,熟練したプロンプトエンジニアリングの重要性を強調した。
その結果,ChatGPTは現実の環境での複雑なタスクを効果的に理解・実行し,タスク計画のさらなる進歩への道を開いた。 This research paper delves into the integration of OpenAI's ChatGPT into embodied agent systems, evaluating its influence on interactive decision-making benchmark. Drawing a parallel to the concept of people assuming roles according to their unique strengths, we introduce InterAct. In this approach, we feed ChatGPT with varied prompts, assigning it a numerous roles like a checker and a sorter, then integrating them with the original language model. Our research shows a remarkable success rate of 98% in AlfWorld, which consists of 6 different tasks in a simulated household environment, emphasizing the significance of proficient prompt engineering. The results highlight ChatGPT's competence in comprehending and performing intricate tasks effectively in real-world settings, thus paving the way for further advancements in task planning. | 翻訳日:2023-08-04 15:06:49 公開日:2023-08-03 |
# オフライン事前学習強化学習に基づく回避度ナビゲーション Avoidance Navigation Based on Offline Pre-Training Reinforcement Learning ( http://arxiv.org/abs/2308.01551v1 ) ライセンス: Link先を確認 | Yang Wenkai Ji Ruihang Zhang Yuxiang Lei Hao and Zhao Zijie | (参考訳) 本稿では,センサデータのマップを未知環境における変数の制御とナビゲートを行う移動ロボットに対して,マップのない回避ナビゲーションのための事前学習深度学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライントレーニング戦略を提案するとともに,他のナビゲーショントレーニング作業において重要なオフライントレーニングのエキスパートエクスペリエンスを含む,汎用的なデータセットも収集する。
事前訓練と優先順位付けのエキスパートエクスペリエンスは,80\%のトレーニング時間を短縮するために提案され,drlの2倍の報酬向上が確認されている。
実際の物理モデリングと動的方程式を用いた高度なシミュレーションガゼボは、sim-to-real間のギャップを減らす。
モデルを回廊環境に訓練し,同じ効果を得られる異なる環境でモデルを評価する。
従来のメソッドナビゲーションと比較して、トレーニングされたモデルがさまざまなシナリオに直接適用可能であることを確認することができ、衝突を回避できる。
DRLモデルは異なる環境下で普遍的な汎用能力を持つことを示した。 This paper presents a Pre-Training Deep Reinforcement Learning(DRL) for avoidance navigation without map for mobile robots which map raw sensor data to control variable and navigate in an unknown environment. The efficient offline training strategy is proposed to speed up the inefficient random explorations in early stage and we also collect a universal dataset including expert experience for offline training, which is of some significance for other navigation training work. The pre-training and prioritized expert experience are proposed to reduce 80\% training time and has been verified to improve the 2 times reward of DRL. The advanced simulation gazebo with real physical modelling and dynamic equations reduce the gap between sim-to-real. We train our model a corridor environment, and evaluate the model in different environment getting the same effect. Compared to traditional method navigation, we can confirm the trained model can be directly applied into different scenarios and have the ability to no collision navigate. It was demonstrated that our DRL model have universal general capacity in different environment. | 翻訳日:2023-08-04 15:06:34 公開日:2023-08-03 |
# Gottesman-Kitaev-Preskill繰り返し符号による雑音の補正 Correcting biased noise using Gottesman-Kitaev-Preskill repetition code with noisy ancilla ( http://arxiv.org/abs/2308.01549v1 ) ライセンス: Link先を確認 | Zhifei Li and Daiqin Su | (参考訳) ボソニック符号と量子ビット符号の結合は、フォールトトレラント量子計算を実現する有望な方法の1つである。
Gottesman-Kitaev-Preskill(GKP)符号は位相空間における小さな変位誤差を補正するために提案されている。
位相空間のノイズが偏った場合、二乗格子GKP符号はXZZX曲面符号または論理誤差を抑制するために高い耐故障閾値を約束する繰り返し符号と結合することができる。
そこで本研究では,GKP繰り返し符号と物理アシラリーGKP量子ビットの重み付き雑音補正性能について検討する。
符号サイズを増大させると論理的なパウリ誤差率が減少するような、Acillary GKP qubit に対するノイズ分散の臨界値が存在することが判明した。
さらに、繰り返しコードと結合する前に、1ラウンドのGKPエラー補正を行う必要がある。
本研究は,GKP符号を低レベル量子ビット符号と結合することで,誤り訂正の実践的実装の道を開くものである。 Concatenation of a bosonic code with a qubit code is one of the promising ways to achieve fault-tolerant quantum computation. As one of the most important bosonic codes, Gottesman-Kitaev-Preskill (GKP) code is proposed to correct small displacement error in phase space. If the noise in phase space is biased, square-lattice GKP code can be concatenated with XZZX surface code or repetition code that promises a high fault-tolerant threshold to suppress the logical error. In this work, we study the performance of GKP repetition codes with physical ancillary GKP qubits in correcting biased noise. We find that there exists a critical value of noise variance for the ancillary GKP qubit such that the logical Pauli error rate decreases when increasing the code size. Furthermore, one round of GKP error correction has to be performed before concatenating with repetition code. Our study paves the way for practical implementation of error correction by concatenating GKP code with low-level qubit codes. | 翻訳日:2023-08-04 15:06:18 公開日:2023-08-03 |
# DOLCE: 言語工学と認知工学のための記述オントロジー DOLCE: A Descriptive Ontology for Linguistic and Cognitive Engineering ( http://arxiv.org/abs/2308.01597v1 ) ライセンス: Link先を確認 | Stefano Borgo, Roberta Ferrario, Aldo Gangemi, Nicola Guarino, Claudio Masolo, Daniele Porello, Emilio M. Sanfilippo, Laure Vieu | (参考訳) 公理化される最初のトップレベル(基礎)オントロジーであるDOLCEは、20年間安定しており、今日では様々な領域で広く使われている。
DOLCEは認知的・言語的考察にインスパイアされ、社会技術システム、製造業、金融取引、文化遺産など多様な分野の日常生活において人間が悪用しているような、現実の常識的な視点をモデル化することを目的としている。
DOLCEは、その基礎となる存在論的選択を明確にリストし、哲学的原理に依存し、リッチに形式化され、OntoCleanのような確立された存在論的方法論に従って構築されている。
これらの特徴のため、既存のトップレベルのオントロジーの多くにインスピレーションを与え、標準やパブリックドメインリソース(例えばCIDOC CRM、DBpedia、WordNet)の開発や改善に使われてきた。
基礎オントロジーであるため、DOLCEはドメイン知識に直接関係しない。
その目的は、現実のコヒーレントな視点を与え、ドメイン知識を統合し、ドメイン間の仲介を行うために必要な一般的なカテゴリと関係を提供することである。
この20年間、DOLCEは適用オントロジーが安定しており、参照オントロジーとドメインオントロジーの相互運用性が現実であることを示してきた。
本稿では、オントロジーを簡潔に紹介し、いくつかのモデリングケースでの使い方を示す。 DOLCE, the first top-level (foundational) ontology to be axiomatized, has remained stable for twenty years and today is broadly used in a variety of domains. DOLCE is inspired by cognitive and linguistic considerations and aims to model a commonsense view of reality, like the one human beings exploit in everyday life in areas as diverse as socio-technical systems, manufacturing, financial transactions and cultural heritage. DOLCE clearly lists the ontological choices it is based upon, relies on philosophical principles, is richly formalized, and is built according to well-established ontological methodologies, e.g. OntoClean. Because of these features, it has inspired most of the existing top-level ontologies and has been used to develop or improve standards and public domain resources (e.g. CIDOC CRM, DBpedia and WordNet). Being a foundational ontology, DOLCE is not directly concerned with domain knowledge. Its purpose is to provide the general categories and relations needed to give a coherent view of reality, to integrate domain knowledge, and to mediate across domains. In these 20 years DOLCE has shown that applied ontologies can be stable and that interoperability across reference and domain ontologies is a reality. This paper briefly introduces the ontology and shows how to use it on a few modeling cases. | 翻訳日:2023-08-04 14:57:50 公開日:2023-08-03 |
# 拡散モデルを用いた基準自由等方性3次元EM再構成 Reference-Free Isotropic 3D EM Reconstruction using Diffusion Models ( http://arxiv.org/abs/2308.01594v1 ) ライセンス: Link先を確認 | Kyungryun Lee and Won-Ki Jeong | (参考訳) 電子顕微鏡(em)画像は,画像モダリティ特性に起因する異方性軸分解能を示し,解析や下流課題の課題を提示する。本稿では,参照データや劣化過程に関する事前知識を必要とする限界を克服する拡散モデルに基づくフレームワークを提案する。
提案手法は2次元拡散モデルを用いて連続的に3次元ボリュームを再構成し,高精度なサンプルデータに適している。
2つの公開データセットで実施された大規模な実験は、教師付き学習法と比較して、生成前の堅牢性と優位性を示す。
また,本手法は,トレーニングデータなしで1つの異方性ボリュームを復元できる自己教師あり再構成の実現可能性を示す。 Electron microscopy (EM) images exhibit anisotropic axial resolution due to the characteristics inherent to the imaging modality, presenting challenges in analysis and downstream tasks.In this paper, we propose a diffusion-model-based framework that overcomes the limitations of requiring reference data or prior knowledge about the degradation process. Our approach utilizes 2D diffusion models to consistently reconstruct 3D volumes and is well-suited for highly downsampled data. Extensive experiments conducted on two public datasets demonstrate the robustness and superiority of leveraging the generative prior compared to supervised learning methods. Additionally, we demonstrate our method's feasibility for self-supervised reconstruction, which can restore a single anisotropic volume without any training data. | 翻訳日:2023-08-04 14:57:25 公開日:2023-08-03 |
# Holy Grail 2.0: 自然言語から制約モデルへ Holy Grail 2.0: From Natural Language to Constraint Models ( http://arxiv.org/abs/2308.01589v1 ) ライセンス: Link先を確認 | Dimos Tsouros, H\'el\`ene Verhaeghe, Serdar Kad{\i}o\u{g}lu and Tias Guns | (参考訳) 20年前、E. Freuderは「制約プログラミングは、コンピュータ科学がまだプログラミングの聖杯に最も近いアプローチの1つであり、ユーザーは問題を述べ、コンピュータはそれを解決している」と強調した。
今日では、cpユーザは優れたモデリングツール(minizincやcpmpyなど)を利用可能で、問題を定式化し、残りの処理をソルバに任せて、目標に近づくことができます。
しかし、それでもCPユーザは形式を知り、それを尊重する必要がある。
もう一つの重要な課題は、組合せ問題を効果的にモデル化するために必要な専門知識である。
これらすべてがcpの普及を制限している。
本稿では,事前学習した大規模言語モデルを用いてテキスト問題記述からモデルを抽出する手法を提案する。
より具体的には、NL4OPT(Natural Language Processing for Optimization)チャレンジからインスピレーションを得て、GPTモデルに対する分解ベースのプロンプトアプローチによる早期結果を示す。 Twenty-seven years ago, E. Freuder highlighted that "Constraint programming represents one of the closest approaches computer science has yet made to the Holy Grail of programming: the user states the problem, the computer solves it". Nowadays, CP users have great modeling tools available (like Minizinc and CPMpy), allowing them to formulate the problem and then let a solver do the rest of the job, getting closer to the stated goal. However, this still requires the CP user to know the formalism and respect it. Another significant challenge lies in the expertise required to effectively model combinatorial problems. All this limits the wider adoption of CP. In this position paper, we investigate a possible approach to leverage pre-trained Large Language Models to extract models from textual problem descriptions. More specifically, we take inspiration from the Natural Language Processing for Optimization (NL4OPT) challenge and present early results with a decomposition-based prompting approach to GPT Models. | 翻訳日:2023-08-04 14:57:12 公開日:2023-08-03 |
# 一般化可能なソースフリードメイン適応のための一貫性規則化 Consistency Regularization for Generalizable Source-free Domain Adaptation ( http://arxiv.org/abs/2308.01587v1 ) ライセンス: Link先を確認 | Longxiang Tang, Kai Li, Chunming He, Yulun Zhang, Xiu Li | (参考訳) source-free domain adaptation (sfda) は、ソースデータセットにアクセスせずに、十分に訓練されたソースモデルをラベルなしのターゲットドメインに適応させることを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
この監視は問題をオーバーフィットさせ、モデルの一般化能力を制約する。
本稿では、より一般化可能なSFDA法を開発するための一貫性規則化フレームワークを提案し、ターゲットトレーニングとテストデータセットの両方におけるモデル性能を同時に向上する。
本手法は,弱い強調画像から生成された軟質な擬似ラベルを利用して,強い強調画像の監視を行い,モデルトレーニングプロセスの容易化と適応モデルの一般化能力の向上を図る。
より有用な監視手法として,サンプルベースの擬似ラベル選択戦略を提案し,ドメインシフトの厳しいサンプルを考慮に入れた。
さらに,グローバルクラス分布と特徴クラスタ情報を活用したグローバル指向キャリブレーション手法を導入し,適応プロセスをさらに改善した。
広範囲な実験により,sfdaベンチマークにおいて最先端のパフォーマンスを達成し,未発見のテストデータセットに堅牢性を示す。 Source-free domain adaptation (SFDA) aims to adapt a well-trained source model to an unlabelled target domain without accessing the source dataset, making it applicable in a variety of real-world scenarios. Existing SFDA methods ONLY assess their adapted models on the target training set, neglecting the data from unseen but identically distributed testing sets. This oversight leads to overfitting issues and constrains the model's generalization ability. In this paper, we propose a consistency regularization framework to develop a more generalizable SFDA method, which simultaneously boosts model performance on both target training and testing datasets. Our method leverages soft pseudo-labels generated from weakly augmented images to supervise strongly augmented images, facilitating the model training process and enhancing the generalization ability of the adapted model. To leverage more potentially useful supervision, we present a sampling-based pseudo-label selection strategy, taking samples with severer domain shift into consideration. Moreover, global-oriented calibration methods are introduced to exploit global class distribution and feature cluster information, further improving the adaptation process. Extensive experiments demonstrate our method achieves state-of-the-art performance on several SFDA benchmarks, and exhibits robustness on unseen testing datasets. | 翻訳日:2023-08-04 14:56:55 公開日:2023-08-03 |
# 候補者・詐欺師の銀行口座情報分析 Analyzing Bank Account Information of Nominees and Scammers ( http://arxiv.org/abs/2308.01586v1 ) ライセンス: Link先を確認 | Patsita Sirawongphatsara, Phisit Pornpongtechavanich, Pakkasit Sriamorntrakul, Therdpong Daengsi | (参考訳) 現在、人々はeコマース(オンラインショッピングなど)やオンラインバンキングなど、様々な活動にインターネットを強く依存している。
オンライン取引は実践的だが、詐欺師には不当な個人を搾取する新しい手段も提供している。
この研究と調査は、学者や警察官が設計、開発したウェブサイトであるchaladohnのデータを利用した。
2022年2月から2023年1月までのデータ。
分析と調査の結果、合計損失は3億1千万以上のタイのbahtとなり、それぞれが1000万未満の損失を被ったことが明らかとなった。
さらに、調査により、市場のトップ2の銀行KB**とBB*が詐欺に関与していることが判明した。
これらの銀行は
1)詐欺アカウント総数の28.2%と16.0%。
2)全取引の25.6%及び20.5%
3) 被害者の合計損失の35.7%と14.9%はデータベースに記録されている。
この問題の悪化が予想されることから、規制当局や関係機関に調査の成果を知らせることが不可欠である。
これにより、急速に増加するオンライン詐欺事件に対処する効率的なソリューションの開発、提案、実装が可能になる。 Nowadays, people heavily rely on the Internet for various activities, such as e-commerce (e.g., online shopping) and online banking. While online transactions are practical, they also provide scammers with a new way to exploit unsuspecting individuals. This study and investigation utilized data from ChaladOhn, a website designed and developed by academics and policemen. The data covered the period from February 2022 to January 2023. After analyzing and investigating, the results reveal that the total losses amounted to over 3,100 million Thai Baht, with each case incurring losses of less than 10 million. Furthermore, the investigation discovered the involvement of the top two banks in the market, KB*** and BB*, in the fraud. These banks accounted for: 1) 28.2% and 16.0% of the total number of scam accounts, 2) 25.6% and 20.5% of the total transactions, and 3) 35.7% and 14.9% of the total losses from the victims as recorded in the database, respectively. Considering the anticipated deterioration of this issue, it is crucial to inform regulators and relevant organizations about the investigation's findings. This will enable the development, suggestion, and implementation of an efficient solution to address the rapidly increasing number of online scam cases. | 翻訳日:2023-08-04 14:56:34 公開日:2023-08-03 |
# 確率最適化のための量子スピードアップ Quantum speedups for stochastic optimization ( http://arxiv.org/abs/2308.01582v1 ) ライセンス: Link先を確認 | Aaron Sidford and Chenyi Zhang | (参考訳) 確率勾配オラクルへの量子アクセスを与えられた連続関数を最小化する問題を考える。
リプシッツ凸関数を最小化する特別な場合の2つの新しい方法を提案する。
各手法は、古典的に証明不可能な次元対精度トレードオフを求め、低次元設定において1つの手法が漸近的に最適であることを示す。
さらに, 古典的に実現不可能な速度で, 滑らかな非凸関数の臨界点を計算するための量子アルゴリズムを提供する。
これらの結果を得るために、cornelissen et al. 2022 の量子多変量平均推定結果を構築し、独立興味の一般的な量子分散低減技術を提供する。 We consider the problem of minimizing a continuous function given quantum access to a stochastic gradient oracle. We provide two new methods for the special case of minimizing a Lipschitz convex function. Each method obtains a dimension versus accuracy trade-off which is provably unachievable classically and we prove that one method is asymptotically optimal in low-dimensional settings. Additionally, we provide quantum algorithms for computing a critical point of a smooth non-convex function at rates not known to be achievable classically. To obtain these results we build upon the quantum multivariate mean estimation result of Cornelissen et al. 2022 and provide a general quantum-variance reduction technique of independent interest. | 翻訳日:2023-08-04 14:56:17 公開日:2023-08-03 |
# 量子符号からのnaranin cftとその$\mathbb{z}_2$ gauging Narain CFTs from quantum codes and their $\mathbb{Z}_2$ gauging ( http://arxiv.org/abs/2308.01579v1 ) ライセンス: Link先を確認 | Kohki Kawabata, Tatsuma Nishioka and Takuya Okuda | (参考訳) ナライン共形場理論 (cfts) における qudit 安定化符号を用いた $\mathbb{z}_2$ 対称性の観測について検討した。
オービフォールドとフェルミオン化の両方を考えると、$\mathbb{z}_2$ ゲージ手順と$\mathbb{z}_2$ 対称性を特徴づけるベクトルによる運動量格子の修正との接続を確立する。
また、対称位相場理論として作用するアーベル・チャーン・サイモンズ理論を通じて、{\mathbb{z}_2$ gaugings の三次元的解釈も提供する。 We investigate the gauging of a $\mathbb{Z}_2$ symmetry in Narain conformal field theories (CFTs) constructed from qudit stabilizer codes. Considering both orbifold and fermionization, we establish a connection between $\mathbb{Z}_2$ gauging procedures and modifications of the momentum lattice by vectors characterizing the $\mathbb{Z}_2$ symmetry. We also provide three-dimensional interpretations of $\mathbb{Z}_2$ gaugings through abelian Chern-Simons theories, which act as symmetry topological field theories. | 翻訳日:2023-08-04 14:56:06 公開日:2023-08-03 |
# 時系列のための教師なし表現学習 Unsupervised Representation Learning for Time Series: A Review ( http://arxiv.org/abs/2308.01578v1 ) ライセンス: Link先を確認 | Qianwen Meng, Hangwei Qian, Yong Liu, Yonghui Xu, Zhiqi Shen, Lizhen Cui | (参考訳) 教師なし表現学習アプローチは、すべてのサンプルに注釈をつけることなく、ラベルのないデータから識別的特徴表現を学習することを目的としている。
教師なし表現学習は、その複雑な特徴と他のデータモダリティと比較して視覚的手がかりの欠如によって引き起こされるユニークなアノテーションボトルネックのため、時系列データにとって極めて重要である。
近年,様々な領域において,教師なし表現学習技術が急速に進歩している。
しかし,時系列における教師なし表現学習手法の体系的分析が欠如している。
このギャップを埋めるために,現在急速に進化している非教師なし表現学習手法の総合的な文献レビューを行う。
さらに, 高速な実装と各種モデルの統一評価を容易にするため, ULTS (Unsupervised Learning for Time Series) と呼ばれる統一されたライブラリも開発している。
ultsでは,9種類の実世界のデータセット上で,最先端のアプローチ,特に急速に進化するコントラスト学習手法を実証的に評価する。
さらに,この分野における今後の研究を促進するために,時系列の教師なし表現学習に関するオープン研究課題と実践的考察についても論じる。 Unsupervised representation learning approaches aim to learn discriminative feature representations from unlabeled data, without the requirement of annotating every sample. Enabling unsupervised representation learning is extremely crucial for time series data, due to its unique annotation bottleneck caused by its complex characteristics and lack of visual cues compared with other data modalities. In recent years, unsupervised representation learning techniques have advanced rapidly in various domains. However, there is a lack of systematic analysis of unsupervised representation learning approaches for time series. To fill the gap, we conduct a comprehensive literature review of existing rapidly evolving unsupervised representation learning approaches for time series. Moreover, we also develop a unified and standardized library, named ULTS (i.e., Unsupervised Learning for Time Series), to facilitate fast implementations and unified evaluations on various models. With ULTS, we empirically evaluate state-of-the-art approaches, especially the rapidly evolving contrastive learning methods, on 9 diverse real-world datasets. We further discuss practical considerations as well as open research challenges on unsupervised representation learning for time series to facilitate future research in this field. | 翻訳日:2023-08-04 14:55:53 公開日:2023-08-03 |
# 高忠実度マルチスピーカTSのためのデュアルディミネータを用いたデノイング拡散モデルの逆トレーニング Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS ( http://arxiv.org/abs/2308.01573v1 ) ライセンス: Link先を確認 | Myeongjin Ko and Yong-Hoon Choi | (参考訳) 拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
しかし、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
この制限に対処するため、ddim(denoising diffusion implicit models)のような最近のモデルでは、確率分布を直接モデル化せずにサンプルを生成することにフォーカスしているが、gan(denoising diffusion generative adversarial networks)のようなモデルは拡散過程とganを組み合わせる。
音声合成の分野では、GANの構造を利用したDiffGAN-TTSと呼ばれる拡散音声合成モデルを導入し、音声品質と生成速度の両方において優れた性能を示す。
本稿では,差分ttsの性能をさらに高めるために,逆過程の分布を学習する拡散弁別器と,生成されたデータの分布を学習する分光弁別器の2つの弁別器を用いた音声合成モデルを提案する。
構造類似度指数測定(SSIM)、メルケプストラー歪み(MCD)、F0ルート平均二乗誤差(F0 RMSE)、短時間客観的インテリジェンス(STOI)、音声品質の知覚的評価(PESQ)、および平均世論スコア(MOS)のような主観的指標を用いて提案モデルの性能を評価する。
評価結果から,提案モデルはFastSpeech2やDiffGAN-TTSといった最新の最先端モデルよりも高い性能を示した。
実装とオーディオサンプルはGitHubにあります。 The diffusion model is capable of generating high-quality data through a probabilistic approach. However, it suffers from the drawback of slow generation speed due to the requirement of a large number of time steps. To address this limitation, recent models such as denoising diffusion implicit models (DDIM) focus on generating samples without directly modeling the probability distribution, while models like denoising diffusion generative adversarial networks (GAN) combine diffusion processes with GANs. In the field of speech synthesis, a recent diffusion speech synthesis model called DiffGAN-TTS, utilizing the structure of GANs, has been introduced and demonstrates superior performance in both speech quality and generation speed. In this paper, to further enhance the performance of DiffGAN-TTS, we propose a speech synthesis model with two discriminators: a diffusion discriminator for learning the distribution of the reverse process and a spectrogram discriminator for learning the distribution of the generated data. Objective metrics such as structural similarity index measure (SSIM), mel-cepstral distortion (MCD), F0 root mean squared error (F0 RMSE), short-time objective intelligibility (STOI), perceptual evaluation of speech quality (PESQ), as well as subjective metrics like mean opinion score (MOS), are used to evaluate the performance of the proposed model. The evaluation results show that the proposed model outperforms recent state-of-the-art models such as FastSpeech2 and DiffGAN-TTS in various metrics. Our implementation and audio samples are located on GitHub. | 翻訳日:2023-08-04 14:55:34 公開日:2023-08-03 |
# グローバー適応探索の高速化:高次定式化によるビット数とゲート数削減戦略 Accelerating Grover Adaptive Search: Qubit and Gate Count Reduction Strategies with Higher-Order Formulations ( http://arxiv.org/abs/2308.01572v1 ) ライセンス: Link先を確認 | Yuki Sano, Kosuke Mitarai, Naoki Yamamoto, and Naoki Ishikawa | (参考訳) グローバー適応探索 (grover adaptive search, gas) は、二進最適化問題を解くために設計された量子排他探索アルゴリズムである。
本稿では,ガスに必要なキュービット数とゲート数を同時に削減できる高次二元数定式法を提案する。
具体的には、多項式分解によるゲート数を削減する戦略と、目的関数の順序を損なう戦略と、回路ランタイムと実装コストの削減という2つの新しい戦略を検討する。
提案する高次定式化は探索空間の大きさと量子ゲート数を減少させることでガスの収束性能を向上させることを実証する。
我々の戦略は、ワンホットエンコーディングを用いた一般組合せ最適化問題にも有益である。 Grover adaptive search (GAS) is a quantum exhaustive search algorithm designed to solve binary optimization problems. In this paper, we propose higher-order binary formulations that can simultaneously reduce the numbers of qubits and gates required for GAS. Specifically, we consider two novel strategies: one that reduces the number of gates through polynomial factorization, and the other that halves the order of the objective function, subsequently decreasing circuit runtime and implementation cost. Our analysis demonstrates that the proposed higher-order formulations improve the convergence performance of GAS by both reducing the search space size and the number of quantum gates. Our strategies are also beneficial for general combinatorial optimization problems using one-hot encoding. | 翻訳日:2023-08-04 14:55:05 公開日:2023-08-03 |
# 深層学習に基づく時空間行動検出に関する調査 A Survey on Deep Learning-based Spatio-temporal Action Detection ( http://arxiv.org/abs/2308.01618v1 ) ライセンス: Link先を確認 | Peng Wang, Fanwei Zeng, Yuntao Qian | (参考訳) Spatio-temporal Action Detection (STAD) は、ビデオに存在するアクションを分類し、空間と時間でローカライズすることを目的としている。
自動運転、視覚監視、エンターテイメントなど、爆発的に出現する現実世界の応用のために、コンピュータービジョンにおける特に活発な研究領域となっている。
近年、STADのための堅牢で効果的なフレームワークの構築に多くの努力が注がれている。
本稿では,STADの最先端の深層学習手法について概観する。
まず,これらの手法を整理するために分類法が開発されている。
次に、フレームレベルまたはクリップレベルの検出結果を結合してアクションチューブを形成するためのリンクアルゴリズムをレビューする。
次に、一般的に使用されるベンチマークデータセットと評価メトリクスを導入し、最先端モデルの性能を比較する。
最後に,本論文をまとめ,STADの潜在的な研究方向性について述べる。 Spatio-temporal action detection (STAD) aims to classify the actions present in a video and localize them in space and time. It has become a particularly active area of research in computer vision because of its explosively emerging real-world applications, such as autonomous driving, visual surveillance, entertainment, etc. Many efforts have been devoted in recent years to building a robust and effective framework for STAD. This paper provides a comprehensive review of the state-of-the-art deep learning-based methods for STAD. Firstly, a taxonomy is developed to organize these methods. Next, the linking algorithms, which aim to associate the frame- or clip-level detection results together to form action tubes, are reviewed. Then, the commonly used benchmark datasets and evaluation metrics are introduced, and the performance of state-of-the-art models is compared. At last, this paper is concluded, and a set of potential research directions of STAD are discussed. | 翻訳日:2023-08-04 14:49:12 公開日:2023-08-03 |
# 実測値を用いたDNNの系統的弱さ評価 Assessing Systematic Weaknesses of DNNs using Counterfactuals ( http://arxiv.org/abs/2308.01614v1 ) ライセンス: Link先を確認 | Sujan Sai Gannamaneni, Michael Mock, Maram Akila | (参考訳) 安全クリティカルなアプリケーションへのDNNの進化に伴い、そのようなモデルのテストアプローチが注目されている。
現在の方向は、平均的なパフォーマンス値に基づく安全仮定を危険にさらす体系的な弱点の探索と同定である。
このような弱点は、DNNが期待する平均よりも体系的に劣る入力空間内の部分集合や領域の形をとることができる。
しかし、そのような低パフォーマンスの理由をサブセットを記述する特定のセマンティックな特徴に当てはめるのは簡単ではない。
例えば、データ w.r.t. 内の不均一性は他の(考慮されていない)属性は結果を歪ませる。
しかしながら、すべての(利用可能な)属性とそれらの相互作用を考慮すると、しばしば計算コストが高い。
反事実的説明に触発されて,既存の部分集合の意味的帰属を検証し,その属性が性能低下の原因となる可能性の検証を行う,効率的で計算コストの安いアルゴリズムを提案する。
このアプローチを、高度に注釈付きシミュレーションデータを用いて、自律運転領域の例で示し、セマンティックセグメンテーションモデルを示す。
(i)異なる歩行者資産間の性能差は存在するが
(二)この性能の低下の理由として、資産タイプ自体がある場合のみである。 With the advancement of DNNs into safety-critical applications, testing approaches for such models have gained more attention. A current direction is the search for and identification of systematic weaknesses that put safety assumptions based on average performance values at risk. Such weaknesses can take on the form of (semantically coherent) subsets or areas in the input space where a DNN performs systematically worse than its expected average. However, it is non-trivial to attribute the reason for such observed low performances to the specific semantic features that describe the subset. For instance, inhomogeneities within the data w.r.t. other (non-considered) attributes might distort results. However, taking into account all (available) attributes and their interaction is often computationally highly expensive. Inspired by counterfactual explanations, we propose an effective and computationally cheap algorithm to validate the semantic attribution of existing subsets, i.e., to check whether the identified attribute is likely to have caused the degraded performance. We demonstrate this approach on an example from the autonomous driving domain using highly annotated simulated data, where we show for a semantic segmentation model that (i) performance differences among the different pedestrian assets exist, but (ii) only in some cases is the asset type itself the reason for this reduction in the performance. | 翻訳日:2023-08-04 14:48:58 公開日:2023-08-03 |
# AR屋内シナリオのためのリアルタイム光推定とニューラルソフトシャドウ Real-time Light Estimation and Neural Soft Shadows for AR Indoor Scenarios ( http://arxiv.org/abs/2308.01613v1 ) ライセンス: Link先を確認 | Alexander Sommer, Ulrich Schwanecke, Elmar Sch\"omer | (参考訳) 室内シーンの映像に仮想物体をリアルに埋め込み、リアルタイムARアプリケーションに焦点を当てたパイプラインを提案する。
我々のパイプラインは、光推定器と神経ソフトシャドウテクスチャジェネレータの2つの主要コンポーネントから構成されている。
我々の光推定は深層ニューラルネットワークに基づいて、影テクスチャの主光方向、光色、周囲色、不透明度パラメータを決定する。
我々のニューラルソフトシャドウ法は、小さなMLPの光方向依存テクスチャとしてオブジェクトベースの現実的なソフトシャドウを符号化する。
私たちのパイプラインは、オブジェクトをarシーンにリアルタイムに新しいレベルのリアリズムで統合するために使用できます。
私たちのモデルは、現在のモバイルデバイスで動かすのに十分小さいです。
iPhone 11 Proでは,光推定で9ms,ニューラルシャドーで5msのランタイムを実現しています。 We present a pipeline for realistic embedding of virtual objects into footage of indoor scenes with focus on real-time AR applications. Our pipeline consists of two main components: A light estimator and a neural soft shadow texture generator. Our light estimation is based on deep neural nets and determines the main light direction, light color, ambient color and an opacity parameter for the shadow texture. Our neural soft shadow method encodes object-based realistic soft shadows as light direction dependent textures in a small MLP. We show that our pipeline can be used to integrate objects into AR scenes in a new level of realism in real-time. Our models are small enough to run on current mobile devices. We achieve runtimes of 9ms for light estimation and 5ms for neural shadows on an iPhone 11 Pro. | 翻訳日:2023-08-04 14:48:37 公開日:2023-08-03 |
# ラベル雑音下でのDNN一般化を促進する特徴雑音 Feature Noise Boosts DNN Generalization under Label Noise ( http://arxiv.org/abs/2308.01609v1 ) ライセンス: Link先を確認 | Lu Zeng, Xuan Chen, Xiaoshuang Shi, Heng Tao Shen | (参考訳) トレーニングデータにおけるラベルノイズの存在は、ディープニューラルネットワーク(DNN)の一般化に大きな影響を与える。
本研究では,学習データにノイズを直接付加する単純な特徴雑音法を導入,理論的に実証し,ラベル雑音下でのDNNの一般化を促進できることを示す。
具体的には、ラベルノイズがPAC-Bayes一般化境界を緩めることによってDNN一般化の弱化につながることを明らかにする理論解析を行い、PAC-Bayes一般化境界を制約するモデル重みと特徴間の相互情報に上限を付与することにより特徴雑音がより良いDNN一般化をもたらすことを示す。
さらに、ラベルノイズの存在下でのDNNの効果的な一般化を確保するために、望ましいラベル雑音の一般化を得るために、最適な特徴雑音の種類とレベルを特定するためのアプリケーション分析を行う。
最後に、いくつかの人気のあるデータセットにおける広範囲な実験結果から、特徴ノイズ法が最先端のラベルノイズ法のラベルノイズ一般化を著しく向上できることが示されている。 The presence of label noise in the training data has a profound impact on the generalization of deep neural networks (DNNs). In this study, we introduce and theoretically demonstrate a simple feature noise method, which directly adds noise to the features of training data, can enhance the generalization of DNNs under label noise. Specifically, we conduct theoretical analyses to reveal that label noise leads to weakened DNN generalization by loosening the PAC-Bayes generalization bound, and feature noise results in better DNN generalization by imposing an upper bound on the mutual information between the model weights and the features, which constrains the PAC-Bayes generalization bound. Furthermore, to ensure effective generalization of DNNs in the presence of label noise, we conduct application analyses to identify the optimal types and levels of feature noise to add for obtaining desirable label noise generalization. Finally, extensive experimental results on several popular datasets demonstrate the feature noise method can significantly enhance the label noise generalization of the state-of-the-art label noise method. | 翻訳日:2023-08-04 14:48:24 公開日:2023-08-03 |
# 断熱的制御を伴わない中性子スピン回転における位相相の出現 Manifestation of topological phase in neutron spin rotation without adiabatic regime ( http://arxiv.org/abs/2308.01608v1 ) ライセンス: Link先を確認 | Jian-Jian Cheng | (参考訳) Bitter-Dubbers (BD) 実験は、もともと断熱条件下でのヘリカル磁場における偏光中性子スピン回転を用いた位相位相の測定を目的とした重要な実験である。
期待に反して, bd実験の再評価により, 位相相の測定には断熱条件は不要であることが判明した。
磁場が均質でも強固でも中性子の速度が速い場合、位相相は現われる。
これを証明するために,一般回転系における中性子スピン回転の時間依存シュロディンガー方程式を解析的に解く。
これらの正確な解は、上記の条件下での非断熱位相の研究に利用される。
非線形トポロジカル位相の数値シミュレーションは,BD実験データと強い一致を示した。
この新たな結果は、中性子スピン回転で観察される位相相の理解を、もともと必要であった断熱条件を超えてより複雑でダイナミックなシナリオでも拡張する。 The Bitter-Dubbers (BD) experiment is an important experiment that originally aimed to measure topological phase using polarized-neutron spin rotation in a helical magnetic field under adiabatic conditions. Contrary to expectations, upon reevaluation of the BD experiment, it has been found that adiabatic conditions are not necessary for measuring topological phase. In scenarios where the magnetic field is neither homogeneous nor strong enough, and the neutron has a fast velocity, the topological phase can still be manifested. To demonstrate this, we analytically solve the time-dependent Schrodinger equation for the neutron spin rotation in general rotating systems. These exact solutions are then utilized to investigate the nonadiabatic topological phase under the conditions mentioned above. The numerical simulations of the nonadiabatic topological phase have shown a strong concurrence with the BD experimental data. This novel result extends our understanding of the topological phase observed in neutron spin rotation, even in more complex and dynamic scenarios beyond the originally required adiabatic conditions. | 翻訳日:2023-08-04 14:48:05 公開日:2023-08-03 |
# 補完情報と一貫性情報を用いた教師なし多重グラフ学習 Unsupervised Multiplex Graph Learning with Complementary and Consistent Information ( http://arxiv.org/abs/2308.01606v1 ) ライセンス: Link先を確認 | Liang Peng and Xin Wang and Xiaofeng Zhu | (参考訳) 非教師付き多重グラフ学習(UMGL)は、複数のグラフ間の相補的情報と一貫した情報の両方を探索することにより、異なる下流タスクに対して有意な効果が得られた。
しかし、従来の手法は通常、実用上の問題、すなわちサンプル外問題とノイズ問題を見落としている。
そこで本稿では,補完的情報と一貫性のある情報の両方を探索する,効果的かつ効率的なUMGL手法を提案する。
そこで本手法では,GCN(Graph Convolutional Network, グラフ畳み込みネットワーク)ではなく,複数のMPPエンコーダを用いて2つの制約で表現学習を行う。
総合的な実験により,提案手法は比較法よりも優れた効率と効率を実現し,これらの2つの課題に効果的に対処できることを示した。
コードはhttps://github.com/LarryUESTC/CoCoMGで入手できる。 Unsupervised multiplex graph learning (UMGL) has been shown to achieve significant effectiveness for different downstream tasks by exploring both complementary information and consistent information among multiple graphs. However, previous methods usually overlook the issues in practical applications, i.e., the out-of-sample issue and the noise issue. To address the above issues, in this paper, we propose an effective and efficient UMGL method to explore both complementary and consistent information. To do this, our method employs multiple MLP encoders rather than graph convolutional network (GCN) to conduct representation learning with two constraints, i.e., preserving the local graph structure among nodes to handle the out-of-sample issue, and maximizing the correlation of multiple node representations to handle the noise issue. Comprehensive experiments demonstrate that our proposed method achieves superior effectiveness and efficiency over the comparison methods and effectively tackles those two issues. Code is available at https://github.com/LarryUESTC/CoCoMG. | 翻訳日:2023-08-04 14:47:47 公開日:2023-08-03 |
# 電子健康記録における意思決定のための因果思考--理由と方法 Causal thinking for decision making on Electronic Health Records: why and how ( http://arxiv.org/abs/2308.01605v1 ) ライセンス: Link先を確認 | Matthieu Doutreligne (SODA), Tristan Struja (MIT, SODA), Judith Abecassis (SODA), Claire Morgand (ARS IDF), Leo Anthony Celi (MIT), Ga\"el Varoquaux (SODA) | (参考訳) 正確な予測は、機械学習と同様に、すべての患者に最適な医療を提供するのに十分ではないかもしれない。
実際、予測はデータのショートカット(例えば人種バイアス)によって駆動される。
データ駆動決定には因果思考が必要である。
ここでは、日常的に収集されるデータ、電子健康記録(ehrs)、クレームデータを中心に、重要な要素について紹介する。
このようなデータを使用して介入の価値を評価するには、注意が必要です。
ランダム化試行をエミュレートして実生活の患者記録から有効な意思決定を行うためのステップ・バイ・ステップのフレームワークを提案する。
我々のフレームワークは、因果的な結論を引き出すために、EHRやクレームデータを分析する上で最も重要な落とし穴と考察を強調します。
集中治療データベース(MIMIC-IV)において,アルブミンが敗血症死亡率に及ぼす影響について検討した。
特徴抽出から因果推定選択まで,各ステップにおける多様な選択の影響について検討した。
チュートリアルの精神では、コードとデータは公開されています。 Accurate predictions, as with machine learning, may not suffice to provide optimal healthcare for every patient. Indeed, prediction can be driven by shortcuts in the data, such as racial biases. Causal thinking is needed for data-driven decisions. Here, we give an introduction to the key elements, focusing on routinely-collected data, electronic health records (EHRs) and claims data. Using such data to assess the value of an intervention requires care: temporal dependencies and existing practices easily confound the causal effect. We present a step-by-step framework to help build valid decision making from real-life patient records by emulating a randomized trial before individualizing decisions, eg with machine learning. Our framework highlights the most important pitfalls and considerations in analysing EHRs or claims data to draw causal conclusions. We illustrate the various choices in studying the effect of albumin on sepsis mortality in the Medical Information Mart for Intensive Care database (MIMIC-IV). We study the impact of various choices at every step, from feature extraction to causal-estimator selection. In a tutorial spirit, the code and the data are openly available. | 翻訳日:2023-08-04 14:47:25 公開日:2023-08-03 |
# IndoHerb:移動学習と深層学習を用いたインドネシアの薬草認識 IndoHerb: Indonesia Medicinal Plants Recognition using Transfer Learning and Deep Learning ( http://arxiv.org/abs/2308.01604v1 ) ライセンス: Link先を確認 | Muhammad Salman Ikrar Musyaffa, Novanto Yudistira, Muhammad Arif Rahman | (参考訳) 草本植物は、伝統的な病気の治癒の代替として使用できる栄養価の高い植物である。
インドネシアには様々な種類の草本植物がある。
しかし、時代が進むにつれて、伝統的な薬品としての草本植物の存在を忘れてしまい、誰もが認識できなかった。
草本植物を識別する能力を持つことは多くのポジティブな影響がある。
しかし、詳細な知識と植物基準の精査が必要であるため、植物を特定するのに長い時間がかかるという問題がある。
コンピュータビジョンの応用はハーブの植物を識別するのに役立ちます
これまで、ベトナムからいくつかのアルゴリズムを用いて草本植物を導入する研究が行われてきたが、これらの研究から精度は十分ではなかった。
そこで本研究では,インドネシアの草本植物の種類を分類するために,コンボリューショナルニューラルネットワーク(CNN)アルゴリズムからトランスファーラーニングを実装することを目的とする。
この研究は、インドネシアのハーブ植物の画像データをgoogleイメージ検索エンジンで独自に収集して行われた。
その後、データ前処理、CNNからの転写学習手法を用いた分類を行い、分析を行う。
CNN転送学習モデルはResNet34、DenseNet121、VGG11_bnである。
この3つのモデルの試験結果から、drknet121が最も精度の高いモデルであることが判明し、87.4%であった。
また,スクラッチモデルを用いて試験を行い,精度は43.53%であった。
このテストで使用されるハイパーパラメータの構成は、ガンマ値0.9の指数型スケジューラ、学習率0.01、クロスエントロピー損失関数、adamオプティマイザ、エポック数50である。
インドネシアのメディカル・プラント・データセットは以下のリンクでアクセスできる。 Herbal plants are nutritious plants that can be used as an alternative to traditional disease healing. In Indonesia there are various types of herbal plants. But with the development of the times, the existence of herbal plants as traditional medicines began to be forgotten so that not everyone could recognize them. Having the ability to identify herbal plants can have many positive impacts. However, there is a problem where identifying plants can take a long time because it requires in-depth knowledge and careful examination of plant criteria. So that the application of computer vision can help identify herbal plants. Previously, research had been conducted on the introduction of herbal plants from Vietnam using several algorithms, but from these research the accuracy was not high enough. Therefore, this study intends to implement transfer learning from the Convolutional Neural Network (CNN) algorithm to classify types of herbal plants from Indonesia. This research was conducted by collecting image data of herbal plants from Indonesia independently through the Google Images search engine. After that, it will go through the data preprocessing, classification using the transfer learning method from CNN, and analysis will be carried out. The CNN transfer learning models used are ResNet34, DenseNet121, and VGG11_bn. Based on the test results of the three models, it was found that DenseNet121 was the model with the highest accuracy, which was 87.4%. In addition, testing was also carried out using the scratch model and obtained an accuracy of 43.53%. The Hyperparameter configuration used in this test is the ExponentialLR scheduler with a gamma value of 0.9; learning rate 0.001; Cross Entropy Loss function; Adam optimizer; and the number of epochs is 50. Indonesia Medicinal Plant Dataset can be accessed at the following link https://github.com/Salmanim20/indo_medicinal_plant | 翻訳日:2023-08-04 14:47:09 公開日:2023-08-03 |
# アクティブ量子群れ Active quantum flocks ( http://arxiv.org/abs/2308.01603v1 ) ライセンス: Link先を確認 | Reyhaneh Khasseh, Sascha Wald, Roderich Moessner, Christoph A. Weber, Markus Heyl | (参考訳) 動物の群れは、鳥類のような構成員が、まるで1つの実体であるかのように行動や行動を行う、マクロ古典世界で魅力的な集団行動の典型である。
ここでは、量子レベルでの微視的な世界で群れが形成できるかどうかという見事な疑問に答える。
そこで我々は, 1次元格子上に活性量子粒子のモデル群を定式化することにより, 活性量子物質の概念を導入する。
これらの系が量子群を生じさせるという解析的および大規模な数値的証拠を提供する。
鍵となる発見は、これらの群れが古典群とは異なり、長い距離にわたって強い量子コヒーレンスを発達させることによって異なる量子特性を示すことである。
我々は、Rydberg原子配列で量子群を実験的に観測できることを提案する。
我々の研究は、量子物質系における生物活性粒子の集合的挙動を実現するための道を開いた。
これは、独特な性質を持つ非平衡量子多体系の未発見のクラスへの道を開くことを期待する。 Flocks of animals represent a fascinating archetype of collective behavior in the macroscopic classical world, where the constituents, such as birds, concertedly perform motions and actions as if being one single entity. Here, we address the outstanding question of whether flocks can also form in the microscopic world at the quantum level. For that purpose, we introduce the concept of active quantum matter by formulating a class of models of active quantum particles on a one-dimensional lattice. We provide both analytical and large-scale numerical evidence that these systems can give rise to quantum flocks. A key finding is that these flocks, unlike classical ones, exhibit distinct quantum properties by developing strong quantum coherence over long distances. We propose that quantum flocks could be experimentally observed in Rydberg atom arrays. Our work paves the way towards realizing the intriguing collective behaviors of biological active particles in quantum matter systems. We expect that this opens up a path towards a yet totally unexplored class of nonequilibrium quantum many-body systems with unique properties. | 翻訳日:2023-08-04 14:46:38 公開日:2023-08-03 |
# パラメトリゼーションPDEのためのディープラーニングに基づくサロゲートモデル:グラフニューラルネットワークによる幾何変数の扱い Deep Learning-based surrogate models for parametrized PDEs: handling geometric variability through graph neural networks ( http://arxiv.org/abs/2308.01602v1 ) ライセンス: Link先を確認 | Nicola Rares Franco, Stefania Fresca, Filippo Tombari and Andrea Manzoni | (参考訳) メッシュベースのシミュレーションは、科学と工学の多くの分野において、パラメトリズド時間依存非線形偏微分方程式(pdes)の解を必要とする複雑な物理システムのモデリングにおいて重要な役割を果たす。
この文脈では、有限要素法に依存するようなフルオーダーモデル(FOM)は高いレベルの精度に達することができるが、しばしば集中的なシミュレーションが実行される。
このため、サロゲートモデルは計算コストの高い解法をより効率的な解法に置き換えるために開発され、精度と効率のトレードオフが好まれる。
本研究は,幾何学的変動が存在する場合の時間依存PDEシミュレーションにおけるグラフニューラルネットワーク(GNN)の可能性を検討する。
特に,GNNアーキテクチャを用いて効率的にシステムを進化させるデータ駆動型タイムステッピングスキームに基づいて,サロゲートモデルを構築するための体系的戦略を提案する。
サロゲートモデルの大部分に関して、提案されたアプローチは、パラメータ依存空間領域で問題に取り組むと同時に、異なるジオメトリとメッシュ解像度を同時に一般化する能力で際立っている。
提案手法の有効性を,2次元問題と3次元問題の両方を含む一連の数値実験を通じて評価し,gnnが計算効率と新たなシナリオへの一般化の観点から,従来のサロゲートモデルに代わる有効な選択肢を提供できることを示した。
また、数値的な観点から、提案フレームワークでは古典的なディープニューラルネットワークではなく、GNNを使うことの重要性も評価する。 Mesh-based simulations play a key role when modeling complex physical systems that, in many disciplines across science and engineering, require the solution of parametrized time-dependent nonlinear partial differential equations (PDEs). In this context, full order models (FOMs), such as those relying on the finite element method, can reach high levels of accuracy, however often yielding intensive simulations to run. For this reason, surrogate models are developed to replace computationally expensive solvers with more efficient ones, which can strike favorable trade-offs between accuracy and efficiency. This work explores the potential usage of graph neural networks (GNNs) for the simulation of time-dependent PDEs in the presence of geometrical variability. In particular, we propose a systematic strategy to build surrogate models based on a data-driven time-stepping scheme where a GNN architecture is used to efficiently evolve the system. With respect to the majority of surrogate models, the proposed approach stands out for its ability of tackling problems with parameter dependent spatial domains, while simultaneously generalizing to different geometries and mesh resolutions. We assess the effectiveness of the proposed approach through a series of numerical experiments, involving both two- and three-dimensional problems, showing that GNNs can provide a valid alternative to traditional surrogate models in terms of computational efficiency and generalization to new scenarios. We also assess, from a numerical standpoint, the importance of using GNNs, rather than classical dense deep neural networks, for the proposed framework. | 翻訳日:2023-08-04 14:46:22 公開日:2023-08-03 |
# UniG-Encoder:グラフとハイパーグラフのノード分類のためのユニバーサル機能エンコーダ UniG-Encoder: A Universal Feature Encoder for Graph and Hypergraph Node Classification ( http://arxiv.org/abs/2308.01650v1 ) ライセンス: Link先を確認 | Minhao Zou, Zhongxue Gan, Yutong Wang, Junheng Zhang, Dongyan Sui, Chun Guan, Siyang Leng | (参考訳) グラフとハイパーグラフ表現学習は、様々な研究分野から注目を集めている。
Graph Neural Networks (GNN)、Hypergraph Neural Networks (HGNN)、そしてそのよく設計された変種は、よく使われているベンチマークグラフやハイパーグラフにおいて、十分なパフォーマンスと実りある応用にもかかわらず、単純なマルチ層パーセプトロンでも性能が優れている。
この観察は、現在のGNNとHGNNの設計パラダイムの再検討を動機付け、グラフの特徴を効果的に抽出する上での課題を提起する。
本研究では,UniG-Encoderと呼ばれるグラフおよびハイパーグラフ表現学習のための普遍的特徴エンコーダを設計する。
アーキテクチャは、連結ノードのトポロジカルな関係を正規化されたプロジェクション行列を介してエッジまたはハイパーエッジ特徴に変換することから始まる。
結果として生じるエッジ/ハイパーエッジ機能は、元のノード機能とともに、ニューラルネットワークに入力される。
符号化されたノード埋め込みは、ネットワークの出力の投影行列の転置によって記述された逆変換から導出される。
提案したアーキテクチャは、従来のスペクトルベースおよび/またはメッセージパッシングアプローチとは対照的に、ノード特徴とグラフ/ハイパーグラフトポロジを効率的かつ統一的に利用し、ヘテロ親和性グラフとホモ親和性グラフの両方をカバーする。
グラフ特徴を符号化する設計された投影行列は直感的で解釈可能である。
提案手法は,12個の代表ハイパーグラフデータセットと6つの実世界のグラフデータセットに対して,最先端の手法に比べて優れた性能を示す。
私たちの実装はhttps://github.com/MinhZou/UniG-Encoder.comで公開されています。 Graph and hypergraph representation learning has attracted increasing attention from various research fields. Despite the decent performance and fruitful applications of Graph Neural Networks (GNNs), Hypergraph Neural Networks (HGNNs), and their well-designed variants, on some commonly used benchmark graphs and hypergraphs, they are outperformed by even a simple Multi-Layer Perceptron. This observation motivates a reexamination of the design paradigm of the current GNNs and HGNNs and poses challenges of extracting graph features effectively. In this work, a universal feature encoder for both graph and hypergraph representation learning is designed, called UniG-Encoder. The architecture starts with a forward transformation of the topological relationships of connected nodes into edge or hyperedge features via a normalized projection matrix. The resulting edge/hyperedge features, together with the original node features, are fed into a neural network. The encoded node embeddings are then derived from the reversed transformation, described by the transpose of the projection matrix, of the network's output, which can be further used for tasks such as node classification. The proposed architecture, in contrast to the traditional spectral-based and/or message passing approaches, simultaneously and comprehensively exploits the node features and graph/hypergraph topologies in an efficient and unified manner, covering both heterophilic and homophilic graphs. The designed projection matrix, encoding the graph features, is intuitive and interpretable. Extensive experiments are conducted and demonstrate the superior performance of the proposed framework on twelve representative hypergraph datasets and six real-world graph datasets, compared to the state-of-the-art methods. Our implementation is available online at https://github.com/MinhZou/UniG-Encoder. | 翻訳日:2023-08-04 14:38:26 公開日:2023-08-03 |
# MARLIM:インベントリマネジメントのためのマルチエージェント強化学習 MARLIM: Multi-Agent Reinforcement Learning for Inventory Management ( http://arxiv.org/abs/2308.01649v1 ) ライセンス: Link先を確認 | R\'emi Leluc, Elie Kadoche, Antoine Bertoncello, S\'ebastien Gourv\'enec | (参考訳) 補充決定の最適化による製品供給と需要のバランスを維持することは、サプライチェーン業界における最も重要な課題の1つである。
本稿では,マルチ製品サプライチェーンの在庫管理問題に対処するために,確率的要求とリードタイムを備えた新しい強化学習フレームワークmarlimを提案する。
この文脈では、コントローラは協調環境で単一のエージェントまたは複数のエージェントを介して開発される。
実データに対する数値実験は、従来のベースラインよりも強化学習の利点を示している。 Maintaining a balance between the supply and demand of products by optimizing replenishment decisions is one of the most important challenges in the supply chain industry. This paper presents a novel reinforcement learning framework called MARLIM, to address the inventory management problem for a single-echelon multi-products supply chain with stochastic demands and lead-times. Within this context, controllers are developed through single or multiple agents in a cooperative setting. Numerical experiments on real data demonstrate the benefits of reinforcement learning methods over traditional baselines. | 翻訳日:2023-08-04 14:37:56 公開日:2023-08-03 |
# 残留強化学習によるカスケードpid制御クワッドコプターの耐風性能向上 Improving Wind Resistance Performance of Cascaded PID Controlled Quadcopters using Residual Reinforcement Learning ( http://arxiv.org/abs/2308.01648v1 ) ライセンス: Link先を確認 | Yu Ishihara, Yuichi Hazama, Kousuke Suzuki, Jerry Jun Yokono, Kohtaro Sabe, Kenta Kawamoto | (参考訳) 風抵抗制御は、目標位置からの逸脱を避け、障害物との衝突を防止するために、クワッドコプターにとって重要な特徴である。
従来、カスケードpidコントローラはクワッドコプターの制御に使われ、そのシンプルさとパラメータのチューニングが容易である。
しかし、風乱に対して弱いため、クワッドコプターは目標位置から容易に逸脱することができる。
本研究では,クワッドコプターの耐風性制御系を構築するための残留強化学習に基づく手法を提案する。
乱れを補う残留物のみを学習することにより、カスケードされたPIDコントローラをクアッドコプターのベースコントローラとして使用し続けることができるが、風乱に対する性能は向上する。
クワッドコプターの予期せぬクラッシュや破壊を避けるため,本手法では実際のハードウェアを必要としない。
コントローラはシミュレータ上でのみトレーニングされ、追加の微調整プロセスなしでターゲットハードウェアに直接適用される。
風速13m/s以上の屋外シーンにおける実験を含む各種実験によるアプローチの有効性を実証した。
その単純さにもかかわらず、従来のカスケードpidコントローラで制御されるクワッドコプターと比較して、位置ずれを約50%低減する。
さらに、訓練された制御装置は、クアッドコプターの質量とプロペラのリフト係数が元の訓練時間から50%から150%に変化しても頑丈で性能を保っている。 Wind resistance control is an essential feature for quadcopters to maintain their position to avoid deviation from target position and prevent collisions with obstacles. Conventionally, cascaded PID controller is used for the control of quadcopters for its simplicity and ease of tuning its parameters. However, it is weak against wind disturbances and the quadcopter can easily deviate from target position. In this work, we propose a residual reinforcement learning based approach to build a wind resistance controller of a quadcopter. By learning only the residual that compensates the disturbance, we can continue using the cascaded PID controller as the base controller of the quadcopter but improve its performance against wind disturbances. To avoid unexpected crashes and destructions of quadcopters, our method does not require real hardware for data collection and training. The controller is trained only on a simulator and directly applied to the target hardware without extra finetuning process. We demonstrate the effectiveness of our approach through various experiments including an experiment in an outdoor scene with wind speed greater than 13 m/s. Despite its simplicity, our controller reduces the position deviation by approximately 50% compared to the quadcopter controlled with the conventional cascaded PID controller. Furthermore, trained controller is robust and preserves its performance even though the quadcopter's mass and propeller's lift coefficient is changed between 50% to 150% from original training time. | 翻訳日:2023-08-04 14:37:49 公開日:2023-08-03 |
# 心電図異常検出のためのマルチスケールクロスレプロレーションフレームワーク Multi-scale Cross-restoration Framework for Electrocardiogram Anomaly Detection ( http://arxiv.org/abs/2308.01639v1 ) ライセンス: Link先を確認 | Aofan Jiang, Chaoqin Huang, Qing Cao, Shuang Wu, Zi Zeng, Kang Chen, Ya Zhang, and Yanfeng Wang | (参考訳) 心電図(Electrocardiogram、ECG)は、心疾患の診断に広く用いられるツールである。
まれな心疾患は、訓練データセットがすべての可能な心疾患を排出できないことを考慮し、伝統的な心電図分析を用いて過度に診断される可能性がある。
本稿では,異常検出を用いて不健康状態を特定することを提案する。
しかし、心電図の異常を検出することは、大域リズムと局所形態の両方に存在する個人間差と異常により困難である。
そこで本稿では,ECGの異常検出とローカライゼーションのための,局所的およびグローバルなECG特性を考慮した新しい多スケールクロスレプロレーションフレームワークを提案する。
提案フレームワークでは,2分岐オートエンコーダを用いてマスキングと修復のプロセスを通じてマルチスケールな特徴学習を行い,心電図全体と心電図全体からのグローバル特徴に着目し,心臓科医の診断過程を模倣した局所的特徴量に着目した。
異常は高い復元誤差によって識別される。
本稿では,経験豊富な心科医がアノテートした信号点レベルの基底的真理を用いた新しい挑戦的ベンチマークを提案する。
提案手法は,このベンチマークと他の2つの有名なECGデータセット上での最先端性能を示す。
ベンチマークデータセットとソースコードは、 \url{https://github.com/mediabrain-sjtu/ecgad} で入手できる。 Electrocardiogram (ECG) is a widely used diagnostic tool for detecting heart conditions. Rare cardiac diseases may be underdiagnosed using traditional ECG analysis, considering that no training dataset can exhaust all possible cardiac disorders. This paper proposes using anomaly detection to identify any unhealthy status, with normal ECGs solely for training. However, detecting anomalies in ECG can be challenging due to significant inter-individual differences and anomalies present in both global rhythm and local morphology. To address this challenge, this paper introduces a novel multi-scale cross-restoration framework for ECG anomaly detection and localization that considers both local and global ECG characteristics. The proposed framework employs a two-branch autoencoder to facilitate multi-scale feature learning through a masking and restoration process, with one branch focusing on global features from the entire ECG and the other on local features from heartbeat-level details, mimicking the diagnostic process of cardiologists. Anomalies are identified by their high restoration errors. To evaluate the performance on a large number of individuals, this paper introduces a new challenging benchmark with signal point-level ground truths annotated by experienced cardiologists. The proposed method demonstrates state-of-the-art performance on this benchmark and two other well-known ECG datasets. The benchmark dataset and source code are available at: \url{https://github.com/MediaBrain-SJTU/ECGAD} | 翻訳日:2023-08-04 14:37:27 公開日:2023-08-03 |
# 動的モード分解によるレートカーネルの予測 Predicting rate kernels via dynamic mode decomposition ( http://arxiv.org/abs/2308.01635v1 ) ライセンス: Link先を確認 | Wei Liu, Zi-Hao Chen, Yu Su, Yao Wang and Wenjie Dou | (参考訳) オープン量子システムのダイナミクスをシミュレートすることは、様々な完全あるいは近似的な方法が利用可能であるにもかかわらず、しばしば重要な課題である。
特に複雑なシステムを扱う場合、計算コストはこれらの手法の適用性を大幅に制限する。
量子レートプロセスにおけるレートカーネルの評価に動的モード分解(DMD)を用いることを検討する。
DMDは、小さな時間窓から収集したスナップショットを用いてレートカーネルを特徴付けるデータ駆動型モデル縮小手法であり、限られたサンプル数で長期間の挙動を予測することができる。
本研究は,外部の場が関与しているか否かに関わらず,dmdは従来の伝搬よりも正確な結果を予測でき,同時に必要な計算コストを低減できることを示す。 Simulating dynamics of open quantum systems is sometimes a significant challenge, despite the availability of various exact or approximate methods. Particularly when dealing with complex systems, the huge computational cost will largely limit the applicability of these methods. We investigate the usage of dynamic mode decomposition (DMD) to evaluate the rate kernels in quantum rate processes. DMD is a data-driven model reduction technique that characterizes the rate kernels using snapshots collected from a small time window, allowing us to predict the long-term behaviors with only a limited number of samples. Our investigations show that whether the external field is involved or not, the DMD can give accurate prediction of the result compared with the traditional propagations, and simultaneously reduce the required computational cost. | 翻訳日:2023-08-04 14:37:03 公開日:2023-08-03 |
# 誘導バイアスを超える多視点表現 Disentangling Multi-view Representations Beyond Inductive Bias ( http://arxiv.org/abs/2308.01634v1 ) ライセンス: Link先を確認 | Guanzhou Ke, Yang Yu, Guoqing Chao, Xiaoli Wang, Chenyang, Xu, and Shengfeng He | (参考訳) マルチビュー(あるいはモダリティ)表現学習は、異なるビュー表現間の関係を理解することを目的としている。
既存の方法は、強い帰納バイアスを導入して、多視点表現を一貫性とビュー固有の表現に分解し、一般化能力を制限する。
本稿では,帰納的バイアスを克服し,表現の解釈可能性と一般化性を両立することを目的とした,新しい多視点表現分離手法を提案する。
本手法は,複数視点の一貫性を事前に発見することで情報境界の分離を判断し,分離学習目標を導出する観察に基づく。
また、ビュー間の変換不変性とクラスタリング一貫性を最大化することで、一貫性を容易に抽出できることがわかった。
これらの観察から、2段階の枠組みが提案できる。
最初の段階では、一貫したエンコーダを訓練して、ビューと対応する擬似ラベルのセマンティックな一貫性のある表現を生成することで、マルチビューの一貫性を得る。
第2段階では、一貫した表現と包括的表現の相互情報の上限を最小化することにより、包括的表現から特異性を切り離す。
最後に、擬似ラベルとビュー固有の表現を結合して元のデータを再構築する。
4つのマルチビューデータセットを用いた実験により,提案手法がクラスタリングと分類性能の点で12の比較手法を上回っていることを示した。
また, 抽出された一貫性と特異性は, コンパクトかつ解釈可能であることを示した。
我々のコードは \url{https://github.com/Guanzhou-Ke/DMRIB} にある。 Multi-view (or -modality) representation learning aims to understand the relationships between different view representations. Existing methods disentangle multi-view representations into consistent and view-specific representations by introducing strong inductive biases, which can limit their generalization ability. In this paper, we propose a novel multi-view representation disentangling method that aims to go beyond inductive biases, ensuring both interpretability and generalizability of the resulting representations. Our method is based on the observation that discovering multi-view consistency in advance can determine the disentangling information boundary, leading to a decoupled learning objective. We also found that the consistency can be easily extracted by maximizing the transformation invariance and clustering consistency between views. These observations drive us to propose a two-stage framework. In the first stage, we obtain multi-view consistency by training a consistent encoder to produce semantically-consistent representations across views as well as their corresponding pseudo-labels. In the second stage, we disentangle specificity from comprehensive representations by minimizing the upper bound of mutual information between consistent and comprehensive representations. Finally, we reconstruct the original data by concatenating pseudo-labels and view-specific representations. Our experiments on four multi-view datasets demonstrate that our proposed method outperforms 12 comparison methods in terms of clustering and classification performance. The visualization results also show that the extracted consistency and specificity are compact and interpretable. Our code can be found at \url{https://github.com/Guanzhou-Ke/DMRIB}. | 翻訳日:2023-08-04 14:36:51 公開日:2023-08-03 |
# RGBTビデオオブジェクト検出のための消去型インタラクションネットワークと統一ベンチマーク Erasure-based Interaction Network for RGBT Video Object Detection and A Unified Benchmark ( http://arxiv.org/abs/2308.01630v1 ) ライセンス: Link先を確認 | Zhengzheng Tu, Qishun Wang, Hongshun Wang, Kunpeng Wang, Chenglong Li | (参考訳) 近年,ビデオ物体検出 (VOD) の分野では多くのブレークスルーがおこなわれているが,RGBセンサの照明条件が悪くなるため,その性能は依然として限られている。
この問題を軽減するために、この研究はRGB-thermal (RGBT) VODと呼ばれる新しいコンピュータビジョンタスクを導入する。
RGBT VOOD の研究開発を促進するため,新しい消去型インタラクションネットワーク (EINet) を設計し,このタスクのための総合ベンチマークデータセット (VT-VOD50) を確立する。
従来のvod法は、多くの補助フレームを用いて時間情報を利用することが多いため、計算の負担が大きい。
熱画像がRGB画像よりもノイズが少ないことを考慮し、熱画像特徴の助けを借りてRGB特徴のノイズを消し去るために用いられる負のアクティベーション関数を開発した。
さらに,熱画像の利点により,時空間情報をモデル化するための小さな時間窓のみに依存し,検出精度を維持しつつ効率を大幅に向上させる。
VT-VOD50データセットは50対の挑戦的なRGBTビデオシーケンスで構成され、複雑な背景、さまざまなオブジェクト、さまざまな照明が実際のトラフィックシナリオで収集される。
VT-VOD50データセットの大規模な実験により,提案手法の有効性と有効性を示した。
EINetとデータセットのコードは、無料の学術的利用のために一般公開される。 Recently, many breakthroughs are made in the field of Video Object Detection (VOD), but the performance is still limited due to the imaging limitations of RGB sensors in adverse illumination conditions. To alleviate this issue, this work introduces a new computer vision task called RGB-thermal (RGBT) VOD by introducing the thermal modality that is insensitive to adverse illumination conditions. To promote the research and development of RGBT VOD, we design a novel Erasure-based Interaction Network (EINet) and establish a comprehensive benchmark dataset (VT-VOD50) for this task. Traditional VOD methods often leverage temporal information by using many auxiliary frames, and thus have large computational burden. Considering that thermal images exhibit less noise than RGB ones, we develop a negative activation function that is used to erase the noise of RGB features with the help of thermal image features. Furthermore, with the benefits from thermal images, we rely only on a small temporal window to model the spatio-temporal information to greatly improve efficiency while maintaining detection accuracy. VT-VOD50 dataset consists of 50 pairs of challenging RGBT video sequences with complex backgrounds, various objects and different illuminations, which are collected in real traffic scenarios. Extensive experiments on VT-VOD50 dataset demonstrate the effectiveness and efficiency of our proposed method against existing mainstream VOD methods. The code of EINet and the dataset will be released to the public for free academic usage. | 翻訳日:2023-08-04 14:36:27 公開日:2023-08-03 |
# ブックカバーのデザインクリエイティビティを支援する知識グラフを用いたGANのインターリービング Interleaving GANs with knowledge graphs to support design creativity for book covers ( http://arxiv.org/abs/2308.01626v1 ) ライセンス: Link先を確認 | Alexandru Motogna, Adrian Groza | (参考訳) 魅力的な本の表紙は、本の成功のために重要です。
本稿では,本書のカバー領域にgans(generative adversarial network)を適用する。
ganを知識グラフにインターリーブし、入力タイトルを変更し、任意のタイトルに対して複数のオプションを取得し、それをジェネレータへの追加入力として使用します。
最後に、トレーニング期間中に得られた判別器を用いて、新しいタイトルで生成された最良の画像を選択する。
本手法は,従来の試みよりも書籍の表紙作成に優れており,知識グラフはgan単独よりも著者や編集者に優れた選択肢を与えている。 An attractive book cover is important for the success of a book. In this paper, we apply Generative Adversarial Networks (GANs) to the book covers domain, using different methods for training in order to obtain better generated images. We interleave GANs with knowledge graphs to alter the input title to obtain multiple possible options for any given title, which are then used as an augmented input to the generator. Finally, we use the discriminator obtained during the training phase to select the best images generated with new titles. Our method performed better at generating book covers than previous attempts, and the knowledge graph gives better options to the book author or editor compared to using GANs alone. | 翻訳日:2023-08-04 14:36:01 公開日:2023-08-03 |
# ReIDTrack: モーションのないマルチオブジェクトトラックとセグメンテーション ReIDTrack: Multi-Object Track and Segmentation Without Motion ( http://arxiv.org/abs/2308.01622v1 ) ライセンス: Link先を確認 | Kaer Huang, Bingchuan Sun, Feng Chen, Tao Zhang, Jun Xie, Jian Li, Christopher Walter Twombly, Zhepeng Wang | (参考訳) 近年,マルチオブジェクトトラッキング(MOT)とセグメンテーション(MOTS)の手法は,主にトラッキング・バイ・検出のパラダイムに従っている。
トランスフォーマーベースのエンドツーエンド(E2E)ソリューションは、MOTとMOTSにいくつかのアイデアをもたらすが、主要なMOTとMOTSベンチマークで新しい最先端(SOTA)パフォーマンスを達成することはできない。
検出と関連付けは、トラッキングバイ検出パラダイムの主要な2つのモジュールである。
関連技術は主に動きと外観情報の組み合わせに依存している。
近年,ディープラーニングが開発され,検出・出現モデルの性能が急速に向上している。
これらの傾向は,高性能検出・外観モデルのみに基づいてSOTAを実現することができるかどうかを考察した。
本稿では主にCBNetV2に基づいて,Swin-Bを検出モデルとして,MoCo-v2を自己教師型外観モデルとして検討する。
運動情報とIoUマッピングは協会によって取り除かれた。
CVPR2023 WADワークショップではMOTSトラックで1位を獲得し,MOTトラックで2位となった。
我々は,本手法がMOTとMOTS研究コミュニティにいくつかの洞察を与えてくれることを願っている。
ソースコードは、このgitリポジトリでリリースされる In recent years, dominant Multi-object tracking (MOT) and segmentation (MOTS) methods mainly follow the tracking-by-detection paradigm. Transformer-based end-to-end (E2E) solutions bring some ideas to MOT and MOTS, but they cannot achieve a new state-of-the-art (SOTA) performance in major MOT and MOTS benchmarks. Detection and association are two main modules of the tracking-by-detection paradigm. Association techniques mainly depend on the combination of motion and appearance information. As deep learning has been recently developed, the performance of the detection and appearance model is rapidly improved. These trends made us consider whether we can achieve SOTA based on only high-performance detection and appearance model. Our paper mainly focuses on exploring this direction based on CBNetV2 with Swin-B as a detection model and MoCo-v2 as a self-supervised appearance model. Motion information and IoU mapping were removed during the association. Our method wins 1st place on the MOTS track and wins 2nd on the MOT track in the CVPR2023 WAD workshop. We hope our simple and effective method can give some insights to the MOT and MOTS research community. Source code will be released under this git repository | 翻訳日:2023-08-04 14:35:47 公開日:2023-08-03 |
# 連続対称性を持つ新しい畳み込みニューラルネットワークアーキテクチャ A Novel Convolutional Neural Network Architecture with a Continuous Symmetry ( http://arxiv.org/abs/2308.01621v1 ) ライセンス: Link先を確認 | Yao Liu, Hang Shao, Bing Bai | (参考訳) 本稿では,準線形双曲型システムと呼ばれる偏微分方程式(pdes)のクラスに触発された新しい畳み込みニューラルネットワーク(convnet)アーキテクチャを提案する。
画像分類タスクにおける同等のパフォーマンスにより、連続的な対称性の群を通して重みを修正できる。
これは、アーキテクチャと重みが本質的に固定された従来のモデルから大きく変わります。
我々は、ニューラルネットワークの新たな望ましい特性として(内部)対称性を推進し、より広範なDeep LearningコミュニティにおけるConvNetの分析と解釈におけるPDE視点に注意を向けたい。 This paper introduces a new Convolutional Neural Network (ConvNet) architecture inspired by a class of partial differential equations (PDEs) called quasi-linear hyperbolic systems. With comparable performance on image classification task, it allows for the modification of the weights via a continuous group of symmetry. This is a significant shift from traditional models where the architecture and weights are essentially fixed. We wish to promote the (internal) symmetry as a new desirable property for a neural network, and to draw attention to the PDE perspective in analyzing and interpreting ConvNets in the broader Deep Learning community. | 翻訳日:2023-08-04 14:35:28 公開日:2023-08-03 |
# BabyのCoThought:コンパクトモデルにおける推論強化のための大規模言語モデルの活用 Baby's CoThought: Leveraging Large Language Models for Enhanced Reasoning in Compact Models ( http://arxiv.org/abs/2308.01684v1 ) ライセンス: Link先を確認 | Zheyu Zhang, Han Yang, Bolei Ma, David R\"ugamer, Ercong Nie | (参考訳) 大規模言語モデル(llm)は、さまざまな自然言語理解(nlu)タスクにおいて、主にコンテキスト内学習能力によって、驚くべきパフォーマンスを示している。
この能力は,提案する「思考の連鎖」(cot)プロンプトを活用し,より小さな「ベイビー」言語モデル (babylms) を効率的に訓練する「思考の連鎖」パイプラインで活用する。
我々のパイプラインは、GPT-3.5-turboを用いて、100M未満のデータセットを再構成し、言語学習者の学校テキストに匹敵するタスク指向の人間可読テキストに変換する。
BabyLMは、RoBERTa(Liu et al., 2019)方式で、この再構成データセットで事前トレーニングされる。
4つのベンチマークにおける評価において,babylmは10の言語,nlu,質問応答タスクにおいてロベルタベースを3点以上上回り,文脈情報抽出に優れた能力を示している。
これらの結果から,LLM再構成データ上に事前訓練されたコンパクトなLMは,タスクをよりよく理解し,性能を向上できる可能性が示唆された。
データ処理とモデルトレーニングのコードは、https://github.com/oooranz/baby-cothought.com/で入手できる。 Large Language Models (LLMs) demonstrate remarkable performance on a variety of Natural Language Understanding (NLU) tasks, primarily due to their in-context learning ability. This ability is utilized in our proposed "CoThought" pipeline, which efficiently trains smaller "baby" language models (BabyLMs) by leveraging the Chain of Thought (CoT) prompting of LLMs. Our pipeline restructures a dataset of less than 100M in size using GPT-3.5-turbo, transforming it into task-oriented, human-readable texts that are comparable to the school texts for language learners. The BabyLM is then pretrained on this restructured dataset in a RoBERTa (Liu et al., 2019) fashion. In evaluations across 4 benchmarks, our BabyLM outperforms the RoBERTa-base in 10 linguistic, NLU, and question answering tasks by more than 3 points, showing superior ability to extract contextual information. These results suggest that compact LMs pretrained on small, LLM-restructured data can better understand tasks and achieve improved performance. The code for data processing and model training is available at: https://github.com/oooranz/Baby-CoThought. | 翻訳日:2023-08-04 14:31:15 公開日:2023-08-03 |
# グラフニューラルネットワークのためのリンク予測説明の評価 Evaluating Link Prediction Explanations for Graph Neural Networks ( http://arxiv.org/abs/2308.01682v1 ) ライセンス: Link先を確認 | Claudio Borile, Alan Perotti, Andr\'e Panisson | (参考訳) グラフ機械学習(GML)は、実世界のドメインにおいてノード/グラフ分類やリンク予測などの多くの応用がある。
GMLモデルに対する人間の理解可能な説明を提供することは、採用を促進する上で難しいが、リンク予測モデルに対する説明の検証はほとんど注目されていない。
本稿では,接地の有無に関わらず,リンク予測の質を評価するための定量的指標を提案する。
これらの指標を用いてグラフニューラルネットワークの最先端の説明可能性を評価する。
ノード埋め込み間の距離の選択など,リンク予測タスクに特有の前提条件や技術的詳細が,説明の質にどのように影響するかを論じる。 Graph Machine Learning (GML) has numerous applications, such as node/graph classification and link prediction, in real-world domains. Providing human-understandable explanations for GML models is a challenging yet fundamental task to foster their adoption, but validating explanations for link prediction models has received little attention. In this paper, we provide quantitative metrics to assess the quality of link prediction explanations, with or without ground-truth. State-of-the-art explainability methods for Graph Neural Networks are evaluated using these metrics. We discuss how underlying assumptions and technical details specific to the link prediction task, such as the choice of distance between node embeddings, can influence the quality of the explanations. | 翻訳日:2023-08-04 14:30:52 公開日:2023-08-03 |
# NBIAS:テキスト中のバイアス識別のための自然言語処理フレームワーク NBIAS: A Natural Language Processing Framework for Bias Identification in Text ( http://arxiv.org/abs/2308.01681v1 ) ライセンス: Link先を確認 | Shaina Razaa, Muskan Garg, Deepak John Reji, Syed Raza Bashir, Chen Ding | (参考訳) テキストデータのバイアスは、データが使用されると歪んだ解釈や結果につながる可能性がある。
これらのバイアスは、ステレオタイプ、差別、その他の不公平な扱いを永続する可能性がある。
偏ったデータに基づいて訓練されたアルゴリズムは、あるグループに不公平に影響を及ぼす決定を下す。
したがって、データの公正かつ倫理的利用を確保するためには、これらのバイアスを検出して取り除くことが不可欠である。
そこで我々は,データ層,コーパス・コントラクション,モデル開発層,評価層から構成される包括的で堅牢なフレームワークであるtextsc{Nbias} を開発した。
このデータセットは、ソーシャルメディア、ヘルスケア、雇用ポータルなど、さまざまな分野からさまざまなデータを収集することによって構築される。
そこで,変圧器を用いたトークン分類モデルを適用し,一意な名前を持つエンティティを通じてバイアス語やフレーズを識別する。
評価手法では,定量的および定性的な評価をブレンドして,モデルの有効性を評価する。
ベースラインに比べて1%から8%の精度向上を実現しています。
また,モデル機能に関する堅牢な理解を生成でき,数値データだけでなく,その性能の質や複雑さも把握できる。
提案手法は,様々なバイアスに適用でき,公平かつ倫理的なテキストデータの活用に寄与する。 Bias in textual data can lead to skewed interpretations and outcomes when the data is used. These biases could perpetuate stereotypes, discrimination, or other forms of unfair treatment. An algorithm trained on biased data ends up making decisions that disproportionately impact a certain group of people. Therefore, it is crucial to detect and remove these biases to ensure the fair and ethical use of data. To this end, we develop a comprehensive and robust framework \textsc{Nbias} that consists of a data layer, corpus contruction, model development layer and an evaluation layer. The dataset is constructed by collecting diverse data from various fields, including social media, healthcare, and job hiring portals. As such, we applied a transformer-based token classification model that is able to identify bias words/ phrases through a unique named entity. In the assessment procedure, we incorporate a blend of quantitative and qualitative evaluations to gauge the effectiveness of our models. We achieve accuracy improvements ranging from 1% to 8% compared to baselines. We are also able to generate a robust understanding of the model functioning, capturing not only numerical data but also the quality and intricacies of its performance. The proposed approach is applicable to a variety of biases and contributes to the fair and ethical use of textual data. | 翻訳日:2023-08-04 14:30:40 公開日:2023-08-03 |
# 厳密な相補性下におけるテンソル核規範を用いた低ランクテンソル回復の一階法の有効性 Efficiency of First-Order Methods for Low-Rank Tensor Recovery with the Tensor Nuclear Norm Under Strict Complementarity ( http://arxiv.org/abs/2308.01677v1 ) ライセンス: Link先を確認 | Dan Garber, Atara Kaplan | (参考訳) テンソル核ノルムによって誘導されるボール上の制約最小化に基づく低ランクテンソルの回収のための凸緩和について考察する。
我々は,低ランク行列の回復に対する凸緩和を考慮した最近の結果を基に構築し,厳密な相補性条件 (SC) の下では,標準勾配法の収束率と点当たり実行時間の両方が劇的に向上することを示した。
テンソル核ノルムボールの適切な厳密相補性条件を開発し、この条件下で次の主な結果を得る。
1. 最小化の目的が $f(\mX)=g(\mA\mX)+\langle{\mC,\mX}\rangle$,, where $g$ is strongly convex and $\mA$ is a linear map (例: least squares) であるとき、f$は強凸ではないという事実にもかかわらず、標準射影勾配法に対する線型収束率を意味する二次成長境界が成立する。
2 滑らかな目的関数に対して、scを満たす最適解の特定の近傍で初期化されるとき、標準射影勾配法は、最適解の管級に一致するランクのsvd計算(テンソル核ノルム球への射影)のみを必要とする。
特に、管のランクが一定である場合、これは(テンソルの大きさの)ほぼ線形のランタイムを、それ以上の仮定なしで超線形とは対照的に意味する。
3. 一般的な滑らかな鞍点定式化を許容する非滑らかな目的関数に対しては、よく知られた超勾配法で後者と同様の結果を導出する。
独立な興味を持つかもしれない追加の貢献は、以前は三階テンソルに対してのみ得られていた任意の順序のテンソルに関する多くの基本的な結果の厳密な拡張である。 We consider convex relaxations for recovering low-rank tensors based on constrained minimization over a ball induced by the tensor nuclear norm, recently introduced in \cite{tensor_tSVD}. We build on a recent line of results that considered convex relaxations for the recovery of low-rank matrices and established that under a strict complementarity condition (SC), both the convergence rate and per-iteration runtime of standard gradient methods may improve dramatically. We develop the appropriate strict complementarity condition for the tensor nuclear norm ball and obtain the following main results under this condition: 1. When the objective to minimize is of the form $f(\mX)=g(\mA\mX)+\langle{\mC,\mX}\rangle$ , where $g$ is strongly convex and $\mA$ is a linear map (e.g., least squares), a quadratic growth bound holds, which implies linear convergence rates for standard projected gradient methods, despite the fact that $f$ need not be strongly convex. 2. For a smooth objective function, when initialized in certain proximity of an optimal solution which satisfies SC, standard projected gradient methods only require SVD computations (for projecting onto the tensor nuclear norm ball) of rank that matches the tubal rank of the optimal solution. In particular, when the tubal rank is constant, this implies nearly linear (in the size of the tensor) runtime per iteration, as opposed to super linear without further assumptions. 3. For a nonsmooth objective function which admits a popular smooth saddle-point formulation, we derive similar results to the latter for the well known extragradient method. An additional contribution which may be of independent interest, is the rigorous extension of many basic results regarding tensors of arbitrary order, which were previously obtained only for third-order tensors. | 翻訳日:2023-08-04 14:30:05 公開日:2023-08-03 |
# 経済非線形mpcのためのkoopmanモデルのエンドツーエンド強化学習 End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear MPC ( http://arxiv.org/abs/2308.01674v1 ) ライセンス: Link先を確認 | Daniel Mayfrank, Alexander Mitsos, Manuel Dahmen | (参考訳) (経済)非線形モデル予測制御((e)NMPC)は、すべての状態空間領域において十分に正確な動的システムモデルを必要とする。
これらのモデルは、リアルタイムのトラクタビリティを確保するのに十分な計算コストも必要である。
機械モデルのためのデータ駆動サーロゲートモデルは、(e)nmpcの計算負荷を軽減するために用いられるが、シミュレーションサンプルにおける最大平均予測精度のためにシステム同定によって訓練され、実際の(e)nmpcの一部として最適化される。
本稿では,(e)NMPCアプリケーションにおける動的サロゲートモデルのエンドツーエンド強化学習手法を提案する。
提案手法は, 確立された非線形連続発振タンク反応器モデルから導出した2つの応用について検証する。
最大予測精度パラダイムで訓練されたモデルと、強化学習を用いて訓練されたモデルフリーニューラルネットワークコントローラを用いて、制御性能をMPCと比較する。
本手法は,モデルフリーニューラルネットワークコントローラの性能に適合すると同時に,システム同定に基づくモデルよりも高い性能を発揮できることを示す。
さらに,mpcポリシが再トレーニングすることなく,制御設定の変更に対応できることを示す。 (Economic) nonlinear model predictive control ((e)NMPC) requires dynamic system models that are sufficiently accurate in all relevant state-space regions. These models must also be computationally cheap enough to ensure real-time tractability. Data-driven surrogate models for mechanistic models can be used to reduce the computational burden of (e)NMPC; however, such models are typically trained by system identification for maximum average prediction accuracy on simulation samples and perform suboptimally as part of actual (e)NMPC. We present a method for end-to-end reinforcement learning of dynamic surrogate models for optimal performance in (e)NMPC applications, resulting in predictive controllers that strike a favorable balance between control performance and computational demand. We validate our method on two applications derived from an established nonlinear continuous stirred-tank reactor model. We compare the controller performance to that of MPCs utilizing models trained by the prevailing maximum prediction accuracy paradigm, and model-free neural network controllers trained using reinforcement learning. We show that our method matches the performance of the model-free neural network controllers while consistently outperforming models derived from system identification. Additionally, we show that the MPC policies can react to changes in the control setting without retraining. | 翻訳日:2023-08-04 14:28:53 公開日:2023-08-03 |
# 肥満モニタリングのための臨床記録のChatGPTテキストマイニングの評価 Evaluating ChatGPT text-mining of clinical records for obesity monitoring ( http://arxiv.org/abs/2308.01666v1 ) ライセンス: Link先を確認 | Ivo S. Fins (1), Heather Davies (1), Sean Farrell (2), Jose R.Torres (3), Gina Pinchbeck (1), Alan D. Radford (1), Peter-John Noble (1) ((1) Small Animal Veterinary Surveillance Network, Institute of Infection, Veterinary and Ecological Sciences, University of Liverpool, Liverpool, UK, (2) Department of Computer Science, Durham University, Durham, UK, (3) Institute for Animal Health and Food Safety, University of Las Palmas de Gran Canaria, Las Palmas, Canary Archipelago, Spain) | (参考訳) 背景: 獣医学的物語は、複雑な疾患に対処するためのほとんど未解決の資源である。
ここでは,大型言語モデル (ChatGPT) と以前に開発された正規表現 (RegexT) を用いて,獣医学的物語における肥満体調スコア (BCS) を同定する能力を比較する。
方法: BCSの値は、RegexTまたはChatGPTに送信されたプロンプトに物語を付加することにより、匿名化された臨床物語4,415件から抽出された。
データは比較のために手動でレビューされた。
結果:chatgpt (89.3%, 95% ci82.75-93.64%) よりもレジストの精度 (100%, 95% ci 94.81-100%) が高かった。
しかし、ChatGPT(100%.95% CI 96.18-100%)のリコールはRegexT(72.6%、95% CI 63.92-79.94%)よりもかなり高かった。
限界:ChatGPT出力を改善するためには、サブセットプロンプトエンジニアリングが必要である。
結論: 大きな言語モデルは多様な機会を生み出し、複雑ではあるが情報に対する直感的なインターフェースを示すが、予測不能なエラーを避けるために注意深く実装する必要がある。 Background: Veterinary clinical narratives remain a largely untapped resource for addressing complex diseases. Here we compare the ability of a large language model (ChatGPT) and a previously developed regular expression (RegexT) to identify overweight body condition scores (BCS) in veterinary narratives. Methods: BCS values were extracted from 4,415 anonymised clinical narratives using either RegexT or by appending the narrative to a prompt sent to ChatGPT coercing the model to return the BCS information. Data were manually reviewed for comparison. Results: The precision of RegexT was higher (100%, 95% CI 94.81-100%) than the ChatGPT (89.3%; 95% CI82.75-93.64%). However, the recall of ChatGPT (100%. 95% CI 96.18-100%) was considerably higher than that of RegexT (72.6%, 95% CI 63.92-79.94%). Limitations: Subtle prompt engineering is needed to improve ChatGPT output. Conclusions: Large language models create diverse opportunities and, whilst complex, present an intuitive interface to information but require careful implementation to avoid unpredictable errors. | 翻訳日:2023-08-04 14:28:08 公開日:2023-08-03 |
# スケーリングの削減 リアルタイム結合クラスタ理論 Reduced Scaling Real-Time Coupled Cluster Theory ( http://arxiv.org/abs/2308.01664v1 ) ライセンス: Link先を確認 | Benjamin G. Peyton, Zhe Wang, and T. Daniel Crawford | (参考訳) 実時間結合クラスタ法(Real-time coupled cluster, CC)は周波数領域に対していくつかの利点がある。
広帯域スペクトル、強磁場、パルス操作により、周波数領域アプローチでは到達できない複雑な分光のシミュレーションが可能になる。
高階多項式スケーリングのため、CC残差式に必要な時間プロパゲーションは計算に要求されるプロセスである。
このスケーリングは、ユーザ定義のパラメータに従って切り換えることで(仮想)軌道空間のサイズを減らすことを目的とした、局所相関スキームによって削減される可能性がある。
実時間CCに対する局所相関の最初の応用について述べる。
従来の局所相関周波数領域CCの研究と同様に、従来の局所相関スキームはフィールド依存特性の限定効用であるが、摂動認識スキームは有望である。
振幅力学の詳細な解析は、波動関数の間隔の強い時間依存性が主な課題であることを示している。 Real-time coupled cluster (CC) methods have several advantages over their frequency-domain counterparts, namely, response and equation of motion CC theories. Broadband spectra, strong fields, and pulse manipulation allow for the simulation of complex spectroscopies which are unreachable using frequency-domain approaches. Due to the high-order polynomial scaling, the required numerical time-propagation of the CC residual expressions is a computationally demanding process. This scaling may be reduced by local correlation schemes, which aim to reduce the size of the (virtual) orbital space by truncating it according to user-defined parameters. We present the first application of local correlation to real-time CC. As in previous studies of locally correlated frequency-domain CC, traditional local correlation schemes are of limited utility for field-dependent properties; however, a perturbation-aware scheme proves promising. A detailed analysis of the amplitude dynamics suggests the main challenge is a strong time-dependence of the wave function sparsity. | 翻訳日:2023-08-04 14:27:42 公開日:2023-08-03 |
# BEVControl: BEVスケッチレイアウトによる多視点一貫性によるストリートビュー要素の正確な制御 BEVControl: Accurately Controlling Street-view Elements with Multi-perspective Consistency via BEV Sketch Layout ( http://arxiv.org/abs/2308.01661v1 ) ライセンス: Link先を確認 | Kairui Yang, Enhui Ma, Jibin Peng, Qing Guo, Di Lin, Kaicheng Yu | (参考訳) 合成画像を用いて知覚モデルの性能を高めることは、コンピュータビジョンにおける長年の研究課題である。
ロングテールのシナリオは収集できないため、マルチビューカメラを備えた視覚中心の自動運転システムではより魅力的なものになる。
bevのセグメンテーションレイアウトに導かれた既存の生成ネットワークは、シーンレベルのメトリクスのみに基づいて評価すると、フォトリアリスティックなストリートビュー画像を合成するように見える。
しかし、ズームインすると、通常は正確な前景や、方向などの背景の詳細を生成できない。
そこで本研究では,前景と背景コンテンツを高精度に生成できる2段階生成法bevcontrolを提案する。
セグメンテーションのような入力とは対照的に、スケッチスタイルの入力もサポートしている。
さらに,生成シーン,フォアグラウンドオブジェクト,背景幾何の質を十分に比較するための総合的多レベル評価プロトコルを提案する。
我々のBEVControlは最先端の手法であるBEVGenを5.89から26.80の差で上回っている。
また,bevcontrol が生成した画像を用いて下流知覚モデルのトレーニングを行い,平均 1.29 の nds スコア向上を達成した。 Using synthesized images to boost the performance of perception models is a long-standing research challenge in computer vision. It becomes more eminent in visual-centric autonomous driving systems with multi-view cameras as some long-tail scenarios can never be collected. Guided by the BEV segmentation layouts, the existing generative networks seem to synthesize photo-realistic street-view images when evaluated solely on scene-level metrics. However, once zoom-in, they usually fail to produce accurate foreground and background details such as heading. To this end, we propose a two-stage generative method, dubbed BEVControl, that can generate accurate foreground and background contents. In contrast to segmentation-like input, it also supports sketch style input, which is more flexible for humans to edit. In addition, we propose a comprehensive multi-level evaluation protocol to fairly compare the quality of the generated scene, foreground object, and background geometry. Our extensive experiments show that our BEVControl surpasses the state-of-the-art method, BEVGen, by a significant margin, from 5.89 to 26.80 on foreground segmentation mIoU. In addition, we show that using images generated by BEVControl to train the downstream perception model, it achieves on average 1.29 improvement in NDS score. | 翻訳日:2023-08-04 14:27:29 公開日:2023-08-03 |
# DiffColor:拡散モデルによる高忠実テキストガイド画像のカラー化に向けて DiffColor: Toward High Fidelity Text-Guided Image Colorization with Diffusion Models ( http://arxiv.org/abs/2308.01655v1 ) ライセンス: Link先を確認 | Jianxin Lin, Peng Xiao, Yijun Wang, Rongju Zhang, Xiangxiang Zeng | (参考訳) 最近のデータ駆動画像のカラー化手法は、不満足で不正確なオブジェクトレベルのカラー制御に苦しむ一方で、自動または参照ベースのカラー化を可能にしている。
これらの問題に対処するために,DiffColor という新しい手法を提案する。これは事前学習した拡散モデルのパワーを利用して,追加の入力を伴わずに,プロンプトテキストに条件付けされた鮮やかな色を復元する。
DiffColorは主に、生成色による色付けと、文脈内制御可能な色付けの2段階を含む。
具体的には,まず,事前学習したテキストから画像への変換モデルを微調整し,クリップベースのコントラスト損失を用いてカラー画像を生成する。
次に,カラー化画像とテキストプロンプトを整合させた最適化されたテキスト埋め込みと,高品質な画像再構成を可能にする微調整拡散モデルを得る。
本手法は,数回の反復で鮮やかで多彩な色を生成でき,対象言語ガイダンスとよく一致しながら構造や背景を維持できる。
さらに、本手法では、微調整なしでプロンプトテキストを変更して異なる色化結果を生成することができるため、オブジェクトレベルの制御可能な色化結果が得られる。
広範な実験とユーザー研究により、diffcolorは、視覚品質、色再現性、色付けオプションの多様性の観点から、以前の作品よりも優れていることが示されている。 Recent data-driven image colorization methods have enabled automatic or reference-based colorization, while still suffering from unsatisfactory and inaccurate object-level color control. To address these issues, we propose a new method called DiffColor that leverages the power of pre-trained diffusion models to recover vivid colors conditioned on a prompt text, without any additional inputs. DiffColor mainly contains two stages: colorization with generative color prior and in-context controllable colorization. Specifically, we first fine-tune a pre-trained text-to-image model to generate colorized images using a CLIP-based contrastive loss. Then we try to obtain an optimized text embedding aligning the colorized image and the text prompt, and a fine-tuned diffusion model enabling high-quality image reconstruction. Our method can produce vivid and diverse colors with a few iterations, and keep the structure and background intact while having colors well-aligned with the target language guidance. Moreover, our method allows for in-context colorization, i.e., producing different colorization results by modifying prompt texts without any fine-tuning, and can achieve object-level controllable colorization results. Extensive experiments and user studies demonstrate that DiffColor outperforms previous works in terms of visual quality, color fidelity, and diversity of colorization options. | 翻訳日:2023-08-04 14:27:05 公開日:2023-08-03 |
# 計測誘起臨界はトモグラフィ的に最適である Measurement-Induced Criticality is Tomographically Optimal ( http://arxiv.org/abs/2308.01653v1 ) ライセンス: Link先を確認 | Ahmed A. Akhtar, Hong-Ye Hu, Yi-Zhuang You | (参考訳) 単一量子ビットランダム射影計測と混合した2量子ビットランダムユニタリゲートの層からなるハイブリッド量子回路に基づくランダム化計測方式を用いた古典的なシャドウトモグラフィープロトコルを開発した。
ユニタリ進化の終わりまでに全ての測定を行う従来のプロトコルとは異なり、我々のプロトコルは量子進化を通して任意の時空位置で測定を行うことができる。
反復実験によるランダム回路実現を前提とした断続的な測定結果から元の量子状態を近似的に再構成する普遍的古典後処理戦略を提案する。
ハイブリッド量子回路の異なる測定速度で異なる観測値を求めるためのサンプルの複雑さについて検討した。
その結果, ハイブリッド回路が測定誘起遷移を行う場合, 試料複雑性は臨界測定速度において最適スケーリングを示すことがわかった。 We develop a classical shadow tomography protocol utilizing the randomized measurement scheme based on hybrid quantum circuits, which consist of layers of two-qubit random unitary gates mixed with single-qubit random projective measurements. Unlike conventional protocols that perform all measurements by the end of unitary evolutions, our protocol allows measurements to occur at any spacetime position throughout the quantum evolution. We provide a universal classical post-processing strategy to approximately reconstruct the original quantum state from intermittent measurement outcomes given the corresponding random circuit realizations over repeated experiments. We investigated the sample complexity for estimating different observables at different measurement rates of the hybrid quantum circuits. Our result shows that the sample complexity has an optimal scaling at the critical measurement rate when the hybrid circuit undergoes the measurement-induced transition. | 翻訳日:2023-08-04 14:26:39 公開日:2023-08-03 |
# 推論時間サンプリングによる予測不確かさの定量化 Quantification of Predictive Uncertainty via Inference-Time Sampling ( http://arxiv.org/abs/2308.01731v1 ) ライセンス: Link先を確認 | Katar\'ina T\'othov\'a, \v{L}ubor Ladick\'y, Daniel Thul, Marc Pollefeys, Ender Konukoglu | (参考訳) データ曖昧性による予測変動は、通常、不確実性の推定を興味のある変数として予測するために訓練された確率的能力を備えた専用モデルの構築によって対処されている。
これらのアプローチは、異なるアーキテクチャコンポーネントとトレーニングメカニズムを必要とし、制限的な仮定を含み、不正確な予測に対する高い信頼を示す。
本研究では,データあいまいさの予測不確かさを推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
アーキテクチャに依存しず、アーキテクチャやトレーニング手順を変更することなくフィードフォワード決定論的ネットワークに適用することができる。
画像および非画像入力データにおける回帰課題の実験は、多変量および多変量予測分布を生成する方法の能力を示し、推定不確かさと予測誤差との望ましい相関を示す。 Predictive variability due to data ambiguities has typically been addressed via construction of dedicated models with built-in probabilistic capabilities that are trained to predict uncertainty estimates as variables of interest. These approaches require distinct architectural components and training mechanisms, may include restrictive assumptions and exhibit overconfidence, i.e., high confidence in imprecise predictions. In this work, we propose a post-hoc sampling strategy for estimating predictive uncertainty accounting for data ambiguity. The method can generate different plausible outputs for a given input and does not assume parametric forms of predictive distributions. It is architecture agnostic and can be applied to any feed-forward deterministic network without changes to the architecture or training procedure. Experiments on regression tasks on imaging and non-imaging input data show the method's ability to generate diverse and multi-modal predictive distributions, and a desirable correlation of the estimated uncertainty with the prediction error. | 翻訳日:2023-08-04 14:19:06 公開日:2023-08-03 |
# 縦断・縦断クレーム数データのためのテレマティクス結合アクチュエータニューラルネットワーク Telematics Combined Actuarial Neural Networks for Cross-Sectional and Longitudinal Claim Count Data ( http://arxiv.org/abs/2308.01729v1 ) ライセンス: Link先を確認 | Francis Duval, Jean-Philippe Boucher, Mathieu Pigeon | (参考訳) 我々は,Mario W\'uthrich と Michael Merz が提案した,複合アクチュエータニューラルネットワーク (CANN) フレームワークに基づく自動車保険の断面的および縦断的クレーム数モデルを提案する。
CANNのアプローチは、一般化線形モデルのような古典的アクチュエータモデルとニューラルネットワークを組み合わせたものである。
このモデルのブレンドにより、古典的な回帰モデルとニューラルネットワーク部分からなる2成分モデルが得られる。
CANNモデルは両方のコンポーネントの強みを活用し、ニューラルネットワークによって提供される複雑な関係や相互作用を捉える柔軟性と能力を活用しながら、古典的なモデルから確かな基礎と解釈可能性を提供する。
提案モデルでは,古典的回帰部分に対してよく知られた対数線数回帰モデルと,ニューラルネットワーク部分に対して多層パーセプトロン(MLP)を用いる。
MLP部は、各保険ドライバーの運転挙動を特徴付けるベクトルとして与えられるテレマティクス駆動データを処理する。
断面データのポアソン分布と負二項分布に加えて,多変量負二項法(MVNB)仕様を用いてCANNモデルを訓練する手法を提案する。
これにより、同一の保険契約の契約間の依存を考慮に入れた縦断モデルを導入する。
本結果から,CANNモデルは手作業によるテレマティクス機能に依存する対数線形モデルに比べて優れた性能を示した。 We present novel cross-sectional and longitudinal claim count models for vehicle insurance built upon the Combined Actuarial Neural Network (CANN) framework proposed by Mario W\"uthrich and Michael Merz. The CANN approach combines a classical actuarial model, such as a generalized linear model, with a neural network. This blending of models results in a two-component model comprising a classical regression model and a neural network part. The CANN model leverages the strengths of both components, providing a solid foundation and interpretability from the classical model while harnessing the flexibility and capacity to capture intricate relationships and interactions offered by the neural network. In our proposed models, we use well-known log-linear claim count regression models for the classical regression part and a multilayer perceptron (MLP) for the neural network part. The MLP part is used to process telematics car driving data given as a vector characterizing the driving behavior of each insured driver. In addition to the Poisson and negative binomial distributions for cross-sectional data, we propose a procedure for training our CANN model with a multivariate negative binomial (MVNB) specification. By doing so, we introduce a longitudinal model that accounts for the dependence between contracts from the same insured. Our results reveal that the CANN models exhibit superior performance compared to log-linear models that rely on manually engineered telematics features. | 翻訳日:2023-08-04 14:18:52 公開日:2023-08-03 |
# 複雑な構造化医療タスクのための局所大規模言語モデル Local Large Language Models for Complex Structured Medical Tasks ( http://arxiv.org/abs/2308.01727v1 ) ライセンス: Link先を確認 | V. K. Cody Bumgardner, Aaron Mullen, Sam Armstrong, Caylin Hickey, and Jeff Talbert | (参考訳) 本稿では、大規模言語モデル(llm)の言語推論能力と、複雑なドメイン固有タスクに取り組むためのローカルトレーニングの利点を組み合わせたアプローチを提案する。
具体的には,病理報告から構造化条件コードを抽出し,そのアプローチを実証する。
提案手法は,特定の生成命令に応答し,構造化された出力を提供するように微調整できるローカルLLMを利用する。
著者らは、総記述、最終診断、条件コードを含む150万以上の未完の外科病理報告書のデータセットを収集した。
彼らはLLaMA、BERT、LongFormerなどの異なるモデルアーキテクチャを訓練し、その性能を評価した。
その結果,LLaMAに基づくモデルは,極めて精度が低いにもかかわらず,すべての評価指標においてBERTスタイルモデルよりも有意に優れていた。
LLaMAモデルは大規模なデータセットで特によく機能し、複雑なマルチラベルタスクを処理する能力を示した。
全体として本研究は,複雑なデータ抽出と分類を必要とする医療領域における潜在的応用を含む,アクセス可能なハードウェアを用いたドメイン固有タスクの実行にllmを活用するための効果的なアプローチを提案する。 This paper introduces an approach that combines the language reasoning capabilities of large language models (LLMs) with the benefits of local training to tackle complex, domain-specific tasks. Specifically, the authors demonstrate their approach by extracting structured condition codes from pathology reports. The proposed approach utilizes local LLMs, which can be fine-tuned to respond to specific generative instructions and provide structured outputs. The authors collected a dataset of over 150k uncurated surgical pathology reports, containing gross descriptions, final diagnoses, and condition codes. They trained different model architectures, including LLaMA, BERT and LongFormer and evaluated their performance. The results show that the LLaMA-based models significantly outperform BERT-style models across all evaluated metrics, even with extremely reduced precision. The LLaMA models performed especially well with large datasets, demonstrating their ability to handle complex, multi-label tasks. Overall, this work presents an effective approach for utilizing LLMs to perform domain-specific tasks using accessible hardware, with potential applications in the medical domain, where complex data extraction and classification are required. | 翻訳日:2023-08-04 14:18:27 公開日:2023-08-03 |
# インスタンスレベルのアノテーションのない3次元インスタンスセグメンテーション Weakly Supervised 3D Instance Segmentation without Instance-level Annotations ( http://arxiv.org/abs/2308.01721v1 ) ライセンス: Link先を確認 | Shichao Dong, Guosheng Lin | (参考訳) 3dセマンティックシーン理解タスクは、ディープラーニングの出現によって大きな成功を収めていますが、多くの場合、手作業で注釈付きのトレーニングデータを必要とします。
アノテーションコストを緩和するために,分類的意味ラベルのみを監督として必要とし,インスタンスレベルラベルを必要としない,最初の弱教師付き3dインスタンスセグメンテーション手法を提案する。
必要となる意味アノテーションは、密度または極端なスパース(例えば全点の0.02%)でもよい。
インスタンス関連の基盤がなくても、ポイントクラウドを生のフラグメントに分解し、最も自信のあるサンプルを見つけるためのアプローチを設計します。
さらに,マルチレベル形状認識対象性信号の学習にpseudoインスタンスを用いた再構成データセットを構築した。
非対称なオブジェクト推論アルゴリズムは、コアポイントと境界ポイントを異なる戦略で処理し、反復トレーニングを導くために高品質な擬似インスタンスラベルを生成する。
実験により,最近の完全教師あり手法と同等の結果が得られることを確認した。
分類的セマンティックラベルから擬似インスタンスラベルを生成することで,アノテーションコストの低減で既存の3Dインスタンスセグメンテーションの学習を支援することができる。 3D semantic scene understanding tasks have achieved great success with the emergence of deep learning, but often require a huge amount of manually annotated training data. To alleviate the annotation cost, we propose the first weakly-supervised 3D instance segmentation method that only requires categorical semantic labels as supervision, and we do not need instance-level labels. The required semantic annotations can be either dense or extreme sparse (e.g. 0.02% of total points). Even without having any instance-related ground-truth, we design an approach to break point clouds into raw fragments and find the most confident samples for learning instance centroids. Furthermore, we construct a recomposed dataset using pseudo instances, which is used to learn our defined multilevel shape-aware objectness signal. An asymmetrical object inference algorithm is followed to process core points and boundary points with different strategies, and generate high-quality pseudo instance labels to guide iterative training. Experiments demonstrate that our method can achieve comparable results with recent fully supervised methods. By generating pseudo instance labels from categorical semantic labels, our designed approach can also assist existing methods for learning 3D instance segmentation at reduced annotation cost. | 翻訳日:2023-08-04 14:18:09 公開日:2023-08-03 |
# 半導体量子ビットの2色ラビ制御 Bichromatic Rabi control of semiconductor qubits ( http://arxiv.org/abs/2308.01720v1 ) ライセンス: Link先を確認 | Valentin John, Francesco Borsoi, Zolt\'an Gy\"orgy, Chien-An Wang, G\'abor Sz\'echenyi, Floor van Riggelen, William I. L. Lawrie, Nico W. Hendrickx, Amir Sammak, Giordano Scappucci, Andr\'as P\'alyi, Menno Veldhorst | (参考訳) 電気駆動スピン共鳴は半導体スピン量子ビットを制御する強力な技術である。
しかし、大きなシステムでは、量子ビットアドレスとオフ共振駆動の課題に直面している。
量子ドットホールスピン量子ビットのコヒーレント二色ラビ制御を実証し、大きな量子ビット配列に対する空間選択的アプローチを提案する。
異なるゲート電極に同時マイクロ波バーストを印加することにより、アクスタークシフトに起因する多色共鳴線と共鳴反交差を観測する。
理論的な枠組みは実験データと一致し,バイクロマティック駆動の主要なメカニズムとしてインタードット運動を強調する。 Electrically-driven spin resonance is a powerful technique for controlling semiconductor spin qubits. However, it faces challenges in qubit addressability and off-resonance driving in larger systems. We demonstrate coherent bichromatic Rabi control of quantum dot hole spin qubits, offering a spatially-selective approach for large qubit arrays. By applying simultaneous microwave bursts to different gate electrodes, we observe multichromatic resonance lines and resonance anticrossings that are caused by the ac Stark shift. Our theoretical framework aligns with experimental data, highlighting interdot motion as the dominant mechanism for bichromatic driving. | 翻訳日:2023-08-04 14:17:48 公開日:2023-08-03 |
# ランダム二成分純状態の忠実性と絡み合い:洞察と応用 Fidelity and Entanglement of Random Bipartite Pure States: Insights and Applications ( http://arxiv.org/abs/2308.01714v1 ) ライセンス: Link先を確認 | George Biswas, Debasish Biswas, Anindya Biswas | (参考訳) 固定量子状態から典型的なランダム二成分純状態の忠実性と二成分の絡み合いについて検討した。
垂直軸上の忠実さと絡み合いをプロットすることにより, 得られたプロットが非一様分布を示し, 上界を持つことを観測した。
上界曲線の形状は、ランダムな純状態の忠実度を測定するために用いられる固定量子状態の絡み合いに依存する。
典型的なランダムな二成分量子ビットからランダムに選択された固定量子状態の平均忠実度は、狭い絡み合い範囲内で 0.250 である。
さらに, ランダムな純積状態を調べる場合, 固定された極接状態からの忠実度値は 0 から 0.5 の間で一様分布することがわかった。
この発見は、量子乱数生成器のようなシステムを採用する可能性を開く。
その結果,ランダムに選択された量子クディットからの典型的なランダムな純二成分クディットの平均忠実度は,狭いエンタングルメント範囲内でも一定であることがわかった。
これらの定数の値は、異なる次元の2成分quditに対して異なる。
この観察は、異なる次元の絡み合いと忠実性の間に一貫した関係があることを示唆する。 We investigated the fidelity of typical random bipartite pure states from a fixed quantum state and their bipartite entanglement. By plotting the fidelity and entanglement on perpendicular axes, we observed that the resulting plots exhibit non-uniform distributions and possess an upper bound. The shape of the upper bound curve depends on the entanglement of the fixed quantum state used to measure the fidelity of the random pure states. We find that the average fidelity of a randomly chosen fixed quantum state from typical random pure bipartite qubits is 0.250 within a narrow entanglement range. Furthermore, when investigating random pure product states, we find that their fidelity values from a fixed maximally entangled state are uniformly distributed between 0 and 0.5. This finding opens possibilities for employing such systems as quantum random number generators. Expanding our study to higher dimensional bipartite qudits, we find that the average fidelity of typical random pure bipartite qudits from a randomly chosen quantum qudit remains constant within a narrow entanglement range. The values of these constants are different for different dimensional bipartite qudits. This observation suggests a consistent relationship between entanglement and fidelity across different dimensions. | 翻訳日:2023-08-04 14:17:39 公開日:2023-08-03 |
# 1次元水素分子中の電子の局所絡み合い Local entanglement of electrons in 1D hydrogen molecule ( http://arxiv.org/abs/2308.01708v1 ) ライセンス: Link先を確認 | Ivan P. Christov | (参考訳) 一次元水素分子中の電子の量子エンタングルメントエントロピーは、2次元配置空間の適切な分割を用いて局所的に定量化される。
大域的および局所的絡み合いエントロピーは、核間距離を増加させると単調に増加するが、局所エントロピーは核間の中央でピークに達し、幅が減少する。
その結果、安定な水素分子が形成される核間距離において、量子エントロピーは特異性を示しず、エントロピーとエネルギー測度が関連する2つの電子間の相互作用に関して異なる感度を示すことが示された。
1つの説明として、量子エントロピーの計算は核間の距離を明示的に考慮していないが、エネルギー最小値がその距離に決定的に依存する総エネルギー計算とは対照的である。
数値的精度と時間依存の量子モンテカルロ計算は、密接な結果を示す。 The quantum entanglement entropy of the electrons in one-dimensional hydrogen molecule is quantified locally using an appropriate partitioning of the two-dimensional configuration space. Both the global and the local entanglement entropy exhibit a monotonic increase when increasing the inter-nuclear distance, while the local entropy remains peaked at the middle between the nuclei with its width decreasing. Our findings show that at the inter-nuclear distance where stable hydrogen molecule is formed, the quantum entropy shows no peculiarity thus indicating that the entropy and the energy measures display different sensitivity with respect to the interaction between the two electrons involved. One possible explanation is that the calculation of the quantum entropy does not account for explicitly the distance between the nuclei, which contrasts to the total energy calculation where the energy minimum depends decisively on that distance. The numerically exact and the time-dependent quantum Monte Carlo calculations show close results. | 翻訳日:2023-08-04 14:17:18 公開日:2023-08-03 |
# RGB-D顔表情認識のための蜂の局所位相量子化特徴選択 Bees Local Phase Quantization Feature Selection for RGB-D Facial Expressions Recognition ( http://arxiv.org/abs/2308.01700v1 ) ライセンス: Link先を確認 | Seyed Muhammad Hossein Mousavi and Atiye Ilanloo | (参考訳) 特徴選択は最適化問題として定義することができ、バイオインスパイアされたアルゴリズムによって解決される。
蜂アルゴリズム(BA)は特徴選択最適化タスクにおいて十分な性能を示す。
一方、局部位相量子化(LPQ)は周波数領域の特徴であり、深度画像の性能に優れる。
ここでは、イランのKinect Face Database(IKFDB)からRGB(カラー)とDepthイメージからLPQ機能を抽出した後、ビーズ機能選択アルゴリズムを適用し、最終分類タスクのために所望の機能を選択できる。
IKFDBはKinectセンサーV.2で記録され、顔と顔のマイクロ表現認識のために色と深度の画像を含んでいる。
ここでは怒り、喜び、驚き、嫌悪、恐怖の5つの表情が最終検証に使用される。
提案手法は,粒子群最適化 (pso) lpq, pca lpq, lasso lpq, just lpq機能, support vector machines (svm), k-nearest neighborhoodhood (knn), shallow neural network, and ensemble subspace knn を用いた分類タスクについて比較した。
得られた結果から,提案アルゴリズムの性能(99 % の精度)を他のアルゴリズムと比較した結果を得た。 Feature selection could be defined as an optimization problem and solved by bio-inspired algorithms. Bees Algorithm (BA) shows decent performance in feature selection optimization tasks. On the other hand, Local Phase Quantization (LPQ) is a frequency domain feature which has excellent performance on Depth images. Here, after extracting LPQ features out of RGB (colour) and Depth images from the Iranian Kinect Face Database (IKFDB), the Bees feature selection algorithm applies to select the desired number of features for final classification tasks. IKFDB is recorded with Kinect sensor V.2 and contains colour and depth images for facial and facial micro-expressions recognition purposes. Here five facial expressions of Anger, Joy, Surprise, Disgust and Fear are used for final validation. The proposed Bees LPQ method is compared with Particle Swarm Optimization (PSO) LPQ, PCA LPQ, Lasso LPQ, and just LPQ features for classification tasks with Support Vector Machines (SVM), K-Nearest Neighbourhood (KNN), Shallow Neural Network and Ensemble Subspace KNN. Returned results, show a decent performance of the proposed algorithm (99 % accuracy) in comparison with others. | 翻訳日:2023-08-04 14:17:02 公開日:2023-08-03 |
# メモリリプレイクラスインクリメンタル学習のためのバランスのとれた破壊-再構築ダイナミクス Balanced Destruction-Reconstruction Dynamics for Memory-replay Class Incremental Learning ( http://arxiv.org/abs/2308.01698v1 ) ライセンス: Link先を確認 | Yuhang Zhou, Jiangchao Yao, Feng Hong, Ya Zhang, and Yanfeng Wang | (参考訳) クラスインクリメンタル学習(cil)は、トレーニングされたモデルを新しいクラス(可塑性)で段階的に更新することを目的としている。
このゴールの最も困難な問題、すなわち破滅的な忘れ事に対処するために、主要なパラダイムは、メモリに保存された少数の古いサンプルクラスをリプレイすることで、古い知識を集約するメモリ再生 CIL である。
有効性にもかかわらず、メモリリプレイ CIL の固有の破壊・再構成のダイナミクスは本質的な制限であり、もし古い知識がひどく破壊されているなら、損失のない知識を再構築することは極めて困難である。
理論解析により, 過去の知識の破壊は, 現在の段階からのサンプルと記憶に蓄えられたサンプルの寄与のバランスをとることで効果的に軽減できることが示された。
この理論的な発見により,従来の知識の最大破壊度を低減し,より優れた知識再構築を実現するための,メモリ再生型CILのための新しいBDR(Balanced Destruction-Reconstruction Module)を提案する。
具体的には、古い知識と新しいクラスとのバランスを改善するために、提案したBDRモジュールは、異なるクラス間のトレーニングステータスのばらつきと、現在のフェーズとメモリからのサンプルの量不均衡の2つの要因を考慮に入れている。
これらの要因に基づいて学習中の勾配を動的に操作することにより、BDRは知識破壊を効果的に軽減し、知識再構築を改善することができる。
CILベンチマークの広範な実験により、BDRは軽量なプラグイン・アンド・プレイモジュールとして、既存の最先端手法の性能を大幅に向上し、優れた一般化を実現できることが示されている。 Class incremental learning (CIL) aims to incrementally update a trained model with the new classes of samples (plasticity) while retaining previously learned ability (stability). To address the most challenging issue in this goal, i.e., catastrophic forgetting, the mainstream paradigm is memory-replay CIL, which consolidates old knowledge by replaying a small number of old classes of samples saved in the memory. Despite effectiveness, the inherent destruction-reconstruction dynamics in memory-replay CIL are an intrinsic limitation: if the old knowledge is severely destructed, it will be quite hard to reconstruct the lossless counterpart. Our theoretical analysis shows that the destruction of old knowledge can be effectively alleviated by balancing the contribution of samples from the current phase and those saved in the memory. Motivated by this theoretical finding, we propose a novel Balanced Destruction-Reconstruction module (BDR) for memory-replay CIL, which can achieve better knowledge reconstruction by reducing the degree of maximal destruction of old knowledge. Specifically, to achieve a better balance between old knowledge and new classes, the proposed BDR module takes into account two factors: the variance in training status across different classes and the quantity imbalance of samples from the current phase and memory. By dynamically manipulating the gradient during training based on these factors, BDR can effectively alleviate knowledge destruction and improve knowledge reconstruction. Extensive experiments on a range of CIL benchmarks have shown that as a lightweight plug-and-play module, BDR can significantly improve the performance of existing state-of-the-art methods with good generalization. | 翻訳日:2023-08-04 14:16:39 公開日:2023-08-03 |
# LiDAR-Camera Panoptic Segmentation by Geometry-Consistent and Semantic-Awareアライメント LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and Semantic-Aware Alignment ( http://arxiv.org/abs/2308.01686v1 ) ライセンス: Link先を確認 | Zhiwei Zhang, Zhizhong Zhang, Qian Yu, Ran Yi, Yuan Xie and Lizhuang Ma | (参考訳) 3d panoptic segmentationは、セマンティックセグメンテーションとインスタンスセグメンテーションの両方を必要とする、難しい知覚タスクである。
この課題では、画像がテクスチャ、色、識別情報を豊富に提供でき、lidarデータを補完して性能向上が期待できるが、それらの融合は依然として困難な課題である。
そこで我々は,最初のLiDAR-Camera Panoptic SegmentationネットワークLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
1) センサ間の非同期問題に起因する座標不一致を校正する非同期補償画素アライメント(ACPA)モジュール
2) 1対1のポイントピクセルマッピングを1対1のセマンティクス関係に拡張する意味認識領域アライメント(sara)モジュール
3) Point-to-Voxel feature Propagation (PVP)モジュールは、ポイントクラウド全体の幾何学的および意味的な融合情報を統合する。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
大規模な定量的および定性的実験により,我々の新しい枠組みの有効性がさらに証明された。
コードはhttps://github.com/zhangzw12319/lcps.gitでリリースされる。 3D panoptic segmentation is a challenging perception task that requires both semantic segmentation and instance segmentation. In this task, we notice that images could provide rich texture, color, and discriminative information, which can complement LiDAR data for evident performance improvement, but their fusion remains a challenging problem. To this end, we propose LCPS, the first LiDAR-Camera Panoptic Segmentation network. In our approach, we conduct LiDAR-Camera fusion in three stages: 1) an Asynchronous Compensation Pixel Alignment (ACPA) module that calibrates the coordinate misalignment caused by asynchronous problems between sensors; 2) a Semantic-Aware Region Alignment (SARA) module that extends the one-to-one point-pixel mapping to one-to-many semantic relations; 3) a Point-to-Voxel feature Propagation (PVP) module that integrates both geometric and semantic fusion information for the entire point cloud. Our fusion strategy improves about 6.9% PQ performance over the LiDAR-only baseline on NuScenes dataset. Extensive quantitative and qualitative experiments further demonstrate the effectiveness of our novel framework. The code will be released at https://github.com/zhangzw12319/lcps.git. | 翻訳日:2023-08-04 14:16:09 公開日:2023-08-03 |
# 流通深層探査のための政策の袋 Bag of Policies for Distributional Deep Exploration ( http://arxiv.org/abs/2308.01759v1 ) ライセンス: Link先を確認 | Asen Nachkov and Luchen Li and Giulia Luise and Filippo Valdettaro and Aldo Faisal | (参考訳) 複雑な環境における効率的な探索は、強化学習(RL)の大きな課題である。
過去のトンプソンサンプリングに触発されたメカニズム、すなわち深層探査(deep exploration)と比較すると、分布rlの深層探査に焦点をあてている。
ここでは,本コピーの個体数を維持することにより,返却分布推定器上に構築可能な汎用的手法であるBag of Policies(BoP)を開発する。
BoPは独立して更新される複数のヘッドのアンサンブルで構成されている。
訓練中、各エピソードは1つの頭だけによって制御され、収集された状態-アクションペアはすべての頭オフポリシーを更新するために使用され、各頭ごとに異なる学習信号が作られ、学習と行動が多様化する。
スカラーrlの場合のように楽観的アンサンブル法が分布rlを改善できるかどうかを,例えばブートストラップdqnを用いて検証するため,ベイズ分布政策勾配(bdpg)を用いた分布アクター-クリティックの集団でbopアプローチを実装した。
したがって、人口は政策の後方分布とともに回帰分布の後方分布を近似する。
BDPG上に構築するもう1つの利点は、グローバルな後部不確実性と、探索のための局所的好奇性ボーナスを同時に分析できることである。
BDPGはすでに楽観的な方法であるため、このペアリングは分布 RL において楽観主義が累積可能かどうかを調べるのに役立つ。
総合的なBoPはALE Atariゲームにおける実験結果より,学習時の堅牢性や速度が向上する。 Efficient exploration in complex environments remains a major challenge for reinforcement learning (RL). Compared to previous Thompson sampling-inspired mechanisms that enable temporally extended exploration, i.e., deep exploration, we focus on deep exploration in distributional RL. We develop here a general purpose approach, Bag of Policies (BoP), that can be built on top of any return distribution estimator by maintaining a population of its copies. BoP consists of an ensemble of multiple heads that are updated independently. During training, each episode is controlled by only one of the heads and the collected state-action pairs are used to update all heads off-policy, leading to distinct learning signals for each head which diversify learning and behaviour. To test whether optimistic ensemble method can improve on distributional RL as did on scalar RL, by e.g. Bootstrapped DQN, we implement the BoP approach with a population of distributional actor-critics using Bayesian Distributional Policy Gradients (BDPG). The population thus approximates a posterior distribution of return distributions along with a posterior distribution of policies. Another benefit of building upon BDPG is that it allows to analyze global posterior uncertainty along with local curiosity bonus simultaneously for exploration. As BDPG is already an optimistic method, this pairing helps to investigate if optimism is accumulatable in distributional RL. Overall BoP results in greater robustness and speed during learning as demonstrated by our experimental results on ALE Atari games. | 翻訳日:2023-08-04 14:10:47 公開日:2023-08-03 |
# neural collapse terminus:クラスインクリメンタル学習とその変種のための統合ソリューション Neural Collapse Terminus: A Unified Solution for Class Incremental Learning and Its Variants ( http://arxiv.org/abs/2308.01746v1 ) ライセンス: Link先を確認 | Yibo Yang, Haobo Yuan, Xiangtai Li, Jianlong Wu, Lefei Zhang, Zhouchen Lin, Philip Torr, Dacheng Tao, Bernard Ghanem | (参考訳) 古いクラスで機能を維持しながら新しいクラスを学習しやすくする方法は、クラスインクリメンタルラーニングにとって重要な課題である。
通常のケース以外では,データ不均衡とデータ不足を考慮し,破滅的忘れ込みの問題をさらに悪化させるために,長期クラスインクリメンタルラーニングと少ショットクラスインクリメンタルラーニングも提案されている。
3つのタスクのうちの1つに、既存のメソッドが特に提案されている。
本稿では,3つの課題における不整合ジレンマに対する統一解を提案する。
具体的には、ラベル空間全体の最大等角的クラス間分離を有する固定構造である神経崩壊終端を提案する。
インクリメンタルなトレーニングを通じて一貫したターゲットとして機能し、インクリメンタルな機能領域の分割を避ける。
さらに, CIL と LTCIL に対して, バックボーンの特徴をスムーズに神経崩壊終端へ押し込む手法を提案する。
また,本手法は小適応のみでFSCILでも有効である。
理論的解析により,データ不均衡やデータ不足によらず,神経崩壊最適性を漸進的に維持することが示唆された。
また,本手法の一般化可能性をテストするために,クラス総数やデータ分布が通常のものなのか,ロングテールなのか,あるいは数ショットなのかを知らない汎用ケースを設計する。
3つのタスクすべてに対する統一ソリューションの有効性と汎用的なケースを実証するために,複数のデータセットを用いた広範な実験を行った。 How to enable learnability for new classes while keeping the capability well on old classes has been a crucial challenge for class incremental learning. Beyond the normal case, long-tail class incremental learning and few-shot class incremental learning are also proposed to consider the data imbalance and data scarcity, respectively, which are common in real-world implementations and further exacerbate the well-known problem of catastrophic forgetting. Existing methods are specifically proposed for one of the three tasks. In this paper, we offer a unified solution to the misalignment dilemma in the three tasks. Concretely, we propose neural collapse terminus that is a fixed structure with the maximal equiangular inter-class separation for the whole label space. It serves as a consistent target throughout the incremental training to avoid dividing the feature space incrementally. For CIL and LTCIL, we further propose a prototype evolving scheme to drive the backbone features into our neural collapse terminus smoothly. Our method also works for FSCIL with only minor adaptations. Theoretical analysis indicates that our method holds the neural collapse optimality in an incremental fashion regardless of data imbalance or data scarcity. We also design a generalized case where we do not know the total number of classes and whether the data distribution is normal, long-tail, or few-shot for each coming session, to test the generalizability of our method. Extensive experiments with multiple datasets are conducted to demonstrate the effectiveness of our unified solution to all the three tasks and the generalized case. | 翻訳日:2023-08-04 14:10:19 公開日:2023-08-03 |
# レグレットのないマルチタスク学習:信頼境界の改善からアクティブラーニングへ Multitask Learning with No Regret: from Improved Confidence Bounds to Active Learning ( http://arxiv.org/abs/2308.01744v1 ) ライセンス: Link先を確認 | Pier Giuseppe Sessa, Pierre Laforgue, Nicol\`o Cesa-Bianchi, Andreas Krause | (参考訳) マルチタスク学習は、情報を共有することで複数の関連するタスクを同時に学習することを可能にする強力なフレームワークである。
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
本研究では,タスク間の類似性やタスクの特徴が学習者に利用できない場合に,課題非依存の設定において,新しいマルチタスク信頼区間を提供する。
得られたインターバルは、i.d.データを必要としないので、オンライン学習における後悔に直接適用することができる。
マルチタスク情報ゲインの洗練された解析により、タスク類似度パラメータによってタスクを個別に扱うよりも大幅に改善できるという新たな後悔の保証を得る。
さらに,前もってこのパラメータを知らずに改善された後悔,すなわちタスクの類似性に自動的に適応する新しいオンライン学習アルゴリズムを提案する。
第2の応用として,複数のタスクを同時に最適化する必要があるが,各ラウンドの学習者からフィードバックを受けられるのは1つのタスクのみである,新たなマルチタスクアクティブラーニング設定を提案する。
この問題に対して,我々は信頼区間を用いて検索すべきタスクを決定するノーレグレットアルゴリズムを設計した。
最後に,合成および実世界データ(ドラッグ発見)の限界とアルゴリズムを実証的に検証する。 Multitask learning is a powerful framework that enables one to simultaneously learn multiple related tasks by sharing information between them. Quantifying uncertainty in the estimated tasks is of pivotal importance for many downstream applications, such as online or active learning. In this work, we provide novel multitask confidence intervals in the challenging agnostic setting, i.e., when neither the similarity between tasks nor the tasks' features are available to the learner. The obtained intervals do not require i.i.d. data and can be directly applied to bound the regret in online learning. Through a refined analysis of the multitask information gain, we obtain new regret guarantees that, depending on a task similarity parameter, can significantly improve over treating tasks independently. We further propose a novel online learning algorithm that achieves such improved regret without knowing this parameter in advance, i.e., automatically adapting to task similarity. As a second key application of our results, we introduce a novel multitask active learning setup where several tasks must be simultaneously optimized, but only one of them can be queried for feedback by the learner at each round. For this problem, we design a no-regret algorithm that uses our confidence intervals to decide which task should be queried. Finally, we empirically validate our bounds and algorithms on synthetic and real-world (drug discovery) data. | 翻訳日:2023-08-04 14:09:51 公開日:2023-08-03 |
# CFDとベイズ最適化を用いた大型ガスエンジンプレチャンバの最適設計 Finding the Optimum Design of Large Gas Engines Prechambers Using CFD and Bayesian Optimization ( http://arxiv.org/abs/2308.01743v1 ) ライセンス: Link先を確認 | Stefan Posch, Clemens G\"o{\ss}nitzer, Franz Rohrhofer, Bernhard C. Geiger, Andreas Wimmer | (参考訳) プレシャンバを用いた乱流噴流着火の概念は、大型ガスエンジンのリーン条件下での安定した燃焼を実現するための有望な解であり、低排出レベルの高効率を実現する。
大型ガスエンジンのプリチャンバの設計および運転パラメータが幅広いため、試験ベッド測定の試験は時間と費用がかかるため、異なる設計を評価するための好ましい方法は計算流体力学(CFD)である。
しかし、基礎となる物理学を解く複雑さのため、詳細なCFDシミュレーションに必要な計算時間も大幅に制限される。
現在のような最適化設定では、目的関数(s)の評価が計算にコストがかかるため、ベイズ最適化は古典的な実験設計に置き換わっている。
そこで本研究では,cfdシミュレーションを用いた大型ガスエンジンプレチャンバ設計の計算効率の高いベイズ最適化について述べる。
Reynolds-averaged-Navier-Stokesシミュレーションを用いて、選択した事前設計パラメータの関数としてターゲット値を決定する。
その結果、選択した戦略は、所望の目標値を達成する事前設計を見つけるのに有効であることが示唆された。 The turbulent jet ignition concept using prechambers is a promising solution to achieve stable combustion at lean conditions in large gas engines, leading to high efficiency at low emission levels. Due to the wide range of design and operating parameters for large gas engine prechambers, the preferred method for evaluating different designs is computational fluid dynamics (CFD), as testing in test bed measurement campaigns is time-consuming and expensive. However, the significant computational time required for detailed CFD simulations due to the complexity of solving the underlying physics also limits its applicability. In optimization settings similar to the present case, i.e., where the evaluation of the objective function(s) is computationally costly, Bayesian optimization has largely replaced classical design-of-experiment. Thus, the present study deals with the computationally efficient Bayesian optimization of large gas engine prechambers design using CFD simulation. Reynolds-averaged-Navier-Stokes simulations are used to determine the target values as a function of the selected prechamber design parameters. The results indicate that the chosen strategy is effective to find a prechamber design that achieves the desired target values. | 翻訳日:2023-08-04 14:09:29 公開日:2023-08-03 |
# ラベル分布学習におけるマルチラベル相関の活用 Exploiting Multi-Label Correlation in Label Distribution Learning ( http://arxiv.org/abs/2308.01742v1 ) ライセンス: Link先を確認 | Zhiqiang Kou jing wang yuheng jia xin geng | (参考訳) ラベル分散学習(LDL)は、各インスタンスにラベル分布を割り当てる新しい機械学習パラダイムである。
学習過程におけるラベル相関を利用して指数関数サイズの出力空間を解き,ラベル分布の低ランク構造を利用してラベル相関を捉える方法が提案されている。
しかし、近年の研究では、ラベル分布行列は一般的にフルランクであり、低ランクのラベル相関を利用した作品に挑戦していることが明らかになっている。
マルチラベルは一般的に低ランクであり、低ランクのラベル相関はマルチラベル学習(mll)の文献で広く採用されている。
そこで本研究では,LCL に補助的な MLL プロセスを導入し,LCL よりも低ランクラベル相関を捉えた。
このように低ランクラベル相関を LDL 法で適切に活用する。
総合的な実験を行い,本手法が既存のldl法よりも優れていることを示す。
さらに, 補助MLLにおける低ランクラベル相関を有効利用することの利点について検討した。 Label Distribution Learning (LDL) is a novel machine learning paradigm that assigns label distribution to each instance. Many LDL methods proposed to leverage label correlation in the learning process to solve the exponential-sized output space; among these, many exploited the low-rank structure of label distribution to capture label correlation. However, recent studies disclosed that label distribution matrices are typically full-rank, posing challenges to those works exploiting low-rank label correlation. Note that multi-label is generally low-rank; low-rank label correlation is widely adopted in multi-label learning (MLL) literature. Inspired by that, we introduce an auxiliary MLL process in LDL and capture low-rank label correlation on that MLL rather than LDL. In such a way, low-rank label correlation is appropriately exploited in our LDL methods. We conduct comprehensive experiments and demonstrate that our methods are superior to existing LDL methods. Besides, the ablation studies justify the advantages of exploiting low-rank label correlation in the auxiliary MLL. | 翻訳日:2023-08-04 14:09:09 公開日:2023-08-03 |
# 大規模言語モデルを用いたサプライチェーン排出推定 Supply chain emission estimation using large language models ( http://arxiv.org/abs/2308.01741v1 ) ライセンス: Link先を確認 | Ayush Jain, Manikandan Padmanaban, Jagabondhu Hazra, Shantanu Godbole, Kommy Weldemariam | (参考訳) 大企業は、持続可能な開発目標(SDG)、特に気候変動とその影響と戦うことに焦点を当てた目標13を達成するための重要な衝動に直面している。
気候変動の影響を緩和するためには、企業スコープ3(サプライチェーンエミッション)の削減が不可欠であり、総排出量の90%以上を占める。
しかし、上下流の何千ものサプライヤーからデータを集めなければならないため、スコープ3排出量の追跡は困難であり、上記の課題に対処するため、我々は、購入した商品やサービスの代理として金融取引を利用することで、ドメイン対応nlpファウンデーションモデルを用いてスコープ3排出量を推定するファースト・オブ・ア・カウンセリング・フレームワークを提案する。
提案フレームワークの性能をtf-idf, word2vec, zero shot learningなどの最先端テキスト分類モデルと比較した。
その結果, ドメイン適応基礎モデルは, 最先端のテキストマイニング技術より優れ, 課題専門知識(SME)も優れていることがわかった。
提案手法は企業規模でのスコープ3の推定を加速し、sdg13を達成するための適切な気候措置を講じる。 Large enterprises face a crucial imperative to achieve the Sustainable Development Goals (SDGs), especially goal 13, which focuses on combating climate change and its impacts. To mitigate the effects of climate change, reducing enterprise Scope 3 (supply chain emissions) is vital, as it accounts for more than 90\% of total emission inventories. However, tracking Scope 3 emissions proves challenging, as data must be collected from thousands of upstream and downstream suppliers.To address the above mentioned challenges, we propose a first-of-a-kind framework that uses domain-adapted NLP foundation models to estimate Scope 3 emissions, by utilizing financial transactions as a proxy for purchased goods and services. We compared the performance of the proposed framework with the state-of-art text classification models such as TF-IDF, word2Vec, and Zero shot learning. Our results show that the domain-adapted foundation model outperforms state-of-the-art text mining techniques and performs as well as a subject matter expert (SME). The proposed framework could accelerate the Scope 3 estimation at Enterprise scale and will help to take appropriate climate actions to achieve SDG 13. | 翻訳日:2023-08-04 14:08:52 公開日:2023-08-03 |
# ガイド付きAPSFとグラディエント適応畳み込みを用いた夜間ヘイズ画像の可視性向上 Enhancing Visibility in Nighttime Haze Images Using Guided APSF and Gradient Adaptive Convolution ( http://arxiv.org/abs/2308.01738v1 ) ライセンス: Link先を確認 | Yeying Jin, Beibei Lin, Wending Yan, Wei Ye, Yuan Yuan and Robby T. Tan | (参考訳) 暗い夜のシーンの視認性は、低光度、激しい輝き、光散乱、多色光源の存在など、複数の要因によってしばしば低下する。
既存の夜間の消光法は、しばしば光や低照度の条件を扱うのに苦労し、過度に暗い視界または抑圧されていない光の出力をもたらす。
本稿では,明度を抑え,低照度領域を増大させることにより,夜間の暗視画像からの視認性を高める。
我々のフレームワークは、発光効果を扱うために、蛍光光対から学習する。
具体的には、夜間画像の光源を検出するために光源認識ネットワークを提案し、次にAPSF(Angular Point Spread Function)誘導光描画を行う。
私たちのフレームワークは、レンダリングされたイメージでトレーニングされ、グロー抑制につながります。
さらに,グラデーション適応畳み込みを利用して,エッジやテクスチャをぼんやりとしたシーンで捉える。
抽出されたエッジとテクスチャを活用することで,重要な構造的詳細を失うことなく,シーンのコントラストを高める。
低光強度を高めるために,ネットワークは注意マップを学習し,ガンマ補正によって調整する。
この注目は、低照度領域に高い値と、光沢領域に低い値を持つ。
リアルタイムヘイズ画像の広範囲評価を行い,本手法の有効性を実証した。
実験により,本手法のpsnrは30.72dbとなり,gta5 nighttime hazeデータセット上で14$\%$向上した。
私たちのデータとコードは、 \url{https://github.com/jinyeying/nighttime_dehaze} で利用可能です。 Visibility in hazy nighttime scenes is frequently reduced by multiple factors, including low light, intense glow, light scattering, and the presence of multicolored light sources. Existing nighttime dehazing methods often struggle with handling glow or low-light conditions, resulting in either excessively dark visuals or unsuppressed glow outputs. In this paper, we enhance the visibility from a single nighttime haze image by suppressing glow and enhancing low-light regions. To handle glow effects, our framework learns from the rendered glow pairs. Specifically, a light source aware network is proposed to detect light sources of night images, followed by the APSF (Angular Point Spread Function)-guided glow rendering. Our framework is then trained on the rendered images, resulting in glow suppression. Moreover, we utilize gradient-adaptive convolution, to capture edges and textures in hazy scenes. By leveraging extracted edges and textures, we enhance the contrast of the scene without losing important structural details. To boost low-light intensity, our network learns an attention map, then adjusted by gamma correction. This attention has high values on low-light regions and low values on haze and glow regions. Extensive evaluation on real nighttime haze images, demonstrates the effectiveness of our method. Our experiments demonstrate that our method achieves a PSNR of 30.72dB, outperforming state-of-the-art methods by 14$\%$ on GTA5 nighttime haze dataset. Our data and code is available at: \url{https://github.com/jinyeying/nighttime_dehaze}. | 翻訳日:2023-08-04 14:08:27 公開日:2023-08-03 |
# MAP:クリックスルー率予測のためのモデルに依存しない事前学習フレームワーク MAP: A Model-agnostic Pretraining Framework for Click-through Rate Prediction ( http://arxiv.org/abs/2308.01737v1 ) ライセンス: Link先を確認 | Jianghao Lin, Yanru Qu, Wei Guo, Xinyi Dai, Ruiming Tang, Yong Yu, Weinan Zhang | (参考訳) パーソナライズされたオンラインサービスの普及に伴い、クリックスルー率(CTR)予測はますます注目を集め、研究されている。
CTR予測の最も顕著な特徴は、その多分野の分類データフォーマットと、大規模で日々成長するデータボリュームである。
大量のニューラルネットワークは、教師あり学習パラダイムの下で大量のデータを消化するのに役立つが、1ビットのクリック信号がモデルに特徴やインスタンスの有能な表現を学習させるのに十分ではないため、実質的なデータを最大限に活用できない。
自己教師型学習パラダイムは、大量のユーザクリックログをより活用し、より一般化され効果的な表現を学ぶために、より有望なプレトレーニング・ファインチューンソリューションを提供する。
しかし、CTR予測のための自己教師型学習は、現時点では予備的かつ初歩的なものであるため、まだ未解決の課題である。
そこで本研究では,マルチフィールド分類データに特徴劣化とリカバリを適用したMAP(Model-Agnostic Pretraining)フレームワークを提案し,より具体的には,マスク特徴予測(MFP)と代用特徴検出(RFD)の2つの実用的なアルゴリズムを導出する。
MFPはマスキングと少数の入力特徴の予測を通じて各インスタンス内の機能インタラクションを掘り下げ、大きな特徴空間を扱うためにノイズコントラスト推定(NCE)を導入している。
RFDはさらにMFPをバイナリ分類モードにし、入力特徴の変化を置き換え、検出することで、CTR事前訓練をよりシンプルに、より効果的にする。
2つの実世界の大規模データセット(例えばAvazu,Criteo)に関する大規模な実験では、複数の強力なバックボーン(例えばDCNv2, DeepFM)上でこれらの2つの手法の利点を実証し、CTR予測の有効性と効率性の両面から新しい最先端性能を実現する。 With the widespread application of personalized online services, click-through rate (CTR) prediction has received more and more attention and research. The most prominent features of CTR prediction are its multi-field categorical data format, and vast and daily-growing data volume. The large capacity of neural models helps digest such massive amounts of data under the supervised learning paradigm, yet they fail to utilize the substantial data to its full potential, since the 1-bit click signal is not sufficient to guide the model to learn capable representations of features and instances. The self-supervised learning paradigm provides a more promising pretrain-finetune solution to better exploit the large amount of user click logs, and learn more generalized and effective representations. However, self-supervised learning for CTR prediction is still an open question, since current works on this line are only preliminary and rudimentary. To this end, we propose a Model-agnostic pretraining (MAP) framework that applies feature corruption and recovery on multi-field categorical data, and more specifically, we derive two practical algorithms: masked feature prediction (MFP) and replaced feature detection (RFD). MFP digs into feature interactions within each instance through masking and predicting a small portion of input features, and introduces noise contrastive estimation (NCE) to handle large feature spaces. RFD further turns MFP into a binary classification mode through replacing and detecting changes in input features, making it even simpler and more effective for CTR pretraining. Our extensive experiments on two real-world large-scale datasets (i.e., Avazu, Criteo) demonstrate the advantages of these two methods on several strong backbones (e.g., DCNv2, DeepFM), and achieve new state-of-the-art performance in terms of both effectiveness and efficiency for CTR prediction. | 翻訳日:2023-08-04 14:08:03 公開日:2023-08-03 |
# エンビエントアドベンチャー:複雑なストーリーの開発にchatgptを教える Ambient Adventures: Teaching ChatGPT on Developing Complex Stories ( http://arxiv.org/abs/2308.01734v1 ) ライセンス: Link先を確認 | Zexin Chen, Eric Zhou, Kenneth Eaton, Xiangyu Peng, Mark Riedl | (参考訳) 想像力のある遊びは、ロボットが周囲の世界とより人格的に関わり合うことができるような、創造性の領域である。
イマジナリープレイは、実際のオブジェクトや場所を取り、仮想シナリオにおける仮想オブジェクトや場所として使用するものとして見ることができる。
我々は,大言語モデル(llms)のストーリー生成機能を用いて,人間書きプロンプトによる想像上の遊びに用いるストーリーを得る。
生成されたストーリーは単純化され、アクションシーケンスにマッピングされ、エージェントを想像上の遊びで導くことができる。
エージェントが架空のプレイを成功させるかどうかを評価するために,エージェントが対話するための遊び場として家をシミュレートするテキストアドベンチャーゲームも設計した。 Imaginative play is an area of creativity that could allow robots to engage with the world around them in a much more personified way. Imaginary play can be seen as taking real objects and locations and using them as imaginary objects and locations in virtual scenarios. We adopted the story generation capability of large language models (LLMs) to obtain the stories used for imaginary play with human-written prompts. Those generated stories will be simplified and mapped into action sequences that can guide the agent in imaginary play. To evaluate whether the agent can successfully finish the imaginary play, we also designed a text adventure game to simulate a house as the playground for the agent to interact. | 翻訳日:2023-08-04 14:07:26 公開日:2023-08-03 |
# 企業記憶の進化における自己組織型知識アシスタントを目指して Towards Self-organizing Personal Knowledge Assistants in Evolving Corporate Memories ( http://arxiv.org/abs/2308.01732v1 ) ライセンス: Link先を確認 | Christian Jilek, Markus Schr\"oder, Heiko Maus, Sven Schwarz, Andreas Dengel | (参考訳) 本稿では,企業記憶の発展における自己組織型個人知識アシスタントに関する10年間の研究の振り返りを概観する。
私たちの研究は一般的に現実世界の問題に触発され、しばしば研究と産業パートナーとの学際的なコラボレーションで行われます。
我々は,個人情報管理(pim)と知識作業支援のための新しいアプローチとして,企業や個人の設定におけるナレッジグラフ構築のさまざまな方法,管理された忘れること,(自己組織化)コンテキスト空間などを含む過去の実験と結果を要約する。
これまでの結果は、関連する研究の概要と、まだ公表されていない最新の研究成果によって補完されている。
最後に、我々は、すでに生産的な研究に取り組んでおり、さらなる研究に挑戦しているCoMem(コーポレートメモリ)について、関連分野のユースケースの概要を紹介する。
多くのコントリビューションは、PIMの自動化と知識作業支援のさらなる向上に関して、まだ未完成のポテンシャルを持つ新しい方向への第一歩にすぎない。 This paper presents a retrospective overview of a decade of research in our department towards self-organizing personal knowledge assistants in evolving corporate memories. Our research is typically inspired by real-world problems and often conducted in interdisciplinary collaborations with research and industry partners. We summarize past experiments and results comprising topics like various ways of knowledge graph construction in corporate and personal settings, Managed Forgetting and (Self-organizing) Context Spaces as a novel approach to Personal Information Management (PIM) and knowledge work support. Past results are complemented by an overview of related work and some of our latest findings not published so far. Last, we give an overview of our related industry use cases including a detailed look into CoMem, a Corporate Memory based on our presented research already in productive use and providing challenges for further research. Many contributions are only first steps in new directions with still a lot of untapped potential, especially with regard to further increasing the automation in PIM and knowledge work support. | 翻訳日:2023-08-04 14:07:13 公開日:2023-08-03 |
# ポイント2マスク:最適輸送による点制御型パノプティックセグメンテーション Point2Mask: Point-supervised Panoptic Segmentation via Optimal Transport ( http://arxiv.org/abs/2308.01779v1 ) ライセンス: Link先を確認 | Wentong Li, Yuqian Yuan, Song Wang, Jianke Zhu, Jianshu Li, Jian Liu, Lei Zhang | (参考訳) 弱い教師付き画像セグメンテーションは最近、高価なピクセル単位のラベル付けを避けるために、研究の注目を集めている。
本稿では,ターゲット毎に1つのランダムポイントアノテーションのみを用いて,高品質なパノプティクス予測を実現するために,Point2Maskという効果的な手法を提案する。
具体的には,各グラウンドトルース(gt)点ラベルと画素サンプルをそれぞれラベルサプライヤーとコンシューマとして定義する,最適輸送(OT)問題としてパノプティック擬似マスク生成を定式化する。
導入したタスク指向マップによって輸送コストを算出し,対象物や対象物間のカテゴリやインスタンスの差異に着目した。
さらに,各gt点サプライヤの正確な単位数を設定するために,センタロイドに基づくスキームを提案する。
したがって、擬似マスク生成は、シンクホーン・ノック・イテレーションを通じて解決可能な、世界最小の輸送コストで最適な輸送計画を見つけるように変換される。
Pascal VOC と COCO の実験結果から,提案した Point2Mask アプローチの有望な性能を示す。
ソースコードはhttps://github.com/liwentomng/point2mask。 Weakly-supervised image segmentation has recently attracted increasing research attentions, aiming to avoid the expensive pixel-wise labeling. In this paper, we present an effective method, namely Point2Mask, to achieve high-quality panoptic prediction using only a single random point annotation per target for training. Specifically, we formulate the panoptic pseudo-mask generation as an Optimal Transport (OT) problem, where each ground-truth (gt) point label and pixel sample are defined as the label supplier and consumer, respectively. The transportation cost is calculated by the introduced task-oriented maps, which focus on the category-wise and instance-wise differences among the various thing and stuff targets. Furthermore, a centroid-based scheme is proposed to set the accurate unit number for each gt point supplier. Hence, the pseudo-mask generation is converted into finding the optimal transport plan at a globally minimal transportation cost, which can be solved via the Sinkhorn-Knopp Iteration. Experimental results on Pascal VOC and COCO demonstrate the promising performance of our proposed Point2Mask approach to point-supervised panoptic segmentation. Source code is available at: https://github.com/LiWentomng/Point2Mask. | 翻訳日:2023-08-04 13:59:33 公開日:2023-08-03 |
# 訂正は大規模言語モデルに残るのか? Does Correction Remain An Problem For Large Language Models? ( http://arxiv.org/abs/2308.01776v1 ) ライセンス: Link先を確認 | Xiaowu Zhang and Xiaotian Zhang and Cheng Yang and Hang Yan and Xipeng Qiu | (参考訳) GPTのような大規模言語モデルでは、自然言語処理(NLP)の能力が向上し続けているため、問題が発生する。
本稿では,2つの実験を行い,大規模言語モデルの文脈における補正の役割について検討する。
最初の実験では、誤り訂正のためのGPTのようなモデルを用いた数発の学習技術を用いて、単独のタスクとしての修正に焦点を当てた。
2つ目の実験は、修正の概念を他のnlpタスクの予備タスクとして検討し、大きな言語モデルが特定のレベルのノイズやエラーを含むテキストを許容し、適切に実行するかどうかを調べる。
これらの実験に対処することで、大規模な言語モデルの時代における修正の重要性と、その様々なNLP応用への応用について光を当てることを目指している。 As large language models, such as GPT, continue to advance the capabilities of natural language processing (NLP), the question arises: does the problem of correction still persist? This paper investigates the role of correction in the context of large language models by conducting two experiments. The first experiment focuses on correction as a standalone task, employing few-shot learning techniques with GPT-like models for error correction. The second experiment explores the notion of correction as a preparatory task for other NLP tasks, examining whether large language models can tolerate and perform adequately on texts containing certain levels of noise or errors. By addressing these experiments, we aim to shed light on the significance of correction in the era of large language models and its implications for various NLP applications. | 翻訳日:2023-08-04 13:59:10 公開日:2023-08-03 |
# 深層学習による動脈壁の応力・ひずみマップ予測による心血管リスク評価の改善 Deep Learning-based Prediction of Stress and Strain Maps in Arterial Walls for Improved Cardiovascular Risk Assessment ( http://arxiv.org/abs/2308.01771v1 ) ライセンス: Link先を確認 | Yasin Shokrollahi1, Pengfei Dong1, Xianqi Li, Linxia Gu | (参考訳) 本研究では,動脈壁の2次元断面における応力-ひずみ場予測におけるFEMの代替として,エンドツーエンドのディープラーニングツールの可能性を検討した。
まず,u-netを用いた完全畳み込みニューラルネットワーク(cnn)を提案し,動脈壁断面内の石灰化の空間的配置に基づくvon mises応力とひずみ分布の予測を行った。
さらに, 種々の石灰化量と空間構成を有する動脈壁の応力・ひずみ場マップの予測精度を, 特に知覚的観点から向上させる条件付き生成逆ネットワーク (cgan) を開発した。
u-net と cgan に加えて,フィールドマップの予測精度をさらに向上させるために,それぞれアンサンブル手法を提案した。
入力画像と出力画像からなるデータセットは,境界条件を実装し,応力ひずみ場マップを抽出することで生成された。
トレーニングされたu-netモデルでは、リザーブドテストセットにおいて、構造類似度スコア(ssim)0.854と0.830、平均2乗誤差0.017と0.018のvon mises応力とひずみ場を正確に予測することができる。
一方, アンサンブルと転写学習を組み合わせたcGANモデルでは, 応力の0.890, ひずみの0.803のSSIMスコアが示すように, フォン・ミセスの応力とひずみ場を予測する精度が高い。
さらに、応力が0.008、ひずみが0.017の2乗誤差は、指定されたテストセット上でのモデルの性能をさらに支持する。
本研究では,複雑なジオメトリや境界条件に関わらず,動脈壁の応力ひずみ場を正確にかつ効率的に予測できる有限要素解析のためのサーロゲートモデルを開発した。 This study investigated the potential of end-to-end deep learning tools as a more effective substitute for FEM in predicting stress-strain fields within 2D cross sections of arterial wall. We first proposed a U-Net based fully convolutional neural network (CNN) to predict the von Mises stress and strain distribution based on the spatial arrangement of calcification within arterial wall cross-sections. Further, we developed a conditional generative adversarial network (cGAN) to enhance, particularly from the perceptual perspective, the prediction accuracy of stress and strain field maps for arterial walls with various calcification quantities and spatial configurations. On top of U-Net and cGAN, we also proposed their ensemble approaches, respectively, to further improve the prediction accuracy of field maps. Our dataset, consisting of input and output images, was generated by implementing boundary conditions and extracting stress-strain field maps. The trained U-Net models can accurately predict von Mises stress and strain fields, with structural similarity index scores (SSIM) of 0.854 and 0.830 and mean squared errors of 0.017 and 0.018 for stress and strain, respectively, on a reserved test set. Meanwhile, the cGAN models in a combination of ensemble and transfer learning techniques demonstrate high accuracy in predicting von Mises stress and strain fields, as evidenced by SSIM scores of 0.890 for stress and 0.803 for strain. Additionally, mean squared errors of 0.008 for stress and 0.017 for strain further support the model's performance on a designated test set. Overall, this study developed a surrogate model for finite element analysis, which can accurately and efficiently predict stress-strain fields of arterial walls regardless of complex geometries and boundary conditions. | 翻訳日:2023-08-04 13:58:55 公開日:2023-08-03 |
# ノイズのないコンテンツに注目して:サイクガンのステガノグラフィ抑制による核セグメンテーションのための画像生成の改善 Focus on Content not Noise: Improving Image Generation for Nuclei Segmentation by Suppressing Steganography in CycleGAN ( http://arxiv.org/abs/2308.01769v1 ) ライセンス: Link先を確認 | Jonas Utz, Tobias Weise, Maja Schlereth, Fabian Wagner, Mareike Thies, Mingxuan Gu, Stefan Uderhardt, Katharina Breininger | (参考訳) ニューラルネットワークのトレーニングのための顕微鏡画像のアノテーティングは、専門家の知識を必要とし、特に蛍光顕微鏡において、星間および星間変動に苦しむ面倒な作業である。
cycleganのような生成ネットワークは、プロセスを反転させ、所定のマスクの合成顕微鏡画像を生成し、合成データセットを構築することができる。
しかし、過去の作品では、所望の画像内容のエンコードや対象課題の学習よりも、高頻度で画像再構成のためのショートカット情報を隠蔽して損失を最小化することで、マスクと生成画像との間のコンテンツの不一致を報告している。
本研究では,DCTに基づく低域通過フィルタリングを用いて,ステガノグラフィーと呼ばれる隠れショートカット情報を生成画像から除去することを提案する。
生成した画像と周期マスクのコヒーレンスを高め、下流核分割タスクにおける合成データセットを評価する。
ここでは,F1スコアの5.4ポイントをバニラサイクルGANと比較して改善する。
高度な正則化技術をCycleGANアーキテクチャに統合することは、ステガノグラフィーに関連する問題を緩和し、核分割のためのより正確な合成データセットを生成するのに役立つ。 Annotating nuclei in microscopy images for the training of neural networks is a laborious task that requires expert knowledge and suffers from inter- and intra-rater variability, especially in fluorescence microscopy. Generative networks such as CycleGAN can inverse the process and generate synthetic microscopy images for a given mask, thereby building a synthetic dataset. However, past works report content inconsistencies between the mask and generated image, partially due to CycleGAN minimizing its loss by hiding shortcut information for the image reconstruction in high frequencies rather than encoding the desired image content and learning the target task. In this work, we propose to remove the hidden shortcut information, called steganography, from generated images by employing a low pass filtering based on the DCT. We show that this increases coherence between generated images and cycled masks and evaluate synthetic datasets on a downstream nuclei segmentation task. Here we achieve an improvement of 5.4 percentage points in the F1-score compared to a vanilla CycleGAN. Integrating advanced regularization techniques into the CycleGAN architecture may help mitigate steganography-related issues and produce more accurate synthetic datasets for nuclei segmentation. | 翻訳日:2023-08-04 13:58:23 公開日:2023-08-03 |
# 多次元データ解析のための反射境界条件付きブロック畳み込みに基づく任意の順序のテンソル分解 A Novel Tensor Decomposition of arbitrary order based on Block Convolution with Reflective Boundary Conditions for Multi-Dimensional Data Analysis ( http://arxiv.org/abs/2308.01768v1 ) ライセンス: Link先を確認 | Mahdi Molavi, Mansoor Rezghi, and Tayyebeh Saeedi | (参考訳) テンソル分解は、元のフォーマットで多次元データを解析するための強力なツールである。
Tucker や CP のようなテンソル分解に加えて、テンソルの t-積に基づくテンソルSVD (t-SVD) は、最近開発されたテンソルへのSVDのもう一つの拡張であり、高次元データ解析に多くの応用を見出している。
本稿ではt-積に関する新たな知見を提供し、この積が周期的境界条件を持つ2つのテンソルのブロック畳み込みであることを示す。
この観点から、反射境界条件を持つブロック畳み込みに基づく$\star_c{}\text{-product}$と呼ばれる新しいテンソルテンソル製品を提案する。
テンソルフレームワークを使うことで、この積は任意の順序のテンソルに容易に拡張できる。
さらに、任意の順序テンソルに対して $\star_c{}\text{-Product}$ に基づいたテンソル分解を導入する。
t-svdと比較して,新しい分解は複雑さを低下させ,分類や圧縮などのアプリケーションにおいて高品質な結果が得られることを示した。 Tensor decompositions are powerful tools for analyzing multi-dimensional data in their original format. Besides tensor decompositions like Tucker and CP, Tensor SVD (t-SVD) which is based on the t-product of tensors is another extension of SVD to tensors that recently developed and has found numerous applications in analyzing high dimensional data. This paper offers a new insight into the t-Product and shows that this product is a block convolution of two tensors with periodic boundary conditions. Based on this viewpoint, we propose a new tensor-tensor product called the $\star_c{}\text{-Product}$ based on Block convolution with reflective boundary conditions. Using a tensor framework, this product can be easily extended to tensors of arbitrary order. Additionally, we introduce a tensor decomposition based on our $\star_c{}\text{-Product}$ for arbitrary order tensors. Compared to t-SVD, our new decomposition has lower complexity, and experiments show that it yields higher-quality results in applications such as classification and compression. | 翻訳日:2023-08-04 13:57:57 公開日:2023-08-03 |
# PoissonNet:フーリエニューラル演算子を用いた分解能非依存な3次元形状再構成 PoissonNet: Resolution-Agnostic 3D Shape Reconstruction using Fourier Neural Operators ( http://arxiv.org/abs/2308.01766v1 ) ライセンス: Link先を確認 | Hector Andrade-Loarca, Aras Bacho, Julius Hege, Gitta Kutyniok | (参考訳) ポイントから3次元形状を復元する難題に対処する形状再構成アーキテクチャであるPoissonNetを紹介する。
従来のディープニューラルネットワークは、高解像度での計算複雑性のため、一般的な3次元形状の離散化技術による課題に直面している。
これを解決するために、フーリエニューラル演算子(FNO)を用いて、ポアソン方程式を解き、配向点雲の測定からメッシュを再構築する。
PoissonNetには2つの大きな利点がある。
まず、FNOの分解能非依存性により、高分解能評価において同等の性能を達成しつつ、低分解能データの効率的なトレーニングを可能にする。
この機能はワンショットの超解像度を可能にする。
第2に,本手法は,既存手法の再構築品質を超越する手法である。
提案手法は, 形状再構成における古典的深層ニューラルネットワークの限界を改良するだけでなく, 再現性, 走行時間, 可視性などの点で, 優れた結果が得られる。
さらに,ポアソン方程式の解演算子に対する普遍近似定理をフーリエニューロン演算子を用いた分布データで示することにより,限界の場合のポアソン表面の再構成問題の有効性を実証する。
実験を再現するコードは、 \url{https://github.com/arsenal9971/poissonnet} で入手できる。 We introduce PoissonNet, an architecture for shape reconstruction that addresses the challenge of recovering 3D shapes from points. Traditional deep neural networks face challenges with common 3D shape discretization techniques due to their computational complexity at higher resolutions. To overcome this, we leverage Fourier Neural Operators (FNOs) to solve the Poisson equation and reconstruct a mesh from oriented point cloud measurements. PoissonNet exhibits two main advantages. First, it enables efficient training on low-resolution data while achieving comparable performance at high-resolution evaluation, thanks to the resolution-agnostic nature of FNOs. This feature allows for one-shot super-resolution. Second, our method surpasses existing approaches in reconstruction quality while being differentiable. Overall, our proposed method not only improves upon the limitations of classical deep neural networks in shape reconstruction but also achieves superior results in terms of reconstruction quality, running time, and resolution flexibility. Furthermore, we demonstrate that the Poisson surface reconstruction problem is well-posed in the limit case by showing a universal approximation theorem for the solution operator of the Poisson equation with distributional data utilizing the Fourier Neuronal Operator, which provides a theoretical foundation for our numerical results. The code to reproduce the experiments is available on: \url{https://github.com/arsenal9971/PoissonNet}. | 翻訳日:2023-08-04 13:57:37 公開日:2023-08-03 |
# 高絡み合いトーリックxyモデルの任意の子 Anyons in a highly-entangled toric xy model ( http://arxiv.org/abs/2308.01765v1 ) ライセンス: Link先を確認 | Milo Moses, Konrad Deka | (参考訳) 1989年にXiao-Gang Wenによって表面上は造られたが、1972年からはKosterlitz-Thoulessによって古典的xyモデルの振る舞いを記述するために"トポロジカル秩序"という言葉が使われてきた。
xyモデルは、非位相的 u(1) ゲージ作用の対象となるため、ウェンの位相次数を持たないことが指摘されている。
私たちはある意味でこれが唯一の障害であることを示している。
すなわち、xyモデルが量子的にゲージ不変状態へと進化すると、純粋な位相秩序が回復する。
実際、量子xy 位相次数は、群 G=Z に適用された北エフの量子二重模型の無限格子極限であることを示す。 While ostensibly coined in 1989 by Xiao-Gang Wen, the term "topological order" has been in use since 1972 by Kosterlitz-Thouless to describe the behavior of the classical xy model. It has been noted that the xy model does not have Wen's topological order since it is also subject a non-topological U(1) gauge action. We show in a sense this is the only obstruction. That is, if the xy model evolves quantumly into gauge invariant states then one recovers pure topological order. In fact, we show the quantum xy topological order is an infinite lattice limit of Kitaev's quantum double model applied to the group G=Z. | 翻訳日:2023-08-04 13:57:15 公開日:2023-08-03 |
# 加速光によるフォトニック絡み合い Photonic entanglement with accelerated light ( http://arxiv.org/abs/2308.01764v1 ) ライセンス: Link先を確認 | R. C. Souza Pimenta, G. H. dos Santos, A. B. Barreto, L. C. Celeri and P. H. Souto Ribeiro | (参考訳) 加速光はレーザー光と回折で実証されている。
回折場内では、例えば重力場によって加速されたような曲線軌道で伝播するビームエネルギーの大部分を運ぶ部分を特定することができる。
ここでは、自然パラメトリックダウンコンバージョンで発生する双対ビーム間の絡み合いに対するこの種の加速度の影響を解析する。
その結果, 加速度は理想的な条件下では絡み合いに大きく影響しないことがわかった。
導入された光学スキームは重力と量子物理学の境界における過程の理解に有用である。 Accelerated light has been demonstrated with laser light and diffraction. Within the diffracting field it is possible to identify a portion that carries most of the beam energy, which propagates in a curved trajectory as it would have been accelerated by a gravitational field for instance. Here, we analyze the effects of this kind of acceleration over the entanglement between twin beams produced in spontaneous parametric down-conversion. Our results show that acceleration does not affect entanglement significantly, under ideal conditions. The optical scheme introduced can be useful in the understanding of processes in the boundary between gravitation and quantum physics. | 翻訳日:2023-08-04 13:57:01 公開日:2023-08-03 |
# ジャナス面トモグラムと$q$変形状態の二次モーメントの検索 Janus-faced tomograms and retrieval of quadrature moments for $q$-deformed states ( http://arxiv.org/abs/2308.01763v1 ) ライセンス: Link先を確認 | S. Kannan and C. Sudheesh | (参考訳) この研究では、様々なq$変形量子状態の光学的トモグラムを導出する。
検討中の状態の光学トモグラフィーは, 変形パラメータ$q$に関わらず, 魅力的な「ヤヌス対面」特性を示すことがわかった。
我々はまた、任意の$q$変形状態の光トモグラムから二次モーメントを抽出する一般手法を導出した。
また, この手法は, 標準的な量子力学的挙動から偏差を観察するために, 高精度な実験に利用することができる。 In this work, we derive the optical tomograms of various $q$-deformed quantum states. We found that the optical tomograms of the states under consideration exhibit a fascinating `Janus faced' nature, irrespective of the deformation parameter $q$. We also derived a general method to extract the quadrature moments from the optical tomograms of any $q$-deformed states. We also note that this technique can be used in high-precision experiments to observe deviations from the standard quantum mechanical behavior. | 翻訳日:2023-08-04 13:56:53 公開日:2023-08-03 |
# NuInsSeg:H&E-Stained Histological ImageにおけるNuclei Instance Segmentationのための完全アノテーション付きデータセット NuInsSeg: A Fully Annotated Dataset for Nuclei Instance Segmentation in H&E-Stained Histological Images ( http://arxiv.org/abs/2308.01760v1 ) ライセンス: Link先を確認 | Amirreza Mahbod, Christine Polak, Katharina Feldmann, Rumsha Khan, Katharina Gelles, Georg Dorffner, Ramona Woitek, Sepideh Hatamikia, Isabella Ellinger | (参考訳) 計算病理学において、自動核インスタンスセグメンテーションは全スライド画像解析において必須の役割を果たす。
多くのコンピュータ化アプローチが提案されているが、教師付きディープラーニング(dl)法は、従来の機械学習や画像処理技術よりも優れたセグメンテーション性能を示している。
しかし、これらのモデルは、特に医療領域において、取得が困難なトレーニングのために完全に注釈付きデータセットが必要です。
本研究では,ヘマトキシリンとエオシン(H&E)による組織像(NuInsSeg)において,手動でアノテートされた最も大きな核のデータセットの1つを公表する。
このデータセットには、665の画像パッチが含まれており、31のヒトとマウスの臓器から3万以上の手作業で区切られた核がある。
さらに、データセット全体に対して、初めて、あいまいなエリアマスクを新たに提供します。
これらの曖昧な領域は、人間の専門家でさえ、正確で決定論的手動アノテーションが不可能な画像の一部を表す。
関連するセグメンテーションマスクを生成するためのデータセットと詳細なステップバイステップ命令は、https://www.kaggle.com/datasets/ipateam/nuinssegとhttps://github.com/masih4/NuInssegで公開されている。 In computational pathology, automatic nuclei instance segmentation plays an essential role in whole slide image analysis. While many computerized approaches have been proposed for this task, supervised deep learning (DL) methods have shown superior segmentation performances compared to classical machine learning and image processing techniques. However, these models need fully annotated datasets for training which is challenging to acquire, especially in the medical domain. In this work, we release one of the biggest fully manually annotated datasets of nuclei in Hematoxylin and Eosin (H&E)-stained histological images, called NuInsSeg. This dataset contains 665 image patches with more than 30,000 manually segmented nuclei from 31 human and mouse organs. Moreover, for the first time, we provide additional ambiguous area masks for the entire dataset. These vague areas represent the parts of the images where precise and deterministic manual annotations are impossible, even for human experts. The dataset and detailed step-by-step instructions to generate related segmentation masks are publicly available at https://www.kaggle.com/datasets/ipateam/nuinsseg and https://github.com/masih4/NuInsSeg, respectively. | 翻訳日:2023-08-04 13:56:42 公開日:2023-08-03 |
# テクスチャを融合した深層ニューラルネットワークによる画像分類 Deep Neural Networks Fused with Textures for Image Classification ( http://arxiv.org/abs/2308.01813v1 ) ライセンス: Link先を確認 | Asish Bera, Debotosh Bhattacharjee, and Mita Nasipuri | (参考訳) 細粒度画像分類 (fgic) は, サブカテゴリ間の視覚差が小さいが, クラス内変異が大きいため, コンピュータビジョンにおいて難しい課題である。
深層学習法はFGICの解法において顕著な成功を収めた。
本稿では,グローバルテクスチャと局所パッチ情報を組み合わせたFGICの融合手法を提案する。
最初のパイプラインは、様々な固定サイズの非重複パッチから深い特徴を抽出し、長い短期メモリ(LSTM)を使用して連続的なモデリングによって特徴を符号化する。
別のパスは、ローカルバイナリパターン(LBP)を使用して、複数のスケールで画像レベルのテクスチャを計算する。
両方のストリームの利点は、画像分類のための効率的な特徴ベクトルを表現するために統合される。
この方法は、ヒトの顔、皮膚病変、食品料理、海洋生物などを表す8つのデータセットで、4つの標準バックボーンcnnを用いてテストされる。
本手法は既存の手法よりも高い分類精度を実現している。 Fine-grained image classification (FGIC) is a challenging task in computer vision for due to small visual differences among inter-subcategories, but, large intra-class variations. Deep learning methods have achieved remarkable success in solving FGIC. In this paper, we propose a fusion approach to address FGIC by combining global texture with local patch-based information. The first pipeline extracts deep features from various fixed-size non-overlapping patches and encodes features by sequential modelling using the long short-term memory (LSTM). Another path computes image-level textures at multiple scales using the local binary patterns (LBP). The advantages of both streams are integrated to represent an efficient feature vector for image classification. The method is tested on eight datasets representing the human faces, skin lesions, food dishes, marine lives, etc. using four standard backbone CNNs. Our method has attained better classification accuracy over existing methods with notable margins. | 翻訳日:2023-08-04 13:50:38 公開日:2023-08-03 |
# 単眼画像からの形状再構成に基づく食品の終端位置推定フレームワーク An End-to-end Food Portion Estimation Framework Based on Shape Reconstruction from Monocular Image ( http://arxiv.org/abs/2308.01810v1 ) ライセンス: Link先を確認 | Zeman Shao, Gautham Vinod, Jiangpeng He, Fengqing Zhu | (参考訳) 食事アセスメントは健康状態のモニタリングに重要な貢献をする。
既存の自己報告手法は退屈で、重大なバイアスとエラーで時間がかかる。
画像に基づく食品部分推定は、食品画像から直接食品エネルギーの値を推定することを目的としており、自動食事評価ソリューションの可能性を示している。
既存の画像ベース手法では、単一ビューイメージを使用するか、複数ビューイメージと深度情報を組み込んで食品のエネルギーを推定する。
本稿では3次元形状再構成による単眼画像からの食品エネルギー推定のためのエンドツーエンドのディープラーニングフレームワークを提案する。
生成モデルを利用して、入力画像から食品オブジェクトのボクセル表現を再構成し、欠落した3D情報を復元する。
本手法は, 食品画像データセット nutrition5k 上で評価され, 平均絶対誤差 (mae) は 40.05 kcal, 平均絶対パーセンテージ誤差 (mape) は 11.47% である。
提案手法では,rgb画像のみを推論段階で入力し,rgb画像と深度情報の両方を必要とする既存手法と比較して競合結果を得る。 Dietary assessment is a key contributor to monitoring health status. Existing self-report methods are tedious and time-consuming with substantial biases and errors. Image-based food portion estimation aims to estimate food energy values directly from food images, showing great potential for automated dietary assessment solutions. Existing image-based methods either use a single-view image or incorporate multi-view images and depth information to estimate the food energy, which either has limited performance or creates user burdens. In this paper, we propose an end-to-end deep learning framework for food energy estimation from a monocular image through 3D shape reconstruction. We leverage a generative model to reconstruct the voxel representation of the food object from the input image to recover the missing 3D information. Our method is evaluated on a publicly available food image dataset Nutrition5k, resulting a Mean Absolute Error (MAE) of 40.05 kCal and Mean Absolute Percentage Error (MAPE) of 11.47% for food energy estimation. Our method uses RGB image as the only input at the inference stage and achieves competitive results compared to the existing method requiring both RGB and depth information. | 翻訳日:2023-08-04 13:50:21 公開日:2023-08-03 |
# ランダム化QAOA回路のエントロピー特性 Entropic property of randomized QAOA circuits ( http://arxiv.org/abs/2308.01807v1 ) ライセンス: Link先を確認 | Chernyavkiy A. Yu., Bantysh B. I | (参考訳) 量子近似最適化アルゴリズム (QAOA) は、パラメータ化量子回路を用いてビットストリングをサンプリングすることにより、いくつかのバイナリ目的関数を最小化する。
回路パラメータ(角度)を探索する一般的な最適化手法とは対照的に,ランダムに選択することを検討する。
このアプローチは、Max-Cutを含む2次非拘束スピン最適化(QUSO)問題に対して古典的アルゴリズムより優れているわけではないが、古典的ランダム探索よりも驚くほど有利である。
異なる目的値を得る確率分布を考えると、QUSO問題に対する確率パラメータ QAOA は常に古典的ランダム探索よりも高いエントロピーを与える。
また,分布解析式も提供する。 Quantum approximate optimization algorithm (QAOA) aims to minimize some binary objective function by sampling bitstrings using a parameterized quantum circuit. In contrast to common optimization-based methods for searching circuit parameters (angles), here we consider choosing them at random. Despite the fact that this approach does not outperform classical algorithms for quadratic unconstrained spin optimization (QUSO) problems, including Max-Cut, it surprisingly provides an advantage over the classical random search. Investigation of this effect has led us to the following conjecture: given the probability distribution of obtaining distinct objective values, random parameters QAOA for QUSO problems always gives a higher entropy of this distribution than the classical random search. We also provide an analytical expressions for the distribution. | 翻訳日:2023-08-04 13:49:59 公開日:2023-08-03 |
# quest: 車両-インフラ協調型知覚のためのクエリストリーム QUEST: Query Stream for Vehicle-Infrastructure Cooperative Perception ( http://arxiv.org/abs/2308.01804v1 ) ライセンス: Link先を確認 | Siqi Fan, Haibao Yu, Wenxian Yang, Jirui Yuan, Zaiqing Nie | (参考訳) 協調的知覚は、追加の視点を与え、センシング領域を拡大することにより、個人知覚性能を効果的に向上することができる。
既存の協力パラダイムは、解釈可能(result cooperation)か、柔軟(feature cooperation)のいずれかである。
本稿では,解釈可能なインスタンスレベルのフレキシブルな機能インタラクションを実現するためのクエリ協調の概念を提案する。
この概念を具体的に説明するために、エージェント間のクエリストリームフローを許容する協調認識フレームワークQUESTを提案する。
クロスエージェントクエリは、共同認識インスタンスの融合と、個々の未認識インスタンスの補完を通じて対話される。
実世界のデータセットであるdair-v2x-seqを用いた実験結果から,クエストの有効性を実証し,パケットドロップアウトに対する伝送柔軟性とロバスト性に対するクエリ協調パラダイムの利点を明らかにした。
我々の研究が、より協調的な認識を実現するために、クロスエージェント表現インタラクションをさらに促進できることを願っています。 Cooperative perception can effectively enhance individual perception performance by providing additional viewpoint and expanding the sensing field. Existing cooperation paradigms are either interpretable (result cooperation) or flexible (feature cooperation). In this paper, we propose the concept of query cooperation to enable interpretable instance-level flexible feature interaction. To specifically explain the concept, we propose a cooperative perception framework, termed QUEST, which let query stream flow among agents. The cross-agent queries are interacted via fusion for co-aware instances and complementation for individual unaware instances. Taking camera-based vehicle-infrastructure perception as a typical practical application scene, the experimental results on the real-world dataset, DAIR-V2X-Seq, demonstrate the effectiveness of QUEST and further reveal the advantage of the query cooperation paradigm on transmission flexibility and robustness to packet dropout. We hope our work can further facilitate the cross-agent representation interaction for better cooperative perception in practice. | 翻訳日:2023-08-04 13:49:45 公開日:2023-08-03 |
# 位相絶縁体の現実状態の量子エントロピー Quantum entropies of realistic states of a topological insulator ( http://arxiv.org/abs/2308.01799v1 ) ライセンス: Link先を確認 | Nicol\'as Legnazzi and Omar Osenda | (参考訳) ビセのナノワイヤは、材料の表面付近に局在したトポロジカル状態を示す。
これらの状態の位相的性質はよく知られた量を用いて分析することができる。
本論文では,これらの状態に対して,北エブとプレスキルが提案するトポロジ的エントロピーと,トポロジ的一電子状態の識別のための指標として提案する還元密度行列に基づく新しいエントロピーを算出する。
以上の結果から, トポロジカルエントロピーは, トポロジカル状態を角運動量, 長手波ベクトル, およびナノワイヤの半径として特徴付けるパラメータとは一定の独立性を示した。
新しいエントロピーは常に通常のエントロピーよりも位相状態の方が大きく、位相状態の同定を可能にする。
両エントロピーに関連する還元密度行列が正の写像を用いて純粋状態から構成され、クラウス作用素が明示的に得られることを示す。 Nanowires of BiSe show topological states localized near the surface of the material. The topological nature of these states can be analyzed using well-known quantities. In this paper, we calculate the topological entropy suggested by Kitaev and Preskill for these states together with a new entropy based on a reduced density matrix that we propose as a measure to distinguish topological one-electron states. Our results show that the topological entropy is a constant independent of the parameters that characterize a topological state as its angular momentum, longitudinal wave vector, and radius of the nanowire. The new entropy is always larger for topological states than for normal ones, allowing the identification of the topological ones. We show how the reduced density matrices associated with both entropies are constructed from the pure state using positive maps and explicitly obtaining the Krauss operators. | 翻訳日:2023-08-04 13:49:30 公開日:2023-08-03 |
# 深層強化学習によるジョブショップスケジューリング:シーケンスからシーケンスへのアプローチ Job Shop Scheduling via Deep Reinforcement Learning: a Sequence to Sequence approach ( http://arxiv.org/abs/2308.01797v1 ) ライセンス: Link先を確認 | Giovanni Bonetta, Davide Zago, Rossella Cancelliere, Andrea Grosso | (参考訳) ジョブスケジューリングは、無限のアプリケーションでよく知られたY Combinatorial Optimization問題である。
十分に計画されたスケジュールは、自動化されたシステムという文脈で多くの利点をもたらします。
しかしながら、この問題のNP硬度は、設計が難しく、専門知識を必要とし、しばしば特定のタスクに適したメソッドを生成するヒューリスティックの使用を必須にしている。
本稿では,分散ルールを自動的に学習するスケジューリングのための,エンドツーエンドのDeep Reinforcement Learningアプローチを提案する。
我々の手法はシーケンス処理のための自然言語エンコーダ・デコーダモデルにインスピレーションを受けており、スケジューリングの目的のために、我々の知識の最大限に活用されることはなかった。
特にジョブショップ問題のベンチマークインスタンスに対して,本手法を適用しテストした。しかし,この手法は,最小限の介入で他の最適ジョブスケジューリングタスクに対処できるほど一般的である。
その結果,優先度ディスパッチルールを活用し,最先端の深層強化学習に競争力のある結果を示す,多くの古典的アプローチに勝ることが示された。 Job scheduling is a well-known Combinatorial Optimization problem with endless applications. Well planned schedules bring many benefits in the context of automated systems: among others, they limit production costs and waste. Nevertheless, the NP-hardness of this problem makes it essential to use heuristics whose design is difficult, requires specialized knowledge and often produces methods tailored to the specific task. This paper presents an original end-to-end Deep Reinforcement Learning approach to scheduling that automatically learns dispatching rules. Our technique is inspired by natural language encoder-decoder models for sequence processing and has never been used, to the best of our knowledge, for scheduling purposes. We applied and tested our method in particular to some benchmark instances of Job Shop Problem, but this technique is general enough to be potentially used to tackle other different optimal job scheduling tasks with minimal intervention. Results demonstrate that we outperform many classical approaches exploiting priority dispatching rules and show competitive results on state-of-the-art Deep Reinforcement Learning ones. | 翻訳日:2023-08-04 13:49:11 公開日:2023-08-03 |
# サンプルからクエリへの浮揚による量子下限 Quantum Lower Bounds by Sample-to-Query Lifting ( http://arxiv.org/abs/2308.01794v1 ) ライセンス: Link先を確認 | Qisheng Wang and Zhicheng Zhang | (参考訳) 量子サンプル対クエリリフト定理を提案する。
これは、量子状態の識別によって最適かつ飽和される量子特性試験に関する量子サンプルとクエリの複雑度の間の二次関係を明らかにする。
そこで我々は,情報理論の観点から,量子クエリアルゴリズムの下位境界を証明するための新しい手法を提案する。
1) 逆温度での量子ギブズサンプリングに対して, 等価な下限値である$\widetilde \omega(\beta)$ は$\beta$ であり, gily\'en, su, low, wiebe (2019) による量子ギブズサンプリングが最適であることを示す。
2. 新しい下界$\widetilde \Omega(1/\sqrt{\Delta})$は、最近She and Yuen (2023) によって研究されたギャップ$\Delta$の絡み合いエントロピー問題に対するものである。
さらに,位相・振幅推定やハミルトニアンシミュレーションなど,これまで異なる手法で証明されてきた既知の下限の統一的な証明も提供する。 We propose a quantum sample-to-query lifting theorem. It reveals a quadratic relation between quantum sample and query complexities regarding quantum property testing, which is optimal and saturated by quantum state discrimination. Based on it, we provide a new method for proving lower bounds on quantum query algorithms from an information theory perspective. Using this method, we prove the following new results: 1. A matching lower bound $\widetilde \Omega(\beta)$ for quantum Gibbs sampling at inverse temperature $\beta$, showing that the quantum Gibbs sampler by Gily\'en, Su, Low, and Wiebe (2019) is optimal. 2. A new lower bound $\widetilde \Omega(1/\sqrt{\Delta})$ for the entanglement entropy problem with gap $\Delta$, which was recently studied by She and Yuen (2023). In addition, we also provide unified proofs for some known lower bounds that have been proven previously via different techniques, including those for phase/amplitude estimation and Hamiltonian simulation. | 翻訳日:2023-08-04 13:48:50 公開日:2023-08-03 |
# 光量子メモリに実装したプログラマブル空間分散によるスペクトル-位置マッピング Spectrum-to-position mapping via programmable spatial dispersion implemented in an optical quantum memory ( http://arxiv.org/abs/2308.01793v1 ) ライセンス: Link先を確認 | Marcin Jastrz\k{e}bski, Stanis{\l}aw Kurzyna, Bartosz Niewelt, Mateusz Mazelanik, Wojciech Wasilewski, Micha{\l} Parniak | (参考訳) 分光時間処理は、光通信やメトロジーにおいて、極端に光子当たりの情報容量に達するのに不可欠である。
空間領域とは対照的に、時間周波数領域における複雑なマルチモード処理は困難である。
本稿では、勾配エコー量子メモリにおける空間スピン波変調技術を用いたスペクトル対位置変換のプロトコルを提案する。
このようにして、2つの領域をリンクし、従来の光学を用いた空間モードで純粋に処理を行えるようにする。
本稿では,lao境界との比較を含む周波数推定の不確かさの議論と同様に,インタフェースの特性について述べる。
実験結果は数値シミュレーションによって裏付けられている。
この測定は, 単一光子レベルにおいて, 低付加雑音と光子飢餓状態における適用性を示した。
本研究は超精密分光の展望を示し、量子・古典的通信、センシング、コンピューティングにおいて多くのプロトコルを強化する機会を提供する。 Spectro-temporal processing is essential in reaching ultimate per-photon information capacity in optical communication and metrology. In contrast to the spatial domain, complex multimode processing in the time-frequency domain is however challenging. Here we propose a protocol for spectrum-to-position conversion using spatial spin wave modulation technique in gradient echo quantum memory. This way we link the two domains and allow the processing to be performed purely on the spatial modes using conventional optics. We present the characterization of our interface as well as the frequency estimation uncertainty discussion including the comparison with Cram\'er-Rao bound. The experimental results are backed up by numerical numerical simulations. The measurements were performed on a single-photon level demonstrating low added noise and proving applicability in a photon-starved regime. Our results hold prospects for ultra-precise spectroscopy and present an opportunity to enhance many protocols in quantum and classical communication, sensing, and computing. | 翻訳日:2023-08-04 13:48:29 公開日:2023-08-03 |
# QUBOインスタンス上の適応変分量子アルゴリズムのベンチマーク Benchmarking Adaptative Variational Quantum Algorithms on QUBO Instances ( http://arxiv.org/abs/2308.01789v1 ) ライセンス: Link先を確認 | Gloria Turati (1), Maurizio Ferrari Dacrema (1), Paolo Cremonesi (1) ((1) Politecnico di Milano) | (参考訳) 近年, 変分量子アルゴリズム (VQA) は, NISQ時代の量子コンピュータにおける最適化問題の解法として期待されている。
しかしながら、VQAの1つの制限は、特定の問題やハードウェア構成に適合しない固定構造回路に依存していることである。
この問題を解決するための主要な戦略はAdaptative VQAで、ゲートの追加と削除によって回路構造を動的に変更し、トレーニング中にパラメータを最適化する。
回路の浅さ,絡み合い能力,ハードウェア互換性などのヒューリスティックに基づく適応vqaは,文献ですでに提案されているが,両者の方法の系統的な比較はいまだに不十分である。
本稿では, 進化的変分量子固有解法 (EVQE) , 可変アンザッツ (VAns) , ランダム適応-VQE (RA-VQE) の3つの変分量子固有解法 (EVQE) を解析し, このギャップを埋めることを目的とする。
これらのアルゴリズムを従来のVQAと比較するために、分析には量子近似最適化アルゴリズム(QAOA)も含んでいる。
これらのアルゴリズムをqubo問題に適用し,検出した解の品質と計算時間を調べ,その性能について検討した。
さらに,ハイパーパラメータの選択がアルゴリズム全体の性能に与える影響について検討し,ハイパーパラメータチューニングに適切な手法を選択することの重要性を強調した。
我々の分析は、短期量子デバイス向けに設計された適応vqaのベンチマークを設定し、この分野の将来研究のガイドとなる貴重な洞察を提供する。 In recent years, Variational Quantum Algorithms (VQAs) have emerged as a promising approach for solving optimization problems on quantum computers in the NISQ era. However, one limitation of VQAs is their reliance on fixed-structure circuits, which may not be taylored for specific problems or hardware configurations. A leading strategy to address this issue are Adaptative VQAs, which dynamically modify the circuit structure by adding and removing gates, and optimize their parameters during the training. Several Adaptative VQAs, based on heuristics such as circuit shallowness, entanglement capability and hardware compatibility, have already been proposed in the literature, but there is still lack of a systematic comparison between the different methods. In this paper, we aim to fill this gap by analyzing three Adaptative VQAs: Evolutionary Variational Quantum Eigensolver (EVQE), Variable Ansatz (VAns), already proposed in the literature, and Random Adapt-VQE (RA-VQE), a random approach we introduce as a baseline. In order to compare these algorithms to traditional VQAs, we also include the Quantum Approximate Optimization Algorithm (QAOA) in our analysis. We apply these algorithms to QUBO problems and study their performance by examining the quality of the solutions found and the computational times required. Additionally, we investigate how the choice of the hyperparameters can impact the overall performance of the algorithms, highlighting the importance of selecting an appropriate methodology for hyperparameter tuning. Our analysis sets benchmarks for Adaptative VQAs designed for near-term quantum devices and provides valuable insights to guide future research in this area. | 翻訳日:2023-08-04 13:48:15 公開日:2023-08-03 |
# ソマリア語における語彙と規則に基づく単語補間アプローチ Lexicon and Rule-based Word Lemmatization Approach for the Somali Language ( http://arxiv.org/abs/2308.01785v1 ) ライセンス: Link先を確認 | Shafie Abdi Mohamed, Muhidin Abdullahi Mohamed | (参考訳) レマトゼーション(英: Lemmatization)は、自然言語処理(NLP)技法で、単語の形態的導出をその語形に変化させることによってテキストを正規化する。
テキストインデックス作成、情報検索、NLPのための機械学習など、多くのNLPタスクにおけるコア前処理ステップとして使用される。
本稿では,nlp手法とデータセットの事前適用が限定的あるいは全くない低リソース言語であるソマリ言語のためのテキスト補間の開発を先導する。
特にソマリ語テキストの辞書と規則に基づく補題化手法を開発し,多種多様なNLPタスクのための完全なソマリ補題化システムの出発点となる。
言語形態規則を考慮し,辞書に存在しない単語を要約する規則に富んだ1247の語根語と7173の語根語の初期語彙を開発した。
われわれはこのアルゴリズムを、ニュース記事、ソーシャルメディア投稿、テキストメッセージなど、さまざまな長さの文書120件でテストした。
最初の結果は、比較的長い文書(例えば、ニュース記事)では57.7%、ニュース記事抽出では60.57\%、ソーシャルメディアメッセージのような短いテキストでは95.87\%の精度を達成していることを示している。 Lemmatization is a Natural Language Processing (NLP) technique used to normalize text by changing morphological derivations of words to their root forms. It is used as a core pre-processing step in many NLP tasks including text indexing, information retrieval, and machine learning for NLP, among others. This paper pioneers the development of text lemmatization for the Somali language, a low-resource language with very limited or no prior effective adoption of NLP methods and datasets. We especially develop a lexicon and rule-based lemmatizer for Somali text, which is a starting point for a full-fledged Somali lemmatization system for various NLP tasks. With consideration of the language morphological rules, we have developed an initial lexicon of 1247 root words and 7173 derivationally related terms enriched with rules for lemmatizing words not present in the lexicon. We have tested the algorithm on 120 documents of various lengths including news articles, social media posts, and text messages. Our initial results demonstrate that the algorithm achieves an accuracy of 57\% for relatively long documents (e.g. full news articles), 60.57\% for news article extracts, and high accuracy of 95.87\% for short texts such as social media messages. | 翻訳日:2023-08-04 13:47:43 公開日:2023-08-03 |
# あなたのデータは調整可能ですか。
原理的・解釈可能な整合性試験と単細胞データの統合 Is your data alignable? Principled and interpretable alignability testing and integration of single-cell data ( http://arxiv.org/abs/2308.01839v1 ) ライセンス: Link先を確認 | Rong Ma, Eric D. Sun, David Donoho and James Zou | (参考訳) 単細胞データ統合は、細胞の包括的な分子ビューを提供することができ、多くのアルゴリズムが不要な技術的または生物学的なバリエーションを取り除き、異種単細胞データセットを統合するために開発されている。
広く使われているにもかかわらず、既存の手法にはいくつかの基本的な制限がある。
特に、2つの高次元のシングルセルデータセットが整列可能であるかどうかの厳密な統計試験が欠如している(従って整列すべきである)。
さらに、一般的な手法は、アライメント中にデータを実質的に歪め、アライメントされたデータと下流分析を解釈しにくくする。
これらの制約を克服するために、単セルデータの整合性テストと構造保存統合を可能にするスペクトル多様体アライメントと推論(SMAI)フレームワークを提案する。
SMAIは、誤解を招く推論を避けるためにデータセット間の整合性をしっかりと決定する統計テストを提供し、高次元統計理論によって正当化される。
さまざまなリアルデータセットとシミュレートされたベンチマークデータセットでは、一般的に使用されるアライメントメソッドよりも優れています。
さらに, smaiは, 遺伝的に発現した遺伝子の同定や, 単細胞空間転写産物のインプテーションなど, 下流の様々な解析方法を改善し, さらなる生物学的知見を提供する。
SMAIの解釈可能性はまた、単一セルデータにおける技術共同創設者の情報源の定量化とより深い理解を可能にする。 Single-cell data integration can provide a comprehensive molecular view of cells, and many algorithms have been developed to remove unwanted technical or biological variations and integrate heterogeneous single-cell datasets. Despite their wide usage, existing methods suffer from several fundamental limitations. In particular, we lack a rigorous statistical test for whether two high-dimensional single-cell datasets are alignable (and therefore should even be aligned). Moreover, popular methods can substantially distort the data during alignment, making the aligned data and downstream analysis difficult to interpret. To overcome these limitations, we present a spectral manifold alignment and inference (SMAI) framework, which enables principled and interpretable alignability testing and structure-preserving integration of single-cell data. SMAI provides a statistical test to robustly determine the alignability between datasets to avoid misleading inference, and is justified by high-dimensional statistical theory. On a diverse range of real and simulated benchmark datasets, it outperforms commonly used alignment methods. Moreover, we show that SMAI improves various downstream analyses such as identification of differentially expressed genes and imputation of single-cell spatial transcriptomics, providing further biological insights. SMAI's interpretability also enables quantification and a deeper understanding of the sources of technical confounders in single-cell data. | 翻訳日:2023-08-04 13:41:19 公開日:2023-08-03 |
# サブスペース拘束型連続メタン漏れモニタリングと最適センサ配置 Subspace-Constrained Continuous Methane Leak Monitoring and Optimal Sensor Placement ( http://arxiv.org/abs/2308.01836v1 ) ライセンス: Link先を確認 | Kashif Rashid, Lukasz Zielinski, Junyi Yuan, Andrew Speck | (参考訳) 本研究は, メタン排出源を迅速に同定し, 分離し, 早期修復に導く手法を提案する。
漏れの特定に要する時間と修理作業員の派遣に要する時間の最小化は、大気中に放出されるメタンの量を大幅に削減することができる。
この手法は油田施設に常設の低コストメタンセンサーを用いて、バックグラウンドレベル以上の漏れガス濃度を継続的に監視する。
予め定義された部分空間と制限領域を考慮した最適センサ配置とリークインバージョンのための手法を提案する。
特に、サブスペースは漏洩する可能性のある1つ以上の機器項目からなる領域を表し、制限されたゾーンは、設計によるサイト制限のためにセンサが配置されない領域を定義している。
したがって、サブスペースは特定のローカルに反転問題を制限し、制限ゾーンはセンサ配置を実行可能なゾーンに制限する。
風の不確実性の下での最適センサ配置に対応する手段として, 人工風モデルの開発, および過去のデータに基づくものも提示される。
風モデルは、所定のセンサー数の平均カバレッジを最大化することを目的として、計画目的の実現に役立ちます。
最適設計が確立されると、連続リアルタイム監視はメタン漏れ源の局所化と定量化を可能にする。
必要な方法、数学的定式化および実証試験結果が提示される。 This work presents a procedure that can quickly identify and isolate methane emission sources leading to expedient remediation. Minimizing the time required to identify a leak and the subsequent time to dispatch repair crews can significantly reduce the amount of methane released into the atmosphere. The procedure developed utilizes permanently installed low-cost methane sensors at an oilfield facility to continuously monitor leaked gas concentration above background levels. The methods developed for optimal sensor placement and leak inversion in consideration of predefined subspaces and restricted zones are presented. In particular, subspaces represent regions comprising one or more equipment items that may leak, and restricted zones define regions in which a sensor may not be placed due to site restrictions by design. Thus, subspaces constrain the inversion problem to specified locales, while restricted zones constrain sensor placement to feasible zones. The development of synthetic wind models, and those based on historical data, are also presented as a means to accommodate optimal sensor placement under wind uncertainty. The wind models serve as realizations for planning purposes, with the aim of maximizing the mean coverage measure for a given number of sensors. Once the optimal design is established, continuous real-time monitoring permits localization and quantification of a methane leak source. The necessary methods, mathematical formulation and demonstrative test results are presented. | 翻訳日:2023-08-04 13:40:56 公開日:2023-08-03 |
# 二項分類の回帰関数に対する分布自由推論 Distribution-Free Inference for the Regression Function of Binary Classification ( http://arxiv.org/abs/2308.01835v1 ) ライセンス: Link先を確認 | Ambrus Tam\'as and Bal\'azs Csan\'ad Cs\'aji | (参考訳) 二分分類の主要な対象の1つは回帰関数、すなわち入力が与えられたクラスラベルの条件付き期待値である。
回帰関数はベイズ最適分類器を定義するだけでなく、対応する誤分類確率を符号化する。
本稿では,ユーザの信頼度レベルに対する真の回帰関数に対して,正確な分布自由かつ漸近的に保証されていない信頼領域を構築するための再サンプリングフレームワークを提案する。
次に、そのフレームワークを実証するために特定のアルゴリズムを提案する。
構築された信頼領域は強い整合性、すなわち任意の偽モデルが確率 1 で長期にわたって除外されることが証明された。
除外は、おそらくほぼ正しい型境界で定量化される。
最後に、これらのアルゴリズムを数値実験により検証し、近似的な漸近的信頼楕円体と比較する。 One of the key objects of binary classification is the regression function, i.e., the conditional expectation of the class labels given the inputs. With the regression function not only a Bayes optimal classifier can be defined, but it also encodes the corresponding misclassification probabilities. The paper presents a resampling framework to construct exact, distribution-free and non-asymptotically guaranteed confidence regions for the true regression function for any user-chosen confidence level. Then, specific algorithms are suggested to demonstrate the framework. It is proved that the constructed confidence regions are strongly consistent, that is, any false model is excluded in the long run with probability one. The exclusion is quantified with probably approximately correct type bounds, as well. Finally, the algorithms are validated via numerical experiments, and the methods are compared to approximate asymptotic confidence ellipsoids. | 翻訳日:2023-08-04 13:40:37 公開日:2023-08-03 |
# 精神機能計測のための大規模言語モデルの能力 The Capability of Large Language Models to Measure Psychiatric Functioning ( http://arxiv.org/abs/2308.01834v1 ) ライセンス: Link先を確認 | Isaac R. Galatzer-Levy, Daniel McDuff, Vivek Natarajan, Alan Karthikesalingam and Matteo Malgaroli | (参考訳) 本研究は,医療知識の大規模コーパス(Med-PaLM 2)を明示的に訓練した大規模言語モデル(LLM)を用いて,患者インタビューや臨床説明から精神機能を予測する能力について検討する。
これを評価するために,n = 145 うつ病とn=115ptsd評価,n = 46臨床ケーススタディ(うつ病, 不安症, 精神病, 外傷, ストレス障害, 中毒性障害)の解析を行い, 評価した臨床成績と診断を抽出した。
以上の結果から, med-palm 2 は, 精神疾患において精神機能評価が可能であり, 統計的にヒト臨床指標 t(1,144) = 1.20; p = 0.23 と区別できない標準評価値 (精度範囲= 0.80 - 0.84) に基づくうつ病スコアの予測が最も高い。
以上の結果から, 一般臨床言語モデルでは, 患者と臨床医の自由な機能記述に基づいて, 柔軟に精神リスクを予測できる可能性が示唆された。 The current work investigates the capability of Large language models (LLMs) that are explicitly trained on large corpuses of medical knowledge (Med-PaLM 2) to predict psychiatric functioning from patient interviews and clinical descriptions without being trained to do so. To assess this, n = 145 depression and n =115 PTSD assessments and n = 46 clinical case studies across high prevalence/high comorbidity disorders (Depressive, Anxiety, Psychotic, trauma and stress, Addictive disorders) were analyzed using prompts to extract estimated clinical scores and diagnoses. Results demonstrate that Med-PaLM 2 is capable of assessing psychiatric functioning across a range of psychiatric conditions with the strongest performance being the prediction of depression scores based on standardized assessments (Accuracy range= 0.80 - 0.84) which were statistically indistinguishable from human clinical raters t(1,144) = 1.20; p = 0.23. Results show the potential for general clinical language models to flexibly predict psychiatric risk based on free descriptions of functioning from both patients and clinicians. | 翻訳日:2023-08-04 13:40:24 公開日:2023-08-03 |
# 統一音声による多対多音声翻訳と単位間翻訳によるテキスト表現学習 Many-to-Many Spoken Language Translation via Unified Speech and Text Representation Learning with Unit-to-Unit Translation ( http://arxiv.org/abs/2308.01831v1 ) ライセンス: Link先を確認 | Minsu Kim, Jeongsoo Choi, Dahun Kim, Yong Man Ro | (参考訳) 本稿では,単一モデルを用いた多言語音声とテキストの統一表現,特に音声合成の目的に着目した学習手法を提案する。
自己教師付き音声モデルから符号化された音声特徴量の量子化表現を,音声単位を用いて多言語音声を表す。
したがって,音声を疑似テキストとして扱うことにより,言語内容に集中し,音声とテキストの統一表現を構築することができる。
そこで我々は,多言語データに基づいて,ユニット・ツー・ユニット翻訳(UTUT)を目標としたエンコーダ・デコーダ構造モデルを訓練する。
具体的には、エンコーダにソース言語トークンとデコーダにターゲット言語トークンを条件付けすることにより、多対多言語翻訳設定において、ターゲット言語をターゲット言語に翻訳するように最適化する。
したがって、モデルは、音声言語がどのように理解され、それらを異なる言語と関連付けるかに関する知識を構築することができる。
UTUTを用いた1つの事前学習モデルは、音声音声翻訳(STS)、多言語テキスト音声合成(TTS)、テキスト音声翻訳(TTST)といった多言語音声およびテキスト関連タスクに使用できる。
様々な言語を包含する包括的実験を行うことで,多言語タスクにおける提案手法の有効性を検証する。
さらに, UTUTは, これまで研究されていない多言語STSを実行可能であることを示す。
サンプルはhttps://choijeongsoo.github.io/ututで入手できる。 In this paper, we propose a method to learn unified representations of multilingual speech and text with a single model, especially focusing on the purpose of speech synthesis. We represent multilingual speech audio with speech units, the quantized representations of speech features encoded from a self-supervised speech model. Therefore, we can focus on their linguistic content by treating the audio as pseudo text and can build a unified representation of speech and text. Then, we propose to train an encoder-decoder structured model with a Unit-to-Unit Translation (UTUT) objective on multilingual data. Specifically, by conditioning the encoder with the source language token and the decoder with the target language token, the model is optimized to translate the spoken language into that of the target language, in a many-to-many language translation setting. Therefore, the model can build the knowledge of how spoken languages are comprehended and how to relate them to different languages. A single pre-trained model with UTUT can be employed for diverse multilingual speech- and text-related tasks, such as Speech-to-Speech Translation (STS), multilingual Text-to-Speech Synthesis (TTS), and Text-to-Speech Translation (TTST). By conducting comprehensive experiments encompassing various languages, we validate the efficacy of the proposed method across diverse multilingual tasks. Moreover, we show UTUT can perform many-to-many language STS, which has not been previously explored in the literature. Samples are available on https://choijeongsoo.github.io/utut. | 翻訳日:2023-08-04 13:39:52 公開日:2023-08-03 |
# 感覚を超えた学習 : 夢はどのように神経表現を組織するか Learning beyond sensations: how dreams organize neuronal representations ( http://arxiv.org/abs/2308.01830v1 ) ライセンス: Link先を確認 | Nicolas Deperrois, Mihai A. Petrovici, Walter Senn, and Jakob Jordan | (参考訳) 高次感覚皮質における意味表現は、頑健だが柔軟な行動の基礎を形成する。
これらの表現は、未監督の方法で開発過程で獲得され、生物の寿命にわたって継続的に維持される。
予測学習理論は、これらの表現が感覚入力の予測または再構成から生じることを示唆する。
しかし、脳は想像や夢のような、以前に経験した経験を超越した仮想体験を生み出すことが知られている。
ここでは,仮想体験は,脳皮質表現の形成において,実際の感覚入力と同程度に関連があることを示唆し,特に,仮想体験の生成を通じて表現を整理する2つの相補的学習原理について議論する。
まず、"adversarial dreaming"は、創造的な夢は、フィードバックとフィードフォワードの経路が互いに騙そうとする生産的なゲームに関与する、敵の学習の皮質的実装をサポートすることを提案している。
第2に"contrastive dreaming"では、類似した仮想体験を対比学習プロセスを通じてマップすることで、変動の無関係な要因に対するニューロン表現の不変性を得ることが提案されている。
これらの原理は既知の皮質構造とダイナミクス、睡眠の現象学と相性があり、古典的予測学習パラダイムを超えて皮質学習を説明する有望な方向を与える。 Semantic representations in higher sensory cortices form the basis for robust, yet flexible behavior. These representations are acquired over the course of development in an unsupervised fashion and continuously maintained over an organism's lifespan. Predictive learning theories propose that these representations emerge from predicting or reconstructing sensory inputs. However, brains are known to generate virtual experiences, such as during imagination and dreaming, that go beyond previously experienced inputs. Here, we suggest that virtual experiences may be just as relevant as actual sensory inputs in shaping cortical representations.In particular, we discuss two complementary learning principles that organize representations through the generation of virtual experiences. First, "adversarial dreaming" proposes that creative dreams support a cortical implementation of adversarial learning in which feedback and feedforward pathways engage in a productive game of trying to fool each other. Second, "contrastive dreaming" proposes that the invariance of neuronal representations to irrelevant factors of variation is acquired by trying to map similar virtual experiences together via a contrastive learning process. These principles are compatible with known cortical structure and dynamics and the phenomenology of sleep thus providing promising directions to explain cortical learning beyond the classical predictive learning paradigm. | 翻訳日:2023-08-04 13:39:01 公開日:2023-08-03 |
# 物理インフォームド量子機械学習:高価な格子評価のない潜在空間における非線形微分方程式の解法 Physics-Informed Quantum Machine Learning: Solving nonlinear differential equations in latent spaces without costly grid evaluations ( http://arxiv.org/abs/2308.01827v1 ) ライセンス: Link先を確認 | Annie E. Paine, Vincent E. Elfving, Oleksandr Kyriienko | (参考訳) 量子潜在空間における非線形および多次元微分方程式(DE)を解く物理インフォームド量子アルゴリズムを提案する。
本稿では,独立基底関数の指数的に大きな集合が暗黙的に解を表すために用いられる,状態重なり合う量子モデルを構築するための戦略を提案する。
de項の表現である状態間の重なりを測定することにより、グリッド点上の独立な逐次関数評価を必要としない損失を構成する。
この意味で、解法は、大域的なタイプのモデルを用いて、本質的に平行な方法での損失を評価する。
損失が変動的にトレーニングされる場合、我々のアプローチは、トレーニンググリッドサイズにスケールしない微分可能な量子回路プロトコルに関連付けられる。
具体的には、提案されたモデル定義と特徴マップエンコーディングを用いて、微分方程式の関数および微分に基づく項を対応する量子状態として表現する。
重要なことに、非線形性のエンコーディングの効率的な方法を提案し、システムサイズ$\mathcal{o}(n + p)$の非線形度$p$の加法線形増加だけを必要とするいくつかのベースについて提案する。
ベースマッピングを利用して,提案したモデルをどのように明示的に評価するかを示す。
これにより、独立変数の任意の関数を実装し、様々な初期条件と境界条件の問題を扱い、物理インフォームド機械学習設定にデータと正規化項を含むことができる。
技術面では、指数的チェビシェフおよびフーリエ基底集合のツールボックス、自動微分および乗算のためのツールの開発、非線形性の実装、多変量拡張の記述などを行う。
このアプローチは線形、非線形、多次元微分方程式を含む様々な問題と互換性があり、テストされている。 We propose a physics-informed quantum algorithm to solve nonlinear and multidimensional differential equations (DEs) in a quantum latent space. We suggest a strategy for building quantum models as state overlaps, where exponentially large sets of independent basis functions are used for implicitly representing solutions. By measuring the overlaps between states which are representations of DE terms, we construct a loss that does not require independent sequential function evaluations on grid points. In this sense, the solver evaluates the loss in an intrinsically parallel way, utilizing a global type of the model. When the loss is trained variationally, our approach can be related to the differentiable quantum circuit protocol, which does not scale with the training grid size. Specifically, using the proposed model definition and feature map encoding, we represent function- and derivative-based terms of a differential equation as corresponding quantum states. Importantly, we propose an efficient way for encoding nonlinearity, for some bases requiring only an additive linear increase of the system size $\mathcal{O}(N + p)$ in the degree of nonlinearity $p$. By utilizing basis mapping, we show how the proposed model can be evaluated explicitly. This allows to implement arbitrary functions of independent variables, treat problems with various initial and boundary conditions, and include data and regularization terms in the physics-informed machine learning setting. On the technical side, we present toolboxes for exponential Chebyshev and Fourier basis sets, developing tools for automatic differentiation and multiplication, implementing nonlinearity, and describing multivariate extensions. The approach is compatible with, and tested on, a range of problems including linear, nonlinear and multidimensional differential equations. | 翻訳日:2023-08-04 13:38:30 公開日:2023-08-03 |
# 大規模言語モデルを用いた数学的推論学習におけるスケーリング関係 Scaling Relationship on Learning Mathematical Reasoning with Large Language Models ( http://arxiv.org/abs/2308.01825v1 ) ライセンス: Link先を確認 | Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Chuanqi Tan, Chang Zhou | (参考訳) 数学的推論は大規模言語モデル(LLM)では難しい課題であるが、LLMの能力に関するスケーリングの関係は未解明である。
本稿では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
事前学習損失は,モデルのパラメータ数よりもモデルの性能の指標として優れている。
我々は,教師ありデータの量が異なる教師あり微調整(sft)を適用し,データ量とモデル性能の対数線形関係を実験的に把握し,教師ありデータセットの拡張により,よりよいモデルが改善されないことを発見した。
人間の努力なしにモデル性能を向上させるためのデータサンプルを増やすため,Rejection sample Fine-Tuning (RFT) を提案する。
RFTは教師付きモデルを使用して、強化された微調整データセットとして正しい推論パスを生成し、収集する。
より明確な推論経路を含む拡張サンプルにより、RTTはLLMの数学的推論性能を向上する。
RFTは、性能の低いLLMに対して、さらなる改善をもたらします。
さらに,ラマ-7bを49.3%の精度で押し上げる複数のモデルからの拒絶サンプルを合成し,教師あり微調整(sft)精度を35.9%を大きく上回った。 Mathematical reasoning is a challenging task for large language models (LLMs), while the scaling relationship of it with respect to LLM capacity is under-explored. In this paper, we investigate how the pre-training loss, supervised data amount, and augmented data amount influence the reasoning performances of a supervised LLM. We find that pre-training loss is a better indicator of the model's performance than the model's parameter count. We apply supervised fine-tuning (SFT) with different amounts of supervised data and empirically find a log-linear relation between data amount and model performance, and we find better models improve less with enlarged supervised datasets. To augment more data samples for improving model performances without any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT uses supervised models to generate and collect correct reasoning paths as augmented fine-tuning datasets. We find with augmented samples containing more distinct reasoning paths, RFT improves mathematical reasoning performance more for LLMs. We also find RFT brings more improvement for less performant LLMs. Furthermore, we combine rejection samples from multiple models which push LLaMA-7B to an accuracy of 49.3% and outperforms the supervised fine-tuning (SFT) accuracy of 35.9% significantly. | 翻訳日:2023-08-04 13:37:59 公開日:2023-08-03 |
# ロバストフェアネス向上のためのハード・ディバーショナル・サンプルマイニング Hard Adversarial Example Mining for Improving Robust Fairness ( http://arxiv.org/abs/2308.01823v1 ) ライセンス: Link先を確認 | Chenhao Lin, Xiang Ji, Yulong Yang, Qian Li, Chao Shen, Run Wang, Liming Fang | (参考訳) 敵対的トレーニング(AT)は、敵対的例(AE)に対するディープニューラルネットワーク(DNN)の堅牢性を改善するための最先端技術として広く考えられている。
しかし、近年の研究では、敵対的に訓練されたモデルは不公平な問題を起こしやすく、適用性が制限されていることが判明している。
本稿では,この制限が,信頼感の過剰さ,すなわち信頼感の過剰さに起因している可能性があることを実証的に観察する。
この問題を軽減するため,我々は,適応型ハード・アドバーサル・サンプル・マイニング(adaptive hard adversarial example mining)による単純かつ効果的なフレームワークであるhamを提案する。
特に、HAMは、損失値を計算する際に決定境界を越えるために必要なステップサイズでハードAEを特定する。
さらに、早期投棄機構を組み込んで、AE発生の初期段階で簡単な例を廃棄し、効率的なATを実現する。
CIFAR-10, SVHN, Imagenette の大規模な実験結果から, HAM はいくつかの最先端の対角訓練法と比較して計算コストを低減しつつ, 頑健な公正性を大幅に向上することを示した。
コードは公開される予定だ。 Adversarial training (AT) is widely considered the state-of-the-art technique for improving the robustness of deep neural networks (DNNs) against adversarial examples (AE). Nevertheless, recent studies have revealed that adversarially trained models are prone to unfairness problems, restricting their applicability. In this paper, we empirically observe that this limitation may be attributed to serious adversarial confidence overfitting, i.e., certain adversarial examples with overconfidence. To alleviate this problem, we propose HAM, a straightforward yet effective framework via adaptive Hard Adversarial example Mining.HAM concentrates on mining hard adversarial examples while discarding the easy ones in an adaptive fashion. Specifically, HAM identifies hard AEs in terms of their step sizes needed to cross the decision boundary when calculating loss value. Besides, an early-dropping mechanism is incorporated to discard the easy examples at the initial stages of AE generation, resulting in efficient AT. Extensive experimental results on CIFAR-10, SVHN, and Imagenette demonstrate that HAM achieves significant improvement in robust fairness while reducing computational cost compared to several state-of-the-art adversarial training methods. The code will be made publicly available. | 翻訳日:2023-08-04 13:37:36 公開日:2023-08-03 |
# テンソルプログラムIVb:無限幅極限における適応最適化 Tensor Programs IVb: Adaptive Optimization in the Infinite-Width Limit ( http://arxiv.org/abs/2308.01814v1 ) ライセンス: Link先を確認 | Greg Yang, Etai Littwin | (参考訳) 確率勾配降下(SGD)を超えて、Adamのような適応オプティマイザによってトレーニングされた広いニューラルネットワークに新しい現象が現れるのか?
sgdのように)機能学習と(sgdのように)カーネルの振る舞いの2分法は同じで、adam氏を含む一般的なオプティマイザも保持しています。
我々は,任意のアーキテクチャに対して,対応する "神経的接点" と "最大更新" の制限を導出する。
2つの基礎的な進歩により、上記の結果が得られた。
1)新しいTensor Program言語であるNEXORTは、最適化言語が更新への勾配をいかに適応的に処理するかを表現することができる。
2)テンソルプログラムにおける表現と計算を大幅に単純化するブラケット表記の導入。
この研究は、Tensor Programsシリーズの論文で過去の結果をまとめ、一般化している。 Going beyond stochastic gradient descent (SGD), what new phenomena emerge in wide neural networks trained by adaptive optimizers like Adam? Here we show: The same dichotomy between feature learning and kernel behaviors (as in SGD) holds for general optimizers as well, including Adam -- albeit with a nonlinear notion of "kernel." We derive the corresponding "neural tangent" and "maximal update" limits for any architecture. Two foundational advances underlie the above results: 1) A new Tensor Program language, NEXORT, that can express how adaptive optimizers process gradients into updates. 2) The introduction of bra-ket notation to drastically simplify expressions and calculations in Tensor Programs. This work summarizes and generalizes all previous results in the Tensor Programs series of papers. | 翻訳日:2023-08-04 13:36:55 公開日:2023-08-03 |
# ClassEval: クラスレベルのコード生成におけるLLMの評価のための手作業ベンチマーク ClassEval: A Manually-Crafted Benchmark for Evaluating LLMs on Class-level Code Generation ( http://arxiv.org/abs/2308.01861v1 ) ライセンス: Link先を確認 | Xueying Du, Mingwei Liu, Kaixin Wang, Hanlin Wang, Junwei Liu, Yixuan Chen, Jiayi Feng, Chaofeng Sha, Xin Peng, Yiling Lou | (参考訳) 本研究では,より困難なコード生成シナリオ,すなわちクラスレベルのコード生成において,llmを評価する最初の試みを行う。
まず,100のクラスレベルのPythonコード生成タスクに対して,約500人時間で最初のクラスレベルのコード生成ベンチマークであるClassEvalを手作業で構築する。
これに基づいて、クラスレベルのコード生成における11の最先端LCMの最初の研究を行う。
以上の結果から,本症例は以下の結果を得た。
まず、既存のLLMは、HumanEvalのようなスタンドアロンのメソッドレベルのコード生成ベンチマークに比べて、クラスレベルのコード生成のパフォーマンスがはるかに低いことが分かり、メソッドレベルのコーディング能力はLLM間のクラスレベルのコーディング能力を同等に反映できないことがわかった。
第2に, GPT-4 と GPT-3.5 はクラスレベルのコード生成において他の LLM よりも優れており,第2階層モデルには,非常によく似た性能を持つ Instruct-Starcoder, Instruct-Codegen, Wizardcoder などがある。
第3に,全クラスを一度に生成することはGPT-4とGPT-3.5でのみ最良の生成戦略であり,メソッド・バイ・メソッド・ジェネレーション(インクリメンタル・コンポジション)は長い命令を理解し,中間情報を利用する能力に制限のある他のモデルではより良い戦略である。
最後に、メソッド依存のコードを生成する限定的なモデル能力を見つけ、生成されたクラスで頻繁なエラータイプについて論じる。
ベンチマークはhttps://github.com/fudanselab/classevalで利用可能です。 In this work, we make the first attempt to evaluate LLMs in a more challenging code generation scenario, i.e. class-level code generation. We first manually construct the first class-level code generation benchmark ClassEval of 100 class-level Python code generation tasks with approximately 500 person-hours. Based on it, we then perform the first study of 11 state-of-the-art LLMs on class-level code generation. Based on our results, we have the following main findings. First, we find that all existing LLMs show much worse performance on class-level code generation compared to on standalone method-level code generation benchmarks like HumanEval; and the method-level coding ability cannot equivalently reflect the class-level coding ability among LLMs. Second, we find that GPT-4 and GPT-3.5 still exhibit dominate superior than other LLMs on class-level code generation, and the second-tier models includes Instruct-Starcoder, Instruct-Codegen, and Wizardcoder with very similar performance. Third, we find that generating the entire class all at once (i.e. holistic generation strategy) is the best generation strategy only for GPT-4 and GPT-3.5, while method-by-method generation (i.e. incremental and compositional) is better strategies for the other models with limited ability of understanding long instructions and utilizing the middle information. Lastly, we find the limited model ability of generating method-dependent code and discuss the frequent error types in generated classes. Our benchmark is available at https://github.com/FudanSELab/ClassEval. | 翻訳日:2023-08-04 13:31:17 公開日:2023-08-03 |
# 超伝導量子ビットを用いたグラフ安定化器の散逸ダイナミクス Dissipative Dynamics of Graph-State Stabilizers with Superconducting Qubits ( http://arxiv.org/abs/2308.01860v1 ) ライセンス: Link先を確認 | Liran Shirizly, Gr\'egoire Misguich and Haggai Landa | (参考訳) 本研究では,マルチパーティタイト絡み合い状態のノイズ発生について検討し,クラウド経由でアクセス可能な超伝導量子デバイスに着目した。
本研究では,単一量子ビットのコヒーレントおよび非コヒーレントエラーパラメータを,量子記憶状態のデコヒーレンスを支配する効果的な2量子ビット相互作用とともに実験的に特徴付ける。
超伝導量子ビットの力学の有効なモデリングには、確率的電荷-パリティ変動に起因するコヒーレント周波数シフトを適切に考慮する必要がある。
我々は、数十の量子ビットに対してスケーラブルな数値的アプローチを提案し、大きなマルチキュービット状態の散逸ダイナミクスを効率的にシミュレートする。
シミュレーションとグラフ状態の安定化器ダイナミクスの測定を、リング上の最大12キュービットで実験的に実現し、非常に良い一致が達成できることがわかった。
このアプローチにより、実験でアクセス不能な非局所状態特性を探索できる。
動的デカップリング配列を用いて多体状態の忠実度を著しく向上し、電荷パリティ振動と2ビットクロストークの効果を緩和することを示す。 We study the noisy evolution of multipartite entangled states, focusing on superconducting-qubit devices accessible via the cloud. We experimentally characterize the single-qubit coherent and incoherent error parameters together with the effective two-qubit interactions, whose combined action dominates the decoherence of quantum memory states. We find that a valid modeling of the dynamics of superconducting qubits requires one to properly account for coherent frequency shifts, caused by stochastic charge-parity fluctuations. We present a numerical approach that is scalable to tens of qubits, allowing us to simulate efficiently the dissipative dynamics of some large multiqubit states. Comparing our simulations to measurements of stabilizers dynamics of graph states realized experimentally with up to 12 qubits on a ring, we find that a very good agreement is achievable. Our approach allows us to probe nonlocal state characteristics that are inaccessible in the experiment. We show evidence for a significant improvement of the many-body state fidelity using dynamical decoupling sequences, mitigating the effect of charge-parity oscillations and two-qubit crosstalk. | 翻訳日:2023-08-04 13:30:48 公開日:2023-08-03 |
# 相互作用する人間の3次元モデルの構築 Reconstructing Three-Dimensional Models of Interacting Humans ( http://arxiv.org/abs/2308.01854v1 ) ライセンス: Link先を確認 | Mihai Fieraru, Mihai Zanfir, Elisabeta Oneata, Alin-Ionut Popa, Vlad Olaru, Cristian Sminchisescu | (参考訳) 人間の3次元インタラクションを理解することは、きめ細かいシーン分析と行動モデリングに不可欠である。
しかし、既存のモデルのほとんどは、微妙な人間の接触面を見逃している不正確で無命な3d推定を予測しています。
This paper addresses such issues with several contributions: (1) we introduce models for interaction signature estimation (ISP) encompassing contact detection, segmentation, and 3d contact signature prediction; (2) we show how such components can be leveraged to ensure contact consistency during 3d reconstruction; (3) we construct several large datasets for learning and evaluating 3d contact prediction and reconstruction methods; specifically, we introduce CHI3D, a lab-based accurate 3d motion capture dataset with 631 sequences containing $2,525$ contact events, $728,664$ ground truth 3d poses, as well as FlickrCI3D, a dataset of $11,216$ images, with $14,081$ processed pairs of people, and $81,233$ facet-level surface correspondences.
最後に, 制御された環境下での対話行動の実態と形状を復元する手法を提案し, 5) テキスト記述によるCHI3Dの3次元対話動作に注釈を付ける。
複数のフォーマット(GHUM と SMPLX パラメータ、Human3.6m 3d 関節)のモーションデータは、評価サーバと公開ベンチマークとともに、研究目的で利用可能である。 Understanding 3d human interactions is fundamental for fine-grained scene analysis and behavioural modeling. However, most of the existing models predict incorrect, lifeless 3d estimates, that miss the subtle human contact aspects--the essence of the event--and are of little use for detailed behavioral understanding. This paper addresses such issues with several contributions: (1) we introduce models for interaction signature estimation (ISP) encompassing contact detection, segmentation, and 3d contact signature prediction; (2) we show how such components can be leveraged to ensure contact consistency during 3d reconstruction; (3) we construct several large datasets for learning and evaluating 3d contact prediction and reconstruction methods; specifically, we introduce CHI3D, a lab-based accurate 3d motion capture dataset with 631 sequences containing $2,525$ contact events, $728,664$ ground truth 3d poses, as well as FlickrCI3D, a dataset of $11,216$ images, with $14,081$ processed pairs of people, and $81,233$ facet-level surface correspondences. Finally, (4) we propose methodology for recovering the ground-truth pose and shape of interacting people in a controlled setup and (5) annotate all 3d interaction motions in CHI3D with textual descriptions. Motion data in multiple formats (GHUM and SMPLX parameters, Human3.6m 3d joints) is made available for research purposes at \url{https://ci3d.imar.ro}, together with an evaluation server and a public benchmark. | 翻訳日:2023-08-04 13:30:26 公開日:2023-08-03 |
# 分布シフトによる統計的推定:ワッサーシュタイン摂動とミニマックス理論 Statistical Estimation Under Distribution Shift: Wasserstein Perturbations and Minimax Theory ( http://arxiv.org/abs/2308.01853v1 ) ライセンス: Link先を確認 | Patrick Chao, Edgar Dobriban | (参考訳) 分散シフトは、データの性質を真実から体系的に変えられるため、現代の統計的学習において深刻な関心事である。
観測結果のごく一部が外れたハマー汚染モデルとは対照的に,各データポイントがわずかに摂動する可能性があるワッサースタイン分布シフトに注目した。
我々は、独立摂動を超えたシフトを定式化し、観測毎摂動を調整できるジョイント分布シフトを探索する。
位置推定,線形回帰,非パラメトリック密度推定など,いくつかの重要な統計問題を分析する。
線形回帰における平均推定誤差と予測誤差の2乗損失の下では、最小極小リスク、最も好ましい摂動を求め、サンプル平均と最小二乗推定器がそれぞれ最適であることを示す。
これは独立とジョイントシフトの両方に当てはまるが、最も好ましい摂動とミニマックスのリスクは異なっている。
他の問題に対しては、ほぼ最適な推定器と正確な有限サンプル境界を提供する。
また,分布シフト下でミニマックスリスクを限定するツールとして,位置族に対する平滑化手法や,最善の事前列,連続性のモジュラス,ル・カム,ファノ,アソアド法などの古典的ツールの一般化についても紹介する。 Distribution shifts are a serious concern in modern statistical learning as they can systematically change the properties of the data away from the truth. We focus on Wasserstein distribution shifts, where every data point may undergo a slight perturbation, as opposed to the Huber contamination model where a fraction of observations are outliers. We formulate and study shifts beyond independent perturbations, exploring Joint Distribution Shifts, where the per-observation perturbations can be coordinated. We analyze several important statistical problems, including location estimation, linear regression, and non-parametric density estimation. Under a squared loss for mean estimation and prediction error in linear regression, we find the exact minimax risk, a least favorable perturbation, and show that the sample mean and least squares estimators are respectively optimal. This holds for both independent and joint shifts, but the least favorable perturbations and minimax risks differ. For other problems, we provide nearly optimal estimators and precise finite-sample bounds. We also introduce several tools for bounding the minimax risk under distribution shift, such as a smoothing technique for location families, and generalizations of classical tools including least favorable sequences of priors, the modulus of continuity, Le Cam's, Fano's, and Assouad's methods. | 翻訳日:2023-08-04 13:30:02 公開日:2023-08-03 |
# 量子状態トモグラフィのためのユーザフレンドリー信頼領域 User-friendly confidence regions for quantum state tomography ( http://arxiv.org/abs/2308.01851v1 ) ライセンス: Link先を確認 | Carlos de Gois, Matthias Kleinmann | (参考訳) 量子状態トモグラフィーは実験データから量子状態を再構成する標準的な手法である。
有限統計量を考えると、実験データは量子状態に関する完全な情報を与えることはできない。
この限られた知識を表現する一般的な方法は、状態空間に信頼領域を提供することである。
これまで多くの信頼領域が提案されてきたが、大きなシステムで使用するにはゆるすぎるか、非標準測定スキームに適用するのが困難であることが多い。
ベクトルベルンシュタインの不等式から始めると、多項分布に続くランダムベクトルの濃度境界を考察し、それらにまたがる固定されたサンプルの予算を分配する最適な戦略を分析する。
これをトモグラフィー実験として解釈すると、2つの信頼領域が得られ、そのうちの1つは文学の最良の領域と同等に機能する。
領域は、状態空間における楕円体を記述し、必要なサンプル数で効率的であり、任意の測定スキームに容易に適用できるという魅力を持つ。 Quantum state tomography is the standard technique for reconstructing a quantum state from experimental data. Given finite statistics, experimental data cannot give perfect information about the quantum state. A common way to express this limited knowledge is by providing confidence regions in state space. Though plenty of confidence regions have been previously proposed, they are often too loose to use for large systems or difficult to apply to nonstandard measurement schemes. Starting from a vector Bernstein inequality, we consider concentration bounds for random vectors following multinomial distributions and analyse optimal strategies to distribute a fixed budget of samples across them. Interpreting this as a tomography experiment leads to two confidence regions, one of which performs comparably well to the best regions in the literature. The regions describe an ellipsoid in the state space and have the appeal of being efficient in the required number of samples as well as being easily applicable to any measurement scheme. | 翻訳日:2023-08-04 13:29:36 公開日:2023-08-03 |
# コヒーレントサンプリングによる拡散モデルによる長期人間の動作の合成 Synthesizing Long-Term Human Motions with Diffusion Models via Coherent Sampling ( http://arxiv.org/abs/2308.01850v1 ) ライセンス: Link先を確認 | Zhao Yang, Bing Su and Ji-Rong Wen | (参考訳) テキストから動きへの生成は注目が集まっているが、既存の手法のほとんどは、1つのアクションを記述する1つの文に対応する短期的な動きを生成することに限定されている。
しかし、テキストストリームが連続した動きのシーケンスを記述する場合、各文に対応する生成された動きはコヒーレントにリンクされない。
既存の長期動作生成手法は2つの問題に直面している。
まず、コヒーレントな動作を直接生成することができず、生成されたアクションを処理するために補間のような追加の操作を必要とする。
第二に、将来の行動が過去の行動に与える影響を考慮せずに、後続の行動を自己回帰的に生成する。
そこで本研究では,過去条件の拡散モデルを用いて,任意の2つのコヒーレントサンプリング法,すなわち過去インパイントサンプリングと組成遷移サンプリングを用いた新しい手法を提案する。
過去の塗装サンプリングは、前の動きを条件として扱うことでその後の動きを完了し、構成遷移サンプリングは、遷移の分布を異なるテキストプロンプトで導かれる2つの隣接する動きの合成としてモデル化する。
提案手法は,ユーザが指示する長文ストリームによって制御される,合成的かつコヒーレントな3次元人間の動作を生成できることを示す。
コードは \href{https://github.com/yangzhao1230/pcmdm}{https://github.com/yangzhao1230/pcmdm} で入手できる。 Text-to-motion generation has gained increasing attention, but most existing methods are limited to generating short-term motions that correspond to a single sentence describing a single action. However, when a text stream describes a sequence of continuous motions, the generated motions corresponding to each sentence may not be coherently linked. Existing long-term motion generation methods face two main issues. Firstly, they cannot directly generate coherent motions and require additional operations such as interpolation to process the generated actions. Secondly, they generate subsequent actions in an autoregressive manner without considering the influence of future actions on previous ones. To address these issues, we propose a novel approach that utilizes a past-conditioned diffusion model with two optional coherent sampling methods: Past Inpainting Sampling and Compositional Transition Sampling. Past Inpainting Sampling completes subsequent motions by treating previous motions as conditions, while Compositional Transition Sampling models the distribution of the transition as the composition of two adjacent motions guided by different text prompts. Our experimental results demonstrate that our proposed method is capable of generating compositional and coherent long-term 3D human motions controlled by a user-instructed long text stream. The code is available at \href{https://github.com/yangzhao1230/PCMDM}{https://github.com/yangzhao1230/PCMDM}. | 翻訳日:2023-08-04 13:29:21 公開日:2023-08-03 |
# 文符号化タスクに対する丸転送学習 Curricular Transfer Learning for Sentence Encoded Tasks ( http://arxiv.org/abs/2308.01849v1 ) ライセンス: Link先を確認 | Jader Martins Camboim de S\'a, Matheus Ferraroni Sanches, Rafael Roque de Souza, J\'ulio Cesar dos Reis, Leandro Aparecido Villas | (参考訳) 下流タスクにおける微調整言語モデルは、NLP分野における多くの最先端の方法論の標準的アプローチである。
しかし、ソースタスクとターゲットタスクの間の分布が、会話環境である \textit{e.g.} のドリフトが減少する傾向にある。
本稿では,「データハッキング」による事前学習段階(カリキュラム)のシーケンスと,事前学習分布間の段階的適応を可能にする文法解析を提案する。
実験では,マルチウォズタスクに対する他の既知の事前学習手法と比較して,提案手法からかなりの改善を得た。 Fine-tuning language models in a downstream task is the standard approach for many state-of-the-art methodologies in the field of NLP. However, when the distribution between the source task and target task drifts, \textit{e.g.}, conversational environments, these gains tend to be diminished. This article proposes a sequence of pre-training steps (a curriculum) guided by "data hacking" and grammar analysis that allows further gradual adaptation between pre-training distributions. In our experiments, we acquire a considerable improvement from our method compared to other known pre-training approaches for the MultiWoZ task. | 翻訳日:2023-08-04 13:28:56 公開日:2023-08-03 |
# XNLP:Universal Structured NLPのための対話型デモシステム XNLP: An Interactive Demonstration System for Universal Structured NLP ( http://arxiv.org/abs/2308.01846v1 ) ライセンス: Link先を確認 | Hao Fei, Meishan Zhang, Min Zhang, Tat-Seng Chua | (参考訳) 構造化自然言語処理 (structured natural language processing, xnlp) はnlpの重要なサブセットであり、多くの下流アプリケーションの基礎となるテキストの意味構造や構文構造を理解することを伴う。
XNLPタスクの特定のカテゴリに対する普遍的な解を探求する最近の試みにもかかわらず、XNLPタスクを統一するための包括的で効果的なアプローチは、まだ開発が進んでいない。
一方、XNLPのデモンストレーションシステムは、様々なXNLPタスクを探索する研究者にとって不可欠であるが、既存のプラットフォームは、例えば、対話性と普遍性に欠ける、少数のXNLPタスクをサポートすることができる。
そこで我々は,LLMを利用して汎用XNLPを実現する,高度なXNLPデモプラットフォームを提案する。
全体として、我々のシステムは、ユニバーサルXNLPモデリング、ハイパフォーマンス、解釈可能性、スケーラビリティ、相互作用性など様々な面で進歩し、コミュニティ内で多様なXNLPタスクを探索するための統一されたプラットフォームを提供する。
xnlpはオンラインである: https://xnlp.haofei.vip Structured Natural Language Processing (XNLP) is an important subset of NLP that entails understanding the underlying semantic or syntactic structure of texts, which serves as a foundational component for many downstream applications. Despite certain recent efforts to explore universal solutions for specific categories of XNLP tasks, a comprehensive and effective approach for unifying all XNLP tasks long remains underdeveloped. In the meanwhile, while XNLP demonstration systems are vital for researchers exploring various XNLP tasks, existing platforms can be limited to, e.g., supporting few XNLP tasks, lacking interactivity and universalness. To this end, we propose an advanced XNLP demonstration platform, where we propose leveraging LLM to achieve universal XNLP, with one model for all with high generalizability. Overall, our system advances in multiple aspects, including universal XNLP modeling, high performance, interpretability, scalability, and interactivity, providing a unified platform for exploring diverse XNLP tasks in the community. XNLP is online: https://xnlp.haofei.vip | 翻訳日:2023-08-04 13:28:46 公開日:2023-08-03 |
# 量子金融シミュレーションと量子状態形成のための新しいアプローチ A novel approach for quantum financial simulation and quantum state preparation ( http://arxiv.org/abs/2308.01844v1 ) ライセンス: Link先を確認 | Yen-Jui Chang, Wei-Ting Wang, Hao-Yuan Chen, Shih-Wei Liao, Ching-Ray Chang | (参考訳) 量子状態の準備は、量子コンピューティングと情報処理において不可欠である。
特定の量子状態の正確かつ確実な準備能力は、様々な用途に不可欠である。
量子コンピュータの有望な応用の一つは量子シミュレーションである。
これは我々がシミュレートしようとしているシステムを表す量子状態の準備が必要です。
本研究では,パラメータ化量子回路(pqc)を用いた複雑な確率分布を古典的シミュレータ上で学習しロードする,新しいシミュレーションアルゴリズムであるmulti-split-steps quantum walk (multi-ssqw)を提案する。
マルチssqwアルゴリズムは分割ステップ量子ウォークの修正版であり、マルチエージェント意思決定プロセスを取り込むように拡張され、金融市場のモデリングに適している。
本研究は,マルチssqwアルゴリズムの理論的記述と経験的研究を提供し,確率分布シミュレーションと金融市場モデリングにおいてその有望性を示す。
量子計算の利点を利用して、マルチssqwは複雑な金融分布とシナリオを高い精度でモデル化し、財務分析と意思決定に有用な洞察とメカニズムを提供する。
マルチSSQWの主な利点は、モデリングの柔軟性、安定した収束、即時計算である。
これらの利点は、ダイナミックな金融市場での迅速なモデリングと予測可能性の基礎となる。 Quantum state preparation is vital in quantum computing and information processing. The ability to accurately and reliably prepare specific quantum states is essential for various applications. One of the promising applications of quantum computers is quantum simulation. This requires preparing a quantum state representing the system we are trying to simulate. This research introduces a novel simulation algorithm, the multi-Split-Steps Quantum Walk (multi-SSQW), designed to learn and load complicated probability distributions using parameterized quantum circuits (PQC) with a variational solver on classical simulators. The multi-SSQW algorithm is a modified version of the split-steps quantum walk, enhanced to incorporate a multi-agent decision-making process, rendering it suitable for modeling financial markets. The study provides theoretical descriptions and empirical investigations of the multi-SSQW algorithm to demonstrate its promising capabilities in probability distribution simulation and financial market modeling. Harnessing the advantages of quantum computation, the multi-SSQW models complex financial distributions and scenarios with high accuracy, providing valuable insights and mechanisms for financial analysis and decision-making. The multi-SSQW's key benefits include its modeling flexibility, stable convergence, and instantaneous computation. These advantages underscore its rapid modeling and prediction potential in dynamic financial markets. | 翻訳日:2023-08-04 13:28:25 公開日:2023-08-03 |
# uret:ユニバーサルロバストネス評価ツールキット(回避のため) URET: Universal Robustness Evaluation Toolkit (for Evasion) ( http://arxiv.org/abs/2308.01840v1 ) ライセンス: Link先を確認 | Kevin Eykholt, Taesung Lee, Douglas Schales, Jiyong Jang, Ian Molloy, and Masha Zorin | (参考訳) 機械学習モデルは、画像分類モデルで示されるように、敵の回避攻撃に弱いことが知られている。
このような攻撃を十分に理解することは、重要なAIタスクの安全性と堅牢性を保証するために重要である。
しかし、ほとんどの回避攻撃は、わずかな制約しか持たないイメージドメインに集中しているため、ほとんどのAIシステムに対して展開することが難しい。
画像は、実際に使用されるAIシステムへの他の多くの入力タイプとは異なり、均一、数値、連続、独立な特徴で構成されている。
さらに、いくつかの入力タイプは、現実的な逆入力を生成するために観察されなければならない追加的な意味的および機能的制約を含んでいる。
本研究では,入力タイプやタスク領域に関係なく,逆入力の生成を可能にする新しいフレームワークを提案する。
入力と事前定義された入力変換のセットが与えられた場合、我々のフレームワークは意味論的に正しく機能的な逆入力をもたらす一連の変換を発見する。
様々な入力表現を持つ多種多様な機械学習タスクに対するアプローチの汎用性を実証する。
また,緩和技術の展開を可能にするために,逆の例を生成することの重要性を示す。 Machine learning models are known to be vulnerable to adversarial evasion attacks as illustrated by image classification models. Thoroughly understanding such attacks is critical in order to ensure the safety and robustness of critical AI tasks. However, most evasion attacks are difficult to deploy against a majority of AI systems because they have focused on image domain with only few constraints. An image is composed of homogeneous, numerical, continuous, and independent features, unlike many other input types to AI systems used in practice. Furthermore, some input types include additional semantic and functional constraints that must be observed to generate realistic adversarial inputs. In this work, we propose a new framework to enable the generation of adversarial inputs irrespective of the input type and task domain. Given an input and a set of pre-defined input transformations, our framework discovers a sequence of transformations that result in a semantically correct and functional adversarial input. We demonstrate the generality of our approach on several diverse machine learning tasks with various input representations. We also show the importance of generating adversarial examples as they enable the deployment of mitigation techniques. | 翻訳日:2023-08-04 13:28:05 公開日:2023-08-03 |
# FROD: 無償でロバストオブジェクト検出 FROD: Robust Object Detection for Free ( http://arxiv.org/abs/2308.01888v1 ) ライセンス: Link先を確認 | Muhammad, Awais, Weiming, Zhuang, Lingjuan, Lyu, Sung-Ho, Bae | (参考訳) 物体検出はコンピュータビジョンにおいて重要なタスクであり、多くの重要なシステムの不可欠な構成要素となっている。
しかし、最先端の物体検出器は、その分類と似ており、通常の振る舞いを著しく変えうる小さな対向摂動の影響を受けやすい。
分類とは異なり、物体検出器の堅牢性は徹底的に調査されていない。
本研究は,逆向きに訓練された分類モデルを利用して,分類の頑健さと物体検出のギャップを埋めるための最初のステップである。
敵が訓練したモデルを、オブジェクト検出のバックボーンとして利用するだけでは、堅牢性は得られない。
本稿では,計算オーバーヘッドを伴わずにオブジェクト検出に頑健性を持たせるために,分類に基づくバックボーンの効果的な修正を提案する。
提案する修正バックボーンによるロバスト性をさらに高めるために,模倣損失と遅延敵訓練という2つの軽量コンポーネントを導入する。
提案手法の有効性を示すため,MS-COCOおよびPascal VOCデータセットの大規模な実験を行った。 Object detection is a vital task in computer vision and has become an integral component of numerous critical systems. However, state-of-the-art object detectors, similar to their classification counterparts, are susceptible to small adversarial perturbations that can significantly alter their normal behavior. Unlike classification, the robustness of object detectors has not been thoroughly explored. In this work, we take the initial step towards bridging the gap between the robustness of classification and object detection by leveraging adversarially trained classification models. Merely utilizing adversarially trained models as backbones for object detection does not result in robustness. We propose effective modifications to the classification-based backbone to instill robustness in object detection without incurring any computational overhead. To further enhance the robustness achieved by the proposed modified backbone, we introduce two lightweight components: imitation loss and delayed adversarial training. Extensive experiments on the MS-COCO and Pascal VOC datasets are conducted to demonstrate the effectiveness of our proposed approach. | 翻訳日:2023-08-04 13:21:01 公開日:2023-08-03 |
# Athena 2.0:オープンドメイン対話における会話とユーザモデリング Athena 2.0: Discourse and User Modeling in Open Domain Dialogue ( http://arxiv.org/abs/2308.01887v1 ) ライセンス: Link先を確認 | Omkar Patil, Lena Reed, Kevin K. Bowden, Juraj Juraska, Wen Cui, Vrindavan Harrison, Rishi Rajasekaran, Angela Ramirez, Cecilia Li, Eduardo Zamora, Phillip Lee, Jeshwanth Bheemanpally, Rohan Pandey, Adwait Ratnaparkhi, and Marilyn Walker | (参考訳) 会話エージェントは一貫して人気が高まり、多くの人々が毎日彼らと対話している。
多くの会話エージェントがパーソナルアシスタントとして振る舞う一方で、さまざまな目標を達成できる。
銀行の顧客サポートの提供や予約の実施など、タスク指向のものもある。
共感的で、ユーザとの感情的なつながりを形成するように設計されている。
alexa prize challengeは、ユーザーが興味を持つさまざまな人気トピックに対して、一貫性のある会話を可能にするソーシャルボットを作ることを目的としている。
ここでは、UCSCのAmazonのSocialbot Grand Challenge 4の会話エージェントであるAthena 2.0について説明する。
athena 2.0は、athenaが対話に導入したエンティティリンクを追跡し、名前付きエンティティの認識とリンク、および相互参照の解決を制約する、新しい知識に基づく談話モデルを利用している。
Athena 2.0はまた、トピックの選択やその他の会話の側面を個々のユーザーにパーソナライズするためのユーザーモデルにも依存している。 Conversational agents are consistently growing in popularity and many people interact with them every day. While many conversational agents act as personal assistants, they can have many different goals. Some are task-oriented, such as providing customer support for a bank or making a reservation. Others are designed to be empathetic and to form emotional connections with the user. The Alexa Prize Challenge aims to create a socialbot, which allows the user to engage in coherent conversations, on a range of popular topics that will interest the user. Here we describe Athena 2.0, UCSC's conversational agent for Amazon's Socialbot Grand Challenge 4. Athena 2.0 utilizes a novel knowledge-grounded discourse model that tracks the entity links that Athena introduces into the dialogue, and uses them to constrain named-entity recognition and linking, and coreference resolution. Athena 2.0 also relies on a user model to personalize topic selection and other aspects of the conversation to individual users. | 翻訳日:2023-08-04 13:20:45 公開日:2023-08-03 |
# 量子ハイパーグラフ状態の魔法 Magic of quantum hypergraph states ( http://arxiv.org/abs/2308.01886v1 ) ライセンス: Link先を確認 | Junjie Chen, Yuxuan Yan, You Zhou | (参考訳) マジック(英: Magic、または非安定化器性)は、安定状態の集合から量子状態の偏りを特徴づけ、量子状態の複雑性から普遍的フォールトトレラント量子コンピューティングへの根本的な役割を担っている。
しかし、マジックの分析的あるいは数値的な特徴付けは、特に適度な量子ビット数であっても、マルチキュービットシステムにおいて非常に困難である。
ここでは,超グラフで符号化されたマルチキュービット制御相ゲートによって生成可能な,アーキティパル多部量子状態 -- 量子ハイパーグラフ状態 -- の魔法資源を体系的に解析的に検討する。
まず、一般的な量子ハイパーグラフ状態に対する安定化器 r$\mathrm{\acute{e}}$nyi-$\alpha$ entropies の項で魔法公式を与え、対応するハイパーグラフの平均次数が一定であれば、魔法が最大値に達しないことを証明する。
次に、ランダムなハイパーグラフ状態の統計挙動を調べ、通常ランダムなハイパーグラフ状態が極大魔法に到達できる濃度結果を証明する。
これはまた、ランダムな対角回路で最大マジック状態を生成する効率的な方法も示唆している。
最後に、置換対称性を持つ高対称性なハイパーグラフ状態(例えば、関連するハイパーグラフが3$完全であるもの、すなわち、任意の3つの頂点がハイパーエッジで接続されているものなど)について研究する。
反対に、そのような状態は$\alpha\geq 2$に対して定数または指数的に小さな魔法しか持たない。
我々の研究は、多部量子魔法の理解を深め、量子コンピューティングや量子多体物理学の応用に繋がる可能性がある。 Magic, or nonstabilizerness, characterizes the deviation of a quantum state from the set of stabilizer states and plays a fundamental role from quantum state complexity to universal fault-tolerant quantum computing. However, analytical or even numerical characterizations of magic are very challenging, especially in the multi-qubit system, even with a moderate qubit number. Here we systemically and analytically investigate the magic resource of archetypal multipartite quantum states -- quantum hypergraph states, which can be generated by multi-qubit Controlled-phase gates encoded by hypergraphs. We first give the magic formula in terms of the stabilizer R$\mathrm{\acute{e}}$nyi-$\alpha$ entropies for general quantum hypergraph states and prove the magic can not reach the maximal value, if the average degree of the corresponding hypergraph is constant. Then we investigate the statistical behaviors of random hypergraph states and prove the concentration result that typically random hypergraph states can reach the maximal magic. This also suggests an efficient way to generate maximal magic states with random diagonal circuits. Finally, we study some highly symmetric hypergraph states with permutation-symmetry, such as the one whose associated hypergraph is $3$-complete, i.e., any three vertices are connected by a hyperedge. Counterintuitively, such states can only possess constant or even exponentially small magic for $\alpha\geq 2$. Our study advances the understanding of multipartite quantum magic and could lead to applications in quantum computing and quantum many-body physics. | 翻訳日:2023-08-04 13:20:30 公開日:2023-08-03 |
# 可換多項式最適化問題としての無バイアス基底 Mutually unbiased bases as a commuting polynomial optimisation problem ( http://arxiv.org/abs/2308.01879v1 ) ライセンス: Link先を確認 | Luke Mortimer | (参考訳) 実数上の多項式最適化問題として相互に偏りのない基底の問題を考える。
2つの手法を用いて探索する前に、既知の対称性を用いて大幅に削減し、多くの最適化手法を組み合わせた。
1つ目は、mubが存在する場合に急速に収束するラグランジュ乗算器を用いたベース探索であり、もう1つは半定値プログラムの階層と分岐境界法を組み合わせて大域探索を行う。
このようなアルゴリズムが最終的に有限記憶で次元6に関するオープン問題を解くことを実証するが、まだ難解なままである。
我々は、基底の不存在を示すために、あるより小さなサイズの正則ベクトル集合を探すのに十分であるという考えを探求する。
我々はこの2つの方法を用いて実現不可能性を示すのに必要な最小集合サイズを推測し、次元 3 に対して証明する。
このようなサブプロブレムが実現不可能であるという事実は、オープンな問題の場合、変数の数を66\%減らし、他のアルゴリズムに対して大きなスピードアップを提供し、トラクタビリティの領域に持ち込む可能性がある。 We consider the problem of mutually unbiased bases as a polynomial optimization problem over the reals. We heavily reduce it using known symmetries before exploring it using two methods, combining a number of optimization techniques. The first of these is a search for bases using Lagrange-multipliers that converges rapidly in case of MUB existence, whilst the second combines a hierarchy of semidefinite programs with branch-and-bound techniques to perform a global search. We demonstrate that such an algorithm would eventually solve the open question regarding dimension 6 with finite memory, although it still remains intractable. We explore the idea that to show the inexistence of bases, it suffices to search for orthonormal vector sets of certain smaller sizes, rather than full bases. We use our two methods to conjecture the minimum set sizes required to show infeasibility, proving it for dimensions 3. The fact that such sub-problems seem to also be infeasible heavily reduces the number of variables, by 66\% in the case of the open problem, potentially providing an large speedup for other algorithms and bringing them into the realm of tractability. | 翻訳日:2023-08-04 13:20:00 公開日:2023-08-03 |
# Thespian: マルチプレイヤーテキストロールプレイングゲームエージェント Thespian: Multi-Character Text Role-Playing Game Agents ( http://arxiv.org/abs/2308.01872v1 ) ライセンス: Link先を確認 | Christopher Cui, Xiangyu Peng, Mark Riedl | (参考訳) テキストアドベンチャーゲームとテキストロールプレイングゲームは、強化学習ゲームエージェントにとって大きな課題である。
テキストロールプレイングゲームは、エージェントが特定のキャラクターを忠実にプレイしなければならないオープンエンド環境である。
我々は,アクターエージェントが複数のキャラクタをプレイする能力を持つキャラクタとキャラクタの区別を考える。
我々は,複数の文字をエミュレートすることを学ぶためのthespian agentと呼ばれるフレームワークと,どの文字をいつでもプレイするかを指示するソフトプロンプトを提案する。
さらに,これまで学習してきた文字に基づいて,エージェントが新たな文字を学ぶための注意機構について述べる。
エージェントは,マルチ文字学習および少数ショット学習において,アートエージェントフレームワークの状況よりも優れていることを示す。 Text-adventure games and text role-playing games are grand challenges for reinforcement learning game playing agents. Text role-playing games are open-ended environments where an agent must faithfully play a particular character. We consider the distinction between characters and actors, where an actor agent has the ability to play multiple characters. We present a framework we call a thespian agent that can learn to emulate multiple characters along with a soft prompt that can be used to direct it as to which character to play at any time. We further describe an attention mechanism that allows the agent to learn new characters that are based on previously learned characters in a few-shot fashion. We show that our agent outperforms the state of the art agent framework in multi-character learning and few-shot learning. | 翻訳日:2023-08-04 13:19:38 公開日:2023-08-03 |
# 電子・電磁ディラック方程式 The Electronic and Electromagnetic Dirac Equations ( http://arxiv.org/abs/2308.01869v1 ) ライセンス: Link先を確認 | Mingjie Li, S. A. R. Horsley | (参考訳) マクスウェル方程式とディラック方程式は、それぞれ電磁波と電子波に対する1次微分相対論的波動方程式である。
したがって、これらの2つの波動方程式には顕著な類似性があり、ディラック方程式が提案されてから広く研究されている。
本稿では,8 の行列を持つ 4 つのディラック作用素を表現することにより,マクスウェル方程式をディラック方程式の正確な形式で書けることを示す。
通常の4-times4$ Dirac方程式とは異なり、スピン-1/2およびスピン--1演算子は8-times8$ Dirac方程式から導出することができ、8-times8$ Dirac方程式は電子と光子の両方を記述することができる。
電磁波が横波であるという制限の結果、光子はスピン-1粒子である。マクスウェル方程式における4電流と電子ディラック方程式における質量もまた、電場に対して異なる変換を強いる。
我々はこの8\times8$表現を使って、光子のジッターベウェングングが実際はポインティングベクトルの振動部分であり、平均的な時間で無視されることを見つける。 Maxwell's equations and the Dirac equation are the first-order differential relativistic wave equation for electromagnetic waves and electronic waves respectively. Hence, there is a notable similarity between these two wave equations, which has been widely researched since the Dirac equation was proposed. In this paper, we show that the Maxwell equations can be written in an exact form of the Dirac equation by representing the four Dirac operators with $8\times8$ matrices. Unlike the ordinary $4\times4$ Dirac equation, both spin--1/2 and spin--1 operators can be derived from the $8\times8$ Dirac equation, manifesting that the $8\times8$ Dirac equation is able to describe both electrons and photons. As a result of the restrictions that the electromagnetic wave is a transverse wave, the photon is a spin--1 particle. The four--current in the Maxwell equations and the mass in the electronic Dirac equation also force the electromagnetic field to transform differently to the electronic field. We use this $8\times8$ representation to find that the Zitterbewegung of the photon is actually the oscillatory part of the Poynting vector, often neglected upon time averaging. | 翻訳日:2023-08-04 13:19:25 公開日:2023-08-03 |
# ディープラーニング技術を用いた競合プログラミング問題のタグ予測 Tag Prediction of Competitive Programming Problems using Deep Learning Techniques ( http://arxiv.org/abs/2308.01863v1 ) ライセンス: Link先を確認 | Taha Lokat, Divyam Prajapati, Shubhada Labde | (参考訳) 過去10年間で、機械学習とディープラーニングの分野で行われている研究の量は、主に自然言語処理(NLP)分野において劇的に増加している。
論理構築や問題解決といったプログラミング能力を開発するためのよく知られた方法は、競合プログラミングである。
初心者やベテランプログラマでさえ、大量のアクセス可能な質問や、さまざまなテーマ、難易度、提供する質問などによって、幅広い質問の集まりを横断することは困難である。
プログラマが知識や関心事に適した質問を見つけるのを助けるために、自動化されたメソッドが必要である。
これは、テキスト分類を使用して質問の自動タグ付けを使って行うことができる。
テキスト分類は自然言語処理の分野で広く研究されている重要なタスクの1つである。
本稿では,テキスト分類手法を用いて競合プログラミング問題の領域を決定する手法を提案する。
LSTM、GRU、MLPを含む様々なモデルが実装されている。
データセットは、主要な競合するプログラミングウェブサイトであるCodeforcesから取り除かれた。
合計で2400の問題がスクラップされ、事前処理され、モデルのトレーニングとテストのためのデータセットとして使用しました。
本モデルを用いた最大精度はmlp(multi layer perceptron)で78.0%である。 In the past decade, the amount of research being done in the fields of machine learning and deep learning, predominantly in the area of natural language processing (NLP), has risen dramatically. A well-liked method for developing programming abilities like logic building and problem solving is competitive programming. It can be tough for novices and even veteran programmers to traverse the wide collection of questions due to the massive number of accessible questions and the variety of themes, levels of difficulty, and questions offered. In order to help programmers find questions that are appropriate for their knowledge and interests, there is a need for an automated method. This can be done using automated tagging of the questions using Text Classification. Text classification is one of the important tasks widely researched in the field of Natural Language Processing. In this paper, we present a way to use text classification techniques to determine the domain of a competitive programming problem. A variety of models, including are implemented LSTM, GRU, and MLP. The dataset has been scraped from Codeforces, a major competitive programming website. A total of 2400 problems were scraped and preprocessed, which we used as a dataset for our training and testing of models. The maximum accuracy reached using our model is 78.0% by MLP(Multi Layer Perceptron). | 翻訳日:2023-08-04 13:18:12 公開日:2023-08-03 |
# より広いLLMネットワークはより公平なLLM評価器である Wider and Deeper LLM Networks are Fairer LLM Evaluators ( http://arxiv.org/abs/2308.01862v1 ) ライセンス: Link先を確認 | Xinghua Zhang, Bowen Yu, Haiyang Yu, Yangyu Lv, Tingwen Liu, Fei Huang, Hongbo Xu, Yongbin Li | (参考訳) LLMが生成する応答の質を測定することは、特に反応が人間の好みと一致しているかどうかを評価する場合、難しい課題である。
新たなアプローチでは、LLM自体を使用して、単一層狭LLMネットワークと同様に、複数の独立した評価によって結果を評価、安定化する。
このネットワークは一定数のニューロンで構成され、各ニューロンは同じLSMである。
本稿では、深層ニューラルネットワークに関する広範囲な研究から、より深いネットワークがより公平な評価に繋がるかどうかを考察する。
具体的には、ニューラルネットワーク内の異なるニューロンが異なる概念を検出する役割を担っているという観察から着想を得て、評価サンプル毎に可能な限り多くのニューロンの役割を適応的に生成する。
各視点は、第1層における特定のLDMニューロンの役割に対応する。
その後の層では、ディープネットワークの上位層がより包括的な特徴を担っているという考えに従い、各層は前層のニューロンから表現を受け取り、局所的に学習した評価情報を統合してより包括的な評価結果を得る。
興味深いことに、このネットワーク設計は学術論文レビューのプロセスに似ている。
提案手法の有効性を検証するため,15タスク,8能力,2,553サンプルからなるLLMEval$^2$ for LLM評価器について,最大かつ多種多様な評価ベンチマークLLMEval$^2$を構築した。
実験の結果,2層(1ラウンドの議論)の広いネットワーク(多くのレビュアーを含む)が最適であり,カッパ相関係数が0.28から0.34に向上した。
また、WideDeepを利用して中国のLCMの評価を支援し、評価時間を4.6倍に短縮し、60%のコスト削減を実現した。
WideDeepは、人間の93%の合意を達成している。 Measuring the quality of responses generated by LLMs is a challenging task, particularly when it comes to evaluating whether the response is aligned with human preference. A novel approach involves using the LLM itself to make evaluation and stabilizing the results through multiple independent evaluations, similar to a single-layer narrow LLM network. This network consists of a fixed number of neurons, with each neuron being the same LLM. In this paper, we draw upon the extensive research on deep neural networks to explore whether deeper and wider networks can lead to fairer evaluations. Specifically, inspired by the observation that different neurons in a neural network are responsible for detecting different concepts, we first adaptively generate as many neuron roles as possible for each evaluation sample. Each perspective corresponds to the role of a specific LLM neuron in the first layer. In subsequent layers, we follow the idea that higher layers in deep networks are responsible for more comprehensive features, each layer receives representations from all neurons in the previous layer, integrating the locally learned evaluation information to obtain a more comprehensive evaluation result. Interestingly, this network design resembles the process of academic paper reviewing. To validate the effectiveness of our method, we construct the largest and most diverse English evaluation benchmark LLMEval$^2$ for LLM evaluators, comprising 15 tasks, 8 abilities, and 2,553 samples. Experimental results demonstrate that a wider network (involving many reviewers) with 2 layers (one round of discussion) performs the best, improving kappa correlation coefficient from 0.28 to 0.34. We also leverage WideDeep to aid in the assessment of Chinese LLMs, which has accelerated the evaluation time by 4.6 times, resulting in a 60% cost saving. WideDeep achieves a remarkable 93% agreement level among humans. | 翻訳日:2023-08-04 13:17:54 公開日:2023-08-03 |
# all-seeing project: パンオプティカルな視覚認識とオープンワールドの理解に向けて The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World ( http://arxiv.org/abs/2308.01907v1 ) ライセンス: Link先を確認 | Weiyun Wang, Min Shi, Qingyun Li, Wenhai Wang, Zhenhang Huang, Linjie Xing, Zhe Chen, Hao Li, Xizhou Zhu, Zhiguo Cao, Yushi Chen, Tong Lu, Jifeng Dai, Yu Qiao | (参考訳) オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
人間のフィードバックと効率的なモデルをループに組み込んだスケーラブルなデータエンジンを使用して、セマンティックタグ、質問応答ペア、詳細なキャプションを付加した10億以上の領域を持つ新しいデータセット(AS-1B)を作成します。
現実世界では350万の共通概念と稀な概念をカバーし、概念とその属性を記述した132億のトークンを持っている。
この新たなデータセットを活用することで、汎視的視覚認識と理解のための統合フレームワークであるAll-Seeing Model(ASM)を開発した。
このモデルはオープンな言語プロンプトとロケーションで訓練されており、地域テキスト検索、地域認識、キャプション、質問応答など、目立ったゼロショットのパフォーマンスで様々なビジョンや言語タスクに一般化することができる。
このプロジェクトが、視覚言語による人工知能研究の基盤となることを願っている。
モデルとデータセットはhttps://github.com/OpenGVLab/All-Seeingでリリースされ、デモはhttps://huggingface.co/spaces/OpenGVLab/all-seeingで見ることができる。 We present the All-Seeing (AS) project: a large-scale data and model for recognizing and understanding everything in the open world. Using a scalable data engine that incorporates human feedback and efficient models in the loop, we create a new dataset (AS-1B) with over 1 billion regions annotated with semantic tags, question-answering pairs, and detailed captions. It covers a wide range of 3.5 million common and rare concepts in the real world, and has 132.2 billion tokens that describe the concepts and their attributes. Leveraging this new dataset, we develop the All-Seeing model (ASM), a unified framework for panoptic visual recognition and understanding. The model is trained with open-ended language prompts and locations, which allows it to generalize to various vision and language tasks with remarkable zero-shot performance, including region-text retrieval, region recognition, captioning, and question-answering. We hope that this project can serve as a foundation for vision-language artificial general intelligence research. Models and the dataset shall be released at https://github.com/OpenGVLab/All-Seeing, and demo can be seen at https://huggingface.co/spaces/OpenGVLab/all-seeing. | 翻訳日:2023-08-04 13:12:28 公開日:2023-08-03 |
# 記号的数学用語問題による大規模言語モデルの推論 Reasoning in Large Language Models Through Symbolic Math Word Problems ( http://arxiv.org/abs/2308.01906v1 ) ライセンス: Link先を確認 | Vedant Gaur, Nikunj Saunshi | (参考訳) 大規模言語モデル(LLM)は、ラベル付きデータで下流タスクを解決することで、NLPに革命をもたらした。
その多彩な能力にもかかわらず、推論能力に関する大きな疑問はいまだに理解されていない。
本稿では,数値解の記号表現が「簡潔な説明」であるため,数値問題の記号バージョンを研究することにより,数学語問題(MWP)の推論に対処する。
SVAMPデータセットのシンボリックバージョンを作成し使用し、GPT-3のdavinci-002モデルもシンボリックMWPに対して良好なゼロショット精度を持つことを示した。
モデルの推論の忠実性を評価するために、mwpに対して、最終回答と出力された推論のアライメントを、それぞれ数値と記号的回答に対応付けて、精度を超えて評価する。
そこで我々は,記号的推論を数値的解法に適合させることを奨励し,llmに簡潔かつ検証可能な推論を提供し,解釈しやすくする自明なアプローチを検討する。
驚くべきことに、自己プロンプティングは、数値的および記号的アキュラシーの両方よりも高いシンボリック精度を向上し、アンサンブル効果をもたらす。
SVAMP_Symデータセットは、記号数学問題の将来の研究のためにリリースされる。 Large language models (LLMs) have revolutionized NLP by solving downstream tasks with little to no labeled data. Despite their versatile abilities, the larger question of their ability to reason remains ill-understood. This paper addresses reasoning in math word problems (MWPs) by studying symbolic versions of the numeric problems, since a symbolic expression is a "concise explanation" of the numeric answer. We create and use a symbolic version of the SVAMP dataset and find that GPT-3's davinci-002 model also has good zero-shot accuracy on symbolic MWPs. To evaluate the faithfulness of the model's reasoning, we go beyond accuracy and additionally evaluate the alignment between the final answer and the outputted reasoning, which correspond to numeric and symbolic answers respectively for MWPs. We explore a self-prompting approach to encourage the symbolic reasoning to align with the numeric answer, thus equipping the LLM with the ability to provide a concise and verifiable reasoning and making it more interpretable. Surprisingly, self-prompting also improves the symbolic accuracy to be higher than both the numeric and symbolic accuracies, thus providing an ensembling effect. The SVAMP_Sym dataset will be released for future research on symbolic math problems. | 翻訳日:2023-08-04 13:12:02 公開日:2023-08-03 |
# Depth Completionのための変形可能な畳み込みの再検討 Revisiting Deformable Convolution for Depth Completion ( http://arxiv.org/abs/2308.01905v1 ) ライセンス: Link先を確認 | Xinglong Sun, Jean Ponce, Yu-Xiong Wang | (参考訳) スパース深度マップから高品質な深度マップを作成することを目的とした深度完備化が近年注目されている。
従来の研究は通常、rgbイメージを指導として使用し、推定された粗大深度マップを洗練するために反復的な空間伝播を導入する。
しかし、ほとんどの伝搬精製法は数回の反復が必要であり、非常に少ない入力で無関係で役に立たない情報を含む固定受容場に苦しむ。
本稿では,変形可能な畳み込みの概念を再検討することにより,これら2つの課題を同時に解決する。
本稿では,変形可能なカーネル畳み込みを単一パスリファインメントモジュールとして活用する効果的なアーキテクチャを提案し,その優位性を実証する。
変形可能な畳み込みの機能をよりよく理解し,それを深層化に活用するために,様々な代表的な戦略を体系的に検討する。
本研究は, 従来の研究と異なり, 変形可能な畳み込みを, 比較的高密度の推定深度マップに適用し, 性能を向上することを明らかにする。
大規模kittiデータセットのモデルを評価し,精度と推論速度の両面で最先端の性能を実現する。
私たちのコードはhttps://github.com/alexsunnik/redcで利用可能です。 Depth completion, which aims to generate high-quality dense depth maps from sparse depth maps, has attracted increasing attention in recent years. Previous work usually employs RGB images as guidance, and introduces iterative spatial propagation to refine estimated coarse depth maps. However, most of the propagation refinement methods require several iterations and suffer from a fixed receptive field, which may contain irrelevant and useless information with very sparse input. In this paper, we address these two challenges simultaneously by revisiting the idea of deformable convolution. We propose an effective architecture that leverages deformable kernel convolution as a single-pass refinement module, and empirically demonstrate its superiority. To better understand the function of deformable convolution and exploit it for depth completion, we further systematically investigate a variety of representative strategies. Our study reveals that, different from prior work, deformable convolution needs to be applied on an estimated depth map with a relatively high density for better performance. We evaluate our model on the large-scale KITTI dataset and achieve state-of-the-art level performance in both accuracy and inference speed. Our code is available at https://github.com/AlexSunNik/ReDC. | 翻訳日:2023-08-04 13:11:39 公開日:2023-08-03 |
# DETRはマルチスケールやローカリティ設計を必要としない DETR Doesn't Need Multi-Scale or Locality Design ( http://arxiv.org/abs/2308.01904v1 ) ライセンス: Link先を確認 | Yutong Lin, Yuhui Yuan, Zheng Zhang, Chen Li, Nanning Zheng, Han Hu | (参考訳) 本稿では, 単一スケールの特徴マップとグローバルなクロスアテンション計算を特定の局所性制約なしで使用し, マルチスケールおよび局所性のアーキテクチャ的帰納バイアスを再導入する従来のDreTRベースの検出器とは対照的に, "プレーン" 特性を維持した改良DreTR検出器を提案する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
ひとつは、クロスアテンション形式に追加されたbox-to-pixel相対位置バイアス(boxrpb)用語で、各クエリを対応するオブジェクト領域に合致させると同時に、エンコーディングの柔軟性も備えている。
2つ目は、マスク付き画像モデリング(MIM)ベースのバックボーン事前トレーニングで、微粒なローカライゼーション能力で表現を学習し、マルチスケールの機能マップへの依存性の修復に不可欠であることを証明している。
これらの技術と最近の訓練と問題形成の進歩を取り入れることで、改良された"プレーン" DETRはオリジナルのDETR検出器よりも優れた性能を示した。
Object365データセットを事前トレーニングに利用することにより、Swin-Lのバックボーンを使用して63.9mAPの精度を実現した。
コードはhttps://github.com/impiga/Plain-DETR で公開されている。 This paper presents an improved DETR detector that maintains a "plain" nature: using a single-scale feature map and global cross-attention calculations without specific locality constraints, in contrast to previous leading DETR-based detectors that reintroduce architectural inductive biases of multi-scale and locality into the decoder. We show that two simple technologies are surprisingly effective within a plain design to compensate for the lack of multi-scale feature maps and locality constraints. The first is a box-to-pixel relative position bias (BoxRPB) term added to the cross-attention formulation, which well guides each query to attend to the corresponding object region while also providing encoding flexibility. The second is masked image modeling (MIM)-based backbone pre-training which helps learn representation with fine-grained localization ability and proves crucial for remedying dependencies on the multi-scale feature maps. By incorporating these technologies and recent advancements in training and problem formation, the improved "plain" DETR showed exceptional improvements over the original DETR detector. By leveraging the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a Swin-L backbone, which is highly competitive with state-of-the-art detectors which all heavily rely on multi-scale feature maps and region-based feature extraction. Code is available at https://github.com/impiga/Plain-DETR . | 翻訳日:2023-08-04 13:11:17 公開日:2023-08-03 |
# arXivのコンピューターサイエンス・プレプリントのケーススタディ How many preprints have actually been printed and why: a case study of computer science preprints on arXiv ( http://arxiv.org/abs/2308.01899v1 ) ライセンス: Link先を確認 | Jialiang Lin, Yao Yu, Yu Zhou, Zhiyang Zhou, Xiaodong Shi | (参考訳) プレプリントは学術界でますます重要な役割を担っている。
学術誌や会議に公式提出する前に、研究者が原稿をプレプリントサーバーに投稿するよう促す理由はたくさんあるが、プレプリントの使用は、特に優先権の主張に関して、かなりの論争を巻き起こしている。
本稿では,2008年から2017年にかけてarxivに提出されたコンピュータ科学用プリプリントの事例研究を行い,ピアレビューされた会場で最終的に印刷されたプレプリントの数を定量化する。
これらの写本のうち、いくつかは異なるタイトルで出版され、arxivのプレプリントに更新されていない。
これらの写本の場合、従来のファジィマッチング法では、プレプリントを最終版にマッピングできない。
本稿では,変換器からの双方向エンコーダ表現(BERT)を用いたセマンティックスに基づくマッピング手法を提案する。
この新たなマッピング手法と複数のデータソースにより,全サンプルプレプリントの66%が変更のないタイトルで公開され,11%が異なるタイトルで公開され,他の変更が加えられていることがわかった。
その後、これらのプレプリントがなぜ出版に受け入れられなかったのかを調べるためにさらなる分析が行われた。
コンピュータ科学の分野では、プレプリントは適切な改訂、複数著者の紹介、詳細な抽象化と紹介、広範囲かつ権威のある参照、利用可能なソースコードが特徴である。 Preprints play an increasingly critical role in academic communities. There are many reasons driving researchers to post their manuscripts to preprint servers before formal submission to journals or conferences, but the use of preprints has also sparked considerable controversy, especially surrounding the claim of priority. In this paper, a case study of computer science preprints submitted to arXiv from 2008 to 2017 is conducted to quantify how many preprints have eventually been printed in peer-reviewed venues. Among those published manuscripts, some are published under different titles and without an update to their preprints on arXiv. In the case of these manuscripts, the traditional fuzzy matching method is incapable of mapping the preprint to the final published version. In view of this issue, we introduce a semantics-based mapping method with the employment of Bidirectional Encoder Representations from Transformers (BERT). With this new mapping method and a plurality of data sources, we find that 66% of all sampled preprints are published under unchanged titles and 11% are published under different titles and with other modifications. A further analysis was then performed to investigate why these preprints but not others were accepted for publication. Our comparison reveals that in the field of computer science, published preprints feature adequate revisions, multiple authorship, detailed abstract and introduction, extensive and authoritative references and available source code. | 翻訳日:2023-08-04 13:10:48 公開日:2023-08-03 |
# unisim:ニューラルネットワーククローズドループセンサシミュレータ UniSim: A Neural Closed-Loop Sensor Simulator ( http://arxiv.org/abs/2308.01898v1 ) ライセンス: Link先を確認 | Ze Yang, Yun Chen, Jingkang Wang, Sivabalan Manivasagam, Wei-Chiu Ma, Anqi Joyce Yang, Raquel Urtasun | (参考訳) 安全自動運転車(sdv)の実現には、自律システムの厳密なテストが不可欠だ。
多くのシナリオが公道でまれに発生するため、世界で安全に収集できる以上の安全性クリティカルなシナリオを生成する必要がある。
性能を正確に評価するためには、SDVとアクターが各タイミングで相互に相互作用するクローズドループでこれらのシナリオ上でSDVをテストする必要がある。
従来記録された運転ログは、これらの新しいシナリオを構築するための豊富なリソースを提供するが、クローズドループ評価では、アクターの追加や削除、既存のアクターとSDVの軌跡が元のログとは異なるため、新しいシーン構成とSDVの決定に基づいてセンサーデータを変更する必要がある。
本稿では,センサ搭載車両が記録した1つの記録ログを,リアルな閉ループマルチセンサシミュレーションに変換するニューラルネットワークシミュレータUniSimを提案する。
UniSimは、シーン内の静的なバックグラウンドと動的アクターの両方を再構築するニューラルネットワーク機能グリッドを構築し、それらを合成して、新たな視点でLiDARとカメラデータをシミュレートする。
補間されたビューをよりうまく扱うために、動的オブジェクトに学習可能なプリエントを組み込んで、畳み込みネットワークを利用して、目に見えない領域を完成させます。
実験により,unisimは下流タスクに小さな領域ギャップを伴い,リアルなセンサデータをシミュレートできることを示した。
我々は,UniSimを用いて,安全クリティカルシナリオにおける自律システムのクローズループ評価を行った。 Rigorously testing autonomy systems is essential for making safe self-driving vehicles (SDV) a reality. It requires one to generate safety critical scenarios beyond what can be collected safely in the world, as many scenarios happen rarely on public roads. To accurately evaluate performance, we need to test the SDV on these scenarios in closed-loop, where the SDV and other actors interact with each other at each timestep. Previously recorded driving logs provide a rich resource to build these new scenarios from, but for closed loop evaluation, we need to modify the sensor data based on the new scene configuration and the SDV's decisions, as actors might be added or removed and the trajectories of existing actors and the SDV will differ from the original log. In this paper, we present UniSim, a neural sensor simulator that takes a single recorded log captured by a sensor-equipped vehicle and converts it into a realistic closed-loop multi-sensor simulation. UniSim builds neural feature grids to reconstruct both the static background and dynamic actors in the scene, and composites them together to simulate LiDAR and camera data at new viewpoints, with actors added or removed and at new placements. To better handle extrapolated views, we incorporate learnable priors for dynamic objects, and leverage a convolutional network to complete unseen regions. Our experiments show UniSim can simulate realistic sensor data with small domain gap on downstream tasks. With UniSim, we demonstrate closed-loop evaluation of an autonomy system on safety-critical scenarios as if it were in the real world. | 翻訳日:2023-08-04 13:10:26 公開日:2023-08-03 |
# 連続学習におけるリプレイサンプル選択と記憶能力の向上 Improving Replay Sample Selection and Storage for Less Forgetting in Continual Learning ( http://arxiv.org/abs/2308.01895v1 ) ライセンス: Link先を確認 | Daniel Brignac, Niels Lobo, Abhijit Mahalanobis | (参考訳) 継続的な学習は、深い学習者が過去のタスクを破滅的に忘れることなく、未知の長さの一連のタスクを訓練できるようにする。
1つの効果的な解決策はリプレイであり、メモリにほとんど過去の経験を保存し、現在のタスクを学習する際にそれを再生する。
しかし、記憶のための最も情報性の高いサンプルを選択し、保存すべきサンプルの最適な数を決定することにはまだ改善の余地がある。
本研究の目的は, 広く使用されている貯水池を様々な代替集団戦略と比較し, 最適な貯水池数を求める方法について, より詳細な分析を行うことである。 Continual learning seeks to enable deep learners to train on a series of tasks of unknown length without suffering from the catastrophic forgetting of previous tasks. One effective solution is replay, which involves storing few previous experiences in memory and replaying them when learning the current task. However, there is still room for improvement when it comes to selecting the most informative samples for storage and determining the optimal number of samples to be stored. This study aims to address these issues with a novel comparison of the commonly used reservoir sampling to various alternative population strategies and providing a novel detailed analysis of how to find the optimal number of stored samples. | 翻訳日:2023-08-04 13:09:58 公開日:2023-08-03 |
# CPTPとHPTPの量子マップ Quantum Maps Between CPTP and HPTP ( http://arxiv.org/abs/2308.01894v1 ) ライセンス: Link先を確認 | Ningping Cao, Maxwell Fitzsimmons, Zachary Mann, Rajesh Pereira, and Raymond Laflamme | (参考訳) オープン量子系がCPTPマップの下で進化するためには、システムと環境の間の最初の相関関係を仮定する。
hermitian-serving trace-serving (HPTP) マップはCPTPを超える局所的動的マップであると考えられている。
本稿では,HPTP領域における物理マップが何かという疑問に対して,二つのアプローチで簡潔な答えを提供する。
1つ目は、CPTPセットから一歩外れて、Semi-Positivity (SP) TPマップを提供することです。
第二の方法は、半非負(sn)tpマップにつながるhptpマップの物理的性質を調べることである。
これらの地図の物理的解釈と幾何学的構造が研究されている。
非CP SPTP写像 $\Psi$ は CP の可除性定義の下での量子非マルコフ過程に対応する($\Psi = \Xi \circ \Phi^{-1}$ であり、$\Xi$ と $\Phi$ は CPTP である)。
$\phi$ の逆可能性仮定を取り除くとき、sntp マップのセットに着地する。
集合関係の副産物は次の質問に対する答えである -- 前の動的$\Phi$が非可逆であるとき、システムはどのようなダイナミクスを通すか。
この場合、ローカルによく定義された唯一のマップは$sn\backslash sp$であり、$sn$という境界にある。
そうでなければ、非ローカルな情報はシステムのダイナミックさでは置き換えられない。
CPTP以外の物理写像の理解により、現在の量子誤差補正スキームが量子非マルコフ誤差を補正するのに十分であることを示す。
いくつかの特別なケースでは、完全な肯定性の欠如により、オーバーヘッドの少ないエラー補正方法がより多く得られます。 For an open quantum system to evolve under CPTP maps, assumptions are made on the initial correlations between the system and the environment. Hermitian-preserving trace-preserving (HPTP) maps are considered as the local dynamic maps beyond CPTP. In this paper, we provide a succinct answer to the question of what physical maps are in the HPTP realm by two approaches. The first is by taking one step out of the CPTP set, which provides us with Semi-Positivity (SP) TP maps. The second way is by examining the physicality of HPTP maps, which leads to Semi-Nonnegative (SN) TP maps. Physical interpretations and geometrical structures are studied for these maps. The non-CP SPTP maps $\Psi$ correspond to the quantum non-Markovian process under the CP-divisibility definition ($\Psi = \Xi \circ \Phi^{-1}$, where $\Xi$ and $\Phi$ are CPTP). When removing the invertibility assumption on $\Phi$, we land in the set of SNTP maps. A by-product of set relations is an answer to the following question -- what kind of dynamics the system will go through when the previous dynamic $\Phi$ is non-invertible. In this case, the only locally well-defined maps are in $SN\backslash SP$, they live on the boundary of $SN$. Otherwise, the non-local information will be irreplaceable in the system's dynamic. With the understanding of physical maps beyond CPTP, we prove that the current quantum error correction scheme is still sufficient to correct quantum non-Markovian errors. In some special cases, lack of complete positivity could provide us with more error correction methods with less overhead. | 翻訳日:2023-08-04 13:09:47 公開日:2023-08-03 |
# Trimmed Lassoによる非線形力学系の精密同定 Exact identification of nonlinear dynamical systems by Trimmed Lasso ( http://arxiv.org/abs/2308.01891v1 ) ライセンス: Link先を確認 | Shawn L. Kiser, Mikhail Guskov, Marc R\'ebillat, Nicolas Ranc | (参考訳) 非線形力学系の同定は、逐次しきい値最小二乗法(STLS)アルゴリズムによる非線形力学(SINDy)のスパース同定によって一般化されている。
多くの拡張 SINDy は、長さと雑音が有限である実験データを扱うために文献に現れた。
近年,有限・高雑音データを扱うモデル同定法として,自己資本型シンディモデル(e-sindy)の計算集約法が提案されている。
SINDyの拡張は多種多様であるが、その空間的プロモーティング推定器は時折、正確な回復とは対照的に、ダイナミクスのスパース近似を提供する。
さらに、これらの推定子は多重線型性(例えばラッソの表現不能条件)に苦しむ。
本稿では,モデル(TRIM)のロバスト同定のためのトリムラッソが,E-SINDyに対して,より厳しい雑音,有限データ,複数線形性の下で正確なリカバリを実現することを実証する。
さらに、トリムのスパーシティパラメータを凸解法で効率的に解くことができるため、トリムの計算コストはstlと漸近的に等しい。
我々は,これらの非線形システム,特にlorenz 63システム,2016年のno\"el and schoukens非線形ダイナミクスベンチマークによるboubc wenオシレータ,ツール切断ダイナミクスを記述した時間遅延システムの比較を行った。
本研究は,stls,$\ell_1$ 最小化,および有限およびノイズデータの問題,ライブラリが次元的に増大する際の疎回帰の性能,正規化パラメータの選択のための自動的手法など,実践者が直面する問題に対する同定におけるラッソの比較を強調する。 Identification of nonlinear dynamical systems has been popularized by sparse identification of the nonlinear dynamics (SINDy) via the sequentially thresholded least squares (STLS) algorithm. Many extensions SINDy have emerged in the literature to deal with experimental data which are finite in length and noisy. Recently, the computationally intensive method of ensembling bootstrapped SINDy models (E-SINDy) was proposed for model identification, handling finite, highly noisy data. While the extensions of SINDy are numerous, their sparsity-promoting estimators occasionally provide sparse approximations of the dynamics as opposed to exact recovery. Furthermore, these estimators suffer under multicollinearity, e.g. the irrepresentable condition for the Lasso. In this paper, we demonstrate that the Trimmed Lasso for robust identification of models (TRIM) can provide exact recovery under more severe noise, finite data, and multicollinearity as opposed to E-SINDy. Additionally, the computational cost of TRIM is asymptotically equal to STLS since the sparsity parameter of the TRIM can be solved efficiently by convex solvers. We compare these methodologies on challenging nonlinear systems, specifically the Lorenz 63 system, the Bouc Wen oscillator from the nonlinear dynamics benchmark of No\"el and Schoukens, 2016, and a time delay system describing tool cutting dynamics. This study emphasizes the comparisons between STLS, reweighted $\ell_1$ minimization, and Trimmed Lasso in identification with respect to problems faced by practitioners: the problem of finite and noisy data, the performance of the sparse regression of when the library grows in dimension (multicollinearity), and automatic methods for choice of regularization parameters. | 翻訳日:2023-08-04 13:09:16 公開日:2023-08-03 |
# DualCoOp++: アノテーションを限定したマルチラベル認識への高速かつ効果的な適応 DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition with Limited Annotations ( http://arxiv.org/abs/2308.01890v1 ) ライセンス: Link先を確認 | Ping Hu, Ximeng Sun, Stan Sclaroff, and Kate Saenko | (参考訳) 低音域におけるマルチラベル画像認識は,課題と実用的意義の課題である。
以前の作品は、限られた画像ラベルを補うためにテキスト空間と視覚空間のアライメントを学ぶことに重点を置いていたが、高品質のマルチラベルアノテーションが不足しているため、精度が低下する可能性がある。
本研究では,何百万もの補助画像-テキストペアで事前学習したテキスト特徴と視覚特徴の強力なアライメントを利用する。
我々は、部分ラベルとゼロショットのマルチラベル認識に対応するための統一的なアプローチとして、エビデンス主導のデュアルコンテキスト最適化(dualcoop++)と呼ばれる効率的かつ効果的なフレームワークを導入する。
dualcoop++では、言語入力(すなわちプロンプト)のパラメトリックコンポーネントとして、ターゲットクラスの明示的、肯定的、否定的なコンテキストを別々にエンコードします。
立証コンテキストは、対象クラスに関連するすべての視覚コンテンツを発見し、画像の空間領域からポジティブなコンテキストとネガティブなコンテキストを集約し、類似したカテゴリの識別を改善するためのガイダンスとして機能する。
さらに,学習中にクラス間インタラクションを促進するとともに,余分なパラメータやコストを回避できるウィナー・テイク・オールモジュールを導入する。
DualCoOp++は、事前訓練された視覚言語フレームワークに最小限の学習オーバーヘッドを課しているため、アノテーションや目に見えないクラスを限定したマルチラベル認識タスクへの迅速な適応を可能にしている。
2つの挑戦的な低ラベル設定における標準マルチラベル認識ベンチマークの実験は、最先端手法よりも優れた性能を示している。 Multi-label image recognition in the low-label regime is a task of great challenge and practical significance. Previous works have focused on learning the alignment between textual and visual spaces to compensate for limited image labels, yet may suffer from reduced accuracy due to the scarcity of high-quality multi-label annotations. In this research, we leverage the powerful alignment between textual and visual features pretrained with millions of auxiliary image-text pairs. We introduce an efficient and effective framework called Evidence-guided Dual Context Optimization (DualCoOp++), which serves as a unified approach for addressing partial-label and zero-shot multi-label recognition. In DualCoOp++ we separately encode evidential, positive, and negative contexts for target classes as parametric components of the linguistic input (i.e., prompts). The evidential context aims to discover all the related visual content for the target class, and serves as guidance to aggregate positive and negative contexts from the spatial domain of the image, enabling better distinguishment between similar categories. Additionally, we introduce a Winner-Take-All module that promotes inter-class interaction during training, while avoiding the need for extra parameters and costs. As DualCoOp++ imposes minimal additional learnable overhead on the pretrained vision-language framework, it enables rapid adaptation to multi-label recognition tasks with limited annotations and even unseen classes. Experiments on standard multi-label recognition benchmarks across two challenging low-label settings demonstrate the superior performance of our approach compared to state-of-the-art methods. | 翻訳日:2023-08-04 13:08:46 公開日:2023-08-03 |
# スマートグリッドにおけるエネルギー盗難検出と予測に有効なLSTM-DDPM方式 An Effective LSTM-DDPM Scheme for Energy Theft Detection and Forecasting in Smart Grid ( http://arxiv.org/abs/2307.16149v2 ) ライセンス: Link先を確認 | Xun Yuan and Yang Yang and Arwa Alromih and Prosanta Gope and Biplab Sikdar | (参考訳) スマートグリッドシステムにおけるエネルギー盗難検知(ETD)とエネルギー消費予測(ECF)は相互に連携する課題である。
これらの問題に対処することは、システムセキュリティの確保に不可欠である。
本稿では,スマートグリッドシステムにおけるETDとECFの相互接続課題について述べる。
提案手法では,long short-term memory (lstm) とdenoising diffusion probabilistic model (ddpm) を組み合わせて入力再構成と予測を行う。
レコンストラクションエラーと予測エラーを利用して、システムは、異なる種類の攻撃を検出する際に、レコンストラクションエラーと予測エラーに基づく方法を用いて、エネルギー盗難のインスタンスを識別する。
実世界のデータセットと合成データセットに関する広範な実験を通じて、提案手法はETDおよびECF問題のベースライン法より優れている。
アンサンブル法はETD性能を著しく向上させ、ベースライン法が検出できないエネルギー盗難攻撃を正確に検出する。
この研究はETDとECFの課題に対処するための包括的で効果的なソリューションを提供し、有望な結果を示し、スマートグリッドシステムのセキュリティを改善している。 Energy theft detection (ETD) and energy consumption forecasting (ECF) are two interconnected challenges in smart grid systems. Addressing these issues collectively is crucial for ensuring system security. This paper addresses the interconnected challenges of ETD and ECF in smart grid systems. The proposed solution combines long short-term memory (LSTM) and a denoising diffusion probabilistic model (DDPM) to generate input reconstruction and forecasting. By leveraging the reconstruction and forecasting errors, the system identifies instances of energy theft, with the methods based on reconstruction error and forecasting error complementing each other in detecting different types of attacks. Through extensive experiments on real-world and synthetic datasets, the proposed scheme outperforms baseline methods in ETD and ECF problems. The ensemble method significantly enhances ETD performance, accurately detecting energy theft attacks that baseline methods fail to detect. The research offers a comprehensive and effective solution for addressing ETD and ECF challenges, demonstrating promising results and improved security in smart grid systems. | 翻訳日:2023-08-04 11:24:34 公開日:2023-08-03 |
# KNNを用いたテキスト分類におけるGzip vs. bag-of-words Gzip versus bag-of-words for text classification with KNN ( http://arxiv.org/abs/2307.15002v4 ) ライセンス: Link先を確認 | Juri Opitz | (参考訳) KNNベースのテキスト分類(gzip)における圧縮距離の有効性は近年注目されている。
本稿では,より単純な手段も有効であり,圧縮は不要であることを示す。
実際、'bag-of-words'マッチングは類似またはより良い結果を得ることができ、より効率的である。 The effectiveness of compression distance in KNN-based text classification ('gzip') has recently garnered lots of attention. In this note we show that simpler means can also be effective, and compression may not be needed. Indeed, a 'bag-of-words' matching can achieve similar or better results, and is more efficient. | 翻訳日:2023-08-04 11:24:16 公開日:2023-08-03 |
# クロスドメインプラネタリー・ギアボックス障害診断のための健康データマップを用いたドメイン知識による合成故障サンプル生成 Domain knowledge-informed Synthetic fault sample generation with Health Data Map for cross-domain Planetary Gearbox Fault Diagnosis ( http://arxiv.org/abs/2305.19569v4 ) ライセンス: Link先を確認 | Jong Moon Ha and Olga Fink | (参考訳) 振動信号と深層学習(dl)を用いた惑星ギアボックスの故障診断に関する広範な研究が行われている。
しかし, dlベースの手法は, ギヤボックスの動作条件が異なるため, ドメインシフト問題に影響を受けやすい。
このようなドメインシフトを克服するために、ドメイン適応とデータ合成法が提案されているが、ターゲットドメインで健全なデータしか利用できない現実の状況では直接適用されないことが多い。
本稿では,対象領域にのみ健全なデータが存在する極端領域シフトシナリオの課題を解決するために,health data map (hdmap) を用いた2つの新しいドメイン知識に基づくデータ合成手法を提案する。
提案された2つのアプローチはスケールされた CutPaste と FaultPaste と呼ばれる。
hdmapはプラネタリー・ギアボックスの振動信号をイメージライクなマトリックスとして物理的に表現するために使用され、断層関連の特徴を可視化することができる。
CutPasteとFactPasteは、それぞれソースドメインから抽出されたドメイン知識と障害シグネチャを使用して、ターゲットドメインの健全なデータに基づいて障害サンプルを生成する。
提案手法は,実際の障害を生成することに加えて,様々な重大度レベルを有する障害の合成制御のための障害シグネチャのスケーリングを導入する。
提案手法を評価するために、惑星のギアボックス試験台上でケーススタディを行った。
その結果,提案手法は,過度な領域シフトの場合であっても,障害を正確に診断でき,対象領域ではこれまで観測されていなかった障害の重大度を推定できることがわかった。 Extensive research has been conducted on fault diagnosis of planetary gearboxes using vibration signals and deep learning (DL) approaches. However, DL-based methods are susceptible to the domain shift problem caused by varying operating conditions of the gearbox. Although domain adaptation and data synthesis methods have been proposed to overcome such domain shifts, they are often not directly applicable in real-world situations where only healthy data is available in the target domain. To tackle the challenge of extreme domain shift scenarios where only healthy data is available in the target domain, this paper proposes two novel domain knowledge-informed data synthesis methods utilizing the health data map (HDMap). The two proposed approaches are referred to as scaled CutPaste and FaultPaste. The HDMap is used to physically represent the vibration signal of the planetary gearbox as an image-like matrix, allowing for visualization of fault-related features. CutPaste and FaultPaste are then applied to generate faulty samples based on the healthy data in the target domain, using domain knowledge and fault signatures extracted from the source domain, respectively. In addition to generating realistic faults, the proposed methods introduce scaling of fault signatures for controlled synthesis of faults with various severity levels. A case study is conducted on a planetary gearbox testbed to evaluate the proposed approaches. The results show that the proposed methods are capable of accurately diagnosing faults, even in cases of extreme domain shift, and can estimate the severity of faults that have not been previously observed in the target domain. | 翻訳日:2023-08-04 11:24:12 公開日:2023-08-03 |
# ドメイン一般化意味セグメンテーションのための二段スタイライゼーション変調 Dual Stage Stylization Modulation for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2304.09347v4 ) ライセンス: Link先を確認 | Gabriel Tjio, Ping Liu, Chee-Keong Kwoh, Joey Tianyi Zhou | (参考訳) 深層モデルのトレーニングに十分なラベル付きデータを得ることは、現実のアプリケーションではしばしば困難である。
この問題に対処するため,我々は,単一ソース領域一般意味セグメンテーションのための新しい解を提案する。
近年,幻覚技術を用いたデータ多様性向上手法が検討されている。
しかし、過剰な幻覚は、特に不均衡なデータセットのパフォーマンスを低下させる可能性がある。
実験で示したように、マイノリティクラスは多数派クラスに比べて幻覚によるパフォーマンス低下の影響を受けやすい。
この課題に対処するため,Adversarial Semantic Hallucination+ (ASH+) フレームワーク内に2段階のFeature Transform (dFT) 層を導入する。
ASH+フレームワークは幻覚強度の二重ステージ操作を行う。
提案手法は,各画素の意味情報を活用することで,画素毎の幻覚強度を適応的に調整し,幻覚に対するきめ細かい制御を行う。
提案手法の有効性を検証するために,semantic segmentation benchmark datasets (cityscapes and synthia) を用いた総合実験を行った。
定量的および定性的な比較は、我々のアプローチがCityscapesデータセットの最先端の手法と競合し、SynTHIAデータセットの既存のソリューションを上回ることを示している。
私たちのフレームワークのコードは研究コミュニティで簡単に利用できます。 Obtaining sufficient labeled data for training deep models is often challenging in real-life applications. To address this issue, we propose a novel solution for single-source domain generalized semantic segmentation. Recent approaches have explored data diversity enhancement using hallucination techniques. However, excessive hallucination can degrade performance, particularly for imbalanced datasets. As shown in our experiments, minority classes are more susceptible to performance reduction due to hallucination compared to majority classes. To tackle this challenge, we introduce a dual-stage Feature Transform (dFT) layer within the Adversarial Semantic Hallucination+ (ASH+) framework. The ASH+ framework performs a dual-stage manipulation of hallucination strength. By leveraging semantic information for each pixel, our approach adaptively adjusts the pixel-wise hallucination strength, thus providing fine-grained control over hallucination. We validate the effectiveness of our proposed method through comprehensive experiments on publicly available semantic segmentation benchmark datasets (Cityscapes and SYNTHIA). Quantitative and qualitative comparisons demonstrate that our approach is competitive with state-of-the-art methods for the Cityscapes dataset and surpasses existing solutions for the SYNTHIA dataset. Code for our framework will be made readily available to the research community. | 翻訳日:2023-08-04 11:23:44 公開日:2023-08-03 |
# promix: クリーンサンプルユーティリティの最大化によるラベルノイズ対策 ProMix: Combating Label Noise via Maximizing Clean Sample Utility ( http://arxiv.org/abs/2207.10276v4 ) ライセンス: Link先を確認 | Ruixuan Xiao, Yiwen Dong, Haobo Wang, Lei Feng, Runze Wu, Gang Chen, Junbo Zhao | (参考訳) 不完全な注釈付きデータが比較的安価に得られるため、ノイズラベル(LNL)による学習は魅力的なトピックとなっている。
最近の最先端のアプローチでは、クリーンでノイズの多いサンプルを分離するために特定の選択機構を採用し、パフォーマンス向上のためにセミスーパーバイザードラーニング(SSL)技術を適用している。
しかし、選択ステップは、主に中規模でまともなクリーンなサブセットを提供し、豊富なクリーンなサンプルセットを見渡せる。
そこで本研究では,クリーンサンプルの有用性を最大限に活用し,性能を向上させるための新しいlnlフレームワーク promixを提案する。
提案手法では,信頼度の高いサンプルを選択し,与えられたラベルと一致した予測を行い,ベースクリーンなサンプルセットを動的に拡張する。
過大なクリーンセット選択手順の潜在的な副作用を克服するために,分離されたクリーンでノイズの多いサンプルに対して,バランスとバイアスのない分類器をトレーニングできる新しいsslフレームワークを考案する。
広範な実験により、promixは、異なるタイプとノイズレベルを持つ複数のベンチマークで、現在の最先端の結果を著しく改善することが示されている。
CIFAR-Nデータセットでは平均2.48\%の改善が達成されている。
コードはhttps://github.com/Justherozen/ProMixで入手できる。 Learning with Noisy Labels (LNL) has become an appealing topic, as imperfectly annotated data are relatively cheaper to obtain. Recent state-of-the-art approaches employ specific selection mechanisms to separate clean and noisy samples and then apply Semi-Supervised Learning (SSL) techniques for improved performance. However, the selection step mostly provides a medium-sized and decent-enough clean subset, which overlooks a rich set of clean samples. To fulfill this, we propose a novel LNL framework ProMix that attempts to maximize the utility of clean samples for boosted performance. Key to our method, we propose a matched high confidence selection technique that selects those examples with high confidence scores and matched predictions with given labels to dynamically expand a base clean sample set. To overcome the potential side effect of excessive clean set selection procedure, we further devise a novel SSL framework that is able to train balanced and unbiased classifiers on the separated clean and noisy samples. Extensive experiments demonstrate that ProMix significantly advances the current state-of-the-art results on multiple benchmarks with different types and levels of noise. It achieves an average improvement of 2.48\% on the CIFAR-N dataset. The code is available at https://github.com/Justherozen/ProMix | 翻訳日:2023-08-04 11:23:23 公開日:2023-08-03 |
# cmunext:大規模カーネルとスキップ融合に基づく効率的な医用画像分割ネットワーク CMUNeXt: An Efficient Medical Image Segmentation Network based on Large Kernel and Skip Fusion ( http://arxiv.org/abs/2308.01239v2 ) ライセンス: Link先を確認 | Fenghe Tang, Jianrui Ding, Lingtao Wang, Chunping Ning, S. Kevin Zhou | (参考訳) 医用画像分割ネットワークの設計において,U字型アーキテクチャが重要なパラダイムとして登場した。
しかし、畳み込みの固有の局所的制限のため、U字型アーキテクチャを備えた完全畳み込みセグメンテーションネットワークは、病変の正確な局所化に不可欠なグローバルコンテキスト情報を効果的に抽出するのに苦労する。
CNNとトランスフォーマーを組み合わせたハイブリッドアーキテクチャはこれらの問題に対処できるが、環境やエッジデバイスによって課される計算資源の制約により、実際の医療シナリオでの応用は限られている。
さらに、軽量ネットワークにおける畳み込み型インダクティブバイアスは、トランスベースネットワークに欠けている不足した医療データにうまく適合する。
帰納バイアスを利用してグローバルなコンテキスト情報を抽出するために,実シーンにおける高速かつ正確な補助診断を可能にする,効率的な完全畳み込み型医用画像分割ネットワークであるCMUNeXtを提案する。
CMUNeXtは、大きめのカーネルと逆ボトルネック設計を利用して、遠隔空間と位置情報を徹底的に混合し、グローバルコンテキスト情報を効率的に抽出する。
また,スムーズなスキップ接続を実現し,十分な機能融合を実現するために,Skip-Fusionブロックを導入した。
複数の医用画像データセットを用いた実験の結果, cmunextは, 予測速度, 軽量化, 計算コストの低減とともに, 既存のヘビーウェイトおよび軽量医用画像セグメンテーションネットワークのセグメンテーション性能よりも優れていた。
コードはhttps://github.com/FengheTan9/CMUNeXt.comで入手できる。 The U-shaped architecture has emerged as a crucial paradigm in the design of medical image segmentation networks. However, due to the inherent local limitations of convolution, a fully convolutional segmentation network with U-shaped architecture struggles to effectively extract global context information, which is vital for the precise localization of lesions. While hybrid architectures combining CNNs and Transformers can address these issues, their application in real medical scenarios is limited due to the computational resource constraints imposed by the environment and edge devices. In addition, the convolutional inductive bias in lightweight networks adeptly fits the scarce medical data, which is lacking in the Transformer based network. In order to extract global context information while taking advantage of the inductive bias, we propose CMUNeXt, an efficient fully convolutional lightweight medical image segmentation network, which enables fast and accurate auxiliary diagnosis in real scene scenarios. CMUNeXt leverages large kernel and inverted bottleneck design to thoroughly mix distant spatial and location information, efficiently extracting global context information. We also introduce the Skip-Fusion block, designed to enable smooth skip-connections and ensure ample feature fusion. Experimental results on multiple medical image datasets demonstrate that CMUNeXt outperforms existing heavyweight and lightweight medical image segmentation networks in terms of segmentation performance, while offering a faster inference speed, lighter weights, and a reduced computational cost. The code is available at https://github.com/FengheTan9/CMUNeXt. | 翻訳日:2023-08-04 11:21:04 公開日:2023-08-03 |
# fusionad: 自動運転の予測と計画タスクのためのマルチモダリティ融合 FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving ( http://arxiv.org/abs/2308.01006v2 ) ライセンス: Link先を確認 | Tengju Ye, Wei Jing, Chunyong Hu, Shikun Huang, Lingping Gao, Fangzhen Li, Jingke Wang, Ke Guo, Wencong Xiao, Weibo Mao, Hang Zheng, Kun Li, Junbo Chen, Kaicheng Yu | (参考訳) 高精度でロバストなパフォーマンスに向けたマルチモダリティマルチタスクニューラルネットワークの構築は、自動運転の知覚タスクにおけるデファクトスタンダードである。
しかし、複数のセンサからのそのようなデータを活用して予測と計画タスクを共同で最適化することは、ほとんど未検討のままである。
本稿では、FusionADについて、私たちの知る限りでは、カメラとLiDARの2つの重要なセンサーからの情報を融合する最初の統合フレームワークであるFusionADについて述べる。
具体的には、最初にトランスフォーマーベースのマルチモダリティフュージョンネットワークを構築し、フュージョンベースの機能を効果的に生み出す。
カメラベースのエンドツーエンド手法であるUniADに対して、マルチモーダル特徴の利点を生かしたFMSPnPと呼ばれるモダリティ対応予測とステータス対応計画モジュールを融合して構築する。
一般的なベンチマークnuscenesデータセットを広範囲に実験した結果,fusionadは最先端のパフォーマンスを達成し,検出や追跡などの知覚タスクでは平均15%,占有予測精度では10%,adeスコアでは0.708から0.389に低下し,衝突率を0.31%から0.12%に低減した。 Building a multi-modality multi-task neural network toward accurate and robust performance is a de-facto standard in perception task of autonomous driving. However, leveraging such data from multiple sensors to jointly optimize the prediction and planning tasks remains largely unexplored. In this paper, we present FusionAD, to the best of our knowledge, the first unified framework that fuse the information from two most critical sensors, camera and LiDAR, goes beyond perception task. Concretely, we first build a transformer based multi-modality fusion network to effectively produce fusion based features. In constrast to camera-based end-to-end method UniAD, we then establish a fusion aided modality-aware prediction and status-aware planning modules, dubbed FMSPnP that take advantages of multi-modality features. We conduct extensive experiments on commonly used benchmark nuScenes dataset, our FusionAD achieves state-of-the-art performance and surpassing baselines on average 15% on perception tasks like detection and tracking, 10% on occupancy prediction accuracy, reducing prediction error from 0.708 to 0.389 in ADE score and reduces the collision rate from 0.31% to only 0.12%. | 翻訳日:2023-08-04 11:20:32 公開日:2023-08-03 |
# 分離と誘導:モデル盗み攻撃に対するロバストなディープニューラルネットワークのトレーニング Isolation and Induction: Training Robust Deep Neural Networks against Model Stealing Attacks ( http://arxiv.org/abs/2308.00958v2 ) ライセンス: Link先を確認 | Jun Guo, Aishan Liu, Xingyu Zheng, Siyuan Liang, Yisong Xiao, Yichao Wu, Xianglong Liu | (参考訳) マシンラーニングモデル・アズ・ア・サービス(mlaas)の広範な適用にもかかわらず、モデル盗み攻撃に対して脆弱である。
これらの攻撃は、ターゲットの犠牲者モデルに関する事前の知識なしにブラックボックスクエリプロセスを使用することで、モデルの機能を複製することができる。
既存の盗難防御は、被害者の後部確率を欺いて攻撃者を誤解させる。
しかし、これらの防御は現在、高い推論の計算オーバーヘッドと良性の正確さと、実際にデプロイされるモデルの実現可能性に挑戦する堅牢さの間の不利なトレードオフという問題に直面している。
そこで本研究では,モデルステルス防衛のための新しい効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
冗長な推論時間をもたらす補助的な防御モジュールを配置する代わりに、iniは、敵のトレーニング勾配を期待勾配から分離することで防御モデルを直接訓練し、推論計算コストを効果的に削減する。
良性的正確性を損なうモデル予測に摂動を追加するのとは対照的に,クエリ盗みに対して非形式的アウトプットを生成するようにモデルを訓練することで,良性的性能への影響を最小限に抑えながら,被害者モデルから有用な知識をほとんど取り出すことを敵に促すことができる。
いくつかの視覚分類データセット(例えば、MNISTとCIFAR10)に対する大規模な実験は、他の最先端手法よりも優れた堅牢性(48%まで精度を低下させる)と速度(最大25.4倍高速)を示す。
私たちのコードはhttps://github.com/DIG-Beihang/InI-Model-Stealing-Defenseで確認できます。 Despite the broad application of Machine Learning models as a Service (MLaaS), they are vulnerable to model stealing attacks. These attacks can replicate the model functionality by using the black-box query process without any prior knowledge of the target victim model. Existing stealing defenses add deceptive perturbations to the victim's posterior probabilities to mislead the attackers. However, these defenses are now suffering problems of high inference computational overheads and unfavorable trade-offs between benign accuracy and stealing robustness, which challenges the feasibility of deployed models in practice. To address the problems, this paper proposes Isolation and Induction (InI), a novel and effective training framework for model stealing defenses. Instead of deploying auxiliary defense modules that introduce redundant inference time, InI directly trains a defensive model by isolating the adversary's training gradient from the expected gradient, which can effectively reduce the inference computational cost. In contrast to adding perturbations over model predictions that harm the benign accuracy, we train models to produce uninformative outputs against stealing queries, which can induce the adversary to extract little useful knowledge from victim models with minimal impact on the benign performance. Extensive experiments on several visual classification datasets (e.g., MNIST and CIFAR10) demonstrate the superior robustness (up to 48% reduction on stealing accuracy) and speed (up to 25.4x faster) of our InI over other state-of-the-art methods. Our codes can be found in https://github.com/DIG-Beihang/InI-Model-Stealing-Defense. | 翻訳日:2023-08-04 11:20:07 公開日:2023-08-03 |
# バイレベル最適化入門:信号処理と機械学習の基礎と応用 An Introduction to Bi-level Optimization: Foundations and Applications in Signal Processing and Machine Learning ( http://arxiv.org/abs/2308.00788v2 ) ライセンス: Link先を確認 | Yihua Zhang, Prashant Khanduri, Ioannis Tsaknakis, Yuguang Yao, Mingyi Hong, Sijia Liu | (参考訳) 近年,信号処理 (SP) と機械学習 (ML) の分野において,バイレベル最適化 (BLO) が注目されている。
大まかに言えば、BLOは古典的な最適化問題であり、2段階の階層構造(上層と下層)を伴い、上層問題の解を得るためには、下位層を解く必要がある。
BLOは主に、ネストされた目的関数の最適化を含むSPやMLのモデリング問題に強力なため人気がある。
BLOの代表的な応用は、無線システムのリソース割り当てから敵機械学習まで様々である。
本研究では,SP や ML アプリケーションによく現れるトラクタブルな BLO 問題に焦点をあてる。
本稿では,BLO問題の基本概念として,最適化条件,標準アルゴリズム(最適化原理や実践的実装を含む),およびいくつかの主要なSPおよびMLアプリケーションに対する最先端結果の取得方法について概説する。
さらに,BLO理論の最近の進歩,応用への含意,将来的な研究に必要な最先端技術の限界についても論じる。
全体として、この記事は、幅広い新興SPおよびMLアプリケーション上でモデリング、分析、革新を行う汎用ツールとして、BLOの採用を加速するのに役立つことを願っている。 Recently, bi-level optimization (BLO) has taken center stage in some very exciting developments in the area of signal processing (SP) and machine learning (ML). Roughly speaking, BLO is a classical optimization problem that involves two levels of hierarchy (i.e., upper and lower levels), wherein obtaining the solution to the upper-level problem requires solving the lower-level one. BLO has become popular largely because it is powerful in modeling problems in SP and ML, among others, that involve optimizing nested objective functions. Prominent applications of BLO range from resource allocation for wireless systems to adversarial machine learning. In this work, we focus on a class of tractable BLO problems that often appear in SP and ML applications. We provide an overview of some basic concepts of this class of BLO problems, such as their optimality conditions, standard algorithms (including their optimization principles and practical implementations), as well as how they can be leveraged to obtain state-of-the-art results for a number of key SP and ML applications. Further, we discuss some recent advances in BLO theory, its implications for applications, and point out some limitations of the state-of-the-art that require significant future research efforts. Overall, we hope that this article can serve to accelerate the adoption of BLO as a generic tool to model, analyze, and innovate on a wide array of emerging SP and ML applications. | 翻訳日:2023-08-04 11:19:20 公開日:2023-08-03 |
# LISA:大規模言語モデルによるセグメンテーションの推論 LISA: Reasoning Segmentation via Large Language Model ( http://arxiv.org/abs/2308.00692v2 ) ライセンス: Link先を確認 | Xin Lai, Zhuotao Tian, Yukang Chen, Yanwei Li, Yuhui Yuan, Shu Liu, Jiaya Jia | (参考訳) 近年、知覚システムは目覚ましい進歩を遂げているが、視覚認識タスクを実行する前には、対象物やカテゴリを明示的な人間の指示に頼っている。
このようなシステムには、暗黙のユーザの意図を積極的に推論し理解する能力がない。
本研究では,新たなセグメンテーションタスク,すなわちセグメンテーションの推論を提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
さらに,評価のために複雑な推論と世界知識を取り入れた,1000以上のイメージインストラクションペアからなるベンチマークを構築した。
最後に,llm(multi-modal large language model)の言語生成機能を継承すると同時に,セグメンテーションマスクを生成する能力も備えた,大規模言語指示セグメンテーションアシスタントであるlisaを提案する。
従来の語彙をSEGトークンで拡張し,セグメンテーション機能を開放するための埋め込み・マスクパラダイムを提案する。
興味深いことに、LISAは次のようなケースを扱うことができる。
1) 複雑な推論
2) 世界の知識
3) 説明的回答
4)マルチターン会話。
また、推論不要データセットのみをトレーニングした場合、ロバストなゼロショット能力を示す。
さらに、モデルを239個の推論セグメンテーションイメージインストラクションペアで微調整することで、さらにパフォーマンスが向上する。
提案手法は,新しい推論セグメンテーション機能を解き放つだけでなく,複雑な推論セグメンテーションと標準参照セグメンテーションタスクの両方において有効であることを示す。
コード、モデル、デモはhttps://github.com/dvlab-research/LISAにある。 Although perception systems have made remarkable advancements in recent years, they still rely on explicit human instruction to identify the target objects or categories before executing visual recognition tasks. Such systems lack the ability to actively reason and comprehend implicit user intentions. In this work, we propose a new segmentation task -- reasoning segmentation. The task is designed to output a segmentation mask given a complex and implicit query text. Furthermore, we establish a benchmark comprising over one thousand image-instruction pairs, incorporating intricate reasoning and world knowledge for evaluation purposes. Finally, we present LISA: large Language Instructed Segmentation Assistant, which inherits the language generation capabilities of the multi-modal Large Language Model (LLM) while also possessing the ability to produce segmentation masks. We expand the original vocabulary with a <SEG> token and propose the embedding-as-mask paradigm to unlock the segmentation capability. Remarkably, LISA can handle cases involving: 1) complex reasoning; 2) world knowledge; 3) explanatory answers; 4) multi-turn conversation. Also, it demonstrates robust zero-shot capability when trained exclusively on reasoning-free datasets. In addition, fine-tuning the model with merely 239 reasoning segmentation image-instruction pairs results in further performance enhancement. Experiments show our method not only unlocks new reasoning segmentation capabilities but also proves effective in both complex reasoning segmentation and standard referring segmentation tasks. Code, models, and demo are at https://github.com/dvlab-research/LISA. | 翻訳日:2023-08-04 11:18:54 公開日:2023-08-03 |
# コントラスト強調スペクトルマンモグラフィにおける仮想コントラスト強調のための深層学習法 A Deep Learning Approach for Virtual Contrast Enhancement in Contrast Enhanced Spectral Mammography ( http://arxiv.org/abs/2308.00471v2 ) ライセンス: Link先を確認 | Aurora Rofena, Valerio Guarrasi, Marina Sarli, Claudia Lucia Piccolo, Matteo Sammarra, Bruno Beomonte Zobel, Paolo Soda | (参考訳) Contrast Enhanced Spectral Mammography (CESM)は、最初にヨウ素造影剤の静脈内投与を必要とする二重エネルギーマンモグラフィー技術であり、標準マンモグラフィに匹敵する低エネルギー画像と高エネルギー画像の両方を収集する。
2つのスキャンが組み合わされ、コントラスト強調を示す再結合画像が得られる。
乳がん診断におけるcesm診断の利点にもかかわらず、造影剤の使用は副作用を引き起こす可能性があり、cesmは標準のマンモグラフィよりも高い放射線線量を持つ患者を照射する。
これらの制限に対処するため、この研究は、CESMのコントラスト強化のための深層生成モデルを使用することを提案し、CESMのコントラストフリー化と放射線線量削減を目指している。
我々のディープネットワークは、オートエンコーダと、Pix2PixとCycleGANという2つのジェネレーティブ・アドバイサル・ネットワークから構成されており、低エネルギー画像のみから合成組換え画像を生成する。
我々は,この研究のさらなる貢献として,1138枚の画像を含む新しいCESMデータセットを用いて,このモデルの性能を定量的かつ定性的に分析し,また,放射線学者の評価も活用する。
その結果、CycleGANは合成組換え画像を生成する最も有望なディープネットワークであり、この分野における仮想コントラスト強化のための人工知能技術の可能性を強調した。 Contrast Enhanced Spectral Mammography (CESM) is a dual-energy mammographic imaging technique that first needs intravenously administration of an iodinated contrast medium; then, it collects both a low-energy image, comparable to standard mammography, and a high-energy image. The two scans are then combined to get a recombined image showing contrast enhancement. Despite CESM diagnostic advantages for breast cancer diagnosis, the use of contrast medium can cause side effects, and CESM also beams patients with a higher radiation dose compared to standard mammography. To address these limitations this work proposes to use deep generative models for virtual contrast enhancement on CESM, aiming to make the CESM contrast-free as well as to reduce the radiation dose. Our deep networks, consisting of an autoencoder and two Generative Adversarial Networks, the Pix2Pix, and the CycleGAN, generate synthetic recombined images solely from low-energy images. We perform an extensive quantitative and qualitative analysis of the model's performance, also exploiting radiologists' assessments, on a novel CESM dataset that includes 1138 images that, as a further contribution of this work, we make publicly available. The results show that CycleGAN is the most promising deep network to generate synthetic recombined images, highlighting the potential of artificial intelligence techniques for virtual contrast enhancement in this field. | 翻訳日:2023-08-04 11:18:27 公開日:2023-08-03 |
# 最先端生成モデルの信頼性景観について--包括的調査 On the Trustworthiness Landscape of State-of-the-art Generative Models: A Comprehensive Survey ( http://arxiv.org/abs/2307.16680v2 ) ライセンス: Link先を確認 | Mingyuan Fan, Cen Chen, Chengyu Wang, Jun Huang | (参考訳) 拡散モデルと大規模言語モデルが最先端生成モデルとして登場し、人間の生活の様々な側面に革命的な影響を与えた。
しかしながら、これらのモデルの実践的な実装は、その二重性を強調し、信頼性に関する懸念を提起する固有のリスクも露呈している。
この主題に関する文献が豊富にあるにもかかわらず、大規模な生成モデルの交差を特に調査する総合的な調査は、ほとんど欠落している。
このギャップを埋めるために、この論文では、プライバシー、セキュリティ、公正性、責任という4つの基本的な側面にまたがる、これらのモデルにまつわる長年の脅威と新興の脅威を調査する。
このようにして,これらのモデルの信頼性を概説した詳細な地図を構築し,実用的な推薦と今後の方向性の特定を行う。
これらの取り組みは、これらのモデルの信頼できる展開を促進するのに不可欠であり、最終的には社会全体に利益をもたらす。 Diffusion models and large language models have emerged as leading-edge generative models and have sparked a revolutionary impact on various aspects of human life. However, the practical implementation of these models has also exposed inherent risks, highlighting their dual nature and raising concerns regarding their trustworthiness. Despite the abundance of literature on this subject, a comprehensive survey specifically delving into the intersection of large-scale generative models and their trustworthiness remains largely absent. To bridge this gap, This paper investigates both the long-standing and emerging threats associated with these models across four fundamental dimensions: privacy, security, fairness, and responsibility. In this way, we construct an extensive map outlining the trustworthiness of these models, while also providing practical recommendations and identifying future directions. These efforts are crucial for promoting the trustworthy deployment of these models, ultimately benefiting society as a whole. | 翻訳日:2023-08-04 11:18:00 公開日:2023-08-03 |
# 関係指向:知識整合因果aiへ向けて Relation-Oriented: Toward Knowledge-Aligned Causal AI ( http://arxiv.org/abs/2307.16387v2 ) ライセンス: Link先を確認 | Jia Li, Xiang Li | (参考訳) 機械学習では、観測変数が事前に存在し、関係構築の段階を設定する観察指向原理を自然に適用する。
従来のモデルには十分だが、ビッグデータとAIの統合は、観測モデルと実際の理解との相違を露呈する。
対照的に、人間は関係によって定義された認知的実体を形作り、観察的な構成物に限定されるのではなく、時間的空間と超次元空間にまたがる知識を定式化することができる。
本研究は,コンピュータビジョンと健康情報学の直観的な例に照らされた,現在のモデリングパラダイムにおける,このミスアライメントのルーツについて考察する。
また,関係指向モデリングの実践的実装として,広範な実験検証によって支援される関係定義表現学習手法を提案する。 In machine learning, we naturally apply an Observation-Oriented principle, in which observational variables preexist and set the stage for constructing relationships. While sufficient for traditional models, the integration of AI with big data exposes the misalignment between the observational models and our actual comprehension. Contrarily, humans shape cognitive entities defined by relationships, enabling us to formulate knowledge across temporal and hyper-dimensional spaces, rather than being confined to observational constructs. From an innovative Relation-Oriented perspective, this study examines the roots of this misalignment within our current modeling paradigm, illuminated by intuitive examples from computer vision and health informatics. We also introduce the relation-defined representation learning methodology as a practical implementation of Relation-Oriented modeling, supported by extensive experimental validation. | 翻訳日:2023-08-04 11:17:42 公開日:2023-08-03 |
# 医療における情報技術の統合 : 都市・地域保健の最近の展開, 課題, 今後の展望 Integrating Information Technology in Healthcare: Recent Developments, Challenges, and Future Prospects for Urban and Regional Health ( http://arxiv.org/abs/2307.16296v2 ) ライセンス: Link先を確認 | Shipu Debnath | (参考訳) 医療におけるテクノロジーの利用は近年ますます人気が高まっており、医療の届け方、患者の成果、費用対効果が改善される可能性がある。
本稿では, 医療, 特に都市, パーソナライズドメディカル医療において, テクノロジーがどのように使われているかについて概説する。
この論文は、電子健康記録、遠隔医療、遠隔監視、医療画像、ウェアラブルデバイス、人工知能など、医療でテクノロジーが使われているさまざまな方法について議論する。
また、患者のデータをプライベートかつセキュアに保つこと、さまざまなテクノロジシステムが連携できること、患者がテクノロジを快適に利用できることなど、医療にテクノロジを使用することで生じる課題や問題にも目を向けています。
さらに, 医療における技術の可能性について検討し, 患者がいかに容易に治療を受けられるか, ケアの質, 医療費などについて検討した。
また、テクノロジーが個々の患者にケアをパーソナライズする方法についても語っている。
最後に、主なポイントを要約し、医療提供者や政策立案者に対して勧告を行い、今後の研究の方向性を提案する。
全体として、このレビューはテクノロジーが医療を改善するのにどのように役立つかを示し、テクノロジーをこのように使うことで生じる課題も認めている。 The use of technology in healthcare has become increasingly popular in recent years, with the potential to improve how healthcare is delivered, patient outcomes, and cost-effectiveness. This review paper provides an overview of how technology has been used in healthcare, particularly in cities and for personalized medicine. The paper discusses different ways technology is being used in healthcare, such as electronic health records, telemedicine, remote monitoring, medical imaging, wearable devices, and artificial intelligence. It also looks at the challenges and problems that come with using technology in healthcare, such as keeping patient data private and secure, making sure different technology systems can work together, and ensuring patients are comfortable using technology. In addition, the paper explores the potential of technology in healthcare, including improving how easily patients can get care, the quality of care they receive, and the cost of care. It also talks about how technology can help personalize care to individual patients. Finally, the paper summarizes the main points, makes recommendations for healthcare providers and policymakers, and suggests directions for future research. Overall, this review shows how technology can be used to improve healthcare, while also acknowledging the challenges that come with using technology in this way. | 翻訳日:2023-08-04 11:17:27 公開日:2023-08-03 |
# デュアルアクティブブリッジコンバータの変調戦略のための実験的拡張によるデータ駆動モデリング Data-Driven Modeling with Experimental Augmentation for the Modulation Strategy of the Dual-Active-Bridge Converter ( http://arxiv.org/abs/2307.16173v2 ) ライセンス: Link先を確認 | Xinze Li, Josep Pou, Jiaxin Dong, Fanfan Lin, Changyun Wen, Suvajit Mukherjee, Xin Zhang | (参考訳) 電力変換器の性能モデリングでは、メインストリームのアプローチは基本的に知識ベースであり、マンパワーの重荷とモデリング精度の低下に苦しんでいる。
最近の新しいデータ駆動技術は、シミュレーションデータからの自動モデリングによって人間の依存を大幅に軽減している。
しかし、モデルの違いは、未モデル化の寄生虫、欠陥のある熱・磁気モデル、予測不可能な環境条件などによって生じる可能性がある。
純粋なシミュレーションに基づくこれらの不正確なデータ駆動モデルは、物理世界の実用的な性能を表現できず、パワーコンバータモデリングにおけるそれらの応用を妨げる。
そこで本研究では,実験データとシミュレーションデータの両方を活用する,実験拡張(D2EA)を用いた新しいデータ駆動モデリングを提案する。
D2EAでは、シミュレーションデータは基本的な機能的景観を確立することを目的としており、実験データは実世界の実際のパフォーマンスのマッチングに焦点を当てている。
ニュートラルポイントクランプ型デュアルアクティブブリッジ(NPC-DAB)コンバータのハイブリッド変調の効率最適化のためにD2EA方式をインスタンス化する。
提案したD2EAアプローチは、99.92%の効率モデリング精度を実現し、2kWハードウェア実験において、98.45%のピーク効率が達成された。
全体として、d2eaはデータ軽量であり、一目で見れば精度が高く、非常に実用的なデータ駆動モデルを実現できます。 For the performance modeling of power converters, the mainstream approaches are essentially knowledge-based, suffering from heavy manpower burden and low modeling accuracy. Recent emerging data-driven techniques greatly relieve human reliance by automatic modeling from simulation data. However, model discrepancy may occur due to unmodeled parasitics, deficient thermal and magnetic models, unpredictable ambient conditions, etc. These inaccurate data-driven models based on pure simulation cannot represent the practical performance in physical world, hindering their applications in power converter modeling. To alleviate model discrepancy and improve accuracy in practice, this paper proposes a novel data-driven modeling with experimental augmentation (D2EA), leveraging both simulation data and experimental data. In D2EA, simulation data aims to establish basic functional landscape, and experimental data focuses on matching actual performance in real world. The D2EA approach is instantiated for the efficiency optimization of a hybrid modulation for neutral-point-clamped dual-active-bridge (NPC-DAB) converter. The proposed D2EA approach realizes 99.92% efficiency modeling accuracy, and its feasibility is comprehensively validated in 2-kW hardware experiments, where the peak efficiency of 98.45% is attained. Overall, D2EA is data-light and can achieve highly accurate and highly practical data-driven models in one shot, and it is scalable to other applications, effortlessly. | 翻訳日:2023-08-04 11:17:05 公開日:2023-08-03 |