このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230909となっている論文です。

PDF登録状況(公開日: 20230909)

TitleAuthorsAbstract論文公表日・翻訳日
# ブロックチェーンの信頼できる価格データを取得するためのデータミドルウェア

A Data Middleware for Obtaining Trusted Price Data for Blockchain ( http://arxiv.org/abs/2309.04689v1 )

ライセンス: Link先を確認
Youquan Xian, Xueying Zeng, Lianghaojie Zhou, Boyi Wang, Li-e Wang, Peng Liu, (参考訳) ブロックチェーンと現実世界を接続する信頼できるミドルウェアとして、ブロックチェーンのオラクルは、支払いや決済などの金融アプリケーションのための信頼できるリアルタイム価格情報と、ブロックチェーン上のアセットバリュエーションを得ることができる。 しかし、現在のオラクルの仕組みはノード選択の過程でセキュリティとサービス品質のジレンマに直面しており、金融アプリケーションにおける暗黙の関心関係は、タスクパブリッシャと実行者の間で大きな関心の衝突を引き起こし、両者の参加意識とシステムセキュリティが低下する。 そこで本稿では,ノードのセキュリティとサービス品質を確保するために,高い評価を得たノードを匿名で選択する匿名ノード選択方式を提案する。 そこで本稿は、決済決済及び資産評価シナリオにおける全当事者の利息要件と行動動機についても詳述する。 合理的参加者の仮定の下では,Stackelbergゲームに基づくインセンティブ機構が提案されている。 タスクパブリッシャや実行者の利益を追求して均衡を達成し、あらゆる種類のユーザの利益を確保し、参加の意欲を高めることができる。 最後に,セキュリティ分析により提案手法の安全性を検証する。 実験結果から,提案手法は,セキュリティを確保しつつ,すべての当事者の利益を満足しながら,価格データ取得のばらつきを約55%低減できることが示された。

As a trusted middleware connecting the blockchain and the real world, the blockchain oracle can obtain trusted real-time price information for financial applications such as payment and settlement, and asset valuation on the blockchain. However, the current oracle schemes face the dilemma of security and service quality in the process of node selection, and the implicit interest relationship in financial applications leads to a significant conflict of interest between the task publisher and the executor, which reduces the participation enthusiasm of both parties and system security. Therefore, this paper proposes an anonymous node selection scheme that anonymously selects nodes with high reputations to participate in tasks to ensure the security and service quality of nodes. Then, this paper also details the interest requirements and behavioral motives of all parties in the payment settlement and asset valuation scenarios. Under the assumption of rational participants, an incentive mechanism based on the Stackelberg game is proposed. It can achieve equilibrium under the pursuit of the interests of task publishers and executors, thereby ensuring the interests of all types of users and improving the enthusiasm of participation. Finally, we verify the security of the proposed scheme through security analysis. The experimental results show that the proposed scheme can reduce the variance of obtaining price data by about 55\% while ensuring security, and meeting the interests of all parties.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-09
# ペアリング型暗号のセキュリティ解析

Security Analysis of Pairing-based Cryptography ( http://arxiv.org/abs/2309.04693v1 )

ライセンス: Link先を確認
Xiaofeng Wang, Peng Zheng, Qianqian Xing, (参考訳) 数値フィールドシーブ(NFS)の最近の進歩は、ペアリングベースの暗号のセキュリティを揺るがしている。 有限体における離散対数問題(DLP)について、次数 $\alpha$, constant $c$, and hidden constant $o(1)$ という3つの視点から NFS アルゴリズムの体系的レビューを行い、隠れ定数を最適化するためにさらなる研究が必要であることを示す。 特別拡張タワー NFS アルゴリズムを用いて、既存の標準PF曲線といくつかのよく使われる曲線の徹底的なセキュリティ評価を行い、SM9 と以前の ISO/IEC 標準の BN256 曲線は、意図された 18 ビットレベルよりもかなり低い 99.92 ビットのセキュリティしか示さないことを明らかにした。 さらに,セキュリティレベルの異なるBN,BLS,KSS曲線のセキュリティと効率を包括的に解析する。 BN曲線は, 約105ビット以下のセキュリティ強度において, 優れた効率性を示すことが示唆された。 128ビットのセキュリティレベルでは、BLS12とBLS24曲線が最適な選択であり、BLS24曲線は160bit、192bit、256bitのセキュリティレベルに対して最適な効率を提供する。

Recent progress in number field sieve (NFS) has shaken the security of Pairing-based Cryptography. For the discrete logarithm problem (DLP) in finite field, we present the first systematic review of the NFS algorithms from three perspectives: the degree $\alpha$, constant $c$, and hidden constant $o(1)$ in the asymptotic complexity $L_Q\left(\alpha,c\right)$ and indicate that further research is required to optimize the hidden constant. Using the special extended tower NFS algorithm, we conduct a thorough security evaluation for all the existing standardized PF curves as well as several commonly utilized curves, which reveals that the BN256 curves recommended by the SM9 and the previous ISO/IEC standard exhibit only 99.92 bits of security, significantly lower than the intended 128-bit level. In addition, we comprehensively analyze the security and efficiency of BN, BLS, and KSS curves for different security levels. Our analysis suggests that the BN curve exhibits superior efficiency for security strength below approximately 105 bit. For a 128-bit security level, BLS12 and BLS24 curves are the optimal choices, while the BLS24 curve offers the best efficiency for security levels of 160bit, 192bit, and 256bit.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-09
# 低品質トレーニングデータのみ?暗号化された悪意ネットワークトラフィックを検出するロバストフレームワーク

Low-Quality Training Data Only? A Robust Framework for Detecting Encrypted Malicious Network Traffic ( http://arxiv.org/abs/2309.04798v1 )

ライセンス: Link先を確認
Yuqi Qing, Qilei Yin, Xinhao Deng, Yihao Chen, Zhuotao Liu, Kun Sun, Ke Xu, Jia Zhang, Qi Li, (参考訳) 機械学習(ML)は、暗号化されたネットワークトラフィック内の悪意あるフローを正確に検出することを約束している。 MLモデルが低品質のトレーニングデータでトレーニングされると、パフォーマンスが低下する。 本稿では,連続的に進化するマルウェアによって生成される暗号化された悪意のあるトラフィックを検知する,現実世界の低品質なトレーニングデータセット問題に対処することを目的とする。 RAPIERは,特定の領域に正規データを密に分散し,特定の領域全体に悪意データを散布し,モデルトレーニングのためのトレーニングデータを増強する機能空間において,正規および悪意のあるトラフィックデータの分散を十分に活用する。 RAPIERには2つの前処理モジュールがあり、トラフィックを特徴ベクトルに変換し、ラベルノイズを正す。 2つの公開データセットと1つの組み合わせデータセットでシステムを評価する。 各データセットから1000個のサンプルと45%のノイズが得られた結果、F1スコアはそれぞれ0.770、0.776、0.855となり、それぞれ352.6%、284.3%、および214.9%の改善が達成された。 さらに,セキュリティ企業から得られた実世界のデータセットを用いてRAPIERを評価する。 RAPIERは、暗号化された悪意のあるトラフィック検出を、最高のF1スコアである0.773で効果的に達成し、既存のメソッドのF1スコアを平均272.5%改善する。

Machine learning (ML) is promising in accurately detecting malicious flows in encrypted network traffic; however, it is challenging to collect a training dataset that contains a sufficient amount of encrypted malicious data with correct labels. When ML models are trained with low-quality training data, they suffer degraded performance. In this paper, we aim at addressing a real-world low-quality training dataset problem, namely, detecting encrypted malicious traffic generated by continuously evolving malware. We develop RAPIER that fully utilizes different distributions of normal and malicious traffic data in the feature space, where normal data is tightly distributed in a certain area and the malicious data is scattered over the entire feature space to augment training data for model training. RAPIER includes two pre-processing modules to convert traffic into feature vectors and correct label noises. We evaluate our system on two public datasets and one combined dataset. With 1000 samples and 45% noises from each dataset, our system achieves the F1 scores of 0.770, 0.776, and 0.855, respectively, achieving average improvements of 352.6%, 284.3%, and 214.9% over the existing methods, respectively. Furthermore, We evaluate RAPIER with a real-world dataset obtained from a security enterprise. RAPIER effectively achieves encrypted malicious traffic detection with the best F1 score of 0.773 and improves the F1 score of existing methods by an average of 272.5%.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-09
# 欠落データによる宇宙システムに対するサイバー攻撃の特徴:枠組みと事例研究

Characterizing Cyber Attacks against Space Systems with Missing Data: Framework and Case Study ( http://arxiv.org/abs/2309.04878v1 )

ライセンス: Link先を確認
Ekzhin Ear, Jose L. C. Remy, Antonia Feffer, Shouhuai Xu, (参考訳) 宇宙システムのサイバーセキュリティが話題になっているが、過去に起きた宇宙システムに対するサイバー攻撃を文書化するデータセットは1つもない。 これらのインシデントは、多くの詳細を欠いたまま、メディアレポートに散在することが多い。 それでも、そのような報告を含む「低品質」データセットでさえ、宇宙のサイバーセキュリティデータの破壊と、しばしば政府による開示から制限される宇宙システムの感度のために、非常に価値があるだろう。 宇宙システムに対する現実のサイバー攻撃をどうやって特徴付けるのか? 本稿では,メトリクスを含むフレームワークを提案するとともに,欠落したデータを原則的に「抽出」することで,欠落したデータ問題にも対処する。 このフレームワークの有用性を示すため、72件の宇宙システムに対するサイバー攻撃のデータを取り出し、この「低品質」データセットを外挿して4,076件の攻撃テクニックキルチェーンを導出する方法を示す。 宇宙システムに対するサイバー攻撃はますます高度化しており、オンパス攻撃やソーシャルエンジニアリング攻撃に対する防御が成功すれば、攻撃の80%を防げる可能性がある。

Cybersecurity of space systems is an emerging topic, but there is no single dataset that documents cyber attacks against space systems that have occurred in the past. These incidents are often scattered in media reports while missing many details, which we dub the missing-data problem. Nevertheless, even "low-quality" datasets containing such reports would be extremely valuable because of the dearth of space cybersecurity data and the sensitivity of space systems which are often restricted from disclosure by governments. This prompts a research question: How can we characterize real-world cyber attacks against space systems? In this paper, we address the problem by proposing a framework, including metrics, while also addressing the missing-data problem, by "extrapolating" the missing data in a principled fashion. To show the usefulness of the framework, we extract data for 72 cyber attacks against space systems and show how to extrapolate this "low-quality" dataset to derive 4,076 attack technique kill chains. Our findings include: cyber attacks against space systems are getting increasingly sophisticated; and, successful protection against on-path and social engineering attacks could have prevented 80% of the attacks.
翻訳日:2024-03-25 14:25:04 公開日:2023-09-09
# モバイルアプリにおけるサードパーティライブラリのプライバシーポリシーの謎化

Demystifying Privacy Policy of Third-Party Libraries in Mobile Apps ( http://arxiv.org/abs/2301.12348v9 )

ライセンス: Link先を確認
Kaifa Zhao and Xian Zhan and Le Yu and Shiyao Zhou and Hao Zhou and Xiapu Luo and Haoyu Wang and Yepang Liu(参考訳) 個人情報のプライバシーはモバイルソフトウェアで大きな注目を集めている。 以前の研究者は、アプリの動作とプライバシポリシの矛盾を識別するいくつかの方法を設計してきたが、サードパーティライブラリ(TPL)の規制要件の調査についてはほとんど知られていない。 規制当局は、tplの個人情報の使用を規制するために複数の規制を制定した(例えば「カリフォルニア消費者プライバシー法」は、消費者のデータを第三者と共有するか否かを消費者に明確に通知することを要求する)。 しかし,3つの理由から,TPLの合法性を解析することは依然として困難である。 1)TPLは主にアプリケーション市場(例えばGoogle Play)の代わりに公開リポジトリで公開されている。 パブリックリポジトリは、各TPLに対してプライバシコンプライアンス分析を行わない。 2)TPLは独立した機能または機能配列のみを提供する。 独立して実行することはできないため、動的解析の応用は制限される。 3)TPLのすべての機能はユーザのプライバシに関連しているわけではないので,プライバシーコンプライアンス分析を行う前に個人情報にアクセス・処理するTPLの機能を見つける必要がある。 以上の課題を克服するため,本論文では,Android TPLがプライバシ関連規制を満たすか否かを解析するATPCheckerという自動システムを提案する。 当社の調査結果は,アプリ開発やプライバシポリシの記述において,規制違反を回避するためにtplの使用に注意を払わなくてはなりません。

The privacy of personal information has received significant attention in mobile software. Although previous researchers have designed some methods to identify the conflict between app behavior and privacy policies, little is known about investigating regulation requirements for third-party libraries (TPLs). The regulators enacted multiple regulations to regulate the usage of personal information for TPLs (e.g., the "California Consumer Privacy Act" requires businesses clearly notify consumers if they share consumers' data with third parties or not). However, it remains challenging to analyze the legality of TPLs due to three reasons: 1) TPLs are mainly published on public repositoriesinstead of app market (e.g., Google play). The public repositories do not perform privacy compliance analysis for each TPL. 2) TPLs only provide independent functions or function sequences. They cannot run independently, which limits the application of performing dynamic analysis. 3) Since not all the functions of TPLs are related to user privacy, we must locate the functions of TPLs that access/process personal information before performing privacy compliance analysis. To overcome the above challenges, in this paper, we propose an automated system named ATPChecker to analyze whether the Android TPLs meet privacy-related regulations or not. Our findings remind developers to be mindful of TPL usage when developing apps or writing privacy policies to avoid violating regulations.
翻訳日:2023-10-24 13:26:46 公開日:2023-09-09
# Nuancesが鍵:ChatGPTをアンロックして、差分プロンプトによるエラー誘発テストを見つける

Nuances are the Key: Unlocking ChatGPT to Find Failure-Inducing Tests with Differential Prompting ( http://arxiv.org/abs/2304.11686v6 )

ライセンス: Link先を確認
Tsz-On Li, Wenxi Zong, Yibo Wang, Haoye Tian, Ying Wang, Shing-Chi Cheung, Jeff Kramer(参考訳) ソフトウェア障害の自動検出は重要なタスクであり、長年の課題である。 テスト入力がソフトウェアの障害を引き起こす可能性のある障害誘発テストケースを見つけ、ソフトウェアの誤った振る舞いを検出する自動化されたオラクルを構築する必要がある。 近年の大規模言語モデル(LLM)の進歩は、最先端のLLMであるChatGPTによって、この課題がどこまで解決できるかを研究する動機となっている。 残念ながら、chatgptはバギープログラムの正しい障害誘発テストケースを見つける確率が低い(28.8%)ことが分かりました。 考えられる理由は、失敗を引き起こすテストケースを見つけるには、バグのあるプログラムとその正しいバージョンの間の微妙なコードの違いを分析する必要があるからです。 これら2つのバージョンに類似した構文がある場合、ChatGPTは微妙なコードの違いを認識するのに弱い。 私たちの考えでは、ChatGPTのパフォーマンスは、微妙なコード差にフォーカスするためにChatGPTがガイドされたときに大幅に向上できる。 我々はChatGPTがバグギープログラムの意図した振る舞いを推測するのに有効であることを示す興味深い観察を行った。 意図された動作はプログラムを合成するために利用することができ、バギープログラムとその正しいバージョン(すなわち、合成されたプログラム)との微妙なコード差を明確化することができる。 そこで本研究では,chatgptとディファレンシャルテストを組み合わせた新しいテスト手法を提案する。 我々はQuixbugs(バグ修正プログラムのベンチマーク)に対する我々のアプローチを評価し、ChatGPTとPynguinの直接使用を含む最先端のベースラインと比較した。 実験結果から,本手法は正しい障害誘発試験事例が見つかる確率が77.8%,最良のベースラインが2.7Xであることが示唆された。

Automatically detecting software failures is an important task and a longstanding challenge. It requires finding failure-inducing test cases whose test input can trigger the software's fault, and constructing an automated oracle to detect the software's incorrect behaviors. Recent advancement of large language models (LLMs) motivates us to study how far this challenge can be addressed by ChatGPT, a state-of-the-art LLM. Unfortunately, our study shows that ChatGPT has a low probability (28.8%) of finding correct failure-inducing test cases for buggy programs. A possible reason is that finding failure-inducing test cases requires analyzing the subtle code differences between a buggy program and its correct version. When these two versions have similar syntax, ChatGPT is weak at recognizing subtle code differences. Our insight is that ChatGPT's performance can be substantially enhanced when ChatGPT is guided to focus on the subtle code difference. We have an interesting observation that ChatGPT is effective in inferring the intended behaviors of a buggy program. The intended behavior can be leveraged to synthesize programs, in order to make the subtle code difference between a buggy program and its correct version (i.e., the synthesized program) explicit. Driven by this observation, we propose a novel approach that synergistically combines ChatGPT and differential testing to find failure-inducing test cases. We evaluate our approach on Quixbugs (a benchmark of buggy programs), and compare it with state-of-the-art baselines, including direct use of ChatGPT and Pynguin. The experimental result shows that our approach has a much higher probability (77.8%) of finding correct failure-inducing test cases, 2.7X as the best baseline.
翻訳日:2023-10-24 12:36:08 公開日:2023-09-09
# FAIR: コンパイラ中間表現のフロー型認識事前評価

FAIR: Flow Type-Aware Pre-Training of Compiler Intermediate Representations ( http://arxiv.org/abs/2309.04828v1 )

ライセンス: Link先を確認
Changan Niu, Chuanyi Li, Vincent Ng, David Lo, Bin Luo(参考訳) 既存のトレーニング済みモデルのほとんどは、コードトークンや抽象構文木などのソースコード機能を学ぶが、コンパイラ中間表現(IR)から学ぶことに注力する研究は他にもある。 既存のIRベースのモデルでは、命令、制御、データフローグラフ(CDFG)、コールグラフなどのIR機能を利用するのが一般的である。 しかし、これらの方法はCDFG内の変数ノードと命令ノードを混同し、異なるタイプのフローを区別できない。 これらの弱点に対処するため,(1)新しいIRプログラムの入力表現を取り入れたフロー型事前学習モデルであるFAIR,(2)過度なスムース、過度なスキャッシング、長期依存問題に対処するグラフ変換器,(3)FAIRがIRトークンのセマンティクス、フロー型情報、IRの全体表現を学習できるようにするための5つの事前学習タスクを提案する。 実験の結果、FAIRは4つのコード関連下流タスクで最先端の結果を得ることができることがわかった。

While the majority of existing pre-trained models from code learn source code features such as code tokens and abstract syntax trees, there are some other works that focus on learning from compiler intermediate representations (IRs). Existing IR-based models typically utilize IR features such as instructions, control and data flow graphs (CDFGs), call graphs, etc. However, these methods confuse variable nodes and instruction nodes in a CDFG and fail to distinguish different types of flows, and the neural networks they use fail to capture long-distance dependencies and have over-smoothing and over-squashing problems. To address these weaknesses, we propose FAIR, a Flow type-Aware pre-trained model for IR that involves employing (1) a novel input representation of IR programs; (2) Graph Transformer to address over-smoothing, over-squashing and long-dependencies problems; and (3) five pre-training tasks that we specifically propose to enable FAIR to learn the semantics of IR tokens, flow type information, and the overall representation of IR. Experimental results show that FAIR can achieve state-of-the-art results on four code-related downstream tasks.
翻訳日:2023-10-23 08:10:23 公開日:2023-09-09
# ベイズ推論を用いた自律走行知覚における偽陽性率の低減

Reducing the False Positive Rate Using Bayesian Inference in Autonomous Driving Perception ( http://arxiv.org/abs/2310.05951v1 )

ライセンス: Link先を確認
Johann J. S. Bastos, Bruno L. S. da Silva, Tiago Zanotelli, Cristiano Premebida, Gledson Melotti(参考訳) オブジェクト認識は、このトピックにおける多くの研究成果によって証明されているように、自律車やインテリジェント車の認識システムにおいて重要なステップである。 本稿では,偽陽性率(fpr)を低減すべく,マルチセンサとマルチモダリティアプローチを用いて物体認識について検討する。 FPRの低減は、物体の誤分類が事故を引き起こす可能性があるため、認識システムにおいてますます重要になる。 特に本研究では,正規化ヒストグラムの累積関数として,確率関数をガウス的核密度推定から累積分布関数とし,事前確率を累積分布関数とするベイズ推定手法を提案する。 提案手法の検証は, ディープネットワーク(DenseNet, NasNet, EfficientNet)と最近の3Dポイントクラウドネットワーク(PointNet, PintNet++)を用いて, 3つのオブジェクトカテゴリ(車, サイクリスト, 歩行者)とRGBおよびLiDARセンサモードを考慮し, KITTIデータセット上で行う。

Object recognition is a crucial step in perception systems for autonomous and intelligent vehicles, as evidenced by the numerous research works in the topic. In this paper, object recognition is explored by using multisensory and multimodality approaches, with the intention of reducing the false positive rate (FPR). The reduction of the FPR becomes increasingly important in perception systems since the misclassification of an object can potentially cause accidents. In particular, this work presents a strategy through Bayesian inference to reduce the FPR considering the likelihood function as a cumulative distribution function from Gaussian kernel density estimations, and the prior probabilities as cumulative functions of normalized histograms. The validation of the proposed methodology is performed on the KITTI dataset using deep networks (DenseNet, NasNet, and EfficientNet), and recent 3D point cloud networks (PointNet, and PintNet++), by considering three object-categories (cars, cyclists, pedestrians) and the RGB and LiDAR sensor modalities.
翻訳日:2023-10-15 14:25:28 公開日:2023-09-09
# 伝統教育を超えて:大学院工学教育における大規模言語モデルとチャットボットの可能性

Beyond Traditional Teaching: The Potential of Large Language Models and Chatbots in Graduate Engineering Education ( http://arxiv.org/abs/2309.13059v1 )

ライセンス: Link先を確認
Mahyar Abedi, Ibrahem Alshybani, Muhammad Rubayat Bin Shahadat, Michael S. Murillo(参考訳) 教育の急速な発展の中で、デジタル技術は伝統的な教育手法を何度も破壊してきた。 本稿では,大規模言語モデル(LLM)とチャットボットを大学院工学教育に統合する可能性について考察する。 まず、歴史的および技術的混乱を追跡してコンテキストを提供し、マシンラーニングやディープラーニングといった重要な用語と、最近の進歩の基盤となるメカニズム、すなわち注意/変換モデルとグラフィック処理ユニットを紹介します。 我々の研究の核心は、LLMベースのチャットボットを大学院流体力学コースに応用することにある。 授業資料から質問バンクを開発し,チャットボットの正確かつ洞察に富んだ応答能力を評価した。 結果は、複雑な質問に効果的に答えるボットの能力だけでなく、セルフペースト学習の促進、即時フィードバックの提供、インストラクターの作業負荷の削減など、教室におけるチャットボットの利用の潜在的な利点を示すものである。 また,チャットボットの性能向上に対する知的プロンプトの変容効果についても検討した。 さらに、数学的な問題解決やコード解釈のためにWolfram Alphaのような強力なプラグインが、チャットボットの機能を大幅に拡張し、総合的な教育ツールに変換できることを示す。 教育におけるこのようなAIモデルの使用に関する課題と倫理的意味を認めながら、バランスのとれたアプローチを提唱する。 大学院教育におけるLLMとチャットボットの利用は極めて有益であるが,倫理的かつ効率的な使用を保証するためには,継続的な評価と適応が必要である。

In the rapidly evolving landscape of education, digital technologies have repeatedly disrupted traditional pedagogical methods. This paper explores the latest of these disruptions: the potential integration of large language models (LLMs) and chatbots into graduate engineering education. We begin by tracing historical and technological disruptions to provide context and then introduce key terms such as machine learning and deep learning and the underlying mechanisms of recent advancements, namely attention/transformer models and graphics processing units. The heart of our investigation lies in the application of an LLM-based chatbot in a graduate fluid mechanics course. We developed a question bank from the course material and assessed the chatbot's ability to provide accurate, insightful responses. The results are encouraging, demonstrating not only the bot's ability to effectively answer complex questions but also the potential advantages of chatbot usage in the classroom, such as the promotion of self-paced learning, the provision of instantaneous feedback, and the reduction of instructors' workload. The study also examines the transformative effect of intelligent prompting on enhancing the chatbot's performance. Furthermore, we demonstrate how powerful plugins like Wolfram Alpha for mathematical problem-solving and code interpretation can significantly extend the chatbot's capabilities, transforming it into a comprehensive educational tool. While acknowledging the challenges and ethical implications surrounding the use of such AI models in education, we advocate for a balanced approach. The use of LLMs and chatbots in graduate education can be greatly beneficial but requires ongoing evaluation and adaptation to ensure ethical and efficient use.
翻訳日:2023-10-01 12:24:53 公開日:2023-09-09
# 非真実情報の数学的モデリングと最適制御 : オンラインソーシャルネットワークにおける動的SEIZ

Mathematical Modeling and Optimal Control of Untrue Information : Dynamic SEIZ in Online Social Networks ( http://arxiv.org/abs/2309.13058v1 )

ライセンス: Link先を確認
Fulgence Mansal, Ibrahima Faye(参考訳) 本論文では,噂の拡散現象をモデル化する。 噂を広めることに特化したSEIRモデルに基づくモデルを操作する。 第2部では,噂の拡散に対抗するための制御戦略について紹介する。 我々の主な目的は、スプレッダーの数を最小限に抑える3つの最適制御、噂を広める感受性、懐疑論を特徴づけることである。 そのため、ポントリャーギンの最大原理を用いて、我々の制御の存在を証明し、特徴づける。 得られた理論的結果を説明するために, 数値シミュレーションを行い, 提案手法を導出する。

We propose to model the phenomenon of the spread of a rumor in this paper. We manipulate a model that is based on SEIR model that specializes in spreading rumors. In the second part, we introduce a control strategy to fight against the diffusion of the rumor. Our main objective is to characterize the three optimal controls that minimize the number of spreaders, susceptibles who enter and spread the rumor, and skeptics. For that matter, using the maximum principle of Pontryagin, we prove the existence and give characterization of our controls. To illustrate the theoretical results obtained, numerical simulations are given to concretize our approach.
翻訳日:2023-10-01 12:24:27 公開日:2023-09-09
# LLMによる短文回答の自動評価に向けて

Towards LLM-based Autograding for Short Textual Answers ( http://arxiv.org/abs/2309.11508v1 )

ライセンス: Link先を確認
Johannes Schneider, Bernd Schenk, Christina Niklaus, Michaelis Vlachos(参考訳) 試験の成績は重要で、労働集約的で、主観的で、反復的で、しばしば挑戦的な仕事である。 ChatGPTのような大規模言語モデル(LLM)が利用可能であることや、デジタル化によってもたらされる大量のデータにより、自動テキスト応答の実現可能性は大きく向上した。 しかし、意思決定の役割を持つAIモデルを信頼することは、主に偽情報の生成に関連する潜在的なバイアスや問題から生じる倫理的考察を提起する。 そこで本研究では,大規模言語モデルの評価について述べるとともに,llmが学習者の学習過程の検証をいかに支援できるかを強調する。 本評価は,様々な言語にまたがる自動短文回答グレーディング(ASAG)と,2つの異なるコースの試験を対象とする。 llmは補完的な視点を提供するための貴重なツールであるが、独立的な自動採点の準備は進行中であり、人間の監視は必要であることが示唆された。

Grading of exams is an important, labor intensive, subjective, repetitive and frequently challenging task. The feasibility of autograding textual responses has greatly increased thanks to the availability of large language models (LLMs) such as ChatGPT and because of the substantial influx of data brought about by digitalization. However, entrusting AI models with decision-making roles raises ethical considerations, mainly stemming from potential biases and issues related to generating false information. Thus, in this manuscript we provide an evaluation of a large language model for the purpose of autograding, while also highlighting how LLMs can support educators in validating their grading procedures. Our evaluation is targeted towards automatic short textual answers grading (ASAG), spanning various languages and examinations from two distinct courses. Our findings suggest that while "out-of-the-box" LLMs provide a valuable tool to provide a complementary perspective, their readiness for independent automated grading remains a work in progress, necessitating human oversight.
翻訳日:2023-09-24 03:42:45 公開日:2023-09-09
# リコール駆動精密リファインメント:LSTMによる高精度転倒検出

Recall-driven Precision Refinement: Unveiling Accurate Fall Detection using LSTM ( http://arxiv.org/abs/2309.07154v1 )

ライセンス: Link先を確認
Rishabh Mondal and Prasun Ghosal(参考訳) 本研究は,高齢者の転倒事故に対する注意を,転倒検出システムの構築によって解決するための革新的手法を提案する。 提案システムは,加速度センサやジャイロセンサなどの最先端技術とディープラーニングモデル,特にLong Short-Term Memory(LSTM)ネットワークを組み合わせる。 リアルタイム実行機能はraspberry piハードウェアの統合によって実現されている。 我々はLSTMモデルのアーキテクチャとパラメータを戦略的に微調整してシステム性能を最適化するプルーニング手法を導入する。 精度よりもリコールを優先し,転倒を正確に識別し,適切な介入のために偽陰性を最小限に抑えることを目的とした。 広範囲な実験と細心の注意深い評価は優れた性能指標を示し、96\%の特異性を維持しながら高いリコール率を強調する。 当社の研究は最先端の転倒検知システムで、即座に通知を送り、脆弱な個人がタイムリーに支援を受け、全体の幸福度を向上させる。 lstmモデルの適用と刈り取り技術の導入は転倒検出技術の大幅な進歩であり、効果的で信頼性の高い転倒予防および介入ソリューションを提供する。

This paper presents an innovative approach to address the pressing concern of fall incidents among the elderly by developing an accurate fall detection system. Our proposed system combines state-of-the-art technologies, including accelerometer and gyroscope sensors, with deep learning models, specifically Long Short-Term Memory (LSTM) networks. Real-time execution capabilities are achieved through the integration of Raspberry Pi hardware. We introduce pruning techniques that strategically fine-tune the LSTM model's architecture and parameters to optimize the system's performance. We prioritize recall over precision, aiming to accurately identify falls and minimize false negatives for timely intervention. Extensive experimentation and meticulous evaluation demonstrate remarkable performance metrics, emphasizing a high recall rate while maintaining a specificity of 96\%. Our research culminates in a state-of-the-art fall detection system that promptly sends notifications, ensuring vulnerable individuals receive timely assistance and improve their overall well-being. Applying LSTM models and incorporating pruning techniques represent a significant advancement in fall detection technology, offering an effective and reliable fall prevention and intervention solution.
翻訳日:2023-09-17 13:40:56 公開日:2023-09-09
# 複雑ネットワークにおけるインフルエンサーの発見--効果的な深層強化学習アプローチ

Finding Influencers in Complex Networks: An Effective Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2309.07153v1 )

ライセンス: Link先を確認
Changan Liu, Changjun Fan, and Zhongzhi Zhang(参考訳) 複雑なネットワークにおける影響の最大化は、NPhardの性質のため、事実上重要だが計算的に難しい課題である。 現在の近似やヒューリスティックな手法は、膨大な人的設計の努力を必要とするか、有効性と効率のバランスが取れない。 最近の機械学習の試みは、スピードのみに焦点を絞っているが、性能向上に欠けている。 本稿では,従来の最良影響最大化アルゴリズムよりも優れた性能を実現する効果的な深層強化学習モデルを提案する。 具体的には,グラフニューラルネットワークをエンコーダとして,強化学習をデコーダとして組み合わせたエンドツーエンド学習フレームワークdreimを設計した。 小さな合成グラフの広範なトレーニング、dreimは、非常に大きな合成および実世界のネットワークにおける最先端のベースラインメソッドをソリューションの品質で上回り、ネットワークサイズに関してその線形スケーラビリティを実証的に示し、この問題を解く上での優位性を示しています。

Maximizing influences in complex networks is a practically important but computationally challenging task for social network analysis, due to its NP- hard nature. Most current approximation or heuristic methods either require tremendous human design efforts or achieve unsatisfying balances between effectiveness and efficiency. Recent machine learning attempts only focus on speed but lack performance enhancement. In this paper, different from previous attempts, we propose an effective deep reinforcement learning model that achieves superior performances over traditional best influence maximization algorithms. Specifically, we design an end-to-end learning framework that combines graph neural network as the encoder and reinforcement learning as the decoder, named DREIM. Trough extensive training on small synthetic graphs, DREIM outperforms the state-of-the-art baseline methods on very large synthetic and real-world networks on solution quality, and we also empirically show its linear scalability with regard to the network size, which demonstrates its superiority in solving this problem.
翻訳日:2023-09-17 13:40:35 公開日:2023-09-09
# ディジタル信号処理のための量子的アプローチ

A quantum approach for digital signal processing ( http://arxiv.org/abs/2309.06570v1 )

ライセンス: Link先を確認
Alok Shukla and Prakash Vedula(参考訳) 本稿では,シークエンシー順序のウォルシュ・ハダマード変換に基づく低域通過フィルタと高域通過フィルタの量子アルゴリズムを含む,新しい信号処理手法を提案する。 我々は、シークエンシー順序のウォルシュ・ハダマード変換を行う量子回路と、ローパス、ハイパス、バンドパスフィルタリングのための量子回路を提案する。 さらに、シークエンス順序のウォルシュ・アダマール変換を実行するために設計された量子回路の正当性を示す。 提案手法の性能と精度は,dc,low-pass,high-pass,band-passフィルタなど,対応する量子回路とともに計算例を用いて示される。 提案する信号フィルタリングアルゴリズムは,量子フーリエ変換(qft)に基づくフィルタリング(状態生成と測定コストを除く)に関連する少なくとも$o ((\log_2 n )^2)$と比較して,ゲート複雑性と回路深さを低減できる。 対照的に、古典的なFast Fourier Transform (FFT)ベースのフィルタリングアプローチは、$O (N \log_2 N )$である。 提案手法は,QFTに基づくフィルタリング手法や従来のFFTに基づくフィルタリング手法よりも大幅に改善されている。 提案手法の高効率化は、高速な計算と回路深さの低減とゲートの複雑さの低減による資源の効率的な利用を保証し、複数の信号処理アプリケーションに対して大きな可能性を秘めている。

We propose a novel quantum approach to signal processing, including a quantum algorithm for low-pass and high-pass filtering, based on the sequency-ordered Walsh-Hadamard transform. We present quantum circuits for performing the sequency-ordered Walsh-Hadamard transform, as well as quantum circuits for low-pass, high-pass, and band-pass filtering. Additionally, we provide a proof of correctness for the quantum circuit designed to perform the sequency-ordered Walsh-Hadamard transform. The performance and accuracy of the proposed approach for signal filtering were illustrated using computational examples, along with corresponding quantum circuits, for DC, low-pass, high-pass, and band-pass filtering. Our proposed algorithm for signal filtering has a reduced gate complexity and circuit depth of $O (\log_2 N)$, compared to at least $O ((\log_2 N )^2)$ associated with Quantum Fourier Transform (QFT) based filtering (excluding state preparation and measurement costs). In contrast, classical Fast Fourier Transform (FFT) based filtering approaches have a complexity of $O (N \log_2 N )$. This shows that our proposed approach offers a significant improvement over QFT-based filtering methods and classical FFT-based filtering methods. Such enhanced efficiency of our proposed approach holds substantial promise across several signal processing applications by ensuring faster computations and efficient use of resources via reduced circuit depth and lower gate complexity.
翻訳日:2023-09-14 16:20:06 公開日:2023-09-09
# dance revolution: カリキュラム学習による音楽による長期ダンス生成

Dance Revolution: Long-Term Dance Generation with Music via Curriculum Learning ( http://arxiv.org/abs/2006.06119v8 )

ライセンス: Link先を確認
Ruozi Huang, Huang Hu, Wei Wu, Kei Sawada, Mi Zhang and Daxin Jiang(参考訳) 音楽に合わせて踊ることは、古代から人間の生来の能力の1つである。 しかし、機械学習の研究では、音楽からダンスの動きを合成することは難しい問題である。 近年,リカレントニューラルネットワーク(RNN)のような自己回帰モデルを用いて,ヒトの動作配列を合成している。 このようなアプローチは、ニューラルネットワークにフィードバックされる予測エラーの蓄積によって、しばしば短いシーケンスを生成する。 この問題は長動き列生成においてさらに深刻になる。 また、スタイル、リズム、ビートの観点からのダンスと音楽の一貫性は、モデリングの段階ではまだ考慮されていない。 本稿では,音楽条件付きダンス生成を逐次学習問題として定式化し,新しいseq2seqアーキテクチャを考案し,音楽特徴の長いシーケンスを効率的に処理し,音楽とダンスの微妙な対応を捉える。 さらに,本論文では,前回の地中運動を用いた完全誘導型教師励行方式から,主に生成した動きを用いた非誘導型自己回帰方式へと,学習過程をゆるやかに変化させる長動系列生成における自己回帰モデルの誤り蓄積を緩和する新しいカリキュラム学習戦略を提案する。 大規模な実験により、我々のアプローチは、自動測定と人的評価において、既存の最先端技術よりも大幅に優れていることが示された。 また、提案されたアプローチの優れたパフォーマンスを示すデモビデオをhttps://www.youtube.com/watch? v=lmE20MEheZ8。

Dancing to music is one of human's innate abilities since ancient times. In machine learning research, however, synthesizing dance movements from music is a challenging problem. Recently, researchers synthesize human motion sequences through autoregressive models like recurrent neural network (RNN). Such an approach often generates short sequences due to an accumulation of prediction errors that are fed back into the neural network. This problem becomes even more severe in the long motion sequence generation. Besides, the consistency between dance and music in terms of style, rhythm and beat is yet to be taken into account during modeling. In this paper, we formalize the music-conditioned dance generation as a sequence-to-sequence learning problem and devise a novel seq2seq architecture to efficiently process long sequences of music features and capture the fine-grained correspondence between music and dance. Furthermore, we propose a novel curriculum learning strategy to alleviate error accumulation of autoregressive models in long motion sequence generation, which gently changes the training process from a fully guided teacher-forcing scheme using the previous ground-truth movements, towards a less guided autoregressive scheme mostly using the generated movements instead. Extensive experiments show that our approach significantly outperforms the existing state-of-the-arts on automatic metrics and human evaluation. We also make a demo video to demonstrate the superior performance of our proposed approach at https://www.youtube.com/watch?v=lmE20MEheZ8.
翻訳日:2023-09-13 18:29:10 公開日:2023-09-09
# DreamStone:テキストガイドによる3D形状生成のためのステッピングストーンとしてのイメージ

DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation ( http://arxiv.org/abs/2303.15181v2 )

ライセンス: Link先を確認
Zhengzhe Liu, Peng Dai, Ruihui Li, Xiaojuan Qi, Chi-Wing Fu(参考訳) 本稿では,画像を踏み台として,テキストと形状のギャップを橋渡しし,テキストと3dデータを必要としない3d形状を生成する,テキストガイド付き3d形状生成手法dreamstoneを提案する。 提案手法のコアとなるのは,CLIP 画像の特徴を SVR モデルの詳細な3次元形状空間にマッピングし,CLIP のテキスト特徴を描画画像と入力テキスト間のCLIP 一貫性を奨励することで,CLIP のテキスト特徴を3次元形状空間にマッピングする,事前訓練された単一ビュー再構成(SVR)モデルを活用する2段階の機能空間アライメント戦略である。 さらに,svrモデルの生成能力を超えて,新たな構造やテクスチャで出力形状を向上できるテキスト誘導型3d形状スタイライゼーションモジュールも設計する。 さらに,事前学習したテキストから画像への拡散モデルを用いて,生成的多様性,忠実度,スタイライゼーション能力を高める。 我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合して生成空間を拡大し、生成精度を向上させることができる。 広範な実験結果から,本手法は,生成的品質と入力テキストとの一貫性の観点から,最先端手法よりも優れていることが示された。 コードとモデルはhttps://github.com/liuzhengzhe/DreamStone-ISSで公開されている。

In this paper, we present a new text-guided 3D shape generation approach DreamStone that uses images as a stepping stone to bridge the gap between text and shape modalities for generating 3D shapes without requiring paired text and 3D data. The core of our approach is a two-stage feature-space alignment strategy that leverages a pre-trained single-view reconstruction (SVR) model to map CLIP features to shapes: to begin with, map the CLIP image feature to the detail-rich 3D shape space of the SVR model, then map the CLIP text feature to the 3D shape space through encouraging the CLIP-consistency between rendered images and the input text. Besides, to extend beyond the generative capability of the SVR model, we design a text-guided 3D shape stylization module that can enhance the output shapes with novel structures and textures. Further, we exploit pre-trained text-to-image diffusion models to enhance the generative diversity, fidelity, and stylization capability. Our approach is generic, flexible, and scalable, and it can be easily integrated with various SVR models to expand the generative space and improve the generative fidelity. Extensive experimental results demonstrate that our approach outperforms the state-of-the-art methods in terms of generative quality and consistency with the input text. Codes and models are released at https://github.com/liuzhengzhe/DreamStone-ISS.
翻訳日:2023-09-13 17:19:08 公開日:2023-09-09
# ワンクリックで3dシーン理解の弱さを学習できるセルフトレーニング(動画あり)

You Only Need One Thing One Click: Self-Training for Weakly Supervised 3D Scene Understanding ( http://arxiv.org/abs/2303.14727v2 )

ライセンス: Link先を確認
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu(参考訳) ポイントクラウドセマンティクスやインスタンスセグメンテーションといった3dシーンの理解には、多くの場合、大規模な注釈付きトレーニングデータが必要であるが、ポイントワイズラベルを準備するには面倒すぎることは明らかである。 近年,ポイントラベルの少ない3dネットワークを訓練する手法が提案されているが,そのアプローチを極端に取り入れて,アノテータがオブジェクト毎に1つのポイントをラベル付けるだけでよい‘one thing one click,’を提案する。 ネットワークトレーニングにおいて,これらの極端にスパースなラベルを活用するために,グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う,新たな自己学習アプローチを設計する。 また,カテゴリごとのプロトタイプを生成するために関係ネットワークを採用し,擬似ラベル品質を高め,反復学習を指導する。 さらに,本モデルは,ポイントクラスタリング戦略を備えた3次元インスタンスセグメンテーションと互換性がある。 scannet-v2 と s3dis の両方の実験結果は、非常に疎結合なアノテーションを持つ我々の自己学習アプローチが、既存の3dセマンティクスとインスタンスセグメンテーションのための弱い教師付きメソッドを大きなマージンで上回っていることを示している。 コードとモデルはhttps://github.com/liuzhengzhe/One-Thing-One-Click.comで公開されている。

3D scene understanding, e.g., point cloud semantic and instance segmentation, often requires large-scale annotated training data, but clearly, point-wise labels are too tedious to prepare. While some recent methods propose to train a 3D network with small percentages of point labels, we take the approach to an extreme and propose ``One Thing One Click,'' meaning that the annotator only needs to label one point per object. To leverage these extremely sparse labels in network training, we design a novel self-training approach, in which we iteratively conduct the training and label propagation, facilitated by a graph propagation module. Also, we adopt a relation network to generate the per-category prototype to enhance the pseudo label quality and guide the iterative training. Besides, our model can be compatible to 3D instance segmentation equipped with a point-clustering strategy. Experimental results on both ScanNet-v2 and S3DIS show that our self-training approach, with extremely-sparse annotations, outperforms all existing weakly supervised methods for 3D semantic and instance segmentation by a large margin, and our results are also comparable to those of the fully supervised counterparts. Codes and models are available at https://github.com/liuzhengzhe/One-Thing-One-Click.
翻訳日:2023-09-13 17:18:43 公開日:2023-09-09
# チャットボットの評価とユーザ信頼の促進--実践とオープンな問題

Evaluating Chatbots to Promote Users' Trust -- Practices and Open Problems ( http://arxiv.org/abs/2309.05680v1 )

ライセンス: Link先を確認
Biplav Srivastava, Kausik Lakkaraju, Tarmo Koppel, Vignesh Narayanan, Ashish Kundu, Sachindra Joshi(参考訳) コラボレーションアシスタントの一般的なモニカーであるChatbotsは、人々が自然に対話してタスクを完了できるようにする人工知能(AI)ソフトウェアである。 AIの誕生以来、チャットボットは研究されてきたが、ChatGPTのような、使いやすく汎用的なLarge Language Modelベースのチャットボットのローンチ以来、公益とビジネスの想像力を特に捉えてきた。 チャットボットは、エンドカスタマーやサプライヤー、あるいは自身の従業員である可能性のあるユーザを惹きつける潜在的な技術としてビジネスが注目する中、チャットボットの適切なテストは、サービスや製品のパフォーマンス、ユーザの満足度、社会に対する長期的な意図しない影響などに関わる信頼の問題に対処し、軽減するために重要である。 本稿では,チャットボットテストの現状を概観し,ユーザ信頼の追求において,ギャップをオープンな問題として認識し,今後の道筋を概説する。

Chatbots, the common moniker for collaborative assistants, are Artificial Intelligence (AI) software that enables people to naturally interact with them to get tasks done. Although chatbots have been studied since the dawn of AI, they have particularly caught the imagination of the public and businesses since the launch of easy-to-use and general-purpose Large Language Model-based chatbots like ChatGPT. As businesses look towards chatbots as a potential technology to engage users, who may be end customers, suppliers, or even their own employees, proper testing of chatbots is important to address and mitigate issues of trust related to service or product performance, user satisfaction and long-term unintended consequences for society. This paper reviews current practices for chatbot testing, identifies gaps as open problems in pursuit of user trust, and outlines a path forward.
翻訳日:2023-09-13 15:50:44 公開日:2023-09-09
# 良いが怠慢:トレンドベーステストによる局所的説明法を理解する

Good-looking but Lacking Faithfulness: Understanding Local Explanation Methods through Trend-based Testing ( http://arxiv.org/abs/2309.05679v1 )

ライセンス: Link先を確認
Jinwen He, Kai Chen, Guozhu Meng, Jiangshan Zhang, Congyi Li(参考訳) ディープラーニング(DL)によってもたらされた大きな成果を享受しながらも、DLモデルの非線形性が高いため、DLモデルによる決定を心配する人もいる。 その結果、敵対的な攻撃のような攻撃は実行が容易であるが、検出と説明が困難であり、モデル決定を説明するための局所的な説明方法の研究が盛んになった。 本稿では, 説明法の忠実性を評価し, 従来の忠実性テストでは, ランダム支配問題, \ie, ランダム選択が特に複雑なデータに対して最適であることを示す。 この問題を解決するために,我々は3つの傾向ベースの忠実性テストを提案し,新たな傾向テストが画像,自然言語,セキュリティタスクにおける従来のテストよりも忠実性を評価することができることを実証的に示す。 評価システムを実装し,10の一般的な説明方法を評価する。 傾向試験に適合し, 複雑なデータの説明手法を初めて評価し, 先例のない発見をもたらし, 今後の研究を刺激する。 下流のタスクもテストの恩恵を受けます。 例えば、忠実な説明メソッドを備えたモデルデバッグは、精度とセキュリティの問題の検出と修正にずっと適しています。

While enjoying the great achievements brought by deep learning (DL), people are also worried about the decision made by DL models, since the high degree of non-linearity of DL models makes the decision extremely difficult to understand. Consequently, attacks such as adversarial attacks are easy to carry out, but difficult to detect and explain, which has led to a boom in the research on local explanation methods for explaining model decisions. In this paper, we evaluate the faithfulness of explanation methods and find that traditional tests on faithfulness encounter the random dominance problem, \ie, the random selection performs the best, especially for complex data. To further solve this problem, we propose three trend-based faithfulness tests and empirically demonstrate that the new trend tests can better assess faithfulness than traditional tests on image, natural language and security tasks. We implement the assessment system and evaluate ten popular explanation methods. Benefiting from the trend tests, we successfully assess the explanation methods on complex data for the first time, bringing unprecedented discoveries and inspiring future research. Downstream tasks also greatly benefit from the tests. For example, model debugging equipped with faithful explanation methods performs much better for detecting and correcting accuracy and security problems.
翻訳日:2023-09-13 15:50:26 公開日:2023-09-09
# モデル空間の積多様体の比較のためのグロモフ・ハウスドルフ距離

Gromov-Hausdorff Distances for Comparing Product Manifolds of Model Spaces ( http://arxiv.org/abs/2309.05678v1 )

ライセンス: Link先を確認
Haitz Saez de Ocariz Borde, Alvaro Arroyo, Ismael Morales, Ingmar Posner, Xiaowen Dong(参考訳) 最近の研究は、潜在空間の幾何学的特徴と基礎となるデータ構造を整合させることによる機械学習モデルの強化を提案する。 ユークリッド空間のみに頼る代わりに、定曲率を持つ双曲空間と球面空間、あるいはそれらの組合せ(積多様体として知られる)を用いてモデルの性能を向上させることを研究者は提案している。 しかし、最善の潜在積多様体のシグネチャを決定するための原理的な技法は存在せず、これは多様体成分の選択と次元を指す。 そこで本研究では,距離幾何学からグロモフ・ハウスドルフ距離を用いて,候補潜在測地線間の距離の新しい概念を提案する。 本稿では,Gromov-Hausdorff距離を推定したグラフ探索空間を用いて最適潜時幾何学を探索する。 本研究では,モデル空間間のGromov-Hausdorff距離の計算アルゴリズムとその計算実装について述べる。

Recent studies propose enhancing machine learning models by aligning the geometric characteristics of the latent space with the underlying data structure. Instead of relying solely on Euclidean space, researchers have suggested using hyperbolic and spherical spaces with constant curvature, or their combinations (known as product manifolds), to improve model performance. However, there exists no principled technique to determine the best latent product manifold signature, which refers to the choice and dimensionality of manifold components. To address this, we introduce a novel notion of distance between candidate latent geometries using the Gromov-Hausdorff distance from metric geometry. We propose using a graph search space that uses the estimated Gromov-Hausdorff distances to search for the optimal latent geometry. In this work we focus on providing a description of an algorithm to compute the Gromov-Hausdorff distance between model spaces and its computational implementation.
翻訳日:2023-09-13 15:50:06 公開日:2023-09-09
# MultiCaM-Vis: クラス数の多い複数分類モデルの視覚的探索

MultiCaM-Vis: Visual Exploration of Multi-Classification Model with High Number of Classes ( http://arxiv.org/abs/2309.05676v1 )

ライセンス: Link先を確認
Syed Ahsan Ali Dilawer, Shah Rukh Humayoun(参考訳) 多数のクラスを持つ多重分類モデルの視覚的な探索は、機械学習の専門家がインスタンスのミス分類のような学習フェーズで発生する問題の根本原因を特定するのに役立つ。 以前のビジュアル分析ソリューションのほとんどは、少数のクラスのみを対象としていた。 本稿では,対話型ビジュアル分析ツールであるmulticam-visについて紹介する。このツールは,インスタンスのクラスレベルのミス分類の探索と検査のためのコードダイアグラムと,<emph{overview+detail}スタイルの並列座標ビューを提供する。 また,12名を対象に予備的なユーザ調査を行った。

Visual exploration of multi-classification models with large number of classes would help machine learning experts in identifying the root cause of a problem that occurs during learning phase such as miss-classification of instances. Most of the previous visual analytics solutions targeted only a few classes. In this paper, we present our interactive visual analytics tool, called MultiCaM-Vis, that provides \Emph{overview+detail} style parallel coordinate views and a Chord diagram for exploration and inspection of class-level miss-classification of instances. We also present results of a preliminary user study with 12 participants.
翻訳日:2023-09-13 15:49:50 公開日:2023-09-09
# SHAPE:医療勧告のためのサンプル適応階層型予測ネットワーク

SHAPE: A Sample-adaptive Hierarchical Prediction Network for Medication Recommendation ( http://arxiv.org/abs/2309.05675v1 )

ライセンス: Link先を確認
Sicen Liu, Xiaolong Wang, JIngcheng Du, Yongshuai Hou, Xianbing Zhao, Hui Xu, Hui Wang, Yang Xiang, Buzhou Tang(参考訳) 複雑な多病原性条件による効果的な医薬品推奨は、医療において重要な課題である。 学習縦列データの情報伝達パターンが安定しており、訪問内医療イベントがシリアライズされていると仮定した、縦断記録に基づく投薬を予測する既存の著作物は多い。 しかし、以下の条件は無視される可能性がある。 1) 訪問内医療イベントにおけるよりコンパクトなイントラリレーシップエンコーダが緊急である。 2)患者の可変長手列の正確な表現を学習するための方策は異なる。 本稿では, 医薬品推奨課題の課題に取り組むため, サンプル適応型階層型医薬品予測ネットワーク「形状」を提案する。 具体的には、訪問レベル表現を得るための医療イベントにおける関係を符号化するコンパクトなビジター内エンコーダを設計し、ビジター間縦エンコーダを開発し、患者レベルの縦表現を効率的に学習する。 可変訪問長をモデル化する能力をモデルに付与するために,各サンプルの難易度を訪問長で自動的に割り当てるソフトカリキュラム学習手法を提案する。 ベンチマークデータセットの大規模な実験は、いくつかの最先端のベースラインと比較して、我々のモデルの優位性を検証する。

Effectively medication recommendation with complex multimorbidity conditions is a critical task in healthcare. Most existing works predicted medications based on longitudinal records, which assumed the information transmitted patterns of learning longitudinal sequence data are stable and intra-visit medical events are serialized. However, the following conditions may have been ignored: 1) A more compact encoder for intra-relationship in the intra-visit medical event is urgent; 2) Strategies for learning accurate representations of the variable longitudinal sequences of patients are different. In this paper, we proposed a novel Sample-adaptive Hierarchical medicAtion Prediction nEtwork, termed SHAPE, to tackle the above challenges in the medication recommendation task. Specifically, we design a compact intra-visit set encoder to encode the relationship in the medical event for obtaining visit-level representation and then develop an inter-visit longitudinal encoder to learn the patient-level longitudinal representation efficiently. To endow the model with the capability of modeling the variable visit length, we introduce a soft curriculum learning method to assign the difficulty of each sample automatically by the visit length. Extensive experiments on a benchmark dataset verify the superiority of our model compared with several state-of-the-art baselines.
翻訳日:2023-09-13 15:49:40 公開日:2023-09-09
# ConvFormer:医療画像セグメンテーションを改善するCNNスタイルトランス

ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical Image Segmentation ( http://arxiv.org/abs/2309.05674v1 )

ライセンス: Link先を確認
Xian Lin, Zengqiang Yan, Xianbo Deng, Chuansheng Zheng, and Li Yu(参考訳) トランスフォーマーは、一対の長距離依存を構築するために、医用画像セグメンテーションで広く研究されている。 しかし、比較的限られた医用画像データにより、トランスフォーマーは多様なグローバルな特徴の抽出に苦慮し、注意マップが類似したり、同一になったりすると、注意が崩壊する。 比較して、畳み込みニューラルネットワーク(cnns)は、小規模トレーニングデータにおいてより収束性が高いが、受容野が限られている。 既存の作品はcnnとトランスフォーマーの組み合わせを探求し、注意の崩壊を無視し、トランスフォーマーの可能性は未検討のままである。 本稿では,CNN方式のトランスフォーマー(ConvFormer)を開発し,より注意収束を促進し,セグメンテーション性能を向上させることを提案する。 特に、ConvFormerは、バニラ視覚変換器におけるトークン化、自己アテンション、フィードフォワードネットワークに対応するプール、CNNスタイルの自己アテンション(CSA)、畳み込みフィードフォワードネットワーク(CFFN)で構成されている。 位置埋め込みとトークン化とは対照的に、ConvFormerは2D畳み込みと最大プーリングを採用して位置情報の保存と特徴サイズの縮小を実現している。 このように、CSAは2次元特徴写像を入力とし、適応サイズの畳み込みカーネルとして自己注意行列を構築することで長距離依存を確立する。 CSAの後、2DコンボリューションはCFFNによる特徴改善に使用される。 複数のデータセットにおける実験結果は、convformerがプラグイン・アンド・プレイモジュールとして動作し、トランスフォーマーベースのフレームワークの一貫したパフォーマンス向上を実現する効果を示している。 コードはhttps://github.com/xianlin7/convformerで入手できる。

Transformers have been extensively studied in medical image segmentation to build pairwise long-range dependence. Yet, relatively limited well-annotated medical image data makes transformers struggle to extract diverse global features, resulting in attention collapse where attention maps become similar or even identical. Comparatively, convolutional neural networks (CNNs) have better convergence properties on small-scale training data but suffer from limited receptive fields. Existing works are dedicated to exploring the combinations of CNN and transformers while ignoring attention collapse, leaving the potential of transformers under-explored. In this paper, we propose to build CNN-style Transformers (ConvFormer) to promote better attention convergence and thus better segmentation performance. Specifically, ConvFormer consists of pooling, CNN-style self-attention (CSA), and convolutional feed-forward network (CFFN) corresponding to tokenization, self-attention, and feed-forward network in vanilla vision transformers. In contrast to positional embedding and tokenization, ConvFormer adopts 2D convolution and max-pooling for both position information preservation and feature size reduction. In this way, CSA takes 2D feature maps as inputs and establishes long-range dependency by constructing self-attention matrices as convolution kernels with adaptive sizes. Following CSA, 2D convolution is utilized for feature refinement through CFFN. Experimental results on multiple datasets demonstrate the effectiveness of ConvFormer working as a plug-and-play module for consistent performance improvement of transformer-based frameworks. Code is available at https://github.com/xianlin7/ConvFormer.
翻訳日:2023-09-13 15:49:19 公開日:2023-09-09
# エッジ除去による臨界ノードをモデレートする高速化アルゴリズム

A Fast Algorithm for Moderating Critical Nodes via Edge Removal ( http://arxiv.org/abs/2309.06392v1 )

ライセンス: Link先を確認
Changan Liu, Xiaotian Zhou, Ahad N. Zehmakan, and Zhongzhi Zhang(参考訳) ネットワークのクリティカルノードは、誤った情報や病気の拡散などのネガティブなカスケードイベントを引き起こす悪意のある攻撃に対して極めて脆弱である。 したがって、このような有害な拡散による潜在的な損傷を緩和するためには、クリティカルノードの効果的なモデレーションが不可欠である。 現在のモデレーション手法は計算コストが高い。 さらに、ノードの拡散力を測定する情報中心性の基本指標を無視している。 本研究では,ネットワークの接続性を維持しつつ,対象ノードの情報集中性を最小限に抑えるために,ネットワークから$k$エッジを除去する問題を検討する。 これはnp完全であり、目的関数は超モジュラーではない。 しかし,ランダムウォークに基づくschur補間近似や高速和推定などの新しい手法を用いた3つの近似グリーディアルゴリズムを提案する。 私たちのアルゴリズムの1つは、エッジの数でほぼ線形に実行される。 理論解析を補完するため,我々は100万以上のノードを有する合成および実ネットワークに関する実験を包括的に実施する。 各種設定において,提案アルゴリズムの有効性と有効性を示す実験結果が得られた。

Critical nodes in networks are extremely vulnerable to malicious attacks to trigger negative cascading events such as the spread of misinformation and diseases. Therefore, effective moderation of critical nodes is very vital for mitigating the potential damages caused by such malicious diffusions. The current moderation methods are computationally expensive. Furthermore, they disregard the fundamental metric of information centrality, which measures the dissemination power of nodes. We investigate the problem of removing $k$ edges from a network to minimize the information centrality of a target node $\lea$ while preserving the network's connectivity. We prove that this problem is computationally challenging: it is NP-complete and its objective function is not supermodular. However, we propose three approximation greedy algorithms using novel techniques such as random walk-based Schur complement approximation and fast sum estimation. One of our algorithms runs in nearly linear time in the number of edges. To complement our theoretical analysis, we conduct a comprehensive set of experiments on synthetic and real networks with over one million nodes. Across various settings, the experimental results illustrate the effectiveness and efficiency of our proposed algorithms.
翻訳日:2023-09-13 12:01:51 公開日:2023-09-09
# 構成性による検証可能な強化学習システム

Verifiable Reinforcement Learning Systems via Compositionality ( http://arxiv.org/abs/2309.06420v1 )

ライセンス: Link先を確認
Cyrus Neary, Aryaman Singh Samyal, Christos Verginis, Murat Cubuktepe, Ufuk Topcu(参考訳) 本稿では,個別のサブタスクの実現を学習するrlサブシステムの集合が,タスク全体を達成するために構成される,検証および構成強化学習(rl)のためのフレームワークを提案する。 このフレームワークはハイレベルモデルで構成されており、パラメトリックマルコフ決定プロセスとして表現され、サブシステムの構成を計画し、分析するのに使われ、低レベルサブシステム自体の収集に使われる。 サブシステムは部分可観測性の下で動作している深部RLエージェントとして実装されている。 サブシステム間のインターフェースを定義することにより、このフレームワークは、タスク仕様の自動分解を可能にする。例えば、少なくとも 0.95 の確率で、個々のサブタスク仕様にターゲットのステートセットに到達し、つまり、サブシステムの終了条件を少なくともある程度の確率で達成することができる。 これにより、サブシステムの独立したトレーニングとテストが可能になる。 各サブシステムがサブタスク仕様を満たすポリシーを学習した場合、それらの構成がタスク仕様全体を満たすことを保証した理論的結果を示す。 逆に、サブタスク仕様が学習したポリシーですべて満足できない場合は、高レベルモデルで最適なパラメータセットを見つける問題として定式化されたメソッドを提示し、観察された欠点を考慮に入れたサブタスク仕様の自動更新を行う。 その結果、サブタスク仕様を定義し、サブシステムをトレーニングしてそれらを満たすための反復的な手順が得られます。 実験結果は、完全可観測性と部分可観測性、離散状態と連続状態とアクション空間、および決定論的および確率的ダイナミクスを持つ環境におけるフレームワークの新しい能力を示す。

We propose a framework for verifiable and compositional reinforcement learning (RL) in which a collection of RL subsystems, each of which learns to accomplish a separate subtask, are composed to achieve an overall task. The framework consists of a high-level model, represented as a parametric Markov decision process, which is used to plan and analyze compositions of subsystems, and of the collection of low-level subsystems themselves. The subsystems are implemented as deep RL agents operating under partial observability. By defining interfaces between the subsystems, the framework enables automatic decompositions of task specifications, e.g., reach a target set of states with a probability of at least 0.95, into individual subtask specifications, i.e. achieve the subsystem's exit conditions with at least some minimum probability, given that its entry conditions are met. This in turn allows for the independent training and testing of the subsystems. We present theoretical results guaranteeing that if each subsystem learns a policy satisfying its subtask specification, then their composition is guaranteed to satisfy the overall task specification. Conversely, if the subtask specifications cannot all be satisfied by the learned policies, we present a method, formulated as the problem of finding an optimal set of parameters in the high-level model, to automatically update the subtask specifications to account for the observed shortcomings. The result is an iterative procedure for defining subtask specifications, and for training the subsystems to meet them. Experimental results demonstrate the presented framework's novel capabilities in environments with both full and partial observability, discrete and continuous state and action spaces, as well as deterministic and stochastic dynamics.
翻訳日:2023-09-13 11:51:25 公開日:2023-09-09
# 二次ネットワークの表現性とトレーサビリティについて

On Expressivity and Trainability of Quadratic Networks ( http://arxiv.org/abs/2110.06081v3 )

ライセンス: Link先を確認
Feng-Lei Fan, Mengzhou Li, Fei Wang, Rongjie Lai, Ge Wang(参考訳) 生物ニューロンの多様性にインスパイアされた二次人工ニューロンは、ディープラーニングモデルにおいて重要な役割を果たす。 我々の関心を持つ二次ニューロンの種類は、通常のニューロンの内積操作を二次機能に置き換える。 これまでは二次ニューロンのネットワークによって有望な結果が得られたが、未解決の重要な問題がある。 理論的には、従来のネットワークまたは2次活性化による従来のネットワークよりも優れた2次ネットワークの表現性は、完全には解明されておらず、2次ネットワークの使用は不十分である。 実際には、二次ネットワークは一般的なバックプロパゲーションによって訓練できるが、従来のネットワークよりも崩壊のリスクが高い。 これらの問題に対処するために、まずスプライン理論と代数幾何学からの測度を適用して、2次ネットワークのモデル表現性を示す2つの定理を与える。 次に、ReLinearと呼ばれる効果的なトレーニング戦略を提案し、二次ネットワークのトレーニングプロセスを安定化させ、関連する機械学習タスクのポテンシャルを解放する。 一般的なデータセットに関する総合的な実験を行い,2次深層学習の性能を確認した。 コードを共有したのは \url{https://github.com/FengleiFan/ReLinear} です。

Inspired by the diversity of biological neurons, quadratic artificial neurons can play an important role in deep learning models. The type of quadratic neurons of our interest replaces the inner-product operation in the conventional neuron with a quadratic function. Despite promising results so far achieved by networks of quadratic neurons, there are important issues not well addressed. Theoretically, the superior expressivity of a quadratic network over either a conventional network or a conventional network via quadratic activation is not fully elucidated, which makes the use of quadratic networks not well grounded. Practically, although a quadratic network can be trained via generic backpropagation, it can be subject to a higher risk of collapse than the conventional counterpart. To address these issues, we first apply the spline theory and a measure from algebraic geometry to give two theorems that demonstrate better model expressivity of a quadratic network than the conventional counterpart with or without quadratic activation. Then, we propose an effective training strategy referred to as ReLinear to stabilize the training process of a quadratic network, thereby unleashing the full potential in its associated machine learning tasks. Comprehensive experiments on popular datasets are performed to support our findings and confirm the performance of quadratic deep learning. We have shared our code in \url{https://github.com/FengleiFan/ReLinear}.
翻訳日:2023-09-12 23:51:57 公開日:2023-09-09
# AngularGrad: 畳み込みニューラルネットワークのAngular収束のための新しい最適化手法

AngularGrad: A New Optimization Technique for Angular Convergence of Convolutional Neural Networks ( http://arxiv.org/abs/2105.10190v2 )

ライセンス: Link先を確認
S.K. Roy, M.E. Paoletti, J.M. Haut, S.R. Dubey, P. Kar, A. Plaza, B.B. Chaudhuri(参考訳) 畳み込みニューラルネットワーク(CNN)は確率勾配降下(SGD)に基づくオプティマイザを用いて訓練される。 近年,アダプティブモーメント推定(Adam)オプティマイザは,SGDの減衰勾配問題に対処する適応運動量によって非常に人気がある。 それでも既存のオプティマイザでは,最適化曲率情報を効率的に活用することはできない。 本稿では,連続勾配の方向/角度の挙動を考慮した新しいAngularGradオプティマイザを提案する。 これは、その大きさとは別に勾配角情報を利用する最初の文献の試みである。 提案するangulargradは、前のイテレーションの勾配角情報に基づいてステップサイズを制御するスコアを生成する。 これにより、直近の勾配のより正確なステップサイズを角情報から捉えることにより、最適化ステップはよりスムーズになる。 angulargradの2つの変種は、勾配角情報を計算するために接関数またはコサイン関数を用いて開発されている。 理論的には、AngularGradは収束の目的でAdamと同じ後悔を表す。 それでも、最先端のメソッドに対するベンチマークデータセットでの広範な実験は、angulargradの優れたパフォーマンスを示している。 ソースコードは、https://github.com/mhaut/AngularGrad.comで公開される。

Convolutional neural networks (CNNs) are trained using stochastic gradient descent (SGD)-based optimizers. Recently, the adaptive moment estimation (Adam) optimizer has become very popular due to its adaptive momentum, which tackles the dying gradient problem of SGD. Nevertheless, existing optimizers are still unable to exploit the optimization curvature information efficiently. This paper proposes a new AngularGrad optimizer that considers the behavior of the direction/angle of consecutive gradients. This is the first attempt in the literature to exploit the gradient angular information apart from its magnitude. The proposed AngularGrad generates a score to control the step size based on the gradient angular information of previous iterations. Thus, the optimization steps become smoother as a more accurate step size of immediate past gradients is captured through the angular information. Two variants of AngularGrad are developed based on the use of Tangent or Cosine functions for computing the gradient angular information. Theoretically, AngularGrad exhibits the same regret bound as Adam for convergence purposes. Nevertheless, extensive experiments conducted on benchmark data sets against state-of-the-art methods reveal a superior performance of AngularGrad. The source code will be made publicly available at: https://github.com/mhaut/AngularGrad.
翻訳日:2023-09-12 23:49:55 公開日:2023-09-09
# 離散最適化のための量子アルゴリズムにおけるトレードオフと設計ツールキットのエンコード:色付け、ルーティング、スケジューリング、その他の問題

Encoding trade-offs and design toolkits in quantum algorithms for discrete optimization: coloring, routing, scheduling, and other problems ( http://arxiv.org/abs/2203.14432v3 )

ライセンス: Link先を確認
Nicolas PD Sawaya, Albert T Schmitz, Stuart Hadfield(参考訳) 組合せ最適化の問題は、科学と工学においてユビキタスである。 最適化のためのいくつかの量子手法は、厳密解と近似解法の両方を含む様々な設定で最近開発されている。 この研究分野に対して、この写本には3つの異なる目的がある。 まず,符号化非依存な離散量子中間表現(dqir)を用いて,問題と対応するアルゴリズムプリミティブを表現し,離散(整数ベース)最適化問題の合成と解析を行うための直感的手法を提案する。 このコンパクトな表現は、多くの例で示すように、より効率的な問題コンパイル、異なる符号化選択の自動解析、より簡単な解釈可能性、より複雑な実行手順、より豊かなプログラム可能性を可能にする。 第2に、いくつかの量子ビット符号化を比較した数値研究を行い、その結果、特定のハードウェア群と特定の問題やアルゴリズムに対する符号化の選択を導くためのいくつかの予備的傾向を示す。 本研究は,グラフ彩色,巡回セールスパーソン問題,ファクトリー/マシンスケジューリング,金融ポートフォリオのリバランス,整数線形計画に関する問題を含む。 第3に、我々は16レベル量子変数までの低深度グラフ由来部分ミキサー(GDPM)を設計し、コンパクト(バイナリ)エンコーディングが以前理解していたよりもQAOAに適していることを示した。 我々は、このプログラミング抽象化のツールキットと低レベルビルディングブロックが、離散組合せ問題に対する量子アルゴリズムの設計を支援することを期待している。

Challenging combinatorial optimization problems are ubiquitous in science and engineering. Several quantum methods for optimization have recently been developed, in different settings including both exact and approximate solvers. Addressing this field of research, this manuscript has three distinct purposes. First, we present an intuitive method for synthesizing and analyzing discrete (i.e., integer-based) optimization problems, wherein the problem and corresponding algorithmic primitives are expressed using a discrete quantum intermediate representation (DQIR) that is encoding-independent. This compact representation often allows for more efficient problem compilation, automated analyses of different encoding choices, easier interpretability, more complex runtime procedures, and richer programmability, as compared to previous approaches, which we demonstrate with a number of examples. Second, we perform numerical studies comparing several qubit encodings; the results exhibit a number of preliminary trends that help guide the choice of encoding for a particular set of hardware and a particular problem and algorithm. Our study includes problems related to graph coloring, the traveling salesperson problem, factory/machine scheduling, financial portfolio rebalancing, and integer linear programming. Third, we design low-depth graph-derived partial mixers (GDPMs) up to 16-level quantum variables, demonstrating that compact (binary) encodings are more amenable to QAOA than previously understood. We expect this toolkit of programming abstractions and low-level building blocks to aid in designing quantum algorithms for discrete combinatorial problems.
翻訳日:2023-09-12 23:44:08 公開日:2023-09-09
# NeRF-Pose:弱教師付き6次元オブジェクトポース推定のための1次再構成-Then-Regressアプローチ

NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation ( http://arxiv.org/abs/2203.04802v2 )

ライセンス: Link先を確認
Fu Li, Hao Yu, Ivan Shugurov, Benjamin Busam, Shaowu Yang, Slobodan Ilic(参考訳) 単眼画像における3次元物体のポス推定は,コンピュータビジョンの基本的かつ長年の課題である。 既存の6Dポーズ推定のためのディープラーニングアプローチは通常、3Dオブジェクトモデルと6Dポーズアノテーションの可用性を前提にしている。 しかしながら、実データにおける6dポーズの正確なアノテーションは複雑で、時間を要するが、スケーラブルではない。 これらの問題を回避するため,本研究では2次元オブジェクトセグメンテーションと既知の相対カメラポーズのみを必要とするnrf-poseという弱い教師付き再構成ベースパイプラインを提案する。 第1の再構築-再帰的アイデアに従って、我々はまず、暗黙の神経表現の形で、複数のビューからオブジェクトを再構築する。 そこで我々は,画像と再構成されたモデル間の画素単位の2D-3D対応を予測するために,ポーズ回帰ネットワークを訓練する。 推論では、アプローチは入力として1つのイメージのみを必要とする。 予測応答から安定かつ正確なポーズを推定するために、NeRF対応PnP+RANSACアルゴリズムを用いる。 linemod と linemod-occlusion の実験により,提案手法は,弱いラベルでのみ訓練されるにも関わらず,最高の6次元ポーズ推定法と比較して,最先端の精度を示した。 さらに、よりリアルなトレーニングイメージでHomebrewed DBデータセットを拡張して、弱教師付きタスクをサポートし、このデータセット上で説得力のある結果を得る。 拡張データセットとコードはまもなくリリースされる予定だ。

Pose estimation of 3D objects in monocular images is a fundamental and long-standing problem in computer vision. Existing deep learning approaches for 6D pose estimation typically rely on the assumption of availability of 3D object models and 6D pose annotations. However, precise annotation of 6D poses in real data is intricate, time-consuming and not scalable, while synthetic data scales well but lacks realism. To avoid these problems, we present a weakly-supervised reconstruction-based pipeline, named NeRF-Pose, which needs only 2D object segmentation and known relative camera poses during training. Following the first-reconstruct-then-regress idea, we first reconstruct the objects from multiple views in the form of an implicit neural representation. Then, we train a pose regression network to predict pixel-wise 2D-3D correspondences between images and the reconstructed model. At inference, the approach only needs a single image as input. A NeRF-enabled PnP+RANSAC algorithm is used to estimate stable and accurate pose from the predicted correspondences. Experiments on LineMod and LineMod-Occlusion show that the proposed method has state-of-the-art accuracy in comparison to the best 6D pose estimation methods in spite of being trained only with weak labels. Besides, we extend the Homebrewed DB dataset with more real training images to support the weakly supervised task and achieve compelling results on this dataset. The extended dataset and code will be released soon.
翻訳日:2023-09-12 23:43:14 公開日:2023-09-09
# 完全非線形偏微分方程式に対する深い分岐解法

A deep branching solver for fully nonlinear partial differential equations ( http://arxiv.org/abs/2203.03234v2 )

ライセンス: Link先を確認
Jiang Yu Nguwi, Guillaume Penent, and Nicolas Privault(参考訳) 完全非線形PDEの数値解に対する確率分岐アルゴリズムの多次元ディープラーニング実装を提案する。 このアプローチは、ニューラルネットワークとモンテカルロ分岐アルゴリズムを組み合わせることにより、任意の順序の勾配項を含む機能的非線形性に取り組むように設計されている。 他のディープラーニングPDEソルバと比較して、学習したニューラルネットワーク機能の一貫性を確認することもできる。 数値実験により, このアルゴリズムは, 後方確率微分方程式やガレルキン法に基づくディープラーニング手法よりも優れており, 完全非線形例では得られない解推定値を提供する。

We present a multidimensional deep learning implementation of a stochastic branching algorithm for the numerical solution of fully nonlinear PDEs. This approach is designed to tackle functional nonlinearities involving gradient terms of any orders, by combining the use of neural networks with a Monte Carlo branching algorithm. In comparison with other deep learning PDE solvers, it also allows us to check the consistency of the learned neural network function. Numerical experiments presented show that this algorithm can outperform deep learning approaches based on backward stochastic differential equations or the Galerkin method, and provide solution estimates that are not obtained by those methods in fully nonlinear examples.
翻訳日:2023-09-12 23:42:49 公開日:2023-09-09
# 超拡散量子ウォークの騒音相関

Noise correlations behind superdiffusive quantum walks ( http://arxiv.org/abs/2207.13145v2 )

ライセンス: Link先を確認
Gra\c{c}a R. M. de Almeida, N. Amaral, A. R. C. Buarque and W. S. Dias(参考訳) 短距離相関雑音下での離散時間量子ウォークの挙動について検討する。 量子ゲートの不均一性の源としてノイズを考慮することにより、ランダム分布に現れる二対相関という非相関な確率的雑音仮定に原始緩和を導入する。 異なる量子ゲートを考慮し,空間的および時間的ノイズ状態の輸送特性について検討した。 空間的不均一性については、量子ウォークを指数関数的に局所化した状態から超拡散拡散へ導くノイズ相関を示す。 このシナリオでは、超拡散指数が不均質度にほぼ不変であるエキサイティングな性能を示す。 時間漸近的な状態と有限スケールのスケーリングはまた、時間的ノイズ相関を経る量子ウォークに対する創発的な過拡散挙動を明らかにし、ノイズがランダムで非相関なときに現れる拡散状態を置き換える。 しかし, 量子ゲートは相関に影響を受けず, 空間雑音とは対照的な結果が得られた。 結果とその後の議論は、決定論的非周期的不均一性を含む超拡散量子ウォークの基礎メカニズムを理解するのに役立つ。

We study how discrete-time quantum walks behave under short-range correlated noise. By considering noise as a source of inhomogeneity of quantum gates, we introduce a primitive relaxation in the uncorrelated stochastic noise assumption: binary pair correlations manifesting in the random distribution. Considering different quantum gates, we examined the transport properties for both spatial and temporal noise regimes. For spatial inhomogeneities, we show noise correlations driving quantum walks from the well-known exponentially localized condition to superdiffusive spreading. This scenario displays an exciting performance in which the superdiffusive exponent is almost invariant to the inhomogeneity degree. The time-asymptotic regime and the finite-size scaling also unveil an emergent superdiffusive behavior for quantum walks undergoing temporal noise correlation, replacing the diffusive regime exhibited when noise is random and uncorrelated. However, results report some quantum gates insensitive to correlations, contrasting with the spatial noise scenario. Results and following discussions help us understand the underlying mechanism of superdiffusive quantum walks, including those with deterministic aperiodic inhomogeneities.
翻訳日:2023-09-12 23:22:56 公開日:2023-09-09
# コンピュータビジョンシステムの性能から子どもの単語学習を予測する

Predicting Word Learning in Children from the Performance of Computer Vision Systems ( http://arxiv.org/abs/2207.09847v3 )

ライセンス: Link先を確認
Sunayana Rane, Mira L. Nencheva, Zeyu Wang, Casey Lew-Williams, Olga Russakovsky, Thomas L. Griffiths(参考訳) 人間の子供や機械学習システムにとって、単語を学習する上で重要な課題は、単語を記述した視覚現象にリンクすることだ。 本稿では,コンピュータビジョンシステムの性能を,視覚手がかりから単語を学習することの難しさの指標として利用することで,単語学習のこの側面を検討する。 異なるカテゴリーの単語を取得する年齢は,単語頻度の期待効果を上回って,視覚分類や字幕システムの性能と相関することを示した。 コンピュータビジョンシステムの性能は、子どもの単語学習の予測因子である単語の具体性に関する人間の判断と相関しており、これらのモデルが単語と視覚現象の関係を捉えていることを示唆している。

For human children as well as machine learning systems, a key challenge in learning a word is linking the word to the visual phenomena it describes. We explore this aspect of word learning by using the performance of computer vision systems as a proxy for the difficulty of learning a word from visual cues. We show that the age at which children acquire different categories of words is correlated with the performance of visual classification and captioning systems, over and above the expected effects of word frequency. The performance of the computer vision systems is correlated with human judgments of the concreteness of words, which are in turn a predictor of children's word learning, suggesting that these models are capturing the relationship between words and visual phenomena.
翻訳日:2023-09-12 23:21:54 公開日:2023-09-09
# TiDAL: アクティブラーニングのための学習トレーニングダイナミクス

TiDAL: Learning Training Dynamics for Active Learning ( http://arxiv.org/abs/2210.06788v2 )

ライセンス: Link先を確認
Seong Min Kye, Kwanghee Choi, Hyeongmin Byun, Buru Chang(参考訳) Active Learning(AL)は、ラベル付きデータプールから最も有用なデータサンプルを選択して、ラベル付きデータセットを限られた予算で拡張することを目的としている。 特に不確実性に基づく手法は、モデルの性能向上に有効な最も不確実性のあるサンプルを選択する。 しかし、al文献では、tdがサンプルの不確かさを測定する上で重要な手がかりとなることを実証的に示しているにもかかわらず、確率的勾配降下による最適化において常に変化するモデル行動として定義されるトレーニングダイナミクス(td)がしばしば見過ごされている。 本稿では,tdを利用してラベルなしデータの不確かさを定量化する新しいal法であるtidal(training dynamics for active learning)を提案する。 全ての大規模未ラベルデータのTDを追跡することは現実的ではないため、TiDALはラベル付きデータのTDを学習する追加の予測モジュールを使用する。 さらにTiDALの設計を正当化するため、理論的および実証的な証拠を提供し、ALにTDを活用することの有用性を論じる。 実験結果から,我々のTiDALは,モデルトレーニング後の静的情報のみを用いてデータ不確実性を推定する最先端のAL手法と比較して,バランスの取れたベンチマークデータセットと不均衡なベンチマークデータセットの両方において,より良い,あるいは同等のパフォーマンスを達成していることがわかった。

Active learning (AL) aims to select the most useful data samples from an unlabeled data pool and annotate them to expand the labeled dataset under a limited budget. Especially, uncertainty-based methods choose the most uncertain samples, which are known to be effective in improving model performance. However, AL literature often overlooks training dynamics (TD), defined as the ever-changing model behavior during optimization via stochastic gradient descent, even though other areas of literature have empirically shown that TD provides important clues for measuring the sample uncertainty. In this paper, we propose a novel AL method, Training Dynamics for Active Learning (TiDAL), which leverages the TD to quantify uncertainties of unlabeled data. Since tracking the TD of all the large-scale unlabeled data is impractical, TiDAL utilizes an additional prediction module that learns the TD of labeled data. To further justify the design of TiDAL, we provide theoretical and empirical evidence to argue the usefulness of leveraging TD for AL. Experimental results show that our TiDAL achieves better or comparable performance on both balanced and imbalanced benchmark datasets compared to state-of-the-art AL methods, which estimate data uncertainty using only static information after model training.
翻訳日:2023-09-12 23:12:00 公開日:2023-09-09
# 高次例外点への近接による絡み合い発生の高速化

Speeding up entanglement generation by proximity to higher-order exceptional points ( http://arxiv.org/abs/2210.05048v3 )

ライセンス: Link先を確認
Zeng-Zhao Li, Weijian Chen, Maryam Abbasi, Kater W. Murch, and K. Birgitta Whaley(参考訳) 絡み合いは量子センシングから量子コンピューティングまで、量子情報技術の鍵となるリソースである。 従来、2つの結合量子ビット間の絡み合いは、結合強度の逆の時間スケールで確立されていた。 本研究では,二つの弱結合非エルミート量子ビットを解析し,高次例外点に近接して,非常に短い時間スケールでエンタングルメント生成を観測する。 非エルミート摂動理論は、生物直交完全基底の構築に基づいて成立し、最大絡み合う状態を得るための最適条件をさらに特定する。 非エルミート量子システムにおける絡み合い生成の高速化に関する研究は、コヒーレントな非一元的散逸を量子技術に利用するための新しい道を開く。

Entanglement is a key resource for quantum information technologies ranging from quantum sensing to quantum computing. Conventionally, the entanglement between two coupled qubits is established at the time scale of the inverse of the coupling strength. In this work, we study two weakly coupled non-Hermitian qubits and observe entanglement generation at a significantly shorter time scale by proximity to a higher-order exceptional point. We establish a non-Hermitian perturbation theory based on constructing a biorthogonal complete basis and further identify the optimal condition to obtain the maximally entangled state. Our study of speeding up entanglement generation in non-Hermitian quantum systems opens new avenues for harnessing coherent nonunitary dissipation for quantum technologies.
翻訳日:2023-09-12 23:10:57 公開日:2023-09-09
# ポストセレクト量子仮説試験

Postselected quantum hypothesis testing ( http://arxiv.org/abs/2209.10550v2 )

ライセンス: Link先を確認
Bartosz Regula, Ludovico Lami, Mark M. Wilde(参考訳) 我々は、さらなる「決定的」な測定結果が加えられ、仮説を識別しようとすることを禁ずる量子仮説テストのバリエーションについて研究する。 エラー確率は成功した試みで条件付けされ、決定的でない試行は無視される。 我々は、このタスクを単発と漸近の両方で完全に特徴付け、最適な誤差確率の正確な公式を提供する。 特に、任意の2つの量子状態を判別する漸近的誤差指数である$\rho$ と $\sigma$ は、非対称な仮説テストにおいてヒルベルト射影距離 $d_{\max}(\rho\|\sigma) + d_{\max}(\sigma \| \rho)$ と、対称な仮説テストにおいて$\max \{d_{\max}(\rho\|\sigma), d_{\max}(\sigma \| \rho) \} によって与えられる。 これはこれらの2つの量に量子状態判別の基本的な操作的解釈を与える。 その結果、任意の密度行列の凸集合に対する非対称誤差指数はヒルベルト射影計量の正則化によって与えられることが示された。 また, 量子チャネルにも適用し, 非対称的, 対称的両面において, 並列性よりも適応的, あるいはより一般的な識別方式を用いることで, 優位性は得られないことを示した。 我々の状態判別結果は量子力学に特有な性質を一切用いておらず、一般確率論においても有効である。

We study a variant of quantum hypothesis testing wherein an additional 'inconclusive' measurement outcome is added, allowing one to abstain from attempting to discriminate the hypotheses. The error probabilities are then conditioned on a successful attempt, with inconclusive trials disregarded. We completely characterise this task in both the single-shot and asymptotic regimes, providing exact formulas for the optimal error probabilities. In particular, we prove that the asymptotic error exponent of discriminating any two quantum states $\rho$ and $\sigma$ is given by the Hilbert projective metric $D_{\max}(\rho\|\sigma) + D_{\max}(\sigma \| \rho)$ in asymmetric hypothesis testing, and by the Thompson metric $\max \{ D_{\max}(\rho\|\sigma), D_{\max}(\sigma \| \rho) \}$ in symmetric hypothesis testing. This endows these two quantities with fundamental operational interpretations in quantum state discrimination. Our findings extend to composite hypothesis testing, where we show that the asymmetric error exponent with respect to any convex set of density matrices is given by a regularisation of the Hilbert projective metric. We apply our results also to quantum channels, showing that no advantage is gained by employing adaptive or even more general discrimination schemes over parallel ones, in both the asymmetric and symmetric settings. Our state discrimination results make use of no properties specific to quantum mechanics and are also valid in general probabilistic theories.
翻訳日:2023-09-12 23:10:25 公開日:2023-09-09
# ランダム化試験における精度とパワー向上のための最適戦略の適応的選択

Adaptive Selection of the Optimal Strategy to Improve Precision and Power in Randomized Trials ( http://arxiv.org/abs/2210.17453v3 )

ライセンス: Link先を確認
Laura B. Balzer, Erica Cai, Lucas Godoy Garraza, Pracheta Amaranath(参考訳) benkeserらは、ランダム化試行におけるベースライン共変量の調整が、様々なアウトカムタイプの精度を有意義に改善することを示す。 この発見は1932年にr・a・フィッシャーと共に始まり、アメリカ食品医薬品局(fda)と欧州医薬品局(esa)の支持を得た。 ここでは,<I>I</I>のエラー制御を維持しつつ,どの変数とどの形式で,精度を最大化する調整アプローチを選択するか。 Balzer らは以前 TMLE 内で *Adaptive Prespecification* を提案し、事前指定された集合から、小さな試行において経験的効率を最大化するアプローチ(N$<40)を柔軟かつ自動的に選択した。 数個のランダム単位で過剰にフィットするのを避けるために、選択は1つの共変量に調整して機能する一般化線形モデルに限定されていた。 現在、アダプティブ・プレ種別を多くのランダム化ユニットで試行に調整しています。 損失関数として$V$フォールドのクロスバリデーションと推定影響曲線を使用すれば、複数の共変量に対応する現代的な機械学習手法を含む、拡張された候補セットから選択できる。 様々なデータ生成プロセスのシミュレーションで評価されているように、我々の手法はType-Iエラー制御を(nullの下で)維持し、同じ統計パワーに対してサンプルサイズの20~43倍の削減に相当する精度で大幅に向上する。 ACTG Study 175の実際のデータに適用すると、全体としてもサブグループ内でも有意義な効率改善が見られる。

Benkeser et al. demonstrate how adjustment for baseline covariates in randomized trials can meaningfully improve precision for a variety of outcome types. Their findings build on a long history, starting in 1932 with R.A. Fisher and including more recent endorsements by the U.S. Food and Drug Administration and the European Medicines Agency. Here, we address an important practical consideration: *how* to select the adjustment approach -- which variables and in which form -- to maximize precision, while maintaining Type-I error control. Balzer et al. previously proposed *Adaptive Prespecification* within TMLE to flexibly and automatically select, from a prespecified set, the approach that maximizes empirical efficiency in small trials (N$<$40). To avoid overfitting with few randomized units, selection was previously limited to working generalized linear models, adjusting for a single covariate. Now, we tailor Adaptive Prespecification to trials with many randomized units. Using $V$-fold cross-validation and the estimated influence curve-squared as the loss function, we select from an expanded set of candidates, including modern machine learning methods adjusting for multiple covariates. As assessed in simulations exploring a variety of data generating processes, our approach maintains Type-I error control (under the null) and offers substantial gains in precision -- equivalent to 20-43\% reductions in sample size for the same statistical power. When applied to real data from ACTG Study 175, we also see meaningful efficiency improvements overall and within subgroups.
翻訳日:2023-09-12 23:01:25 公開日:2023-09-09
# MLP-Mixer ニューラルネットワークを用いたマルチビューマルチラベル異常ネットワークトラフィック分類

Multi-view Multi-label Anomaly Network Traffic Classification based on MLP-Mixer Neural Network ( http://arxiv.org/abs/2210.16719v3 )

ライセンス: Link先を確認
Yu Zheng, Zhangxuan Dang, Chunlei Peng, Chao Yang, Xinbo Gao(参考訳) ネットワークトラフィック分類は多くのネットワークセキュリティアプリケーションの基礎であり、サイバースペースセキュリティの分野で十分な注目を集めている。 畳み込みニューラルネットワーク(CNN)に基づく既存のネットワークトラフィック分類は、グローバルな情報関連を無視しながら、トラフィックデータの局所的なパターンを強調することが多い。 本稿では,MLP-Mixerを用いたマルチビューマルチラベルニューラルネットワークによるネットワークトラフィック分類を提案する。 提案手法は既存のCNN方式と比較して,従来の畳み込み動作よりもパケットの構造に整合したMLP-Mixer構造を採用する。 提案手法では,パケットヘッダとパケット本体に1つのパケットを分割し,パケットのフロー特性を異なるビューから入力する。 マルチラベル設定を用いて異なるシナリオを同時に学習し、異なるシナリオ間の相関を利用して分類性能を向上させる。 上記の特徴を生かして,エンドツーエンドのネットワークトラフィック分類手法を提案する。 3つの公開データセットについて実験を行い,本手法が優れた性能を実現することを示す。

Network traffic classification is the basis of many network security applications and has attracted enough attention in the field of cyberspace security. Existing network traffic classification based on convolutional neural networks (CNNs) often emphasizes local patterns of traffic data while ignoring global information associations. In this paper, we propose an MLP-Mixer based multi-view multi-label neural network for network traffic classification. Compared with the existing CNN-based methods, our method adopts the MLP-Mixer structure, which is more in line with the structure of the packet than the conventional convolution operation. In our method, one packet is divided into the packet header and the packet body, together with the flow features of the packet as input from different views. We utilize a multi-label setting to learn different scenarios simultaneously to improve the classification performance by exploiting the correlations between different scenarios. Taking advantage of the above characteristics, we propose an end-to-end network traffic classification method. We conduct experiments on three public datasets, and the experimental results show that our method can achieve superior performance.
翻訳日:2023-09-12 23:00:55 公開日:2023-09-09
# TetraSphere: O(3)-不変点雲解析のためのニューラルネットワーク記述子

TetraSphere: A Neural Descriptor for O(3)-Invariant Point Cloud Analysis ( http://arxiv.org/abs/2211.14456v3 )

ライセンス: Link先を確認
Pavlo Melnyk, Andreas Robinson, M{\aa}rten Wadenb\"ack, Michael Felsberg(参考訳) 回転不変性は3次元点雲の解析において重要な要件である。 本稿では,最近導入された3次元球状ニューロンとベクトルニューロンに基づく回転・反射不変3次元点雲解析のための学習可能な記述子を提案する。 具体的には、両手法の互換性を示し、両手法とも技術的新奇性を構成するエンドツーエンド方式でステアブルニューロンを適用する。 提案手法では, ステアブルニューロンによって構築された同変4次元表現に3次元入力を持ち上げるテトラ変換を行い, ベクトルニューロンを用いてより深い回転同変特徴を抽出する。 TetraTransformのVN-DGCNNフレームワークへの統合は、TetraSphereと呼ばれ、パラメータの数を0.0007%未満で安価に増加させる。 TetraSphereは、入力ポイントのみを考慮し、ScanObjectNNの最も難しいサブセットをランダムに回転させた実世界のオブジェクトスキャンを、追加のローテーション拡張なしでトレーニングした場合でも、新しい最先端のパフォーマンスを分類する。 さらに、TetraSphereは、合成ShapeNetの2番目のパフォーマンスセグメンテーション部分を示し、ベースラインのVN-DGCNNを一貫して上回っている。 その結果,3次元ユークリッド空間で学習する3次元球面ニューロンの実用的有用性が明らかになった。

Rotation invariance is an important requirement for the analysis of 3D point clouds. In this paper, we present a learnable descriptor for rotation- and reflection-invariant 3D point cloud analysis based on recently introduced steerable 3D spherical neurons and vector neurons. Specifically, we show the compatibility of the two approaches and apply steerable neurons in an end-to-end method, which both constitute the technical novelty. In our approach, we perform TetraTransform -- which lifts the 3D input to an equivariant 4D representation, constructed by the steerable neurons -- and extract deeper rotation-equivariant features using vector neurons. This integration of the TetraTransform into the VN-DGCNN framework, termed TetraSphere, inexpensively increases the number of parameters by less than 0.0007%. Taking only points as input, TetraSphere sets a new state-of-the-art performance classifying randomly rotated real-world object scans of the hardest subset of ScanObjectNN, even when trained on data without additional rotation augmentation. Additionally, TetraSphere demonstrates the second-best performance segmenting parts of the synthetic ShapeNet, consistently outperforming the baseline VN-DGCNN. All in all, our results reveal the practical value of steerable 3D spherical neurons for learning in 3D Euclidean space.
翻訳日:2023-09-12 22:51:45 公開日:2023-09-09
# ディープグラフクラスタリングに関するサーベイ:分類学、チャレンジ、応用、そしてオープンリソース

A Survey of Deep Graph Clustering: Taxonomy, Challenge, Application, and Open Resource ( http://arxiv.org/abs/2211.12875v3 )

ライセンス: Link先を確認
Yue Liu, Jun Xia, Sihang Zhou, Xihong Yang, Ke Liang, Chenchen Fan, Yan Zhuang, Stan Z. Li, Xinwang Liu, Kunlun He(参考訳) グラフのノードを複数のクラスタに分割することを目的としたグラフクラスタリングは、基本的には、挑戦的なタスクです。 ディープラーニングの強力な表現能力から、ディープグラフクラスタリング手法は近年大きな成功を収めている。 しかし、それに対応する調査論文は比較的少ないため、この分野を概観することは差し迫っている。 この動機から,深層グラフクラスタリングの包括的調査を行う。 まず,この分野における定式化,評価,開発について紹介する。 次に,グラフタイプ,ネットワークアーキテクチャ,学習パラダイム,クラスタリング手法の4つの異なる基準に基づいて,ディープグラフクラスタリング手法の分類について述べる。 第3に,既存の手法を広範な実験を通じて慎重に分析し,グラフデータの品質,安定性,スケーラビリティ,識別能力,未知クラスタ数といった5つの視点から課題と機会を要約する。 さらに,コンピュータビジョン,自然言語処理,レコメンデーションシステム,ソーシャルネットワーク解析,バイオインフォマティクス,医学など6分野の深層グラフクラスタリング手法の応用について紹介する。 最後に重要なことは、この論文はオープンリソースのサポートを提供する。 1) 最先端のディープグラフクラスタリングメソッド(ペーパー、コード、データセット)のコレクション(\url{https://github.com/yueliu 1999/Awesome-Deep-Graph-Clustering})と 2)ディープグラフクラスタリングの統一フレームワーク(\url{https://github.com/Marigoldwu/A-Unified-Framework-for-Deep-Attribute-Graph-Clustering})。 この研究がクイックガイドとなり、研究者たちがこの活発な分野での課題を克服できることを期待しています。

Graph clustering, which aims to divide nodes in the graph into several distinct clusters, is a fundamental yet challenging task. Benefiting from the powerful representation capability of deep learning, deep graph clustering methods have achieved great success in recent years. However, the corresponding survey paper is relatively scarce, and it is imminent to make a summary of this field. From this motivation, we conduct a comprehensive survey of deep graph clustering. Firstly, we introduce formulaic definition, evaluation, and development in this field. Secondly, the taxonomy of deep graph clustering methods is presented based on four different criteria, including graph type, network architecture, learning paradigm, and clustering method. Thirdly, we carefully analyze the existing methods via extensive experiments and summarize the challenges and opportunities from five perspectives, including graph data quality, stability, scalability, discriminative capability, and unknown cluster number. Besides, the applications of deep graph clustering methods in six domains, including computer vision, natural language processing, recommendation systems, social network analyses, bioinformatics, and medical science, are presented. Last but not least, this paper provides open resource supports, including 1) a collection (\url{https://github.com/yueliu1999/Awesome-Deep-Graph-Clustering}) of state-of-the-art deep graph clustering methods (papers, codes, and datasets) and 2) a unified framework (\url{https://github.com/Marigoldwu/A-Unified-Framework-for-Deep-Attribute-Graph-Clustering}) of deep graph clustering. We hope this work can serve as a quick guide and help researchers overcome challenges in this vibrant field.
翻訳日:2023-09-12 22:50:31 公開日:2023-09-09
# テキスト会話における深部感情認識 : 調査

Deep Emotion Recognition in Textual Conversations: A Survey ( http://arxiv.org/abs/2211.09172v2 )

ライセンス: Link先を確認
Patr\'icia Pereira, Helena Moniz and Joao Paulo Carvalho(参考訳) 会話における感情認識(erc)はここ数年で飛躍的な進歩を遂げてきたが、新しいアプリケーションや実装シナリオは新たな挑戦と機会をもたらしている。 会話的コンテキスト、話者と感情のダイナミクスモデリングの活用から、常識表現の解釈、非公式言語と皮肉、リアルタイムercの課題への対処、感情原因の認識、データセット間の異なる分類、多言語ercから解釈可能性まで幅広い。 この調査はERCの導入から始まり、このタスクに関連する課題と機会について検討する。 感情分類学と、そのような分類学を用いた様々なERCベンチマークデータセットを記述する。 この後、ercで最も著名な作品の説明と、採用されているディープラーニングアーキテクチャの説明が続く。 さらに、より良いフレームワークに向けた推奨可能なercプラクティスを提供し、アノテーションやモデリングにおける主観性を扱うメソッドと、通常バランスのとれないercデータセットを扱うメソッドを詳述する。 最後に、使用方法と性能に関するいくつかの作品を比較した体系的なレビュー表を示す。 この調査は、不均衡なデータに対処するテクニックを活用することの利点、混合感情の探求、学習段階にアノテーションの主観性を導入することの利点を強調している。

While Emotion Recognition in Conversations (ERC) has seen a tremendous advancement in the last few years, new applications and implementation scenarios present novel challenges and opportunities. These range from leveraging the conversational context, speaker and emotion dynamics modelling, to interpreting common sense expressions, informal language and sarcasm, addressing challenges of real time ERC, recognizing emotion causes, different taxonomies across datasets, multilingual ERC to interpretability. This survey starts by introducing ERC, elaborating on the challenges and opportunities pertaining to this task. It proceeds with a description of the emotion taxonomies and a variety of ERC benchmark datasets employing such taxonomies. This is followed by descriptions of the most prominent works in ERC with explanations of the Deep Learning architectures employed. Then, it provides advisable ERC practices towards better frameworks, elaborating on methods to deal with subjectivity in annotations and modelling and methods to deal with the typically unbalanced ERC datasets. Finally, it presents systematic review tables comparing several works regarding the methods used and their performance. The survey highlights the advantage of leveraging techniques to address unbalanced data, the exploration of mixed emotions and the benefits of incorporating annotation subjectivity in the learning phase.
翻訳日:2023-09-12 22:50:01 公開日:2023-09-09
# 絡み合いから運動の準局所積分を計測する

Measuring out quasi-local integrals of motion from entanglement ( http://arxiv.org/abs/2301.01787v3 )

ライセンス: Link先を確認
B. Lu, C. Bertoni, S. J. Thomson, J. Eisert(参考訳) 運動の準局所積分は、相互作用と障害が結合する興味深い現象である多体局所化の現代の理解を支える重要な概念である。 それらを計算する数値的な方法がいくつか存在するにもかかわらず、多くの性質の現象論の多くがそれらから導出できるという観測の光に驚くことに、実際の量子シミュレーションにおいてそれらの側面を直接測定する方法は明らかではない。 本研究では,アンダーソンを多体局所化と非平衡ダイナミクスを区別できる空間分解型エンタングルメントプローブに基づいて,そのような準局所的運動積分の実空間特性を抽出する手法を提案する。 これらの知見を新たな厳密な絡み合い境界で補完し,テンソルネットワークを用いて関連する量を計算する。 この絡み合いは、実験で測定できる、明確に定義された長さのスケールを生み出すことを実証する。

Quasi-local integrals of motion are a key concept underpinning the modern understanding of many-body localisation, an intriguing phenomenon in which interactions and disorder come together. Despite the existence of several numerical ways to compute them - and astoundingly in the light of the observation that much of the phenomenology of many properties can be derived from them - it is not obvious how to directly measure aspects of them in real quantum simulations; in fact, the smoking gun of their experimental observation is arguably still missing. In this work, we propose a way to extract the real-space properties of such quasi-local integrals of motion based on a spatially-resolved entanglement probe able to distinguish Anderson from many-body localisation from non-equilibrium dynamics. We complement these findings with a new rigorous entanglement bound and compute the relevant quantities using tensor networks. We demonstrate that the entanglement gives rise to a well-defined length scale that can be measured in experiments.
翻訳日:2023-09-12 22:42:43 公開日:2023-09-09
# STEPs: プロシージャビデオからの自己監督型キーステップ抽出とローカライゼーション

STEPs: Self-Supervised Key Step Extraction and Localization from Unlabeled Procedural Videos ( http://arxiv.org/abs/2301.00794v3 )

ライセンス: Link先を確認
Anshul Shah, Benjamin Lundell, Harpreet Sawhney, Rama Chellappa(参考訳) 我々は、拡張現実(ar)ヘッドセットが仕事のトレーニングやパフォーマンスに革命をもたらす可能性に動機付けられた、ラベルなしの手続きビデオから重要なステップを抽出する問題に対処する。 問題を表現学習とキーステップ抽出という2つのステップに分解する。 ラベルなしで様々なステップの識別表現を学習するための学習目標であるBootstrapped Multi-Cue Contrastive (BMC2)損失を提案する。 従来の作業とは違って,自己監督のために市販の機能を利用する軽量時間モジュールの訓練手法を開発した。 私たちのアプローチは、光学フロー、深度、視線といった複数の手がかりからの情報をシームレスに活用し、キーステップの識別的特徴を学習し、arアプリケーションにとって役に立ちます。 最終的に、表現とサンプルをクラスタリングするチューナブルアルゴリズムを通じて、キーステップを抽出する。 キーステップのローカライゼーションと位相分類のタスクにおいて,先行作業よりも大幅な改善が見られた。 質的な結果は、抽出されたキーステップが意味を持ち、簡潔に手続きタスクの様々なステップを表すことを示す。

We address the problem of extracting key steps from unlabeled procedural videos, motivated by the potential of Augmented Reality (AR) headsets to revolutionize job training and performance. We decompose the problem into two steps: representation learning and key steps extraction. We propose a training objective, Bootstrapped Multi-Cue Contrastive (BMC2) loss to learn discriminative representations for various steps without any labels. Different from prior works, we develop techniques to train a light-weight temporal module which uses off-the-shelf features for self supervision. Our approach can seamlessly leverage information from multiple cues like optical flow, depth or gaze to learn discriminative features for key-steps, making it amenable for AR applications. We finally extract key steps via a tunable algorithm that clusters the representations and samples. We show significant improvements over prior works for the task of key step localization and phase classification. Qualitative results demonstrate that the extracted key steps are meaningful and succinctly represent various steps of the procedural tasks.
翻訳日:2023-09-12 22:42:28 公開日:2023-09-09
# audioldm:潜在拡散モデルを用いたテキスト音声生成

AudioLDM: Text-to-Audio Generation with Latent Diffusion Models ( http://arxiv.org/abs/2301.12503v3 )

ライセンス: Link先を確認
Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumbley(参考訳) text-to-audio(tta)システムは最近、テキスト記述に基づいて一般音声を合成する能力で注目を集めている。 しかし、TTAにおける以前の研究では、高い計算コストで生成品質が制限されていた。 本研究では,Language-audio pretraining (CLAP)から連続的な音声表現を学習するために,潜在空間上に構築されたTTAシステムであるAudioLDMを提案する。 事前学習したCLAPモデルは,サンプリング中にテキスト埋め込みを条件として提供しながら,オーディオ埋め込みによるLCMの訓練を可能にする。 モーダル関係をモデル化することなく音声信号とその合成の潜在表現を学習することにより、AudioLDMは生成品質と計算効率の両方において有利である。 単一GPUでAudioCapsでトレーニングされたAudioLDMは、客観的および主観的なメトリクス(例えば、フレケット距離)によって測定された最先端のTTAパフォーマンスを達成する。 さらに、AudioLDMは、様々なテキスト誘導オーディオ操作(スタイル転送など)をゼロショット方式で行える最初のTTAシステムである。 実装とデモはhttps://audioldm.github.io.com/で公開しています。

Text-to-audio (TTA) system has recently gained attention for its ability to synthesize general audio based on text descriptions. However, previous studies in TTA have limited generation quality with high computational costs. In this study, we propose AudioLDM, a TTA system that is built on a latent space to learn the continuous audio representations from contrastive language-audio pretraining (CLAP) latents. The pretrained CLAP models enable us to train LDMs with audio embedding while providing text embedding as a condition during sampling. By learning the latent representations of audio signals and their compositions without modeling the cross-modal relationship, AudioLDM is advantageous in both generation quality and computational efficiency. Trained on AudioCaps with a single GPU, AudioLDM achieves state-of-the-art TTA performance measured by both objective and subjective metrics (e.g., frechet distance). Moreover, AudioLDM is the first TTA system that enables various text-guided audio manipulations (e.g., style transfer) in a zero-shot fashion. Our implementation and demos are available at https://audioldm.github.io.
翻訳日:2023-09-12 22:32:51 公開日:2023-09-09
# 自己教師付き学習と動的計算の相乗効果

Unifying Synergies between Self-supervised Learning and Dynamic Computation ( http://arxiv.org/abs/2301.09164v3 )

ライセンス: Link先を確認
Tarun Krishna, Ayush K Rai, Alexandru Drimbarean, Eric Arazo, Paul Albert, Alan F Smeaton, Kevin McGuinness, Noel E O'Connor(参考訳) 計算コストの高いトレーニング戦略は、リソース制約のある産業環境において自己教師付き学習(SSL)を非現実化する。 知識蒸留(kd)、動的計算(dc)、プルーニング(pruning)といった技術は、通常、大きな事前訓練されたモデルの微調整(または蒸留ステップ)の複数のエポックを含む軽量モデルを得るためにしばしば用いられる。 本稿ではSSLとDCのパラダイム間の相互作用に関する新しい視点を示す。 特に,細かな調整や刈り取りのステップを加えることなく,ssl設定で,密集したゲート付きサブネットワークをスクラッチから同時に学習することが可能であることを示す。 高密度エンコーダとゲートエンコーダの事前トレーニング中の共進化は、精度と効率のよいトレードオフを提供するため、アプリケーション固有の産業環境では汎用的で多目的なアーキテクチャとなる。 CIFAR-10/100, STL-10, ImageNet-100などの画像分類ベンチマークの大規模な実験により、提案したトレーニング戦略は、ベニラの自己監督設定に比べて高密度かつ対応するゲートサブネットワークを提供するが、FLOPの計算量は、目標予算(td)の範囲で大幅に減少することを示した。

Computationally expensive training strategies make self-supervised learning (SSL) impractical for resource constrained industrial settings. Techniques like knowledge distillation (KD), dynamic computation (DC), and pruning are often used to obtain a lightweightmodel, which usually involves multiple epochs of fine-tuning (or distilling steps) of a large pre-trained model, making it more computationally challenging. In this work we present a novel perspective on the interplay between SSL and DC paradigms. In particular, we show that it is feasible to simultaneously learn a dense and gated sub-network from scratch in a SSL setting without any additional fine-tuning or pruning steps. The co-evolution during pre-training of both dense and gated encoder offers a good accuracy-efficiency trade-off and therefore yields a generic and multi-purpose architecture for application specific industrial settings. Extensive experiments on several image classification benchmarks including CIFAR-10/100, STL-10 and ImageNet-100, demonstrate that the proposed training strategy provides a dense and corresponding gated sub-network that achieves on-par performance compared with the vanilla self-supervised setting, but at a significant reduction in computation in terms of FLOPs, under a range of target budgets (td ).
翻訳日:2023-09-12 22:31:15 公開日:2023-09-09
# 多発性硬化症進展予測のための連続時間モデルベンチマーク

Benchmarking Continuous Time Models for Predicting Multiple Sclerosis Progression ( http://arxiv.org/abs/2302.07854v2 )

ライセンス: Link先を確認
Alexander Norcliffe, Lev Proleev, Diana Mincu, Fletcher Lee Hartsell, Katherine Heller, Subhrajit Roy(参考訳) 多発性硬化症(multiple sclerosis)は、脳と脊髄に影響を及ぼす疾患であり、深刻な障害を引き起こし、既知の治療法を持たない。 多発性硬化症のための機械学習における以前の研究の大部分は、磁気共鳴画像スキャンや検査による研究が中心であり、これらのモダリティは、取得に費用がかかり、信頼性に欠ける。 最近の論文では, 成績評価と人口統計データを用いて, 疾患の進行を効果的に予測できることが示されている。 当社の作業では、モデリング側を調査するために、継続的時間モデルを使用して進捗を予測しています。 公開されている多発性硬化症データセットを用いて、4つの連続時間モデルをベンチマークする。 ベストな継続的モデルは、しばしば最高のベンチマークされた離散時間モデルよりも優れています。 また、パフォーマンス向上の源を見つけるために広範囲にアブレーションを行い、既存の機能を標準化することで、欠落している機能を補間するよりも大きなパフォーマンス向上につながることを見出しました。

Multiple sclerosis is a disease that affects the brain and spinal cord, it can lead to severe disability and has no known cure. The majority of prior work in machine learning for multiple sclerosis has been centered around using Magnetic Resonance Imaging scans or laboratory tests; these modalities are both expensive to acquire and can be unreliable. In a recent paper it was shown that disease progression can be predicted effectively using performance outcome measures and demographic data. In our work we build on this to investigate the modeling side, using continuous time models to predict progression. We benchmark four continuous time models using a publicly available multiple sclerosis dataset. We find that the best continuous model is often able to outperform the best benchmarked discrete time model. We also carry out an extensive ablation to discover the sources of performance gains, we find that standardizing existing features leads to a larger performance increase than interpolating missing features.
翻訳日:2023-09-12 22:21:33 公開日:2023-09-09
# 事前学習モデルを用いた領域リスク最小化のための勾配推定

Gradient Estimation for Unseen Domain Risk Minimization with Pre-Trained Models ( http://arxiv.org/abs/2302.01497v3 )

ライセンス: Link先を確認
Byounggyu Lew, Donghyun Son, Buru Chang(参考訳) ドメインの一般化は、モデル最適化のためにソースドメインのみが利用できる場合に、見えないドメインでうまく機能する一般化されたモデルを構築することを目的としています。 近年の研究では、大規模事前学習モデルが一般化力を活用して領域一般化を促進できることが示されている。 しかしながら、これらの事前訓練されたモデルは、事前訓練対象と目標タスクの相違のため、目標のタスク固有の知識を欠いている。 タスク固有の知識は、微調整によってソースドメインから学ぶことができるが、ソースドメインに対する勾配バイアスによる事前学習モデルの一般化力を損なう。 この問題を軽減するために, 大規模事前学習モデルを用いて, 観測不能な勾配を推定し, 潜在リスクを低減できる新しい領域一般化法を提案する。 これらの予測できない勾配により、事前学習されたモデルは、勾配バイアスを緩和して一般化能力を保ちながら、タスク固有の知識をさらに学習することができる。 実験の結果,本手法はドメイン一般化の標準ベンチマークであるdomainbedのベースラインメソッドよりも優れていた。 また,事前学習モデルが一般化力を犠牲にすることなくタスク固有の知識を学習できることを実証するために,広範な分析を行った。

Domain generalization aims to build generalized models that perform well on unseen domains when only source domains are available for model optimization. Recent studies have shown that large-scale pre-trained models can enhance domain generalization by leveraging their generalization power. However, these pre-trained models lack target task-specific knowledge yet due to discrepancies between the pre-training objectives and the target task. Although the task-specific knowledge could be learned from source domains by fine-tuning, this hurts the generalization power of pre-trained models due to gradient bias toward the source domains. To alleviate this problem, we propose a new domain generalization method that estimates unobservable gradients that reduce potential risks in unseen domains using a large-scale pre-trained model. These estimated unobservable gradients allow the pre-trained model to learn task-specific knowledge further while preserving its generalization ability by relieving the gradient bias. Our experimental results show that our method outperforms baseline methods on DomainBed, a standard benchmark in domain generalization. We also provide extensive analyses to demonstrate that the pre-trained model can learn task-specific knowledge without sacrificing its generalization power.
翻訳日:2023-09-12 22:20:36 公開日:2023-09-09
# 1次元カイラル異常とその障害応答

The One-dimensional Chiral Anomaly and its Disorder Response ( http://arxiv.org/abs/2302.13556v4 )

ライセンス: Link先を確認
Zheng Qin, Dong-Hui Xu, Zhen Ning and Rui Wang(参考訳) カイラル異常の凝縮マッター実現は、量子場理論の予期せぬ現象の探索に多大な関心を寄せている。 ここでは、1次元(1次元)カイラル異常(すなわち、背景電磁場下での1次元非保存キラル電流)は、単一の隙間のないディラックコーンが発生する一般化Su-Schrieffer-Heegerモデルで実現できることを示す。 トポロジカルなThoulessポンプとキラル変位の異常ダイナミクスに基づいて、そのような系が巻数半整数量子化を持つことを解明する。 さらに,1次元キラル異常の発達と,2種類の典型的障害,すなわちオンサイト障害とボンド障害について検討した。 その結果,オンサイト障害はギャップのないディラックコーンを塗る傾向がみられた。 しかし, 半整数量子化を安定化し, 実験的な検出を容易にするための戦略を提案する。 さらに, ボンド障害は, 異常増大した位相電荷ポンプと一意に交差し, システムを位相的アンダーソン絶縁体相へと導くことを実証した。

The condensed-matter realization of chiral anomaly has attracted tremendous interest in exploring unexpected phenomena of quantum field theory. Here, we show that one-dimensional (1D) chiral anomaly (i.e., 1D nonconservational chiral current under a background electromagnetic field) can be realized in a generalized Su-Schrieffer-Heeger model where a single gapless Dirac cone occurs. Based on the topological Thouless pump and anomalous dynamics of chiral displacement, we elucidate that such a system possesses the half-integer quantization of winding number. Moreover, we investigate the evolution of 1D chiral anomaly with respect to two typical types of disorder, i.e., on-site disorder and bond disorder. The results show that the on-site disorder tends to smear the gapless Dirac cone. However, we propose a strategy to stabilize the half-integer quantization, facilitating its experimental detection. Furthermore, we demonstrate that the bond disorder causes a unique crossover with disorder-enhanced topological charge pumping, driving the system into a topological Anderson insulator phase.
翻訳日:2023-09-12 22:09:58 公開日:2023-09-09
# グリーン関数理論を用いた正規化二階相関法

A regularized second-order correlation method from Green's function theory ( http://arxiv.org/abs/2302.13296v2 )

ライセンス: Link先を確認
Christopher J. N. Coveney and David P. Tew(参考訳) グリーン関数理論によって動機付けられた分子や材料における電子相関を扱えるスケーラブルな単一粒子フレームワークを提案する。 我々は,ゴールドストーン自己エネルギーを導入することによって,単粒子グリーン関数からブリルアン・ウィグナー摂動理論を導出する。 この新しい基底状態相関エネルギーは準粒子MP2理論 (QPMP2) と呼ばれ、2階M{\o}ller-Plesset摂動理論と強い相関状態内の結合クラスタシングルとダブルの両方に特徴的な違いを避ける。 その結果, ハバードダイマーの正確な基底状態エネルギーと特性はqpmp2によって再現され, 従来の方法の完全な失敗とは対照的に, 金属-絶縁体転移が定性的に再現される6-, 8-および10-サイトハバードモデルに対するアプローチの利点が示された。 この定式化を特徴的相関分子系に適用し、QPMP2がMP2の効率的でサイズに一貫性のある正則化を提供することを示す。

We present a scalable single-particle framework to treat electronic correlation in molecules and materials motivated by Green's function theory. We derive a size-extensive Brillouin-Wigner perturbation theory from the single-particle Green's function by introducing the Goldstone self-energy. This new ground state correlation energy, referred to as Quasi-Particle MP2 theory (QPMP2), avoids the characteristic divergences present in both second-order M{\o}ller-Plesset perturbation theory and Coupled Cluster Singles and Doubles within the strongly correlated regime. We show that the exact ground state energy and properties of the Hubbard dimer are reproduced by QPMP2 and demonstrate the advantages of the approach for the six-, eight- and ten-site Hubbard models where the metal-to-insulator transition is qualitatively reproduced, contrasting with the complete failure of traditional methods. We apply this formalism to characteristic strongly correlated molecular systems and show that QPMP2 provides an efficient, size-consistent regularization of MP2.
翻訳日:2023-09-12 22:09:36 公開日:2023-09-09
# SC-MIL: 病理学における不均衡分類のためのコントラスト多重学習

SC-MIL: Supervised Contrastive Multiple Instance Learning for Imbalanced Classification in Pathology ( http://arxiv.org/abs/2303.13405v2 )

ライセンス: Link先を確認
Dinkar Juyal, Siddhant Shingi, Syed Ashar Javed, Harshith Padigela, Chintan Shah, Anand Sampat, Archit Khosla, John Abel, Amaro Taylor-Weiner(参考訳) 複数インスタンス学習(MIL)モデルは、バイオマーカーの予測や、ギガピクセルサイズの画像からリスク階層化に広く用いられている。 医療画像における機械学習の問題はしばしばまれな疾患を扱うため、これらのモデルがラベルの不均衡な環境で働くことが重要である。 病理画像には別のレベルの不均衡があり、正にラベル付けされた全スライド画像(WSI)が与えられると、その内部のピクセルのごく一部だけが正のラベルに寄与する。 これは不均衡の重大さを生じさせ、病理学における不均衡分類を困難にする。 さらに、これらの不均衡は、モデルが現実世界にデプロイされたときに、アウト・オブ・ディストリビューション(OOD)データセットで起こり得る。 機能分離と分類学習がラベル不均衡データセットの判断境界の改善に繋がるという考えを活用する。 そこで本研究では,教師付きコントラスト学習と複数インスタンス学習(SC-MIL)の統合について検討する。 具体的には,バッグレベルの表現学習から最適分類子学習へ段階的に移行するラベル不均衡の存在下での協調学習型ミルフレームワークを提案する。 非小細胞肺癌の亜型化と腎細胞癌の亜型化という,癌病理学におけるよく研究されている2つの問題に対する異なる不均衡設定による実験を行った。 SC-MILは、複数の不均衡な設定にまたがって、ID(In-distriion)とOODホールドアウトセットの両方で、他の技術よりも大きく、一貫した改善を提供する。

Multiple Instance learning (MIL) models have been extensively used in pathology to predict biomarkers and risk-stratify patients from gigapixel-sized images. Machine learning problems in medical imaging often deal with rare diseases, making it important for these models to work in a label-imbalanced setting. In pathology images, there is another level of imbalance, where given a positively labeled Whole Slide Image (WSI), only a fraction of pixels within it contribute to the positive label. This compounds the severity of imbalance and makes imbalanced classification in pathology challenging. Furthermore, these imbalances can occur in out-of-distribution (OOD) datasets when the models are deployed in the real-world. We leverage the idea that decoupling feature and classifier learning can lead to improved decision boundaries for label imbalanced datasets. To this end, we investigate the integration of supervised contrastive learning with multiple instance learning (SC-MIL). Specifically, we propose a joint-training MIL framework in the presence of label imbalance that progressively transitions from learning bag-level representations to optimal classifier learning. We perform experiments with different imbalance settings for two well-studied problems in cancer pathology: subtyping of non-small cell lung cancer and subtyping of renal cell carcinoma. SC-MIL provides large and consistent improvements over other techniques on both in-distribution (ID) and OOD held-out sets across multiple imbalanced settings.
翻訳日:2023-09-12 22:02:37 公開日:2023-09-09
# ChatGPTは株価変動を予測できるのか? 戻り予測可能性と大規模言語モデル

Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models ( http://arxiv.org/abs/2304.07619v4 )

ライセンス: Link先を確認
Alejandro Lopez-Lira and Yuehua Tang(参考訳) ニュース見出しを用いた株式市場のリターン予測におけるChatGPTや他の大規模言語モデルの可能性を検討する。 当社はChatGPTを使用して、各見出しが企業の株価に対して良いか悪いか、中立かを評価する。 また,ChatGPTスコアとその後の株価リターンとの間に有意な相関が認められた。 ChatGPTは従来の感情分析法よりも優れていた。 GPT-1、GPT-2、BERTのようなより基本的なモデルでは、戻り値を正確に予測することはできない。 ChatGPT-4に基づくロングショート戦略はシャープ比が最も高い。 さらに,小株と大株の両方において予測可能性を見いだし,企業ニュースに対する市場の不振を示唆する。 予測可能性は、悪いニュースのある小さな株や株の間で強くなり、取引制限が重要な役割を担っている。 最後に,モデルの推論能力を評価し,理解するための新しい手法を提案する。 その結果,先進言語モデルを投資決定プロセスに組み込むことで,より正確な予測が得られ,量的トレーディング戦略の性能が向上することが示唆された。

We examine the potential of ChatGPT and other large language models in predicting stock market returns using news headlines. We use ChatGPT to assess whether each headline is good, bad, or neutral for firms' stock prices. We document a significantly positive correlation between ChatGPT scores and subsequent daily stock returns. We find that ChatGPT outperforms traditional sentiment analysis methods. More basic models such as GPT-1, GPT-2, and BERT cannot accurately forecast returns, indicating return predictability is an emerging capacity of complex language models. Long-short strategies based on ChatGPT-4 deliver the highest Sharpe ratio. Furthermore, we find predictability in both small and large stocks, suggesting market underreaction to company news. Predictability is stronger among smaller stocks and stocks with bad news, consistent with limits-to-arbitrage also playing an important role. Finally, we propose a new method to evaluate and understand the models' reasoning capabilities. Overall, our results suggest that incorporating advanced language models into the investment decision-making process can yield more accurate predictions and enhance the performance of quantitative trading strategies.
翻訳日:2023-09-12 21:51:47 公開日:2023-09-09
# ST-GIN:時空間グラフアテンションと双方向再帰型ニューラルネットを用いた交通データインプットの不確かさ定量化手法

ST-GIN: An Uncertainty Quantification Approach in Traffic Data Imputation with Spatio-temporal Graph Attention and Bidirectional Recurrent United Neural Networks ( http://arxiv.org/abs/2305.06480v3 )

ライセンス: Link先を確認
Zepu Wang, Dingyi Zhuang, Yankai Li, Jinhua Zhao, Peng Sun, Shenhao Wang, Yulin Hu(参考訳) 交通データは、インテリジェント交通システムにおける研究と応用の両方において、基本的な要素となっている。 しかしながら、ループ検出器または類似のソースから収集された現実世界の輸送データは、しばしば欠落値(mvs)を含んでおり、関連するアプリケーションや研究に悪影響を及ぼす可能性がある。 この不完全なデータを破棄する代わりに、数値統計、テンソル分解、深層学習技術を通じて、これらの欠落した値を復元しようと試みてきた。 本稿では,欠落データに対する革新的な深層学習手法を提案する。 トラフィックデータに存在する空間的相関を捉えるためにグラフアテンションアーキテクチャを用い、双方向ニューラルネットワークを用いて時間的情報を学ぶ。 実験の結果,提案手法は他のベンチマーク手法よりも優れており,その有効性が示された。

Traffic data serves as a fundamental component in both research and applications within intelligent transportation systems. However, real-world transportation data, collected from loop detectors or similar sources, often contains missing values (MVs), which can adversely impact associated applications and research. Instead of discarding this incomplete data, researchers have sought to recover these missing values through numerical statistics, tensor decomposition, and deep learning techniques. In this paper, we propose an innovative deep learning approach for imputing missing data. A graph attention architecture is employed to capture the spatial correlations present in traffic data, while a bidirectional neural network is utilized to learn temporal information. Experimental results indicate that our proposed method outperforms all other benchmark techniques, thus demonstrating its effectiveness.
翻訳日:2023-09-12 21:42:58 公開日:2023-09-09
# 大規模言語モデルは遅延学習者になり得る - コンテキスト内学習におけるショートカットの分析

Large Language Models Can be Lazy Learners: Analyze Shortcuts in In-Context Learning ( http://arxiv.org/abs/2305.17256v2 )

ライセンス: Link先を確認
Ruixiang Tang, Dehan Kong, Longtao Huang, Hui Xue(参考訳) 大規模言語モデル(LLM)は、LLMが数組の入力ラベルペア(prompts)を条件付けるだけで新しいタスクを学習する、コンテキスト内学習において大きな可能性を示している。 彼らの可能性にもかかわらず、エンドタスクのパフォーマンスと文脈内学習の堅牢性に影響を与える要因に対する我々の理解は限られている。 本稿では,この知識のギャップを埋めるために,近道へのllmの依存度や,プロンプト内のスプリアス相関について検討する。 分類・抽出タスクに関する包括的実験を通じて,下流タスクのプロンプトでショートカットを利用する傾向のある「怠慢な学習者」であることが判明した。 さらに、大きなモデルが推論中にプロンプトでショートカットを利用する可能性が高まるという驚くべき発見を明らかにしました。 本研究は,文脈内学習におけるロバスト性評価の新たな視点を提供するとともに,ショートカットを用いたプロンプトの検出と緩和に新たな課題を提起する。

Large language models (LLMs) have recently shown great potential for in-context learning, where LLMs learn a new task simply by conditioning on a few input-label pairs (prompts). Despite their potential, our understanding of the factors influencing end-task performance and the robustness of in-context learning remains limited. This paper aims to bridge this knowledge gap by investigating the reliance of LLMs on shortcuts or spurious correlations within prompts. Through comprehensive experiments on classification and extraction tasks, we reveal that LLMs are "lazy learners" that tend to exploit shortcuts in prompts for downstream tasks. Additionally, we uncover a surprising finding that larger models are more likely to utilize shortcuts in prompts during inference. Our findings provide a new perspective on evaluating robustness in in-context learning and pose new challenges for detecting and mitigating the use of shortcuts in prompts.
翻訳日:2023-09-12 21:31:40 公開日:2023-09-09
# Q-Ensemblesによるオフライン・オンライン強化学習の改善

Improving Offline-to-Online Reinforcement Learning with Q-Ensembles ( http://arxiv.org/abs/2306.06871v2 )

ライセンス: Link先を確認
Kai Zhao, Yi Ma, Jianye Hao, Jinyi Liu, Yan Zheng, Zhaopeng Meng(参考訳) オフライン強化学習(RL)は、エージェントが一定の経験のデータセットから学習する学習パラダイムである。 しかしながら、静的データセットのみからの学習は、探索の欠如により、パフォーマンスを制限できる。 オフラインからオンラインまでのRLは、オフラインの事前トレーニングとオンラインの微調整を組み合わせることで、エージェントがリアルタイムで環境と対話することでポリシーをさらに洗練することができる。 その利点にもかかわらず、既存のオフラインからオンラインまでのRLメソッドは、オンラインフェーズにおけるパフォーマンス低下と改善の遅さに悩まされている。 これらの課題に対処するために,Ensemble-based Offline-to-Online (E2O) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。 さらに,オンラインのパフォーマンス向上を図るため,Q値推定の悲観性を適切に緩和し,アンサンブルに基づく探索機構を我々のフレームワークに組み込む。 実験結果から,既存のオフラインRL手法のオンライン微調整におけるトレーニング安定性,学習効率,最終性能を著しく向上し,既存のオフラインRL手法よりも大幅に向上することが示された。

Offline reinforcement learning (RL) is a learning paradigm where an agent learns from a fixed dataset of experience. However, learning solely from a static dataset can limit the performance due to the lack of exploration. To overcome it, offline-to-online RL combines offline pre-training with online fine-tuning, which enables the agent to further refine its policy by interacting with the environment in real-time. Despite its benefits, existing offline-to-online RL methods suffer from performance degradation and slow improvement during the online phase. To tackle these challenges, we propose a novel framework called Ensemble-based Offline-to-Online (E2O) RL. By increasing the number of Q-networks, we seamlessly bridge offline pre-training and online fine-tuning without degrading performance. Moreover, to expedite online performance enhancement, we appropriately loosen the pessimism of Q-value estimation and incorporate ensemble-based exploration mechanisms into our framework. Experimental results demonstrate that E2O can substantially improve the training stability, learning efficiency, and final performance of existing offline RL methods during online fine-tuning on a range of locomotion and navigation tasks, significantly outperforming existing offline-to-online RL methods.
翻訳日:2023-09-12 21:22:53 公開日:2023-09-09
# 頑健なエネルギー予測のための配電時空間データ連続学習

Continually learning out-of-distribution spatiotemporal data for robust energy forecasting ( http://arxiv.org/abs/2306.06385v2 )

ライセンス: Link先を確認
Arian Prabowo, Kaixuan Chen, Hao Xue, Subbu Sethuvenkatraman, Flora D. Salim(参考訳) 建設管理者がエネルギー消費を最適化しコストを削減できるため、建設エネルギー利用の予測は持続可能性の向上と廃棄物削減に不可欠である。 この重要性は、新型コロナウイルス(COVID-19)のパンデミックなど異常な期間に拡大され、占有パターンを乱し、正確な予測をより困難にしている。 異常期間におけるエネルギー利用予測は、占有パターンの変化とエネルギー利用行動のために困難である。 この主な理由の1つは、多くの人々が在宅勤務や家庭から学んでいる、占有パターンの分布の変化である。 これにより、占有パターンの変化に適応できる新しい予測方法の必要性が生まれました。 オンライン学習はこの課題に対する有望な解決策として現れており、ビルマネージャが占有パターンの変化に適応し、それに応じてエネルギー使用量を調整することができる。 オンライン学習では、モデルを新しいデータポイントごとにインクリメンタルに更新することで、学習と適応をリアルタイムで行うことができる。 もう1つの解決策は、人の移動データを占有率のプロキシとして使用し、モバイルデバイスの普及を利用して移動パターンを追跡し、占有率を推測することである。 人間の移動データは、従来のセンサーや手動のデータ収集方法に頼ることなく、占有パターンを監視する方法を提供するので、この文脈で有用である。 これらの手法の有効性を試すために,6棟からのデータを用いて広範囲にわたる実験を行った。 しかし、これらのメソッドを現実世界にデプロイすることには、いくつかの課題がある。

Forecasting building energy usage is essential for promoting sustainability and reducing waste, as it enables building managers to optimize energy consumption and reduce costs. This importance is magnified during anomalous periods, such as the COVID-19 pandemic, which have disrupted occupancy patterns and made accurate forecasting more challenging. Forecasting energy usage during anomalous periods is difficult due to changes in occupancy patterns and energy usage behavior. One of the primary reasons for this is the shift in distribution of occupancy patterns, with many people working or learning from home. This has created a need for new forecasting methods that can adapt to changing occupancy patterns. Online learning has emerged as a promising solution to this challenge, as it enables building managers to adapt to changes in occupancy patterns and adjust energy usage accordingly. With online learning, models can be updated incrementally with each new data point, allowing them to learn and adapt in real-time. Another solution is to use human mobility data as a proxy for occupancy, leveraging the prevalence of mobile devices to track movement patterns and infer occupancy levels. Human mobility data can be useful in this context as it provides a way to monitor occupancy patterns without relying on traditional sensors or manual data collection methods. We have conducted extensive experiments using data from six buildings to test the efficacy of these approaches. However, deploying these methods in the real world presents several challenges.
翻訳日:2023-09-12 21:21:46 公開日:2023-09-09
# LLMatic: 大規模言語モデルによるニューラルネットワーク探索と品質多様性の最適化

LLMatic: Neural Architecture Search via Large Language Models and Quality Diversity Optimization ( http://arxiv.org/abs/2306.01102v3 )

ライセンス: Link先を確認
Muhammad U. Nasir, Sam Earle, Julian Togelius, Steven James and Christopher Cleghorn(参考訳) 大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。 それらの能力はさまざまな領域にまたがっており、コード生成の領域において大きな影響を与えている分野のひとつです。 この文脈では、LSMを突然変異とクロスオーバーツールとみなす。 一方、QD(Quality-Diversity)アルゴリズムは、多様で堅牢なソリューションを発見することが知られている。 本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を組み合わせることで,ニューラルネットワーク探索(NAS)アルゴリズムであるLLMaticを導入する。 LLMaticはプロンプトを介してNASを直接実行するのに苦労するが、プロンプトやネットワークアーキテクチャにQDを活用し、多種多様な高性能ネットワークを作成する。 私たちは、cifar-10イメージ分類ベンチマークでllmaticをテストし、ベンチマークドメインの事前知識や以前のトップパフォーマンスモデルへの露出がなくても、わずか2,000ドルの検索で競合ネットワークを作成できることを示した。

Large Language Models (LLMs) have emerged as powerful tools capable of accomplishing a broad spectrum of tasks. Their abilities span numerous areas, and one area where they have made a significant impact is in the domain of code generation. In this context, we view LLMs as mutation and crossover tools. Meanwhile, Quality-Diversity (QD) algorithms are known to discover diverse and robust solutions. By merging the code-generating abilities of LLMs with the diversity and robustness of QD solutions, we introduce LLMatic, a Neural Architecture Search (NAS) algorithm. While LLMs struggle to conduct NAS directly through prompts, LLMatic uses a procedural approach, leveraging QD for prompts and network architecture to create diverse and highly performant networks. We test LLMatic on the CIFAR-10 image classification benchmark, demonstrating that it can produce competitive networks with just $2,000$ searches, even without prior knowledge of the benchmark domain or exposure to any previous top-performing models for the benchmark.
翻訳日:2023-09-12 21:21:21 公開日:2023-09-09
# ロングテール認識のためのサブクラスバランスコントラスト学習

Subclass-balancing Contrastive Learning for Long-tailed Recognition ( http://arxiv.org/abs/2306.15925v2 )

ライセンス: Link先を確認
Chengkai Hou and Jieyu Zhang and Haonan Wang and Tianyi Zhou(参考訳) 不均衡なクラス分布を持つロングテール認識は、実践的な機械学習アプリケーションで自然に現れる。 data reweighing、resampling、supervised contrastive learningのような既存のメソッドは、クラスバランスを、headクラスとtailクラスのインスタンス間の不均衡を導入する価格で強制し、これは前者のリッチなセマンティックサブ構造を無視し、後者のバイアスを誇張する可能性がある。 これらの欠点を,各headクラスを末尾クラスと同じ大きさの複数のサブクラスに分類し,元のクラスとそれらのサブクラスの間の2層クラス階層をキャプチャする表現を強制する,新しい`subclass-balancing contrastive learning (sbcl)'アプローチによって克服した。 クラスタリングは、表現空間内で実行され、トレーニング中に更新されるので、サブクラスラベルは、ヘッドクラスのセマンティックサブ構造を保持する。 一方、テールクラスのサンプルを過度に強調しないため、各インスタンスは表現学習に等しく貢献する。 したがって,本手法はインスタンスとサブクラスのバランスを両立させるが,元のクラスラベルは異なるクラスのサブクラスのコントラスト学習によって学習される。 我々は,長期化ベンチマークデータセットの一覧からSBCLを評価し,最先端のパフォーマンスを実現する。 さらに,SBCLのさらなる分析とアブレーションを行い,その利点を検証した。

Long-tailed recognition with imbalanced class distribution naturally emerges in practical machine learning applications. Existing methods such as data reweighing, resampling, and supervised contrastive learning enforce the class balance with a price of introducing imbalance between instances of head class and tail class, which may ignore the underlying rich semantic substructures of the former and exaggerate the biases in the latter. We overcome these drawbacks by a novel ``subclass-balancing contrastive learning (SBCL)'' approach that clusters each head class into multiple subclasses of similar sizes as the tail classes and enforce representations to capture the two-layer class hierarchy between the original classes and their subclasses. Since the clustering is conducted in the representation space and updated during the course of training, the subclass labels preserve the semantic substructures of head classes. Meanwhile, it does not overemphasize tail class samples, so each individual instance contribute to the representation learning equally. Hence, our method achieves both the instance- and subclass-balance, while the original class labels are also learned through contrastive learning among subclasses from different classes. We evaluate SBCL over a list of long-tailed benchmark datasets and it achieves the state-of-the-art performance. In addition, we present extensive analyses and ablation studies of SBCL to verify its advantages.
翻訳日:2023-09-12 19:38:19 公開日:2023-09-09
# 信頼できる説明に向けて:因果的合理化について

Towards Trustworthy Explanation: On Causal Rationalization ( http://arxiv.org/abs/2306.14115v2 )

ライセンス: Link先を確認
Wenbo Zhang, Tong Wu, Yunlong Wang, Yong Cai, Hengrui Cai(参考訳) 近年の自然言語処理の進歩により、有理化は、入力テキストのサブセットを選択して予測の大きな変動を考慮し、ブラックボックスを混乱させるために必要な自己説明図となる。 しかし、合理化に関する既存の関連に基づくアプローチは、2つ以上のスニペットが非常に相関性の高い場合、真の合理性を識別できないため、予測精度、いわゆるスプリアスネスに類似した貢献を与える。 この制限に対処するために、我々は因果推論の観点から2つの因果デシダータ(非純粋性と効率性)を合理的に活用する。 我々は,新しく提案された構造的因果モデルに基づく因果関係の連続確率を定式化し,その理論的同定を学習の重要かつ十分な合理性の主要な構成要素として定式化する。 提案する因果的合理化の優れた性能は,実世界のレビューおよび医療データセットにおいて,最先端の手法と比較して広範な実験によって実証される。

With recent advances in natural language processing, rationalization becomes an essential self-explaining diagram to disentangle the black box by selecting a subset of input texts to account for the major variation in prediction. Yet, existing association-based approaches on rationalization cannot identify true rationales when two or more snippets are highly inter-correlated and thus provide a similar contribution to prediction accuracy, so-called spuriousness. To address this limitation, we novelly leverage two causal desiderata, non-spuriousness and efficiency, into rationalization from the causal inference perspective. We formally define a series of probabilities of causation based on a newly proposed structural causal model of rationalization, with its theoretical identification established as the main component of learning necessary and sufficient rationales. The superior performance of the proposed causal rationalization is demonstrated on real-world review and medical datasets with extensive experiments compared to state-of-the-art methods.
翻訳日:2023-09-12 19:37:33 公開日:2023-09-09
# 証拠に基づく意思決定の価値の推定

Estimating the Value of Evidence-Based Decision Making ( http://arxiv.org/abs/2306.13681v2 )

ライセンス: Link先を確認
Alberto Abadie, Anish Agarwal, Guido Imbens, Siwei Jia, James McQueen and Serguei Stepaniants(参考訳) ビジネス/政治の決定は、しばしばランダムな実験や観察的な研究の証拠に基づいている。 本稿では,エビデンスに基づく意思決定(EBDM)の価値と,統計的精度に対する投資の回帰を推定する実証的枠組みを提案する。

Business/policy decisions are often based on evidence from randomized experiments and observational studies. In this article we propose an empirical framework to estimate the value of evidence-based decision making (EBDM) and the return on the investment in statistical precision.
翻訳日:2023-09-12 19:36:38 公開日:2023-09-09
# Pseudorandom Unitaryは実でもスパースでもノイズロバストでもない

Pseudorandom unitaries are neither real nor sparse nor noise-robust ( http://arxiv.org/abs/2306.11677v2 )

ライセンス: Link先を確認
Tobias Haug, Kishor Bharti, Dax Enshan Koh(参考訳) Pseudorandom quantum state (PRSs) と pseudorandom unitary (PRUs) は、効率的な量子アルゴリズムに完全にランダムに現れながら効率的に構成できるという双対の性質を持っている。 本研究では,擬似ランダム性の基本的境界を確立する。 PRSとPRUは、エラーが発生する確率が無視可能である場合にのみ存在し、ノイズの多い中間スケールおよび早期フォールトトレラント量子コンピュータで生成を除外する。 さらに、PSR と PRU の虚数性とコヒーレンスに関する下位境界を導出し、スパースや実 PRU の存在を除外し、PSR よりも PRU が生成しにくいことを示す。 我々は,資源マスクレードの少ない状態を高資源状態として擬似資源を導入する。 疑似コヒーレンス,疑似純度,疑似虚像を定め,その仮性能力の観点から3種類の疑似リソースを同定する。 また,本研究では,実量子状態と虚量子状態の区別における指数関数的複雑性を,ユニタリイマジナリティの効率的な測定可能性とは対照的に,特性テストの効率性に関する厳密な境界を確立する。 最後に、コンプレックスから量子計算の実モデルへの変換は、効率的である逆過程とは対照的に非効率であることを示す。 この結果は, 特性試験の基本的な限界を確立し, 量子擬似ランダム性に関する貴重な知見を提供する。

Pseudorandom quantum states (PRSs) and pseudorandom unitaries (PRUs) possess the dual nature of being efficiently constructible while appearing completely random to any efficient quantum algorithm. In this study, we establish fundamental bounds on pseudorandomness. We show that PRSs and PRUs exist only when the probability that an error occurs is negligible, ruling out their generation on noisy intermediate-scale and early fault-tolerant quantum computers. Additionally, we derive lower bounds on the imaginarity and coherence of PRSs and PRUs, rule out the existence of sparse or real PRUs, and show that PRUs are more difficult to generate than PRSs. We introduce pseudoresource, where states of with low amount of a given resource masquerade as high-resource states. We define pseudocoherence, pseudopurity and pseudoimaginarity, and identify three distinct types of pseudoresources in terms of their masquerading capabilities. Our work also establishes rigorous bounds on the efficiency of property testing, demonstrating the exponential complexity in distinguishing real quantum states from imaginary ones, in contrast to the efficient measurability of unitary imaginarity. Lastly, we show that the transformation from a complex to a real model of quantum computation is inefficient, in contrast to the reverse process, which is efficient. Our results establish fundamental limits on property testing and provide valuable insights into quantum pseudorandomness.
翻訳日:2023-09-12 19:35:27 公開日:2023-09-09
# 分散機械学習から分散ディープラーニングへの調査

A Survey From Distributed Machine Learning to Distributed Deep Learning ( http://arxiv.org/abs/2307.05232v2 )

ライセンス: Link先を確認
Mohammad Dehghani, Zahra Yazdanparast(参考訳) ハードウェアアクセラレーションと機械学習アルゴリズムの進歩により、人工知能は複雑なタスクの処理において著しく進歩した。 しかし、より正確な結果を得てより複雑な問題を解決するためには、より多くのデータでアルゴリズムを訓練する必要がある。 この膨大なデータの処理には時間がかかり、大量の計算が必要になります。 これらの問題に対処するために、データとアルゴリズムを複数のマシンに分散する分散機械学習が提案されている。 分散機械学習アルゴリズムの開発にはかなりの努力が払われており、これまで様々な方法が提案されてきた。 これらのアルゴリズムを分類とクラスタリング(従来の機械学習)、深層学習、深層強化学習グループに分けた。 分散ディープラーニング(distributed deep learning)は近年注目を集めており、多くの研究がこのアプローチに注目している。 したがって、私たちは主にこのカテゴリに集中します。 上記のアルゴリズムの調査に基づいて、今後の研究で対処すべき限界を強調した。

Artificial intelligence has made remarkable progress in handling complex tasks, thanks to advances in hardware acceleration and machine learning algorithms. However, to acquire more accurate outcomes and solve more complex issues, algorithms should be trained with more data. Processing this huge amount of data could be time-consuming and require a great deal of computation. To address these issues, distributed machine learning has been proposed, which involves distributing the data and algorithm across several machines. There has been considerable effort put into developing distributed machine learning algorithms, and different methods have been proposed so far. We divide these algorithms in classification and clustering (traditional machine learning), deep learning and deep reinforcement learning groups. Distributed deep learning has gained more attention in recent years and most of the studies have focused on this approach. Therefore, we mostly concentrate on this category. Based on the investigation of the mentioned algorithms, we highlighted the limitations that should be addressed in future research.
翻訳日:2023-09-12 19:29:27 公開日:2023-09-09
# SVIT: Visual Instruction Tuningのスケールアップ

SVIT: Scaling up Visual Instruction Tuning ( http://arxiv.org/abs/2307.04087v2 )

ライセンス: Link先を確認
Bo Zhao, Boya Wu, Tiejun Huang(参考訳) 基礎モデルの出現により、大きな言語とビジョンモデルは統合され、視覚的キャプション、対話、質問応答などのマルチモーダル機能を取得する。 既存のマルチモーダルモデルは、視覚的理解と推論の印象的な性能を示すが、高品質な命令チューニングデータの不足のため、その限界は依然としてほとんど未熟である。 マルチモーダル能力の限界を押し上げるために,160mの会話質問応答(qa)ペア,1.6mの複雑な推論qaペア,1.0mの参照qaペア,106kの詳細な画像記述を含む420万の視覚的命令チューニングデータを構成することにより,視覚的命令チューニング(svit)を売り出す。 ボリュームに加えて,画像の豊富な手動アノテーションでGPT-4を誘導することにより,高品質で豊富な多様性を特徴付けるデータセットも提案されている。 SVIT上でのマルチモーダルモデルのトレーニングは,視覚的知覚や推論,計画といった面で,多モーダル性能を大幅に向上させることができることを実証的に検証した。

Thanks to the emerging of foundation models, the large language and vision models are integrated to acquire the multimodal ability of visual captioning, dialogue, question answering, etc. Although existing multimodal models present impressive performance of visual understanding and reasoning, their limits are still largely under-explored due to the scarcity of high-quality instruction tuning data. To push the limits of multimodal capability, we Sale up Visual Instruction Tuning (SVIT) by constructing a dataset of 4.2 million visual instruction tuning data including 1.6M conversation question-answer (QA) pairs, 1.6M complex reasoning QA pairs, 1.0M referring QA pairs and 106K detailed image descriptions. Besides the volume, the proposed dataset is also featured by the high quality and rich diversity, which is generated by prompting GPT-4 with the abundant manual annotations of images. We empirically verify that training multimodal models on SVIT can significantly improve the multimodal performance in terms of visual perception, reasoning and planing.
翻訳日:2023-09-12 19:28:49 公開日:2023-09-09
# LLMを用いた高性能コンピューティングコード翻訳のためのデータセットの作成: OpenMP FortranとC++の橋渡し

Creating a Dataset for High-Performance Computing Code Translation using LLMs: A Bridge Between OpenMP Fortran and C++ ( http://arxiv.org/abs/2307.07686v3 )

ライセンス: Link先を確認
Bin Lei, Caiwen Ding, Le Chen, Pei-Hung Lin, Chunhua Liao(参考訳) 本研究では,OpenMP FortranとC++コードの間で翻訳される機械学習モデルを学習するための新しいデータセットを提案する。 信頼性と適用性を保証するため、データセットはさまざまなオープンソースOpenMPベンチマークから作成されている。 また、微妙なコード類似性テストを使用して洗練されている。 定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,データセットの有効性を評価する。 本稿では,このデータセットが大規模言語モデル(LLM)の翻訳能力を大幅に向上させることを示す。 特に、事前のコーディング知識を持たないモデルでは、codebleuスコアで$\mathbf{\times~5.1}$が上昇し、コーディングに精通したモデルでは$\mathbf{\times~9.9}$-foldが増加した。 我々のデータセットを用いた最高の微調整モデルは、GPT-4より優れている。 また、人間レベルの精度にも達している。 この作業は、ハイパフォーマンスコンピューティングのためのコード翻訳の分野における進歩を促進する、私たちのデータセットの膨大な可能性の核となるものです。 データセットは \href{https://github.com/bin123apple/Fortran-CPP-HPC-code-translation-dataset}{OpenMP-Fortran-CPP-translation} でアクセスできる。

In this study, we present a novel dataset for training machine learning models translating between OpenMP Fortran and C++ code. To ensure reliability and applicability, the dataset is created from a range of representative open-source OpenMP benchmarks. It is also refined using a meticulous code similarity test. The effectiveness of our dataset is assessed using both quantitative (CodeBLEU) and qualitative (human evaluation) methods. We showcase how this dataset significantly elevates the translation competencies of large language models (LLMs). Specifically, models without prior coding knowledge experienced a boost of $\mathbf{\times~5.1}$ in their CodeBLEU scores, while models with some coding familiarity saw an impressive $\mathbf{\times~9.9}$-fold increase. The best fine-tuned model using our dataset outperforms GPT-4. It is also reaching human-level accuracy. This work underscores the immense potential of our dataset in propelling advancements in the domain of code translation for high-performance computing. The dataset is accessible at \href{https://github.com/bin123apple/Fortran-CPP-HPC-code-translation-dataset}{OpenMP-Fortran-CPP-Translation}.
翻訳日:2023-09-12 19:15:36 公開日:2023-09-09
# select2col: 意味情報の空間-時間的重要性を活用した協調的知覚

Select2Col: Leveraging Spatial-Temporal Importance of Semantic Information for Efficient Collaborative Perception ( http://arxiv.org/abs/2307.16517v2 )

ライセンス: Link先を確認
Yuntao Liu, Qian Huang, Rongpeng Li, Xianfu Chen, Zhifeng Zhao, Shuyuan Zhao, Yongdong Zhu and Honggang Zhang(参考訳) 共有意味情報を活用するコラボレーションは、孤立したエージェントの知覚能力の限界を克服する上で重要な役割を果たす。 しかし、既存の協調認識手法は、時間次元の重要性を無視しながら、意味情報の空間的特徴にのみ焦点をあてる傾向にある。 その結果、コラボレーションの潜在的な利点は未利用のままである。 本稿では,semanti{c} informa{t}ion の {s}patial-t{e}mpora{l} importanc{e} importanc{e} を考慮した新しい協調知覚フレームワークである select2col を提案する。 Select2Col内では、軽量グラフニューラルネットワーク(GNN)を用いて、知覚能力の向上における意味情報(IoSI)の重要性を推定し、負の影響をもたらすものを除き、貢献的な協力者を同定するコラボレータ選択手法を開発した。 さらに,HPHA (historical pre hybrid attention) と呼ばれるセマンティック情報融合アルゴリズムを提案する。このアルゴリズムは多段階の注意と短期の注意モジュールを統合し,空間次元と時間次元から特徴表現としてIoSIを捕捉し,選択した協力者からの情報の効率的な融合にIoSI一貫性重みを割り当てる。 2つのオープンデータセットに関する広範囲な実験により,提案するselect2colは,最先端のアプローチに比べて知覚性能が著しく向上することを示した。 この研究に関連するコードはhttps://github.com/huangqzj/select2col/で公開されている。

Collaboration by leveraging the shared semantic information plays a crucial role in overcoming the perception capability limitations of isolated agents. However, existing collaborative perception methods tend to focus solely on the spatial features of semantic information, while neglecting the importance of the temporal dimension. Consequently, the potential benefits of collaboration remain underutilized. In this article, we propose Select2Col, a novel collaborative perception framework that takes into account the {s}patial-t{e}mpora{l} importanc{e} of semanti{c} informa{t}ion. Within the Select2Col, we develop a collaborator selection method that utilizes a lightweight graph neural network (GNN) to estimate the importance of semantic information (IoSI) in enhancing perception performance, thereby identifying contributive collaborators while excluding those that bring negative impact. Moreover, we present a semantic information fusion algorithm called HPHA (historical prior hybrid attention), which integrates multi-scale attention and short-term attention modules to capture the IoSI in feature representation from the spatial and temporal dimensions respectively, and assigns IoSI-consistent weights for efficient fusion of information from selected collaborators. Extensive experiments on two open datasets demonstrate that our proposed Select2Col significantly improves the perception performance compared to state-of-the-art approaches. The code associated with this research is publicly available at https://github.com/huangqzj/Select2Col/.
翻訳日:2023-09-12 19:07:30 公開日:2023-09-09
# medico 2020 polyp segmentationとmedai 2021 transparency challengeによる大腸内視鏡におけるポリープおよびインスツルメンテーション法の客観的検証

An objective validation of polyp and instrument segmentation methods in colonoscopy through Medico 2020 polyp segmentation and MedAI 2021 transparency challenges ( http://arxiv.org/abs/2307.16262v2 )

ライセンス: Link先を確認
Debesh Jha, Vanshali Sharma, Debapriya Banik, Debayan Bhattacharya, Kaushiki Roy, Steven A. Hicks, Nikhil Kumar Tomar, Vajira Thambawita, Adrian Krenzer, Ge-Peng Ji, Sahadev Poudel, George Batchkala, Saruar Alam, Awadelrahman M. A. Ahmed, Quoc-Huy Trinh, Zeshan Khan, Tien-Phat Nguyen, Shruti Shrestha, Sabari Nathan, Jeonghwan Gwak, Ritika K. Jha, Zheyuan Zhang, Alexander Schlaefer, Debotosh Bhattacharjee, M.K. Bhuyan, Pradip K. Das, Deng-Ping Fan, Sravanthi Parsa, Sharib Ali, Michael A. Riegler, P{\aa}l Halvorsen, Thomas De Lange, Ulas Bagci(参考訳) 大腸内視鏡画像の自動解析は先天性ポリープの早期検出の重要性を動機とする研究の活発な分野である。 しかし, 生検におけるポリープ検出は, 内科医のスキルや経験の変化, 注意力の欠如, 疲労など多彩な要因により, 高いポリープミス率につながる可能性がある。 深層学習は、見過ごされたポリプや異常をリアルタイムで検出し分類するスコピストを支援するものとして、この課題に対する有望な解決策として現れています。 アルゴリズムの正確性に加えて、透明性と解釈性はアルゴリズムの予測の理由と方法を説明する上で重要である。 さらに、ほとんどのアルゴリズムはプライベートデータ、クローズドソース、あるいはプロプライエタリなソフトウェアで開発されており、再現性に欠ける。 そこで我々は, 効率的で透明な方法の開発を促進するために, 「メディコオートマチック・ポリープ・セグメンテーション(Medico 2020)」と「メディコ:医療画像セグメンテーション(MedAI 2021)」のコンペティションを組織した。 本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。 透明性タスクのために、専門家の胃腸科医を含む複数の学際チームが各投稿にアクセスし、オープンソースプラクティス、障害事例分析、アブレーション研究、評価のユーザビリティと理解可能性に基づいてチームを評価し、モデルの臨床展開に対する信頼性をより深く理解した。 この課題の包括的分析を通じて,ポリープと手術器具のセグメンテーションの進歩を強調するだけでなく,より透明で理解しやすいAIベースの大腸内視鏡システムを構築するための質的評価を奨励する。

Automatic analysis of colonoscopy images has been an active field of research motivated by the importance of early detection of precancerous polyps. However, detecting polyps during the live examination can be challenging due to various factors such as variation of skills and experience among the endoscopists, lack of attentiveness, and fatigue leading to a high polyp miss-rate. Deep learning has emerged as a promising solution to this challenge as it can assist endoscopists in detecting and classifying overlooked polyps and abnormalities in real time. In addition to the algorithm's accuracy, transparency and interpretability are crucial to explaining the whys and hows of the algorithm's prediction. Further, most algorithms are developed in private data, closed source, or proprietary software, and methods lack reproducibility. Therefore, to promote the development of efficient and transparent methods, we have organized the "Medico automatic polyp segmentation (Medico 2020)" and "MedAI: Transparency in Medical Image Segmentation (MedAI 2021)" competitions. We present a comprehensive summary and analyze each contribution, highlight the strength of the best-performing methods, and discuss the possibility of clinical translations of such methods into the clinic. For the transparency task, a multi-disciplinary team, including expert gastroenterologists, accessed each submission and evaluated the team based on open-source practices, failure case analysis, ablation studies, usability and understandability of evaluations to gain a deeper understanding of the models' credibility for clinical deployment. Through the comprehensive analysis of the challenge, we not only highlight the advancements in polyp and surgical instrument segmentation but also encourage qualitative evaluation for building more transparent and understandable AI-based colonoscopy systems.
翻訳日:2023-09-12 19:06:59 公開日:2023-09-09
# UniBriVL:ロバストな普遍表現と音声駆動拡散モデルの生成

UniBriVL: Robust Universal Representation and Generation of Audio Driven Diffusion Models ( http://arxiv.org/abs/2307.15898v2 )

ライセンス: Link先を確認
Sen Fang, Bowen Gao, Yangjian Wu, Teik Toe Teoh(参考訳) マルチモーダルな大規模モデルは、様々な性能および下流タスクにおいてその利点が認められている。 これらのモデルの開発は、将来的な人工知能の実現に不可欠である。 本稿では,Briging-Vision-and-Language(BriVL)に基づくUniBriVLという新しいユニバーサル言語表現学習手法を提案する。 Universal BriVLは、音声、画像、テキストを共有空間に埋め込み、様々なマルチモーダルアプリケーションの実現を可能にする。 本手法は,頑健な言語(テキストと音声の両方)表現学習における大きな課題に対処し,音声と画像の相関を効果的に捉える。 さらに、unibrivlから生成された画像の質的評価を実証し、音声から画像を作成する際の我々のアプローチの可能性を強調する。 実験の結果,下流作業におけるUniBriVLの有効性と,音声から適切な画像を選択する能力が示された。 提案手法は,音声認識,音楽信号処理,キャプションシステムなど,様々な応用の可能性を秘めている。

Multimodal large models have been recognized for their advantages in various performance and downstream tasks. The development of these models is crucial towards achieving general artificial intelligence in the future. In this paper, we propose a novel universal language representation learning method called UniBriVL, which is based on Bridging-Vision-and-Language (BriVL). Universal BriVL embeds audio, image, and text into a shared space, enabling the realization of various multimodal applications. Our approach addresses major challenges in robust language (both text and audio) representation learning and effectively captures the correlation between audio and image. Additionally, we demonstrate the qualitative evaluation of the generated images from UniBriVL, which serves to highlight the potential of our approach in creating images from audio. Overall, our experimental results demonstrate the efficacy of UniBriVL in downstream tasks and its ability to choose appropriate images from audio. The proposed approach has the potential for various applications such as speech recognition, music signal processing, and captioning systems.
翻訳日:2023-09-12 19:06:23 公開日:2023-09-09
# グラフによる大規模言語モデルの評価:パフォーマンス洞察と比較分析

Evaluating Large Language Models on Graphs: Performance Insights and Comparative Analysis ( http://arxiv.org/abs/2308.11224v2 )

ライセンス: Link先を確認
Chang Liu, Bo Wu(参考訳) 大規模言語モデル(llm)は、学術と産業の両方でかなりの関心を集めている。 しかし、グラフデータへのllmsの適用は未検討のままである。 本研究では,グラフデータを用いた解析問題に対処する4つのLSMの能力を評価する。 私たちは4つの異なる評価指標(理解、正確性、忠実性、そして正当性)を採用しています。 結果はこう示しています 1) LLMは自然言語のグラフデータを効果的に理解し, グラフトポロジによる推論を行う。 2) gptモデルは論理的かつコヒーレントな結果を生成することができる。 3) LLMは, ゼロショットチェーンや少数ショットプロンプトといった手法を用いて, 構造的推論における課題に直面した。 4) GPTモデルでは, 複数解答課題において誤答がしばしば生じ, 忠実度への懸念が高まった。 5) GPTモデルは出力に高い信頼性を示し、補正能力を妨げる可能性がある。 特に、GPT-4はGPT-3.5-turboとそれ以前のイテレーションからの応答を補正する能力を示した。 コードは、https://github.com/Ayame1006/LLMtoGraphで入手できる。

Large Language Models (LLMs) have garnered considerable interest within both academic and industrial. Yet, the application of LLMs to graph data remains under-explored. In this study, we evaluate the capabilities of four LLMs in addressing several analytical problems with graph data. We employ four distinct evaluation metrics: Comprehension, Correctness, Fidelity, and Rectification. Our results show that: 1) LLMs effectively comprehend graph data in natural language and reason with graph topology. 2) GPT models can generate logical and coherent results, outperforming alternatives in correctness. 3) All examined LLMs face challenges in structural reasoning, with techniques like zero-shot chain-of-thought and few-shot prompting showing diminished efficacy. 4) GPT models often produce erroneous answers in multi-answer tasks, raising concerns in fidelity. 5) GPT models exhibit elevated confidence in their outputs, potentially hindering their rectification capacities. Notably, GPT-4 has demonstrated the capacity to rectify responses from GPT-3.5-turbo and its own previous iterations. The code is available at: https://github.com/Ayame1006/LLMtoGraph.
翻訳日:2023-09-12 18:59:11 公開日:2023-09-09
# 予測を超えて:確率力学系の残留動的モード分解と分散

Beyond expectations: Residual Dynamic Mode Decomposition and Variance for Stochastic Dynamical Systems ( http://arxiv.org/abs/2308.10697v2 )

ライセンス: Link先を確認
Matthew J. Colbrook, Qin Li, Ryan V. Raut, Alex Townsend(参考訳) クープマン作用素は非線形力学系を線形化し、そのスペクトル情報を重要な関心を持つ。 これらのスペクトル特性を近似するために多くのアルゴリズムが開発されており、ダイナミックモード分解 (dmd) は射影に基づく手法の先駆者となっている。 クープマン作用素自身は線型であるが、無限次元の可観測空間で作用するという事実は問題を引き起こす。 これにはスプリアスモード、必須スペクトル、クープマンモード分解の検証が含まれる。 最近の研究は、決定論的システムに対するこれらの課題に対処しているが、koopman演算子が可観測性の期待値を測定する確率的システムに対する検証されたdmd法には、注目すべきギャップがある。 これらの問題に対処するためには、期待を超える必要があることを示します。 Koopmanフレームワークに分散を組み込むことで、これらの課題に対処する。 追加のMDD型行列を用いて,2乗残差項と分散項の和を近似し,それぞれがバッチスナップショットデータを用いて個別に近似することができる。 これにより、確率的クープマン作用素のスペクトル特性を検証し、射影誤差を制御できる。 また,統計コヒーレンシを計測するために分散・プソドスペクタの概念も導入する。 最後に、確率的クープマン作用素のスペクトル情報に対する一連の収束結果を示す。 本研究はシミュレーションデータと実験データの両方を用いた実用的応用により結論づける。 覚醒マウスの神経記録では、標準期待に基づく力学モデルでは不可能な生理学的に重要な情報を明らかにすることが示される。

Koopman operators linearize nonlinear dynamical systems, making their spectral information of crucial interest. Numerous algorithms have been developed to approximate these spectral properties, and Dynamic Mode Decomposition (DMD) stands out as the poster child of projection-based methods. Although the Koopman operator itself is linear, the fact that it acts in an infinite-dimensional space of observables poses challenges. These include spurious modes, essential spectra, and the verification of Koopman mode decompositions. While recent work has addressed these challenges for deterministic systems, there remains a notable gap in verified DMD methods for stochastic systems, where the Koopman operator measures the expectation of observables. We show that it is necessary to go beyond expectations to address these issues. By incorporating variance into the Koopman framework, we address these challenges. Through an additional DMD-type matrix, we approximate the sum of a squared residual and a variance term, each of which can be approximated individually using batched snapshot data. This allows verified computation of the spectral properties of stochastic Koopman operators, controlling the projection error. We also introduce the concept of variance-pseudospectra to gauge statistical coherency. Finally, we present a suite of convergence results for the spectral information of stochastic Koopman operators. Our study concludes with practical applications using both simulated and experimental data. In neural recordings from awake mice, we demonstrate how variance-pseudospectra can reveal physiologically significant information unavailable to standard expectation-based dynamical models.
翻訳日:2023-09-12 18:58:56 公開日:2023-09-09
# PV-SSD:プロジェクションとボクセルベースダブルブランチ3Dオブジェクト検出器

PV-SSD: A Projection and Voxel-based Double Branch Single-Stage 3D Object Detector ( http://arxiv.org/abs/2308.06791v3 )

ライセンス: Link先を確認
Yongxin Shao and Aihong Tan and Zhetao Sun and Enhui Zheng and Tianhong Yan(参考訳) LIDARに基づく3Dオブジェクトの検出と分類は、自動運転に不可欠である。 しかし、非常にスパースな3Dデータからリアルタイムに推論することは、恐ろしい挑戦だ。 この問題に対処するために、共通のアプローチは、鳥の目や視点に雲を投影し、効果的に画像のようなデータ形式に変換することである。 しかし、ポイントクラウドデータの過剰な圧縮は、しばしば情報の喪失につながる。 本稿では,情報損失問題に対処するため,voxel と projection double branch feature extract (PV-SSD) に基づく3次元物体検出器を提案する。 プロジェクションによって引き起こされる局所情報損失を低減するため,特徴抽出段階の投影特徴と完全に融合したリッチな局所的意味情報を含むボクセル特徴入力を付加する。 前の作品と比べて良いパフォーマンスが得られます。 また,本稿は以下の貢献をしている。 1) 可変受容場をもつボクセル特徴抽出法を提案する。 2) 重みサンプリングによる特徴点サンプリング手法を用いて,検出課題に対してより分かりやすい特徴点をフィルタリングする。 3)MSSFAモジュールはSSFAモジュールに基づいて提案される。 本手法の有効性を検証するために比較実験を行った。

LIDAR-based 3D object detection and classification is crucial for autonomous driving. However, inference in real-time from extremely sparse 3D data poses a formidable challenge. To address this issue, a common approach is to project point clouds onto a bird's-eye or perspective view, effectively converting them into an image-like data format. However, this excessive compression of point cloud data often leads to the loss of information. This paper proposes a 3D object detector based on voxel and projection double branch feature extraction (PV-SSD) to address the problem of information loss. We add voxel features input containing rich local semantic information, which is fully fused with the projected features in the feature extraction stage to reduce the local information loss caused by projection. A good performance is achieved compared to the previous work. In addition, this paper makes the following contributions: 1) a voxel feature extraction method with variable receptive fields is proposed; 2) a feature point sampling method by weight sampling is used to filter out the feature points that are more conducive to the detection task; 3) the MSSFA module is proposed based on the SSFA module. To verify the effectiveness of our method, we designed comparison experiments.
翻訳日:2023-09-12 18:56:10 公開日:2023-09-09
# AudioLDM 2: 自己教師付き事前学習によるホロスティック音声生成学習

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining ( http://arxiv.org/abs/2308.05734v2 )

ライセンス: Link先を確認
Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley(参考訳) 音声生成は、音声、音楽、音響効果などの様々な種類のオーディオに共通するが、それぞれのタイプのデザインモデルは、他のタイプのものと大きく異なる特定の目的やバイアスを慎重に考慮する必要がある。 本稿では,音声生成の統一的な視点に近づけるために,音声・音楽・音響効果生成のための同じ学習手法を用いた枠組みを提案する。 本フレームワークでは,音声の汎用表現「LOA(Language of Audio)」を導入している。 任意の音声は、自己教師付き事前学習学習モデルであるaudiomaeに基づいてloaに翻訳することができる。 生成過程において、GPT-2モデルを用いて任意のモダリティをLOAに変換し、LOAに条件付き遅延拡散モデルを用いて自己教師付き音声生成学習を行う。 提案フレームワークは, 文脈内学習能力, 自己教師付き事前学習型オーディオマインダ, 潜時拡散モデルなどの利点を自然にもたらす。 text-to-audio、text-to-music、text-to-speechの主要なベンチマーク実験は、以前のアプローチに対する最先端または競争力を示している。 私たちのコード、事前トレーニングされたモデル、デモはhttps://audioldm.github.io/audioldm2で利用可能です。

Although audio generation shares commonalities across different types of audio, such as speech, music, and sound effects, designing models for each type requires careful consideration of specific objectives and biases that can significantly differ from those of other types. To bring us closer to a unified perspective of audio generation, this paper proposes a framework that utilizes the same learning method for speech, music, and sound effect generation. Our framework introduces a general representation of audio, called "language of audio" (LOA). Any audio can be translated into LOA based on AudioMAE, a self-supervised pre-trained representation learning model. In the generation process, we translate any modalities into LOA by using a GPT-2 model, and we perform self-supervised audio generation learning with a latent diffusion model conditioned on LOA. The proposed framework naturally brings advantages such as in-context learning abilities and reusable self-supervised pretrained AudioMAE and latent diffusion models. Experiments on the major benchmarks of text-to-audio, text-to-music, and text-to-speech demonstrate state-of-the-art or competitive performance against previous approaches. Our code, pretrained model, and demo are available at https://audioldm.github.io/audioldm2.
翻訳日:2023-09-12 18:55:52 公開日:2023-09-09
# インテリジェントタスク自動化のためのLLMのスマートフォン活用

Empowering LLM to use Smartphone for Intelligent Task Automation ( http://arxiv.org/abs/2308.15272v3 )

ライセンス: Link先を確認
Hao Wen, Yuanchun Li, Guohong Liu, Shanhui Zhao, Tao Yu, Toby Jia-Jun Li, Shiqi Jiang, Yunhao Liu, Yaqin Zhang, Yunxin Liu(参考訳) モバイルタスク自動化は,スマートフォンとの音声ベースのハンズフリーユーザインタラクションを実現するための,魅力的なテクニックだ。 しかし、既存のアプローチは、言語理解能力の制限と開発者やエンドユーザが必要とする非自明な手作業のため、スケーラビリティに乏しい。 言語理解と推論における大規模言語モデル(LLM)の最近の進歩は、タスク準備、理解、実行が統一言語モデルによって扱われるモデル中心の観点から問題を再考するきっかけとなった。 本研究では,任意のタスクを手作業で処理できるモバイルタスク自動化システムであるautodroidを紹介する。 重要な洞察は、llmの共通センス知識と、アプリケーションのドメイン固有の知識を自動動的解析によって組み合わせることです。 主なコンポーネントには、uiとllmを橋渡しする機能対応のui表現方法、llmのアプリ固有のドメイン知識を強化する探索ベースのメモリ注入技術、モデル推論のコストを削減するマルチグラニュラ性クエリ最適化モジュールなどがある。 我々はAutoDroidを、オンラインGPT-4/GPT-3.5やオンデバイスVicunaを含む市販のLCMと統合し、158の共通タスクを備えたメモリ拡張Androidタスク自動化のための新しいベンチマークでパフォーマンスを評価する。 その結果、AutoDroidは精度90.9%のアクションを正確に生成でき、成功率71.3%のタスクが完了し、GPT-4のベースラインを36.4%、39.7%上回った。 autodroidのデモ、ベンチマークスイート、ソースコードはurl{https://autodroid-sys.github.io/}でリリースされる。

Mobile task automation is an attractive technique that aims to enable voice-based hands-free user interaction with smartphones. However, existing approaches suffer from poor scalability due to the limited language understanding ability and the non-trivial manual efforts required from developers or end-users. The recent advance of large language models (LLMs) in language understanding and reasoning inspires us to rethink the problem from a model-centric perspective, where task preparation, comprehension, and execution are handled by a unified language model. In this work, we introduce AutoDroid, a mobile task automation system that can handle arbitrary tasks on any Android application without manual efforts. The key insight is to combine the commonsense knowledge of LLMs and domain-specific knowledge of apps through automated dynamic analysis. The main components include a functionality-aware UI representation method that bridges the UI with the LLM, exploration-based memory injection techniques that augment the app-specific domain knowledge of LLM, and a multi-granularity query optimization module that reduces the cost of model inference. We integrate AutoDroid with off-the-shelf LLMs including online GPT-4/GPT-3.5 and on-device Vicuna, and evaluate its performance on a new benchmark for memory-augmented Android task automation with 158 common tasks. The results demonstrated that AutoDroid is able to precisely generate actions with an accuracy of 90.9%, and complete tasks with a success rate of 71.3%, outperforming the GPT-4-powered baselines by 36.4% and 39.7%. The demo, benchmark suites, and source code of AutoDroid will be released at url{https://autodroid-sys.github.io/}.
翻訳日:2023-09-12 18:38:49 公開日:2023-09-09
# さまざまなデータモダリティのためのAIGC:調査

AIGC for Various Data Modalities: A Survey ( http://arxiv.org/abs/2308.14177v3 )

ライセンス: Link先を確認
Lin Geng Foo, Hossein Rahmani, Jun Liu(参考訳) AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。 幅広い応用と最近の研究の可能性を実証したAIGCの開発が近年注目を集めており、画像、ビデオ、テキスト、三次元形状(ボクセル、点雲、メッシュ、神経暗黙界など)、3Dシーン、3Dヒューマンアバター(体と頭)、3Dモーション、オーディオなど、さまざまなデータモダリティに対してAIGC手法が開発されている。 さらに、一方のモダリティにおいて条件入力を受け取り、他方のモダリティで出力を出力する生成手法として、相互モダリティAIGC法において多くの重要な発展があった。 例えば、様々なモダリティから画像、ビデオ、3D形状、3Dシーン、3Dアバター(体と頭)、3Dモーション(骨格とアバター)、オーディオモダリティなどがある。 本稿では,個別モダリティ法とクロスモダリティ法の両方を含む,異なるデータモダリティにまたがるaigc手法の包括的レビューを行い,各設定における様々な課題,代表的作業,最近の技術的方向性について述べる。 また,モダリティ全体の代表データセットを調査し,様々なモダリティの比較結果を示す。 さらに,今後の課題と今後の課題についても考察する。

AI-generated content (AIGC) methods aim to produce text, images, videos, 3D assets, and other media using AI algorithms. Due to its wide range of applications and the demonstrated potential of recent works, AIGC developments have been attracting lots of attention recently, and AIGC methods have been developed for various data modalities, such as image, video, text, 3D shape (as voxels, point clouds, meshes, and neural implicit fields), 3D scene, 3D human avatar (body and head), 3D motion, and audio -- each presenting different characteristics and challenges. Furthermore, there have also been many significant developments in cross-modality AIGC methods, where generative methods can receive conditioning input in one modality and produce outputs in another. Examples include going from various modalities to image, video, 3D shape, 3D scene, 3D avatar (body and head), 3D motion (skeleton and avatar), and audio modalities. In this paper, we provide a comprehensive review of AIGC methods across different data modalities, including both single-modality and cross-modality methods, highlighting the various challenges, representative works, and recent technical directions in each setting. We also survey the representative datasets throughout the modalities, and present comparative results for various modalities. Moreover, we also discuss the challenges and potential future research directions.
翻訳日:2023-09-12 18:37:49 公開日:2023-09-09
# オンラインGentleAdaBoost -- テクニカルレポート

Online GentleAdaBoost -- Technical Report ( http://arxiv.org/abs/2308.14004v2 )

ライセンス: Link先を確認
Chapman Siu(参考訳) 我々はGentleAdaboostのオンライン版について研究し、弱い学習者と強い学習者とをオンライン形式で組み合わせた。 線形探索による理論的正当化により,バッチアプローチをオンラインアプローチに拡張する手法を提案する。 最後に、オンラインブースティングアプローチと、さまざまなベンチマークデータセットにわたる他のオンラインアプローチを比較します。

We study the online variant of GentleAdaboost, where we combine a weak learner to a strong learner in an online fashion. We provide an approach to extend the batch approach to an online approach with theoretical justifications through application of line search. Finally we compare our online boosting approach with other online approaches across a variety of benchmark datasets.
翻訳日:2023-09-12 18:36:54 公開日:2023-09-09
# 条件付き生存予測におけるエリアノームCOBRA

Area-norm COBRA on Conditional Survival Prediction ( http://arxiv.org/abs/2309.00417v2 )

ライセンス: Link先を確認
Rahul Goswami and Arabin Kr. Dey(参考訳) 本稿は,条件付生存関数の計算のための回帰戦略の異なるバリエーションについて検討する。 我々は回帰に基づく弱い学習者を用いて,提案手法を開発した。 提案手法は2つの生存曲線間の面積として近接測度を用いる。 提案したモデルでは、ランダム生存林よりも優れた性能を発揮する構造を示している。 本稿では,組合せ回帰設定において最も重要な変数を選択する新しい手法について論じる。 我々は,変数の関連性を見出すための提案が有効であることを示すためのシミュレーション研究を行った。 また、モデルを説明するために3つの実生活データセットを使用します。

The paper explores a different variation of combined regression strategy to calculate the conditional survival function. We use regression based weak learners to create the proposed ensemble technique. The proposed combined regression strategy uses proximity measure as area between two survival curves. The proposed model shows a construction which ensures that it performs better than the Random Survival Forest. The paper discusses a novel technique to select the most important variable in the combined regression setup. We perform a simulation study to show that our proposition for finding relevance of the variables works quite well. We also use three real-life datasets to illustrate the model.
翻訳日:2023-09-12 18:28:02 公開日:2023-09-09
# 神経予測に基づくゼロショットnasの有効性

Efficacy of Neural Prediction-Based Zero-Shot NAS ( http://arxiv.org/abs/2308.16775v2 )

ライセンス: Link先を確認
Minh Le, Nhan Nguyen, and Ngoc Hoang Luong(参考訳) 予測に基づくニューラルアーキテクチャサーチ(NAS)では,グラフ畳み込みネットワークによる性能指標が大きな成功を収めている。 これらの指標は、フィードフォワード構造を1ホット符号化によるコンポーネントグラフとして表現することで達成され、様々な検索空間でアーキテクチャ性能を評価することができない限界に直面している。 対照的に、ランダムな初期化を伴う同じアーキテクチャを使用する手作りパフォーマンスインジケータ(ゼロショットNAS)は、複数の検索空間にまたがって一般化することができる。 この制限に対処し、ディープラーニングを用いたゼロショットNASの新しいアプローチを提案する。 提案手法では,畳み込みカーネルを符号化した罪のフーリエ和を用いて,アーキテクチャに類似した構造を持つ計算フィードフォワードグラフの構築を可能にする。 これらのエンコーディングは学習可能であり、アーキテクチャのトポロジー情報の包括的なビューを提供する。 付随する多層パーセプトロン(MLP)は、それらのエンコーディングに基づいてこれらのアーキテクチャをランク付けする。 実験の結果,NAS-Bench-201データセットの相関関係から,グラフ畳み込みネットワークを用いた従来の手法よりも高い収束率を示した。 さらに,各NASベンチマークで訓練した特徴表現を他のNASベンチマークに転送可能とし,複数の検索空間にまたがる有望な一般化性を示す。 https://github.com/minh1409/DFT-NPZS-NAS

In prediction-based Neural Architecture Search (NAS), performance indicators derived from graph convolutional networks have shown significant success. These indicators, achieved by representing feed-forward structures as component graphs through one-hot encoding, face a limitation: their inability to evaluate architecture performance across varying search spaces. In contrast, handcrafted performance indicators (zero-shot NAS), which use the same architecture with random initialization, can generalize across multiple search spaces. Addressing this limitation, we propose a novel approach for zero-shot NAS using deep learning. Our method employs Fourier sum of sines encoding for convolutional kernels, enabling the construction of a computational feed-forward graph with a structure similar to the architecture under evaluation. These encodings are learnable and offer a comprehensive view of the architecture's topological information. An accompanying multi-layer perceptron (MLP) then ranks these architectures based on their encodings. Experimental results show that our approach surpasses previous methods using graph convolutional networks in terms of correlation on the NAS-Bench-201 dataset and exhibits a higher convergence rate. Moreover, our extracted feature representation trained on each NAS-Benchmark is transferable to other NAS-Benchmarks, showing promising generalizability across multiple search spaces. The code is available at: https://github.com/minh1409/DFT-NPZS-NAS
翻訳日:2023-09-12 18:27:52 公開日:2023-09-09
# MS23D:マルチスケール意味的特徴点を用いた3次元物体検出手法

MS23D: A 3D Object Detection Method Using Multi-Scale Semantic Feature Points to Construct 3D Feature Layer ( http://arxiv.org/abs/2308.16518v3 )

ライセンス: Link先を確認
Yongxin Shao, Aihong Tan, Tianhong Yan, Zhetao Sun(参考訳) ライダー点雲は、正確な距離知覚を持つデータの一種であり、3次元空間における物体の動きと姿勢を効果的に表すことができる。 しかし、点雲の広がりや乱れは、それらから直接特徴を引き出すのを困難にしている。 多くの研究が点雲を正則なボクセル表現に変換することでこの問題に対処している。 しかし,これらの手法は,ダウンサンプリングによる局所特徴情報の微細化につながることが多い。 さらに,点雲のスパース性は,voxelに基づく2段法を用いて3次元特徴層の特徴を効率的に集約することは困難である。 そこで本研究では,MS$^{2}$3Dと呼ばれる2段階の3D検出フレームワークを提案する。 MS$^{2}$3Dでは、小型のボクセルを用いて微細な局所特徴と大型のボクセルを抽出し、長距離の局所特徴を捕捉する。 さらに,マルチスケールな意味的特徴点を用いた3次元特徴層の構築手法を提案し,スパースな3次元特徴層をよりコンパクトな表現に変換する。 さらに、3d特徴層の特徴点とオブジェクトのセンタロイドの間のオフセットを計算し、オブジェクトの中心にできるだけ近いものにすることを目指している。 これは特徴集約の効率を大幅に向上させる。 提案手法の有効性を検証するため,KITTIデータセットとONCEデータセットを併用して評価を行った。

Lidar point clouds, as a type of data with accurate distance perception, can effectively represent the motion and posture of objects in three-dimensional space. However, the sparsity and disorderliness of point clouds make it challenging to extract features directly from them. Many studies have addressed this issue by transforming point clouds into regular voxel representations. However, these methods often lead to the loss of fine-grained local feature information due to downsampling. Moreover, the sparsity of point clouds poses difficulties in efficiently aggregating features in 3D feature layer using voxel-based two-stage methods. To address these issues, this paper proposes a two-stage 3D detection framework called MS$^{2}$3D. In MS$^{2}$3D, we utilize small-sized voxels to extract fine-grained local features and large-sized voxels to capture long-range local features. Additionally, we propose a method for constructing 3D feature layer using multi-scale semantic feature points, enabling the transformation of sparse 3D feature layer into more compact representations. Furthermore, we compute the offset between feature points in the 3D feature layer and the centroid of objects, aiming to bring them as close as possible to the object's center. It significantly enhances the efficiency of feature aggregation. To validate the effectiveness of our method, we evaluated our method on the KITTI dataset and ONCE dataset together.
翻訳日:2023-09-12 18:27:02 公開日:2023-09-09
# CR-VAE: 後方崩壊防止のための変分オートエンコーダの逆正則化

CR-VAE: Contrastive Regularization on Variational Autoencoders for Preventing Posterior Collapse ( http://arxiv.org/abs/2309.02968v2 )

ライセンス: Link先を確認
Fotios Lygerakis, Elmar Rueckert(参考訳) 変分オートエンコーダ (VAE) は、モデルが生成した潜在表現が入力から独立になる「textit{posterior collapse}」という現象に悩まされることが知られている。 これは、VAEの目的関数の制限による入力のデジェネレーション表現につながる。 本研究では,変分オートエンコーダ(cr-vae)のコントラスト正規化という,この問題に対する新しい解法を提案する。 我々のアプローチの中核は、類似した視覚入力の表現間の相互情報を最大化するコントラスト目的で、元のVAEを増強することである。 この戦略により、入力と潜在表現の間の情報フローが最大化され、後方崩壊を効果的に回避できる。 本手法を一連の視覚的データセット上で評価し,CR-VAEが崩壊防止の最先端手法より優れていることを示す。

The Variational Autoencoder (VAE) is known to suffer from the phenomenon of \textit{posterior collapse}, where the latent representations generated by the model become independent of the inputs. This leads to degenerated representations of the input, which is attributed to the limitations of the VAE's objective function. In this work, we propose a novel solution to this issue, the Contrastive Regularization for Variational Autoencoders (CR-VAE). The core of our approach is to augment the original VAE with a contrastive objective that maximizes the mutual information between the representations of similar visual inputs. This strategy ensures that the information flow between the input and its latent representation is maximized, effectively avoiding posterior collapse. We evaluate our method on a series of visual datasets and demonstrate, that CR-VAE outperforms state-of-the-art approaches in preventing posterior collapse.
翻訳日:2023-09-12 18:18:12 公開日:2023-09-09
# ユニタリ進化過程における量子最適バイアス境界の評価

Evaluating the quantum optimal biased bound in a unitary evolution process ( http://arxiv.org/abs/2309.04661v1 )

ライセンス: Link先を確認
Shoukang Chang, Wei Ye, Xuan Rao, Huan Zhang, Liqing Huang, Mengmeng Luo, Yuetao Chen, Qiang Ma, and Shaoyan Gao(参考訳) 未知パラメータの精度限界を求めることは、量子パラメータ推定において重要な課題である。 一般に使われている量子クレーマー・ラオ境界(QCRB)は、偏りのない推定器に基づいてこの課題を終わらせる。 しかし、実際の推定値の多くは、通常限られた試行数で偏っている。 このため,量子最適バイアスドバウンドの枠組みにおけるユニタリ進化過程に基づくバイアスド推定器に対する2つの効果的な誤差境界を導入する。 さらに、位相エンコーディングとSU(2)干渉計プロセスを含む、ユニタリ進化過程の具体例を用いて、それらの推定性能を示す。 本研究は未知パラメータの精度限界を求めるための有用なガイダンスを提供する。

Seeking the available precision limit of unknown parameters is a significant task in quantum parameter estimation. One often resorts to the widely utilized quantum Cramer-Rao bound (QCRB) based on unbiased estimators to finish this task. Nevertheless, most actual estimators are usually biased in the limited number of trials. For this reason, we introduce two effective error bounds for biased estimators based on a unitary evolution process in the framework of the quantum optimal biased bound. Furthermore, we show their estimation performance by two specific examples of the unitary evolution process, including the phase encoding and the SU(2) interferometer process. Our findings will provide an useful guidance for finding the precision limit of unknown parameters.
翻訳日:2023-09-12 17:19:03 公開日:2023-09-09
# 事前学習モデルからの半教師付き学習のためのプログレッシブな特徴調整

Progressive Feature Adjustment for Semi-supervised Learning from Pretrained Models ( http://arxiv.org/abs/2309.04659v1 )

ライセンス: Link先を確認
Hai-Ming Xu, Lingqiao Liu, Hao Chen, Ehsan Abbasnejad, Rafael Felix(参考訳) データアノテーションの負担を軽減する効果的な方法として、半教師付き学習(SSL)は、ラベル付きデータとラベルなしデータの両方を活用して予測モデルを構築する能力によって、魅力的なソリューションを提供する。 近年,ネットワークがランダムに初期化されているという前提のもと,SSLアルゴリズムの評価と開発が盛んに行われている。 これは、より優れたパフォーマンスのためにトレーニング済みのネットワークを微調整して構築されたほとんどの視覚認識システムとは対照的である。 SSLと事前トレーニングされたモデルとの結婚は簡単と思われるが、最近の文献では、事前トレーニングされたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。 本稿では,プリトレーニングされた特徴表現がソースデータから受け継いだバイアスをもたらす可能性があり,一般的なsslアルゴリズムでは,自己学習プロセスを通じてバイアスを拡大する傾向がある,という根本的な理由を仮定する。 この問題を克服するために,ラベルなしデータからの擬似ラベルを用いて,不正確なラベルに対する感度の低い特徴抽出器を更新し,ラベル付きデータから分類器をトレーニングすることを提案する。 具体的には,強い入力摂動の下でも,特徴分布が良好なクラス分離性を維持するために,特徴抽出器を段階的に調整する。 本研究では,提案手法が既存のソリューションよりも優れた性能を発揮することを示す。

As an effective way to alleviate the burden of data annotation, semi-supervised learning (SSL) provides an attractive solution due to its ability to leverage both labeled and unlabeled data to build a predictive model. While significant progress has been made recently, SSL algorithms are often evaluated and developed under the assumption that the network is randomly initialized. This is in sharp contrast to most vision recognition systems that are built from fine-tuning a pretrained network for better performance. While the marriage of SSL and a pretrained model seems to be straightforward, recent literature suggests that naively applying state-of-the-art SSL with a pretrained model fails to unleash the full potential of training data. In this paper, we postulate the underlying reason is that the pretrained feature representation could bring a bias inherited from the source data, and the bias tends to be magnified through the self-training process in a typical SSL algorithm. To overcome this issue, we propose to use pseudo-labels from the unlabelled data to update the feature extractor that is less sensitive to incorrect labels and only allow the classifier to be trained from the labeled data. More specifically, we progressively adjust the feature extractor to ensure its induced feature distribution maintains a good class separability even under strong input perturbation. Through extensive experimental studies, we show that the proposed approach achieves superior performance over existing solutions.
翻訳日:2023-09-12 17:18:53 公開日:2023-09-09
# コミュニケーションゲームのための大規模言語モデル探索:Werewolfに関する実証的研究

Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf ( http://arxiv.org/abs/2309.04658v1 )

ライセンス: Link先を確認
Yuzhuang Xu, Shuo Wang, Peng Li, Fuwen Luo, Xiaolong Wang, Weidong Liu, Yang Liu(参考訳) 自然言語通信に大きく依存する不完全な情報ゲームと呼ばれるコミュニケーションゲームは、経済学、社会科学、人工知能といった分野において重要な研究価値を持っている。 本稿では,コミュニケーションゲームにおける大規模言語モデル(llm)の関与方法に関する問題点について検討し,それに対応するためにチューニングフリーフレームワークを提案する。 我々のアプローチはllmを凍結させ、過去のコミュニケーションと改善のための経験を検索とリフレクションに依存している。 代表的で広く研究されているコミュニケーションゲーム『Werewolf』に関する実証的研究は、我々のフレームワークがLLMのパラメータを調整せずに効果的にWerewolfゲームをプレイできることを実証している。 さらに重要なことは、我々の実験で戦略的行動が出現し始めており、コミュニケーションゲームや関連するドメインでLSMを関与させるための実りある旅になることを示唆している。

Communication games, which we refer to as incomplete information games that heavily depend on natural language communication, hold significant research value in fields such as economics, social science, and artificial intelligence. In this work, we explore the problem of how to engage large language models (LLMs) in communication games, and in response, propose a tuning-free framework. Our approach keeps LLMs frozen, and relies on the retrieval and reflection on past communications and experiences for improvement. An empirical study on the representative and widely-studied communication game, ``Werewolf'', demonstrates that our framework can effectively play Werewolf game without tuning the parameters of the LLMs. More importantly, strategic behaviors begin to emerge in our experiments, suggesting that it will be a fruitful journey to engage LLMs in communication games and associated domains.
翻訳日:2023-09-12 17:18:29 公開日:2023-09-09
# 入力数自由な多焦点画像融合のための生成と再結合

Generation and Recombination for Multifocus Image Fusion with Free Number of Inputs ( http://arxiv.org/abs/2309.04657v1 )

ライセンス: Link先を確認
Huafeng Li, Dan Wang, Yuxin Huang, Yafei Zhang and Zhengtao Yu(参考訳) マルチフォーカス画像融合は光学レンズの限界を克服する有効な方法である。 既存の多くの手法は、決定マップを生成することで融合結果を得る。 しかし、2つのソース画像の焦点領域は相補的であり、複数の画像の同時融合が不可能であると考えることが多い。 さらに, 既存の手法では, ハードピクセルが核融合性能に与える影響を無視し, 核融合画像の画質改善を制限している。 これらの問題に対処するため,GRFusionと呼ばれる合成・組換えモデルを提案する。 grfusionでは、各ソースイメージのフォーカス特性検出を独立に実装することができ、複数のソースイメージの同時融合を可能にし、交互融合による情報損失を回避することができる。 これによりGRFusionは入力数から解放される。 ソース画像とハード画素を区別するために,ソース画像中のフォーカス領域の検出結果の一貫性を考慮し,ハード画素の判定を行う。 さらに,フルフォーカス画像を生成するための多方向勾配埋め込み法を提案する。 その後、融合結果を構築するためのハードピクセル誘導組換え機構を考案し、特徴再構成法と集中画素組換え法の相補的利点を効果的に統合する。 大規模な実験結果は提案手法の有効性と優位性を示し,ソースコードはhttps://github.com/xxx/xxx.comで公開される。

Multifocus image fusion is an effective way to overcome the limitation of optical lenses. Many existing methods obtain fused results by generating decision maps. However, such methods often assume that the focused areas of the two source images are complementary, making it impossible to achieve simultaneous fusion of multiple images. Additionally, the existing methods ignore the impact of hard pixels on fusion performance, limiting the visual quality improvement of fusion image. To address these issues, a combining generation and recombination model, termed as GRFusion, is proposed. In GRFusion, focus property detection of each source image can be implemented independently, enabling simultaneous fusion of multiple source images and avoiding information loss caused by alternating fusion. This makes GRFusion free from the number of inputs. To distinguish the hard pixels from the source images, we achieve the determination of hard pixels by considering the inconsistency among the detection results of focus areas in source images. Furthermore, a multi-directional gradient embedding method for generating full focus images is proposed. Subsequently, a hard-pixel-guided recombination mechanism for constructing fused result is devised, effectively integrating the complementary advantages of feature reconstruction-based method and focused pixel recombination-based method. Extensive experimental results demonstrate the effectiveness and the superiority of the proposed method.The source code will be released on https://github.com/xxx/xxx.
翻訳日:2023-09-12 17:18:13 公開日:2023-09-09
# 深層学習を用いた感覚フィードバック増強のための知的上肢外骨格

Intelligent upper-limb exoskeleton using deep learning to predict human intention for sensory-feedback augmentation ( http://arxiv.org/abs/2309.04655v1 )

ライセンス: Link先を確認
Jinwoo Lee, Kangkyu Kwon, Ira Soltis, Jared Matthews, Yoonjae Lee, Hojoong Kim, Lissette Romero, Nathan Zavanelli, Youngjin Kwon, Shinjae Kwon, Jimin Lee, Yewon Na, Sung Hoon Lee, Ki Jun Yu, Minoru Shinohara, Frank L. Hammond, Woon-Hong Yeo(参考訳) 筋骨格筋力の加齢と脳卒中関連低下は,上肢を用いた日常生活作業能力の低下を招いている。 外骨格の例はいくつかあるが、センサーのフィードバックがないため手動操作が必要であり、動きの意図的な予測ができない。 本稿では,クラウドベースの深層学習を用いて,強度向上のための人間の意図を予測するインテリジェントな上肢外骨格システムを提案する。 組込みソフトウェアラブルセンサは、リアルタイムの筋信号を収集して感覚フィードバックを提供し、同時に計算してユーザの意図した動きを判定する。 クラウドベースのディープラーニングは、平均96.2%の精度で200-250ミリ秒の反応速度で4つの上肢関節運動を予測する。 さらに、柔らかい空気圧の配列は、最大で897個のニュートンと78.7ミリの変位を与えることで、意図した動きを支援する。 総合すると、インテント駆動のエクソ骨格は、非アシストのエクソ骨格と比べて平均5.15倍の強度を増強することができる。 本報告では,機械学習のクラウドコンピューティングと感覚フィードバックに基づいて,上肢関節運動を人間の意図で増強する外骨格ロボットについて述べる。

The age and stroke-associated decline in musculoskeletal strength degrades the ability to perform daily human tasks using the upper extremities. Although there are a few examples of exoskeletons, they need manual operations due to the absence of sensor feedback and no intention prediction of movements. Here, we introduce an intelligent upper-limb exoskeleton system that uses cloud-based deep learning to predict human intention for strength augmentation. The embedded soft wearable sensors provide sensory feedback by collecting real-time muscle signals, which are simultaneously computed to determine the user's intended movement. The cloud-based deep-learning predicts four upper-limb joint motions with an average accuracy of 96.2% at a 200-250 millisecond response rate, suggesting that the exoskeleton operates just by human intention. In addition, an array of soft pneumatics assists the intended movements by providing 897 newton of force and 78.7 millimeter of displacement at maximum. Collectively, the intent-driven exoskeleton can augment human strength by 5.15 times on average compared to the unassisted exoskeleton. This report demonstrates an exoskeleton robot that augments the upper-limb joint movements by human intention based on a machine-learning cloud computing and sensory feedback.
翻訳日:2023-09-12 17:17:51 公開日:2023-09-09
# 神経画像解析のための3次元視覚構造の映像と合成MRI前処理

Video and Synthetic MRI Pre-training of 3D Vision Architectures for Neuroimage Analysis ( http://arxiv.org/abs/2309.04651v1 )

ライセンス: Link先を確認
Nikhil J. Dhinagar, Amit Singh, Saket Ozarkar, Ketaki Buwa, Sophia I. Thomopoulos, Conor Owens-Walton, Emily Laltoo, Yao-Liang Chen, Philip Cook, Corey McMillan, Chih-Chien Tsai, J-J Wang, Yih-Ru Wu, Paul M. Thompson(参考訳) トランスファーラーニングは、人工知能(AI)システム構築における最近のパラダイムシフトを表している。 タスク固有のトレーニングモデルとは対照的に、トランスファーラーニングでは、大規模なデータコーパス上でディープラーニングモデルを事前訓練し、特定のタスクに適応するための最小限の微調整を行う。 それでも、3D医療画像のタスクでは、自然画像や医用画像、あるいは人工的に生成されたMRIスキャンやビデオデータでモデルを事前訓練するのが最善かどうかわからない。 これらの代替品を評価するために、我々は視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)をベンチマークし、様々な上流トレーニングアプローチで初期化した。 これらの手法は、アルツハイマー病(AD)とパーキンソン病(PD)の分類、脳年齢予測という、様々な困難を伴う3つの下流神経画像タスクに適応された。 実験の結果、以下の重要な観測結果が得られた。 1 前訓練は、広告分類の7.4%、vitのpd分類の4.6%、pd分類の19.1%、cnnの脳年齢予測誤差の1.26年短縮など、すべてのタスクでパフォーマンスが向上した。 2. 大規模ビデオ・合成MRIデータの事前学習によるVTの性能向上 3. CNNは限られたデータ設定で堅牢であり、ドメイン内の事前トレーニングによってパフォーマンスが向上した。 4. 事前トレーニングは、配布外データセットとサイトへの一般化を改善した。 全体として、さまざまなビジョンアーキテクチャをベンチマークし、モデル初期化のための新たなデータセットを事前トレーニングする価値を明らかにしました。 得られた事前訓練されたモデルは、目標タスクのトレーニングデータが制限されている場合でも、下流のニューロイメージングタスクに適応することができる。

Transfer learning represents a recent paradigm shift in the way we build artificial intelligence (AI) systems. In contrast to training task-specific models, transfer learning involves pre-training deep learning models on a large corpus of data and minimally fine-tuning them for adaptation to specific tasks. Even so, for 3D medical imaging tasks, we do not know if it is best to pre-train models on natural images, medical images, or even synthetically generated MRI scans or video data. To evaluate these alternatives, here we benchmarked vision transformers (ViTs) and convolutional neural networks (CNNs), initialized with varied upstream pre-training approaches. These methods were then adapted to three unique downstream neuroimaging tasks with a range of difficulty: Alzheimer's disease (AD) and Parkinson's disease (PD) classification, "brain age" prediction. Experimental tests led to the following key observations: 1. Pre-training improved performance across all tasks including a boost of 7.4% for AD classification and 4.6% for PD classification for the ViT and 19.1% for PD classification and reduction in brain age prediction error by 1.26 years for CNNs, 2. Pre-training on large-scale video or synthetic MRI data boosted performance of ViTs, 3. CNNs were robust in limited-data settings, and in-domain pretraining enhanced their performances, 4. Pre-training improved generalization to out-of-distribution datasets and sites. Overall, we benchmarked different vision architectures, revealing the value of pre-training them with emerging datasets for model initialization. The resulting pre-trained models can be adapted to a range of downstream neuroimaging tasks, even when training data for the target task is limited.
翻訳日:2023-09-12 17:17:29 公開日:2023-09-09
# 対向ロバスト性向上のためのロバスト機能探索

Exploring Robust Features for Improving Adversarial Robustness ( http://arxiv.org/abs/2309.04650v1 )

ライセンス: Link先を確認
Hong Wang, Yuefan Deng, Shinjae Yoo, Yuewei Lin(参考訳) ディープニューラルネットワーク(DNN)は多くの分野に革命をもたらしたが、慎重に設計された敵攻撃に対する脆弱さは、安全クリティカルなアプリケーションにおけるDNNの使用を妨げる。 本稿では, 逆摂動の影響を受けないロバストな特徴,すなわち, クリーンな画像とその逆の例に不変な特徴を探索し, モデルの逆ロバスト性を改善することを目的とする。 具体的には,ロバストでない特徴とドメイン固有の特徴からロバストな特徴を分離する特徴ディスタングルメントモデルを提案する。 異なる攻撃で広く使用されている4つのデータセットに対する広範な実験により、我々のモデルから得られたロバストな特徴が、最先端のアプローチと比較してモデルの対角的ロバスト性を改善することが示された。 さらに、訓練されたドメイン判別器は、クリーンな画像と敵の例からドメイン固有の特徴をほぼ完璧に識別することができる。 これにより、追加の計算コストを伴わずに、逆のサンプル検出が可能になる。 これにより、クリーンな画像や逆の例に対して異なる分類器を指定できるため、クリーンな画像精度の低下を回避することができる。

While deep neural networks (DNNs) have revolutionized many fields, their fragility to carefully designed adversarial attacks impedes the usage of DNNs in safety-critical applications. In this paper, we strive to explore the robust features which are not affected by the adversarial perturbations, i.e., invariant to the clean image and its adversarial examples, to improve the model's adversarial robustness. Specifically, we propose a feature disentanglement model to segregate the robust features from non-robust features and domain specific features. The extensive experiments on four widely used datasets with different attacks demonstrate that robust features obtained from our model improve the model's adversarial robustness compared to the state-of-the-art approaches. Moreover, the trained domain discriminator is able to identify the domain specific features from the clean images and adversarial examples almost perfectly. This enables adversarial example detection without incurring additional computational costs. With that, we can also specify different classifiers for clean images and adversarial examples, thereby avoiding any drop in clean image accuracy.
翻訳日:2023-09-12 17:17:00 公開日:2023-09-09
# ベトナムのチャットボットのための大規模言語モデルの構築

Efficient Finetuning Large Language Models For Vietnamese Chatbot ( http://arxiv.org/abs/2309.04646v1 )

ライセンス: Link先を確認
Vu-Thuan Doan, Quoc-Truong Truong, Duc-Vu Nguyen, Vinh-Tiep Nguyen, and Thuy-Ngan Nguyen Luu(参考訳) GPT-4、PaLM、LLaMaのような大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を発揮することが示されている。 命令チューニングの最近の進歩は、ユーザーの指示に従い、人間のような応答を生成する能力を持つLLMをもたらす。 しかし,LLMの教育・実施に伴う高コスト化は,学術研究の課題となっている。 さらに、ベトナム語で事前訓練されたllmとインストラクションチューンデータセットの利用可能性は限られている。 これらの問題に対処するために、一般ドメインと特定の医療ドメインをカバーするAlpaca、GPT4All、Chat-Doctorといったオープンソースプロジェクトからの大規模なインストラクションフォローデータセットを活用します。 私たちの知る限りでは、これらはベトナム初の教育データセットです。 次に,2つのオープンllmにおける低ランク適応(lora)によるパラメーター効率のチューニングを用いて,bloomz-chat,bloomz-doctor,gptj-chat,gptj-doctorの4つのモデルを作成した。 この評価プロセスは、自動スコアリング機構としてGPT-4を利用する。 提案手法は,低コストのセットアップを生かしながら,評価作業における原モデルの約20~30倍の改善を実証する。

Large language models (LLMs), such as GPT-4, PaLM, and LLaMa, have been shown to achieve remarkable performance across a variety of natural language tasks. Recent advancements in instruction tuning bring LLMs with ability in following user's instructions and producing human-like responses. However, the high costs associated with training and implementing LLMs pose challenges to academic research. Furthermore, the availability of pretrained LLMs and instruction-tune datasets for Vietnamese language is limited. To tackle these concerns, we leverage large-scale instruction-following datasets from open-source projects, namely Alpaca, GPT4All, and Chat-Doctor, which cover general domain and specific medical domain. To the best of our knowledge, these are the first instructional dataset for Vietnamese. Subsequently, we utilize parameter-efficient tuning through Low-Rank Adaptation (LoRA) on two open LLMs: Bloomz (Multilingual) and GPTJ-6B (Vietnamese), resulting four models: Bloomz-Chat, Bloomz-Doctor, GPTJ-Chat, GPTJ-Doctor.Finally, we assess the effectiveness of our methodology on a per-sample basis, taking into consideration the helpfulness, relevance, accuracy, level of detail in their responses. This evaluation process entails the utilization of GPT-4 as an automated scoring mechanism. Despite utilizing a low-cost setup, our method demonstrates about 20-30\% improvement over the original models in our evaluation tasks.
翻訳日:2023-09-12 17:16:42 公開日:2023-09-09
# 神経崩壊の理解に向けて:バッチ正規化と体重減少の影響

Towards Understanding Neural Collapse: The Effects of Batch Normalization and Weight Decay ( http://arxiv.org/abs/2309.04644v1 )

ライセンス: Link先を確認
Leyan Pan, Xinyuan Cao(参考訳) ニューラルネットワークの崩壊は、ニューラルネットワーク分類器の最終層で最近観測された幾何学的構造である。 特に、Neural Collapseは、ニューラルネットワークトレーニングの最終フェーズで、と述べている。 1) 最終層の特徴のクラス内変動はゼロとなる傾向にある。 2) クラス特徴手段は,等角的タイトフレーム(ETF)を形成する。 3)最後の階層のクラスの特徴と重みがスケーリングに等しくなり、 4) 分類行動は最寄りのクラスセンター決定規則(NCC)に崩壊する。 本稿では,集合正規化と体重減少が神経崩壊の発生に及ぼす影響について検討する。 本稿では,ニューラル・コラプスの多面的側面を捉えた幾何学的直感的なクラス内およびクラス間コサイン類似度尺度を提案する。 この測定により、正則化されたクロスエントロピー損失が最適に近い場合、最終層バッチ正規化と重み劣化を伴うニューラルネットワーク崩壊の理論的保証を提供する。 また, バッチ正規化と重み付け値の高いモデルにおいて, 神経崩壊が最も重要であることを示す実験を行った。 総じて, バッチ正規化と体重減少は神経崩壊の発生の基本的な要因である可能性が示唆された。

Neural Collapse is a recently observed geometric structure that emerges in the final layer of neural network classifiers. Specifically, Neural Collapse states that at the terminal phase of neural networks training, 1) the intra-class variability of last-layer features tends to zero, 2) the class feature means form an Equiangular Tight Frame (ETF), 3) last-layer class features and weights becomes equal up the scaling, and 4) classification behavior collapses to the nearest class center (NCC) decision rule. This paper investigates the effect of batch normalization and weight decay on the emergence of Neural Collapse. We propose the geometrically intuitive intra-class and inter-class cosine similarity measure which captures multiple core aspects of Neural Collapse. With this measure, we provide theoretical guarantees of Neural Collapse emergence with last-layer batch normalization and weight decay when the regularized cross-entropy loss is near optimal. We also perform further experiments to show that the Neural Collapse is most significant in models with batch normalization and high weight-decay values. Collectively, our results imply that batch normalization and weight decay may be fundamental factors in the emergence of Neural Collapse.
翻訳日:2023-09-12 17:16:18 公開日:2023-09-09
# mixed quantum$\unicode{x2013}$classical mapping における詳細なバランス

Detailed balance in mixed quantum$\unicode{x2013}$classical mapping approaches ( http://arxiv.org/abs/2309.04686v1 )

ライセンス: Link先を確認
Graziano Amati, Jonathan R. Mannouch, and Jeremy O. Richardson(参考訳) 詳細なバランス違反は、非断熱力学をシミュレートする現在の準古典的手法の大部分に深刻な問題を引き起こす。 この問題の深刻度を分析するために, 古典エルゴード理論の議論を応用し, 様々な準古典的マッピングアプローチにより, 電子集団の長期的限界を予測した。 分析の結果,エレンフェスト近似を超越するために多くのマッピング手法が導入する負の集団に対応する写像空間の領域が,適切な熱化挙動を再現する上で最も深刻な問題であることがわかった。 これは、負の電子集団が核に侵入して生じる逆ポテンシャルが、非物理的に無限に加速する軌道に繋がるからである。 最近開発された表面ホッピング(MASH)へのマッピングアプローチは、ダイナミクスの正確な記述を維持しながら、逆ポテンシャルを避ける簡単な方法を提供する。 他の準古典的アプローチとは異なり、MASHは全ての量子$\unicode{x2013}$classical systemの正確な熱化挙動を記述することが保証されており、実凝縮相系における非断熱力学をシミュレートする最も有望な方法の1つである。

The violation of detailed balance poses a serious problem for the majority of current quasiclassical methods for simulating nonadiabatic dynamics. In order to analyze the severity of the problem, we predict the long-time limits of the electronic populations according to various quasiclassical mapping approaches, by applying arguments from classical ergodic theory. Our analysis confirms that regions of the mapping space that correspond to negative populations, which most mapping approaches introduce in order to go beyond the Ehrenfest approximation, pose the most serious issue for reproducing the correct thermalization behaviour. This is because inverted potentials, which arise from negative electronic populations entering into the nuclear force, can result in trajectories unphysically accelerating off to infinity. The recently developed mapping approach to surface hopping (MASH) provides a simple way of avoiding inverted potentials, while retaining an accurate description of the dynamics. We prove that MASH, unlike any other quasiclassical approach, is guaranteed to describe the exact thermalization behaviour of all quantum$\unicode{x2013}$classical systems, confirming it as one of the most promising methods for simulating nonadiabatic dynamics in real condensed-phase systems.
翻訳日:2023-09-12 17:11:25 公開日:2023-09-09
# Denoising-MOT:重度閉塞を伴う複数物体追跡を目指して

DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions ( http://arxiv.org/abs/2309.04682v1 )

ライセンス: Link先を確認
Teng Fu, Xiaocong Wang, Haiyang Yu, Ke Niu, Bin Li, Xiangyang Xue(参考訳) 複数の物体追跡(MOT)は、重度の閉塞が発生すると困難になる傾向がある。 本稿では,従来の畳み込みニューラルネットワークとトランスフォーマーを用いたオクルージョン処理手法の限界を分析し,MOTのためのエンドツーエンドトレーニング可能なデノイングトランスであるDNMOTを提案する。 咬合の課題に対処するため,咬合発生時のシナリオを明示的にシミュレートする。 具体的には、トレーニング中のノイズを伴う軌道を補強し、モデルがエンコーダ・デコーダアーキテクチャでデノージングプロセスを学ぶようにし、このモデルが強い堅牢性を示し、混み合ったシーンでうまく動作できるようにします。 さらに,デコーダ内の異なる種類の問合せ間の相互作用をよりよく調整し,混み合った場面における隣り合うトラジェクタ間の相互抑圧を防止するためのカスケードマスク戦略を提案する。 特に,提案手法では,マッチング戦略や推定時の動作状態推定などの追加モジュールは不要である。 我々は,mot17,mot20,dancetrackデータセットを広範囲に実験し,本手法が従来の最先端手法よりも明確なマージンで優れていることを示す。

Multiple object tracking (MOT) tends to become more challenging when severe occlusions occur. In this paper, we analyze the limitations of traditional Convolutional Neural Network-based methods and Transformer-based methods in handling occlusions and propose DNMOT, an end-to-end trainable DeNoising Transformer for MOT. To address the challenge of occlusions, we explicitly simulate the scenarios when occlusions occur. Specifically, we augment the trajectory with noises during training and make our model learn the denoising process in an encoder-decoder architecture, so that our model can exhibit strong robustness and perform well under crowded scenes. Additionally, we propose a Cascaded Mask strategy to better coordinate the interaction between different types of queries in the decoder to prevent the mutual suppression between neighboring trajectories under crowded scenes. Notably, the proposed method requires no additional modules like matching strategy and motion state estimation in inference. We conduct extensive experiments on the MOT17, MOT20, and DanceTrack datasets, and the experimental results show that our method outperforms previous state-of-the-art methods by a clear margin.
翻訳日:2023-09-12 17:11:01 公開日:2023-09-09
# 埋め込み構造が重要:多言語語彙を新しい言語に適応させる方法の比較

Embedding structure matters: Comparing methods to adapt multilingual vocabularies to new languages ( http://arxiv.org/abs/2309.04679v1 )

ライセンス: Link先を確認
C.M. Downey, Terra Blevins, Nora Goldfine, Shane Steinert-Threlkeld(参考訳) 事前訓練された多言語言語モデルは、英語以外の現代のNLPツールの大部分を支えている。 これらのモデルを特定の言語に特化するための強力なベースラインはLanguage-Adaptive Pre-Training (LAPT)である。 しかし、大きな言語間語彙と埋め込みマトリクスを保持することは、適応中の計算コストを大幅に超過する。 本研究では,言語間語彙をコンパクトな言語固有の語彙に置き換える,いくつかの簡単な手法を提案する。 すなわち、語彙特殊化後のトークン埋め込み行列の再初期化戦略に対処する。 次に,最近提案したFocus法に加えて,本手法の系統的比較を行った。 私たちはそれを証明しています。 1) 単言語移動文学における埋め込み置換技術は多言語モデルの適応には不十分である。 2) 言語間の語彙を小さい専門語に置き換えることで,低リソース言語の性能向上に寄与する。 3) 補助モデルから得られた類似度スコアに依存するFocusのような,スクリプトワイズサブディストリビューションの競合技術に基づく簡易な組込み再初期化手法。

Pre-trained multilingual language models underpin a large portion of modern NLP tools outside of English. A strong baseline for specializing these models for specific languages is Language-Adaptive Pre-Training (LAPT). However, retaining a large cross-lingual vocabulary and embedding matrix comes at considerable excess computational cost during adaptation. In this study, we propose several simple techniques to replace a cross-lingual vocabulary with a compact, language-specific one. Namely, we address strategies for re-initializing the token embedding matrix after vocabulary specialization. We then provide a systematic experimental comparison of our techniques, in addition to the recently-proposed Focus method. We demonstrate that: 1) Embedding-replacement techniques in the monolingual transfer literature are inadequate for adapting multilingual models. 2) Replacing cross-lingual vocabularies with smaller specialized ones provides an efficient method to improve performance in low-resource languages. 3) Simple embedding re-initialization techniques based on script-wise sub-distributions rival techniques such as Focus, which rely on similarity scores obtained from an auxiliary model.
翻訳日:2023-09-12 17:10:41 公開日:2023-09-09
# 最小飽和摂動によるフレキシブルおよびロバストな対実的説明

Flexible and Robust Counterfactual Explanations with Minimal Satisfiable Perturbations ( http://arxiv.org/abs/2309.04676v1 )

ライセンス: Link先を確認
Yongjie Wang, Hangwei Qian, Yongjie Liu, Wei Guo, Chunyan Miao(参考訳) counterfactual descriptions (cfes)は、インスタンスの異なる予測を達成するために、機能ベクトルを最小に修正する方法を例示する。 CFEは、情報公正性と信頼性を高め、有害な予測を受けたユーザーに提案する。 しかし、最近の研究では、複数のCFEが、少しの違いのある同じインスタンスやインスタンスに対して提供できることが示されている。 複数のCFEがフレキシブルな選択を提供し、ユーザ選択のためにさまざまなデシラタをカバーする。 しかし、コストの異なる不安定なCFEが返却されると、個々の公正性とモデルの信頼性が損なわれる。 既存の方法は柔軟性を活用できず、非破壊性の懸念に同時に対処する。 これらの課題に対処するために,最小満足度摂動(CEMSP)を用いた対実的説明法という概念的にシンプルで効果的な解を提案する。 特に、CEMSPは、意味論的に意味のある正常範囲の助けを借りて、異常な特徴の値を変更することを制限している。 効率性のために、問題をブール満足性問題としてモデル化し、可能な限り少数の機能を修正する。 さらに、CEMSPは一般的なフレームワークであり、例えば、カジュアル性や実行可能性といった、より実用的な要件に容易に対応できる。 既存の手法と比較して,合成データと実世界のデータセットの両方について総合的な実験を行い,柔軟性を維持しつつ,より堅牢な説明を提供することを実証する。

Counterfactual explanations (CFEs) exemplify how to minimally modify a feature vector to achieve a different prediction for an instance. CFEs can enhance informational fairness and trustworthiness, and provide suggestions for users who receive adverse predictions. However, recent research has shown that multiple CFEs can be offered for the same instance or instances with slight differences. Multiple CFEs provide flexible choices and cover diverse desiderata for user selection. However, individual fairness and model reliability will be damaged if unstable CFEs with different costs are returned. Existing methods fail to exploit flexibility and address the concerns of non-robustness simultaneously. To address these issues, we propose a conceptually simple yet effective solution named Counterfactual Explanations with Minimal Satisfiable Perturbations (CEMSP). Specifically, CEMSP constrains changing values of abnormal features with the help of their semantically meaningful normal ranges. For efficiency, we model the problem as a Boolean satisfiability problem to modify as few features as possible. Additionally, CEMSP is a general framework and can easily accommodate more practical requirements, e.g., casualty and actionability. Compared to existing methods, we conduct comprehensive experiments on both synthetic and real-world datasets to demonstrate that our method provides more robust explanations while preserving flexibility.
翻訳日:2023-09-12 17:10:25 公開日:2023-09-09
# BiLMa: テキストに基づく人物再識別のための双方向局所マッチング

BiLMa: Bidirectional Local-Matching for Text-based Person Re-identification ( http://arxiv.org/abs/2309.04675v1 )

ライセンス: Link先を確認
Takuro Fujii and Shuhei Tarashima(参考訳) text-based person re-identification (tbpreid) は、与えられたテキストクエリで表現された人物画像を取得することを目的としている。 このタスクでは、画像とテキストをグローバルかつローカルに効果的にアライメントする方法が重要な課題である。 最近の研究は、マスケッド言語モデリング(MLM)を解くことで、画像/テキスト部分の整合性を高めている。 しかし、一方向(画像からテキストまで)の局所マッチングしか行わず、逆方向(テキストから画像まで)の局所マッチングを導入することで改善の余地を残している。 本稿では,TBPReIDモデルトレーニングにおいて,MLMとMasked Image Modeling(MIM)を協調的に最適化するBidirectional Local-Matching(BiLMa)フレームワークを提案する。 このフレームワークでは、画像とテキストトークンの両方をランダムにマスキングしたラベルが、未知のトークンによって予測されるようにモデルを訓練する。 また、MIMにおける画像とテキストのセマンティックギャップを狭めるために、マスク付き画像トークンのラベルが最先端のヒューマンパーサによって自動的に付与されるセマンティックMIM(Semantic MIM)を提案する。 実験の結果,SemMIMを用いたBiLMaフレームワークは3つのベンチマークで最先端の Rank@1 と mAP のスコアを達成できた。

Text-based person re-identification (TBPReID) aims to retrieve person images represented by a given textual query. In this task, how to effectively align images and texts globally and locally is a crucial challenge. Recent works have obtained high performances by solving Masked Language Modeling (MLM) to align image/text parts. However, they only performed uni-directional (i.e., from image to text) local-matching, leaving room for improvement by introducing opposite-directional (i.e., from text to image) local-matching. In this work, we introduce Bidirectional Local-Matching (BiLMa) framework that jointly optimize MLM and Masked Image Modeling (MIM) in TBPReID model training. With this framework, our model is trained so as the labels of randomly masked both image and text tokens are predicted by unmasked tokens. In addition, to narrow the semantic gap between image and text in MIM, we propose Semantic MIM (SemMIM), in which the labels of masked image tokens are automatically given by a state-of-the-art human parser. Experimental results demonstrate that our BiLMa framework with SemMIM achieves state-of-the-art Rank@1 and mAP scores on three benchmarks.
翻訳日:2023-09-12 17:10:06 公開日:2023-09-09
# SSHNN:心エコー画像分割のための半スーパービジョンハイブリッドNASネットワーク

SSHNN: Semi-Supervised Hybrid NAS Network for Echocardiographic Image Segmentation ( http://arxiv.org/abs/2309.04672v1 )

ライセンス: Link先を確認
Renqi Chen, Jingjing Luo, Fan Nian, Yuhui Cen, Yiheng Peng and Zekuan Yu(参考訳) 特にノイズのない心エコー図に対する正確な医用画像分割は,ネットワーク設計を精巧に行う必要がある。 手動設計と比較して、ニューラルネットワークサーチ(NAS)は、より大きな検索空間と自動最適化によるセグメンテーション結果の改善を実現するが、既存の手法のほとんどは層単位での機能集約が弱く、「強いエンコーダ、弱いデコーダ」構造を採用しており、グローバルな関係や局所的な詳細を扱うには不十分である。 そこで本研究では,sshnnと呼ばれる医用画像分割のための半教師付きハイブリッドnasネットワークを提案する。 SSHNNでは、正規化されたスカラーではなく階層的な機能融合で畳み込み操作を創造的に利用し、NASをエンコーダとして強化する。 さらに,グローバルコンテキストの補償のためにトランスフォーマーを導入し,グローバルコンテキストとローカル特徴を効率的に接続するU字型デコーダを設計した。 具体的には,ラベル付き医用画像データセットの容量制限問題を克服するために,半教師付きアルゴリズム平均教師を実装した。 camus echocardiographyデータセットの広範な実験は、sshnnが最先端のアプローチよりも優れ、正確なセグメンテーションを実現していることを示している。 コードは公開される予定だ。

Accurate medical image segmentation especially for echocardiographic images with unmissable noise requires elaborate network design. Compared with manual design, Neural Architecture Search (NAS) realizes better segmentation results due to larger search space and automatic optimization, but most of the existing methods are weak in layer-wise feature aggregation and adopt a ``strong encoder, weak decoder" structure, insufficient to handle global relationships and local details. To resolve these issues, we propose a novel semi-supervised hybrid NAS network for accurate medical image segmentation termed SSHNN. In SSHNN, we creatively use convolution operation in layer-wise feature fusion instead of normalized scalars to avoid losing details, making NAS a stronger encoder. Moreover, Transformers are introduced for the compensation of global context and U-shaped decoder is designed to efficiently connect global context with local features. Specifically, we implement a semi-supervised algorithm Mean-Teacher to overcome the limited volume problem of labeled medical image dataset. Extensive experiments on CAMUS echocardiography dataset demonstrate that SSHNN outperforms state-of-the-art approaches and realizes accurate segmentation. Code will be made publicly available.
翻訳日:2023-09-12 17:09:42 公開日:2023-09-09
# 動的離散視覚化を用いた統一言語ビジョン事前学習

Unified Language-Vision Pretraining with Dynamic Discrete Visual Tokenization ( http://arxiv.org/abs/2309.04669v1 )

ライセンス: Link先を確認
Yang Jin, Kun Xu, Kun Xu, Liwei Chen, Chao Liao, Jianchao Tan, Bin Chen, Chenyi Lei, An Liu, Chengru Song, Xiaoqiang Lei, Yadong Mu, Di Zhang, Wenwu Ou, Kun Gai(参考訳) 近年、LLM(Large Language Model)の顕著な進歩により、研究者は、その異常な推論能力をいくつかのモダリティにまたがるデータに移すよう促されている。 主流のアプローチは、主に視覚入力をプロンプトとみなし、凍結LDMによる視覚内容に規定されたテキスト生成プロセスの最適化にのみ焦点をあてている。 このような視覚と言語に対する不平等な扱いは、モデルの可能性を強く制限する。 本稿では,視覚と言語の両方を統一表現で表現することで,この限界を突破する。 この目的のために,非言語的イメージをLLMで読める外国語のような離散トークン列に変換する視覚的トークン化器を構築する。 結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像の内容から変化する動的シーケンス長もサポートする。 この視覚的トークン化と組み合わせて、LaVIT(Language-Vision Transformer)と呼ばれる提示された基盤モデルは、画像とテキストの両方を、統一された生成学習パラダイムの下で無差別に扱うことができる。 Webスケールの画像テキストコーパスで事前トレーニングされたLaVITは、印象的なマルチモーダル理解機能を備えている。 広範な実験は、既存のモデルよりも下流のタスクで大きなマージンで勝っていることを示している。 私たちのコードとモデルはhttps://github.com/jy0205/LaVIT.comで公開されます。

Recently, the remarkable advance of the Large Language Model (LLM) has inspired researchers to transfer its extraordinary reasoning capability to data across several modalities. The prevailing approaches primarily regard visual input as the prompt and focus exclusively on optimizing the text generation process conditioned upon vision content by a frozen LLM. Such an inequitable treatment of vision and language heavily constrains the model's potential. In this paper, we break through this limitation by representing both vision and language in a unified representation. To this end, we craft a visual tokenizer that translates the non-linguistic image into a sequence of discrete tokens like a foreign language that LLM can read. The resulting visual tokens encompass high-level semantics worthy of a word and also support dynamic sequence length varying from the image content. Coped with this visual tokenizer, the presented foundation model called LaVIT (Language-VIsion Transformer) can handle both image and text indiscriminately under a unified generative learning paradigm. Pre-trained on the web-scale image-text corpus, LaVIT is empowered with impressive multi-modal comprehension capability. The extensive experiments showcase that it outperforms existing models by a large margin on downstream tasks. Our code and models will be available at https://github.com/jy0205/LaVIT.
翻訳日:2023-09-12 17:09:16 公開日:2023-09-09
# Compact: セキュア計算のための複雑なアクティベーション関数の近似

Compact: Approximating Complex Activation Functions for Secure Computation ( http://arxiv.org/abs/2309.04664v1 )

ライセンス: Link先を確認
Mazharul Islam, Sunpreet S. Arora, Rahul Chatterjee, Peter Rindal, Maliheh Shirvanian(参考訳) パブリッククラウドにホストされているディープニューラルネットワーク(DNN)モデルに問い合わせる場合、セキュアなマルチパーティ計算(MPC)技術を使用してデータのプライバシを提供することができる。 最先端のMPC技術は、ReLUのような単純なアクティベーション関数(AF)を使用するDNNモデルに直接利用することができる。 しかし、最先端アプリケーション用に設計されたDNNモデルアーキテクチャは、複雑で非線形なAFを使用することが多い。 このような複雑なAFのための効率的なMPC技術の設計はオープンな問題である。 そこで本研究では,複雑な AF のピースワイド多項式近似を合成して,最先端の MPC 技術で効率的に利用できるようにする。 コンパクトはモデルトレーニングにいかなる制限も必要とせず、ほぼ同一のモデルの精度をもたらす。 我々は,DNNアーキテクチャを用いた4種類の機械学習タスクにおいて,一般的な複雑なAFS SiLU, GeLU, Mishを用いたCompactを広範囲に評価した。 実験の結果,複雑な非線形afsを扱うdnn特有のアプローチと比較して,コンパクトな精度損失は無視できることがわかった。 また,プライバシ保存推論のための2つの最先端mpcライブラリにも compact を組み込んで,非線形関数に対する最先端近似アプローチと比較して,compact が計算速度を2倍5倍に向上できることを実証した。

Secure multi-party computation (MPC) techniques can be used to provide data privacy when users query deep neural network (DNN) models hosted on a public cloud. State-of-the-art MPC techniques can be directly leveraged for DNN models that use simple activation functions (AFs) such as ReLU. However, DNN model architectures designed for cutting-edge applications often use complex and highly non-linear AFs. Designing efficient MPC techniques for such complex AFs is an open problem. Towards this, we propose Compact, which produces piece-wise polynomial approximations of complex AFs to enable their efficient use with state-of-the-art MPC techniques. Compact neither requires nor imposes any restriction on model training and results in near-identical model accuracy. We extensively evaluate Compact on four different machine-learning tasks with DNN architectures that use popular complex AFs SiLU, GeLU, and Mish. Our experimental results show that Compact incurs negligible accuracy loss compared to DNN-specific approaches for handling complex non-linear AFs. We also incorporate Compact in two state-of-the-art MPC libraries for privacy-preserving inference and demonstrate that Compact provides 2x-5x speedup in computation compared to the state-of-the-art approximation approach for non-linear functions -- while providing similar or better accuracy for DNN models with large number of hidden layers
翻訳日:2023-09-12 17:08:52 公開日:2023-09-09
# FIAT: 指導促進チューニングによる学習パラダイムの融合

FIAT: Fusing learning paradigms with Instruction-Accelerated Tuning ( http://arxiv.org/abs/2309.04663v1 )

ライセンス: Link先を確認
Xinyi Wang, John Wieting, Jonathan H. Clark(参考訳) 大規模言語モデル(LLM)の学習パラダイムは、現在、コンテキスト内学習(ICL)またはフル微調整のいずれかに該当する傾向にある。 これらのそれぞれには、利用可能なデータ、モデルサイズ、計算コスト、使いやすさ、最終的な品質に基づく独自のトレードオフがある。 本稿では、ICLと微調整のパラダイムを、それらの自然な関係を強調する形で最初に記述する。 これらの関係に基づいて,これらのパラダイムの長所を融合させるFIATという新たな学習パラダイムを提案し,非常に大きなモデルを用いた素早いエンジニアリング命令とチェーン・オブ・シント推論を実現するとともに,パラメータ効率の調整を伴う中小LLMのパラメータ更新に類似した手法を用いる。 本稿では,多言語タスクにおけるfiatの有効性を評価し,訓練例100~10,000例の尺度において,fiatがiclや微調整よりも優れた性能を示すことを確認した。 FIATは、学習パラダイム間の難しい選択をすることなく、LLMの潜在能力を最大限に活用する実用的な方法を提供することを願っている。

Learning paradigms for large language models (LLMs) currently tend to fall within either in-context learning (ICL) or full fine-tuning. Each of these comes with their own trade-offs based on available data, model size, compute cost, ease-of-use, and final quality with neither solution performing well across-the-board. In this article, we first describe ICL and fine-tuning paradigms in a way that highlights their natural connections. Based on these connections, we propose a new learning paradigm called FIAT that fuses the best of these paradigms together, enabling prompt-engineered instructions and chain-of-thought reasoning with the very largest models while also using similar methods to perform parameter updates on a modestly-sized LLM with parameter-efficient tuning. We evaluate FIAT's effectiveness on a variety of multilingual tasks and observe that FIAT performs better than both ICL and fine-tuning at scales ranging from 100-10,000 training examples. We hope that FIAT provides a practical way of harnessing the full potential of LLMs without needing to make a hard choice between learning paradigms.
翻訳日:2023-09-12 17:08:10 公開日:2023-09-09
# MADLAD-400:多言語および文書レベルの大規模監査データセット

MADLAD-400: A Multilingual And Document-Level Large Audited Dataset ( http://arxiv.org/abs/2309.04662v1 )

ライセンス: Link先を確認
Sneha Kudugunta, Isaac Caswell, Biao Zhang, Xavier Garcia, Christopher A. Choquette-Choo, Katherine Lee, Derrick Xin, Aditya Kusupati, Romi Stella, Ankur Bapna, Orhan Firat(参考訳) 419言語にまたがるCommonCrawlに基づく,手動で監査された汎用ドメイン3Tトークン単言語データセットMADLAD-400を紹介する。 我々は,MADLAD-400の自己監査による限界と,データセット作成プロセスにおけるデータ監査の役割について論じる。 次に、公開データを用いて450以上の言語をカバーする250億のトークン上に10.7Bのパラメトリック機械翻訳モデルをトレーニングし、リリースし、より大きなモデルと競合し、異なるドメインで結果を報告する。 さらに,8Bパラメータ言語モデルを訓練し,その結果を数発の翻訳で評価する。 私たちはベースラインモデルを研究コミュニティに公開しています。

We introduce MADLAD-400, a manually audited, general domain 3T token monolingual dataset based on CommonCrawl, spanning 419 languages. We discuss the limitations revealed by self-auditing MADLAD-400, and the role data auditing had in the dataset creation process. We then train and release a 10.7B-parameter multilingual machine translation model on 250 billion tokens covering over 450 languages using publicly available data, and find that it is competitive with models that are significantly larger, and report the results on different domains. In addition, we train a 8B-parameter language model, and assess the results on few-shot translation. We make the baseline models available to the research community.
翻訳日:2023-09-12 17:07:05 公開日:2023-09-09
# 交叉のない摩擦接触を持つ関節剛体のための微分可能な物理エンジンjade

Jade: A Differentiable Physics Engine for Articulated Rigid Bodies with Intersection-Free Frictional Contact ( http://arxiv.org/abs/2309.04710v1 )

ライセンス: Link先を確認
Gang Yang and Siyuan Luo and Lin Shao(参考訳) 本稿では, 剛体の微分可能な物理エンジンであるJadeを紹介する。 JadeモデルはLinear Complementarity Problem (LCP) と呼ばれる。 既存の微分可能シミュレーションと比較して、ジェイドは交差のない衝突シミュレーションや複数の摩擦接触に対する安定したLCP解を含む特徴を提供している。 連続衝突検出を用いて衝突時刻を検知し,複雑な形状の物体間の交差を防止するためにバックトラック戦略を採用する。 グラデーション計算を導出して、バックトラッキング機構の下でシミュレーションプロセス全体が微分可能であることを保証する。 複数の摩擦接触下で有効な解を得るために、人気のあるdantzigアルゴリズムを修正した。 我々は,様々な接触型タスクにおける微分可能な物理シミュレーションの有効性を示すために,広範な実験を行った。

We present Jade, a differentiable physics engine for articulated rigid bodies. Jade models contacts as the Linear Complementarity Problem (LCP). Compared to existing differentiable simulations, Jade offers features including intersection-free collision simulation and stable LCP solutions for multiple frictional contacts. We use continuous collision detection to detect the time of impact and adopt the backtracking strategy to prevent intersection between bodies with complex geometry shapes. We derive the gradient calculation to ensure the whole simulation process is differentiable under the backtracking mechanism. We modify the popular Dantzig algorithm to get valid solutions under multiple frictional contacts. We conduct extensive experiments to demonstrate the effectiveness of our differentiable physics simulation over a variety of contact-rich tasks.
翻訳日:2023-09-12 16:58:19 公開日:2023-09-09
# UnitModule: 水中物体検出のための軽量共同画像強調モジュール

UnitModule: A Lightweight Joint Image Enhancement Module for Underwater Object Detection ( http://arxiv.org/abs/2309.04708v1 )

ライセンス: Link先を確認
Zhuoyan Liu, Bo Wang, Ye Li, Jiaxian He, Yunfeng Li(参考訳) 水中物体検出は、検出器の性能に影響する水中画像劣化の問題に直面している。 ノイズ低減と画像強調に基づく水中物体検出法は通常、検出器が好む画像を提供しないか、追加のデータセットを必要とする。 本稿では,検出器が好む入力画像を提供する水中共同画像強調モジュール(UnitModule)を提案する。 我々は、ユニットモジュールと検出器の相互作用を改善するために、追加のデータセットなしでユニットモジュールと検出器の合同トレーニングのための教師なし学習損失を設計する。 また、カラーキャストの損失を補助するカラーキャスト予測装置と、水中カラーランダム転送(ucrt)と呼ばれるデータ拡張により、カラーキャストが異なる水中画像におけるユニットモジュールの性能を向上させる。 様々なオブジェクト検出モデルのためにduoで広範な実験が行われ、unitmoduleはyolov5-sで2.6 apの最高性能向上を達成し、新しいテストセット(urpctest)で3.3 apの改善を得た。 unitmoduleは私たちがテストしているすべてのオブジェクト検出モデル、特に少数のパラメータを持つモデルのパフォーマンスを大幅に改善します。 さらに、パラメータ数が31Kの UnitModule は、元のオブジェクト検出モデルの推論速度にはほとんど影響しない。 定量的および視覚的分析は、入力画像の高機能化と物体特徴に対する検出器の知覚能力の向上に、ユニットモジュールの有効性を示す。

Underwater object detection faces the problem of underwater image degradation, which affects the performance of the detector. Underwater object detection methods based on noise reduction and image enhancement usually do not provide images preferred by the detector or require additional datasets. In this paper, we propose a plug-and-play Underwater joint image enhancement Module (UnitModule) that provides the input image preferred by the detector. We design an unsupervised learning loss for the joint training of UnitModule with the detector without additional datasets to improve the interaction between UnitModule and the detector. Furthermore, a color cast predictor with the assisting color cast loss and a data augmentation called Underwater Color Random Transfer (UCRT) are designed to improve the performance of UnitModule on underwater images with different color casts. Extensive experiments are conducted on DUO for different object detection models, where UnitModule achieves the highest performance improvement of 2.6 AP for YOLOv5-S and gains the improvement of 3.3 AP on the brand-new test set (URPCtest). And UnitModule significantly improves the performance of all object detection models we test, especially for models with a small number of parameters. In addition, UnitModule with a small number of parameters of 31K has little effect on the inference speed of the original object detection model. Our quantitative and visual analysis also demonstrates the effectiveness of UnitModule in enhancing the input image and improving the perception ability of the detector for object features.
翻訳日:2023-09-12 16:58:07 公開日:2023-09-09
# Reasoner を用いたアドバンテージアクター批判:探索的視点からエージェントの行動を説明する

Advantage Actor-Critic with Reasoner: Explaining the Agent's Behavior from an Exploratory Perspective ( http://arxiv.org/abs/2309.04707v1 )

ライセンス: Link先を確認
Muzhe Guo, Feixu Yu, Tian Lan, Fang Jin(参考訳) 強化学習(rl)は複雑な意思決定問題を解決するための強力なツールであるが、その透明性と解釈性の欠如は、決定が現実世界に大きな影響を与える領域において大きな課題となっている。 本稿では,アクター・クリティックベースのrlモデルに容易に適用でき,それらを解釈可能にする,a2cr(actor-critic with reasoner)という新しいアドバンテージを提案する。 A2CRは、ポリシネットワーク、バリューネットワーク、Reasonerネットワークの3つの相互接続ネットワークで構成されている。 アクターの行動の基本的な目的を事前に定義し分類することにより、A2CRはエージェントの意思決定プロセスを理解するためのより包括的で解釈可能なパラダイムを自動生成する。 目的に基づく敬礼、早期障害検出、モデル監視など、さまざまな機能を提供し、責任と信頼に値するrlを促進する。 アクションに富んだスーパーマリオブラザーズ環境で実施した評価は、"`breakout" に対する推論ラベルの割合が減少し、rlアルゴリズムの探索レベルが増大するにつれて ``hovering" が増加するという興味深い結果をもたらす。 さらに、目的に基づく給与はより集中的で理解しやすい。

Reinforcement learning (RL) is a powerful tool for solving complex decision-making problems, but its lack of transparency and interpretability has been a major challenge in domains where decisions have significant real-world consequences. In this paper, we propose a novel Advantage Actor-Critic with Reasoner (A2CR), which can be easily applied to Actor-Critic-based RL models and make them interpretable. A2CR consists of three interconnected networks: the Policy Network, the Value Network, and the Reasoner Network. By predefining and classifying the underlying purpose of the actor's actions, A2CR automatically generates a more comprehensive and interpretable paradigm for understanding the agent's decision-making process. It offers a range of functionalities such as purpose-based saliency, early failure detection, and model supervision, thereby promoting responsible and trustworthy RL. Evaluations conducted in action-rich Super Mario Bros environments yield intriguing findings: Reasoner-predicted label proportions decrease for ``Breakout" and increase for ``Hovering" as the exploration level of the RL algorithm intensifies. Additionally, purpose-based saliencies are more focused and comprehensible.
翻訳日:2023-09-12 16:57:43 公開日:2023-09-09
# 微調整大型言語モデルを用いた偽情報および偽ニュース検出の分析

Analysis of Disinformation and Fake News Detection Using Fine-Tuned Large Language Model ( http://arxiv.org/abs/2309.04704v1 )

ライセンス: Link先を確認
Bohdan M. Pavlyshenko(参考訳) 本稿では, 偽ニュース検出と偽情報解析におけるLlama 2大言語モデル(LLM)の微調整の可能性を検討する。 微調整にはPEFT/LoRAベースのアプローチが用いられた。 このモデルでは, 偽情報やプロパガンダの物語を明らかにするテキストの分析, 事実確認, 偽ニュースの検出, 操作分析, 名前付きエンティティを感情で抽出した。 その結果,微調整されたLlama 2モデルはテキストの深い分析を行い,複雑なスタイルや物語を明らかにすることができた。 名前付きエンティティに対する感情抽出は、教師付き機械学習モデルにおける予測的特徴と見なすことができる。

The paper considers the possibility of fine-tuning Llama 2 large language model (LLM) for the disinformation analysis and fake news detection. For fine-tuning, the PEFT/LoRA based approach was used. In the study, the model was fine-tuned for the following tasks: analysing a text on revealing disinformation and propaganda narratives, fact checking, fake news detection, manipulation analytics, extracting named entities with their sentiments. The obtained results show that the fine-tuned Llama 2 model can perform a deep analysis of texts and reveal complex styles and narratives. Extracted sentiments for named entities can be considered as predictive features in supervised machine learning models.
翻訳日:2023-09-12 16:57:21 公開日:2023-09-09
# ビデオにおける乳房病変検出のための空間的変形型注意ベースフレームワーク

A Spatial-Temporal Deformable Attention based Framework for Breast Lesion Detection in Videos ( http://arxiv.org/abs/2309.04702v1 )

ライセンス: Link先を確認
Chao Qin and Jiale Cao and Huazhu Fu and Rao Muhammad Anwer and Fahad Shahbaz Khan(参考訳) ビデオにおける乳房病変の検出はコンピュータ支援診断に不可欠である。 既存の乳房病変検出手法では, 自己接触操作に基づく深部バックボーン特徴の時間的特徴の集約が一般的である。 このような戦略は機能集約を効果的に行うのに苦労し、有用なローカル情報を無視する。 そこで本稿では,空間的時間的変形可能な注意に基づくフレームワークであるstnetを提案する。 stnetでは空間-時間変形可能なアテンションモジュールを導入し,局所的空間-時間的特徴融合を行う。 空間-時間変形可能なアテンションモジュールは、エンコーダとデコーダの両方の段ごとに深い特徴集約を可能にする。 検出速度をさらに高速化するため,推定中にマルチフレーム予測を行うエンコーダ特徴シャッフル戦略を導入する。 エンコーダの機能シャッフル戦略では、バックボーンとエンコーダの機能を共有し、デコーダの機能を共有して複数のフレームの予測を生成する。 公衆乳房病変超音波画像データセットを用いた実験により,STNetは推定速度の2倍の速さで,最先端検出性能が得られた。 コードとモデルはhttps://github.com/alfredqin/stnetで入手できる。

Detecting breast lesion in videos is crucial for computer-aided diagnosis. Existing video-based breast lesion detection approaches typically perform temporal feature aggregation of deep backbone features based on the self-attention operation. We argue that such a strategy struggles to effectively perform deep feature aggregation and ignores the useful local information. To tackle these issues, we propose a spatial-temporal deformable attention based framework, named STNet. Our STNet introduces a spatial-temporal deformable attention module to perform local spatial-temporal feature fusion. The spatial-temporal deformable attention module enables deep feature aggregation in each stage of both encoder and decoder. To further accelerate the detection speed, we introduce an encoder feature shuffle strategy for multi-frame prediction during inference. In our encoder feature shuffle strategy, we share the backbone and encoder features, and shuffle encoder features for decoder to generate the predictions of multiple frames. The experiments on the public breast lesion ultrasound video dataset show that our STNet obtains a state-of-the-art detection performance, while operating twice as fast inference speed. The code and model are available at https://github.com/AlfredQin/STNet.
翻訳日:2023-09-12 16:57:07 公開日:2023-09-09
# 走査透過電子顕微鏡における量子限界

Quantum Limits in Scanning Transmission Electron Microscopy ( http://arxiv.org/abs/2309.04701v1 )

ライセンス: Link先を確認
Christian Dwyer and David M. Paganin(参考訳) 4次元走査透過電子顕微鏡(4D-STEM)の量子限界を解析した。 試料の静電ポテンシャルのフーリエ係数の変調と位相を推定すると、4D-STEMは精度の量子極限を許さないことが分かる。 特に、4D-STEMは利用可能な量子フィッシャー情報の約半分を達成できる。 量子限界の除外は回折平面における検出の結果であり、したがって全ての4D-STEM技術に適用できる。 近接最適情報転送は非局在化スペックルプローブによって達成される。 空間分解能は低いものの、光学系で認められた全ての空間周波数の量子限界を達成できるZernike位相コントラストイメージングと比較する。 我々の結論は、他のコヒーレントスカラー放射を用いたアナログイメージング技術にも当てはまる。

We analyze the quantum limits of four-dimensional scanning transmission electron microscopy (4D-STEM). In estimating the moduli and phases of the Fourier coefficients of the sample's electrostatic potential, we find that 4D-STEM does not permit the quantum limit of precision. In particular, 4D-STEM can attain about half of the available quantum Fisher information. Preclusion of the quantum limit is the result of detection in the diffraction plane, and thus applies to all 4D-STEM techniques. Near-optimum information transfer is achieved by a delocalized speckled probe. We compare with Zernike phase-contrast imaging, which can attain the quantum limit for all spatial frequencies admitted by the optical system, though at lower spatial resolution. Our conclusions also apply to analogous imaging techniques employing other forms of coherent scalar radiation.
翻訳日:2023-09-12 16:56:46 公開日:2023-09-09
# Weak-PDE-LEARN: 雑音データからPDEを発見するための弱形式に基づくアプローチ

Weak-PDE-LEARN: A Weak Form Based Approach to Discovering PDEs From Noisy, Limited Data ( http://arxiv.org/abs/2309.04699v1 )

ライセンス: Link先を確認
Robert Stephany, Christopher Earls(参考訳) Weak-PDE-LEARNは偏微分方程式 (Partial Differential Equation, PDE) 探索アルゴリズムで, 非線形PDEを雑音から同定し, その解を限定的に測定する。 Weak-PDE-LEARNは、弱い形式に基づく適応的損失関数を使用して、ニューラルネットワークをトレーニングし、$U$でPDEソリューションを近似し、同時に統治するPDEを識別する。 このアプローチは、ノイズに頑健なアルゴリズムを生み出し、ノイズの多い限られた解の測定結果から直接、さまざまなpdesを見つけることができる。 いくつかのベンチマークPDEを学習し,Weak-PDE-LEARNの有効性を示す。

We introduce Weak-PDE-LEARN, a Partial Differential Equation (PDE) discovery algorithm that can identify non-linear PDEs from noisy, limited measurements of their solutions. Weak-PDE-LEARN uses an adaptive loss function based on weak forms to train a neural network, $U$, to approximate the PDE solution while simultaneously identifying the governing PDE. This approach yields an algorithm that is robust to noise and can discover a range of PDEs directly from noisy, limited measurements of their solutions. We demonstrate the efficacy of Weak-PDE-LEARN by learning several benchmark PDEs.
翻訳日:2023-09-12 16:56:35 公開日:2023-09-09
# 上半身外骨格の進歩:フィードフォワード制御器を用いたアクティブ重力補償の実装

Advancements in Upper Body Exoskeleton: Implementing Active Gravity Compensation with a Feedforward Controller ( http://arxiv.org/abs/2309.04698v1 )

ライセンス: Link先を確認
Muhammad Ayaz Hussain and Ioannis Iossifidis(参考訳) 本研究では,上肢外骨格におけるアクティブ重力補償のためのフィードフォワード制御システムを提案する。 このシステムは、内部運動センサからの位置データのみを使用してトルクを計算し、ニュートン-オイラー逆ダイナミクスに基づく解析制御方程式を用いる。 フィードバック制御システムと比較すると、feedforwardアプローチにはいくつかの利点がある。 これにより外部のトルクセンサーが不要になり、ハードウェアの複雑さと重量が減少する。 さらに、フィードフォワード制御はより積極的な応答を示し、性能が向上する。 実験で使用されるエクソスケルトンは軽量で、人間の上半身運動学と3次元の運動範囲を忠実に模倣した4つの自由度を含む。 我々はexoskeletonのハードウェアとシミュレーションの両方でテストを行い、安定した性能を示した。 システムは長期にわたってその位置を維持し、最小限の摩擦と望ましくない旋回を避けた。

In this study, we present a feedforward control system designed for active gravity compensation on an upper body exoskeleton. The system utilizes only positional data from internal motor sensors to calculate torque, employing analytical control equations based on Newton-Euler Inverse Dynamics. Compared to feedback control systems, the feedforward approach offers several advantages. It eliminates the need for external torque sensors, resulting in reduced hardware complexity and weight. Moreover, the feedforward control exhibits a more proactive response, leading to enhanced performance. The exoskeleton used in the experiments is lightweight and comprises 4 Degrees of Freedom, closely mimicking human upper body kinematics and three-dimensional range of motion. We conducted tests on both hardware and simulations of the exoskeleton, demonstrating stable performance. The system maintained its position over an extended period, exhibiting minimal friction and avoiding undesired slewing.
翻訳日:2023-09-12 16:56:23 公開日:2023-09-09
# 知識に基づく質問応答のためのコードスタイルインコンテキスト学習

Code-Style In-Context Learning for Knowledge-Based Question Answering ( http://arxiv.org/abs/2309.04695v1 )

ライセンス: Link先を確認
Zhijie Nie, Richong Zhang, Zhongyuan Wang, Xudong Liu(参考訳) 現在のKBQA(Knowledge-Based Question Answering)のメソッドは通常、複雑なトレーニング技術とモデルフレームワークに依存しており、実用的なアプリケーションには多くの制限がある。 最近、大規模言語モデル(llm)におけるin-context learning(icl)機能の出現は、kbqaのためのシンプルでトレーニング不要なセマンティック構文解析パラダイムを提供する。 しかし、現在の強力なLLMは事前学習中に論理形式にほとんど触れず、高いフォーマットエラー率をもたらす。 この問題を解決するために,KBQA のコードスタイルのインコンテキスト学習手法を提案し,この方法により,未知の論理形式の生成過程を LLM のより親しみやすいコード生成プロセスに変換する。 3つの主流データセットに対する実験結果から,WebQSP,GrailQA,GraphQ上の新しいSOTAを実現しつつ,論理形式を生成する際のフォーマットエラー問題を劇的に軽減した。

Current methods for Knowledge-Based Question Answering (KBQA) usually rely on complex training techniques and model frameworks, leading to many limitations in practical applications. Recently, the emergence of In-Context Learning (ICL) capabilities in Large Language Models (LLMs) provides a simple and training-free semantic parsing paradigm for KBQA: Given a small number of questions and their labeled logical forms as demo examples, LLMs can understand the task intent and generate the logic form for a new question. However, current powerful LLMs have little exposure to logic forms during pre-training, resulting in a high format error rate. To solve this problem, we propose a code-style in-context learning method for KBQA, which converts the generation process of unfamiliar logical form into the more familiar code generation process for LLMs. Experimental results on three mainstream datasets show that our method dramatically mitigated the formatting error problem in generating logic forms while realizing a new SOTA on WebQSP, GrailQA, and GraphQ under the few-shot setting.
翻訳日:2023-09-12 16:56:09 公開日:2023-09-09
# グラフクラスタリングのための冗長性フリー自己教師付き関係学習

Redundancy-Free Self-Supervised Relational Learning for Graph Clustering ( http://arxiv.org/abs/2309.04694v1 )

ライセンス: Link先を確認
Si-Yu Yi, Wei Ju, Yifang Qin, Xiao Luo, Luchen Liu, Yong-Dao Zhou, Ming Zhang(参考訳) 効率的なクラスタ割り当てのためのノード表現を学習するグラフクラスタリングは、データ分析の基本的な課題であるが、近年はグラフニューラルネットワークに付随してかなりの注目を集めている。 しかし、既存のほとんどの手法は、グラフ内の非独立ノードと非独立ノードの間の固有関係情報を無視する。 関係属性の探索が欠如しているため、グラフ構造化データのセマンティクス情報は十分に活用されず、クラスタリング性能が低下する。 本稿では,リレーショナル冗長性フリーグラフクラスタリング(r$^2$fgc)という,自己教師付きディープグラフクラスタリング手法を提案する。 オートエンコーダとグラフオートエンコーダに基づいて,グローバルビューとローカルビューの両方から属性と構造レベルの関係情報を抽出する。 意味情報の効果的な表現を得るためには,拡張ノード間の一貫性を保ちながら,識別埋め込みの学習では冗長関係がさらに減少する。 さらに、過度な問題を軽減するために、シンプルで有効な戦略が活用される。 広く使用されているベンチマークデータセットで広範な実験が行われ、最先端のベースラインよりもr$^2$fgcが優れていることを検証します。 私たちのコードはhttps://github.com/yisiyu95/r2fgcで利用可能です。

Graph clustering, which learns the node representations for effective cluster assignments, is a fundamental yet challenging task in data analysis and has received considerable attention accompanied by graph neural networks in recent years. However, most existing methods overlook the inherent relational information among the non-independent and non-identically distributed nodes in a graph. Due to the lack of exploration of relational attributes, the semantic information of the graph-structured data fails to be fully exploited which leads to poor clustering performance. In this paper, we propose a novel self-supervised deep graph clustering method named Relational Redundancy-Free Graph Clustering (R$^2$FGC) to tackle the problem. It extracts the attribute- and structure-level relational information from both global and local views based on an autoencoder and a graph autoencoder. To obtain effective representations of the semantic information, we preserve the consistent relation among augmented nodes, whereas the redundant relation is further reduced for learning discriminative embeddings. In addition, a simple yet valid strategy is utilized to alleviate the over-smoothing issue. Extensive experiments are performed on widely used benchmark datasets to validate the superiority of our R$^2$FGC over state-of-the-art baselines. Our codes are available at https://github.com/yisiyu95/R2FGC.
翻訳日:2023-09-12 16:55:49 公開日:2023-09-09
# スパイクニューラルネットワーク合同カリキュラム学習戦略の学習

Training of Spiking Neural Network joint Curriculum Learning Strategy ( http://arxiv.org/abs/2309.04737v1 )

ライセンス: Link先を確認
Lingling Tang, Jielei Chu, Zhiguo Gong, Tianrui Li(参考訳) 小さくてシンプルな概念から始まり、徐々に複雑で難しい概念を導入することは、人間の学習の自然なプロセスです。 スパイキングニューラルネットワーク(SNN)は、人間が情報を処理する方法を模倣することを目的としているが、現在のSNNモデルは、すべてのサンプルを平等に扱う。 そこで本研究では,SNNにCurriculum Learning(CL)を導入したCL-SNNモデルを提案する。 clは、より難しいデータを導入する前にモデルに簡単なデータを提示し、人間の学習プロセスを模倣するトレーニング戦略である。 信頼性を意識した損失を使用して、異なる難易度でサンプルを測定し、処理します。 異なるサンプルの信頼性を学習することで、難しいサンプルのパラメータ最適化への寄与を自動で減少させる。 静的画像データセットMNIST, Fashion-MNIST, CIFAR10およびニューロモルフィックデータセットN-MNIST, CIFAR10-DVS, DVS-Gestureについて実験を行った。 結果は有望だ。 我々の知る限り、CLを導入することでSNNの生物学的妥当性を高めるための最初の提案である。

Starting with small and simple concepts, and gradually introducing complex and difficult concepts is the natural process of human learning. Spiking Neural Networks (SNNs) aim to mimic the way humans process information, but current SNNs models treat all samples equally, which does not align with the principles of human learning and overlooks the biological plausibility of SNNs. To address this, we propose a CL-SNN model that introduces Curriculum Learning(CL) into SNNs, making SNNs learn more like humans and providing higher biological interpretability. CL is a training strategy that advocates presenting easier data to models before gradually introducing more challenging data, mimicking the human learning process. We use a confidence-aware loss to measure and process the samples with different difficulty levels. By learning the confidence of different samples, the model reduces the contribution of difficult samples to parameter optimization automatically. We conducted experiments on static image datasets MNIST, Fashion-MNIST, CIFAR10, and neuromorphic datasets N-MNIST, CIFAR10-DVS, DVS-Gesture. The results are promising. To our best knowledge, this is the first proposal to enhance the biologically plausibility of SNNs by introducing CL.
翻訳日:2023-09-12 16:50:26 公開日:2023-09-09
# ビジュアルエンティティエンハンスメントとマルチグラニュラ画像雑音フィルタリングによるマルチモーダル・ケプラーゼ生成の改善に向けて

Towards Better Multi-modal Keyphrase Generation via Visual Entity Enhancement and Multi-granularity Image Noise Filtering ( http://arxiv.org/abs/2309.04734v1 )

ライセンス: Link先を確認
Yifan Dong, Suhang Wu, Fandong Meng, Jie Zhou, Xiaoli Wang, Jianxin Lin, and Jinsong Su(参考訳) マルチモーダルキーフレーズ生成は、入力テキストと画像のペアのコアポイントを表す一連のキーフレーズを作成することを目的としている。 この点において、支配的手法は主にキーフレーズ生成におけるマルチモーダル融合に焦点をあてている。 それでも、大きな欠点は2つある。 1)補助情報の提供には,画像キャプションなどの限られた情報源しか利用できない。 しかし、後続のキーフレーズ生成には不十分かもしれない。 2)入力テキストと画像は完全一致しないことが多いため、画像はモデルにノイズをもたらす可能性がある。 そこで本稿では,これらの制約に対処するために,外部知識によるモデル入力を豊かにするだけでなく,画像ノイズを効果的にフィルタするマルチモーダルキーフレーズ生成モデルを提案する。 まず,画像の外部視覚エンティティをモデルへの補足入力として導入し,キーフレーズ生成のためのクロスモーダル意味アライメントの恩恵を受ける。 第2に、画像テキストマッチングスコアと画像領域相関スコアを同時に算出し、多粒度画像ノイズフィルタリングを行う。 特に,画像領域と地中キーフレーズとの相関スコアを導入し,前述した相関スコアの計算を洗練する。 本モデルの有効性を示すため,ベンチマークデータセット上でいくつかの実験を行った。 実験結果と深度解析により,本モデルが最先端の性能を達成することを示す。 私たちのコードはhttps://github.com/DeepLearnXMU/MM-MKPで利用可能です。

Multi-modal keyphrase generation aims to produce a set of keyphrases that represent the core points of the input text-image pair. In this regard, dominant methods mainly focus on multi-modal fusion for keyphrase generation. Nevertheless, there are still two main drawbacks: 1) only a limited number of sources, such as image captions, can be utilized to provide auxiliary information. However, they may not be sufficient for the subsequent keyphrase generation. 2) the input text and image are often not perfectly matched, and thus the image may introduce noise into the model. To address these limitations, in this paper, we propose a novel multi-modal keyphrase generation model, which not only enriches the model input with external knowledge, but also effectively filters image noise. First, we introduce external visual entities of the image as the supplementary input to the model, which benefits the cross-modal semantic alignment for keyphrase generation. Second, we simultaneously calculate an image-text matching score and image region-text correlation scores to perform multi-granularity image noise filtering. Particularly, we introduce the correlation scores between image regions and ground-truth keyphrases to refine the calculation of the previously-mentioned correlation scores. To demonstrate the effectiveness of our model, we conduct several groups of experiments on the benchmark dataset. Experimental results and in-depth analyses show that our model achieves the state-of-the-art performance. Our code is available on https://github.com/DeepLearnXMU/MM-MKP.
翻訳日:2023-09-12 16:50:02 公開日:2023-09-09
# 細粒度マルチホリゾン風予測のための時空間深層ニューラルネットワーク

A Spatiotemporal Deep Neural Network for Fine-Grained Multi-Horizon Wind Prediction ( http://arxiv.org/abs/2309.04733v1 )

ライセンス: Link先を確認
Fanling Huang and Yangdong Deng(参考訳) 風速と方向の両方の観点からの風速の予測は、航空や風力発電といった現実世界の多くの応用に重大な影響を与えるが、気象データに高い確率性と複雑な相関があるため、非常に困難である。 既存の手法は通常、影響のある要因のサブセットに焦点を合わせ、それゆえ問題の体系的な処理を欠いている。 また,効率的な産業運営には細粒度予測が不可欠であるが,文献にはあまり触れられていない。 本研究では,MHSTN(Multi-Horizon SpatioTemporal Network)と呼ばれる新しいデータ駆動モデルを提案する。 MHSTNは、シーケンシャル・ツー・シークエンス(Seq2Seq)バックボーン内の異なる因子をターゲットとする複数のディープニューラルネットワークを統合し、様々なデータソースから機能を効果的に抽出し、指定された領域内のすべてのサイトに対して多重水平予測を生成する。 MHSTNは4つの主要なモジュールから構成されている。 まず, 数値気象予報(NWP)による粗粒度予測と, 地上観測データとを融合させて, グローバル・ローカル両方の大気情報を活用する。 第二に、空間モジュールは全ての局の関節表現をモデル化することで空間相関を利用する。 第3に、アンサンブルモジュールは、最終的な予測のために上記の2つのモジュールを重み付けする。 さらに、共変量選択モジュールは、影響のある気象変数を初期入力として自動的に選択する。 MHSTNはすでに中国で最も忙しい国際空港のスケジューリングプラットフォームに統合されている。 評価の結果,我々のモデルは競争相手をかなり上回っていることがわかった。

The prediction of wind in terms of both wind speed and direction, which has a crucial impact on many real-world applications like aviation and wind power generation, is extremely challenging due to the high stochasticity and complicated correlation in the weather data. Existing methods typically focus on a sub-set of influential factors and thus lack a systematic treatment of the problem. In addition, fine-grained forecasting is essential for efficient industry operations, but has been less attended in the literature. In this work, we propose a novel data-driven model, Multi-Horizon SpatioTemporal Network (MHSTN), generally for accurate and efficient fine-grained wind prediction. MHSTN integrates multiple deep neural networks targeting different factors in a sequence-to-sequence (Seq2Seq) backbone to effectively extract features from various data sources and produce multi-horizon predictions for all sites within a given region. MHSTN is composed of four major modules. First, a temporal module fuses coarse-grained forecasts derived by Numerical Weather Prediction (NWP) and historical on-site observation data at stations so as to leverage both global and local atmospheric information. Second, a spatial module exploits spatial correlation by modeling the joint representation of all stations. Third, an ensemble module weighs the above two modules for final predictions. Furthermore, a covariate selection module automatically choose influential meteorological variables as initial input. MHSTN is already integrated into the scheduling platform of one of the busiest international airports of China. The evaluation results demonstrate that our model outperforms competitors by a significant margin.
翻訳日:2023-09-12 16:49:39 公開日:2023-09-09
# TCGAN: 時系列分類とクラスタリングのための畳み込み生成逆ネットワーク

TCGAN: Convolutional Generative Adversarial Network for Time Series Classification and Clustering ( http://arxiv.org/abs/2309.04732v1 )

ライセンス: Link先を確認
Fanling Huang and Yangdong Deng(参考訳) 近年,教師付き畳み込みニューラルネットワーク(cnns)が時系列データから階層表現を学習し,分類を成功させた。 これらの方法は、安定した学習のために十分な大きなラベル付きデータを必要とするが、高品質なラベル付き時系列データを取得することはコストがかかり、潜在的に不可能である。 GAN(Generative Adversarial Networks)は、教師なしおよび半教師なし学習の強化に成功している。 しかしながら、我々の知る限りでは、GANが時系列認識、すなわち分類とクラスタリングのための表現を学習するための汎用的なソリューションとして効果的に機能するかどうかは不明である。 上記の考察は、TCGAN(Time-Series Convolutional GAN)を導入するきっかけとなった。 TCGANは、ラベル情報がない状態で、2つの1次元CNN(すなわち、ジェネレータと識別器)間で対角ゲームを行うことで学習する。 その後、訓練されたTCGANの一部が再利用され、線形認識方法を強化する表現エンコーダが構築される。 合成および実世界のデータセットに関する総合的な実験を行った。 その結果, TCGAN は既存の時系列 GAN よりも高速で精度が高いことがわかった。 学習した表現により、単純な分類法とクラスタリング法により、優れた安定した性能が得られる。 さらに、TCGANは、少ないラベルと不均衡のデータを持つシナリオにおいて高い有効性を保っている。 我々の研究は、豊富なラベルのない時系列データを効果的に活用するための有望な道を提供する。

Recent works have demonstrated the superiority of supervised Convolutional Neural Networks (CNNs) in learning hierarchical representations from time series data for successful classification. These methods require sufficiently large labeled data for stable learning, however acquiring high-quality labeled time series data can be costly and potentially infeasible. Generative Adversarial Networks (GANs) have achieved great success in enhancing unsupervised and semi-supervised learning. Nonetheless, to our best knowledge, it remains unclear how effectively GANs can serve as a general-purpose solution to learn representations for time series recognition, i.e., classification and clustering. The above considerations inspire us to introduce a Time-series Convolutional GAN (TCGAN). TCGAN learns by playing an adversarial game between two one-dimensional CNNs (i.e., a generator and a discriminator) in the absence of label information. Parts of the trained TCGAN are then reused to construct a representation encoder to empower linear recognition methods. We conducted comprehensive experiments on synthetic and real-world datasets. The results demonstrate that TCGAN is faster and more accurate than existing time-series GANs. The learned representations enable simple classification and clustering methods to achieve superior and stable performance. Furthermore, TCGAN retains high efficacy in scenarios with few-labeled and imbalanced-labeled data. Our work provides a promising path to effectively utilize abundant unlabeled time series data.
翻訳日:2023-09-12 16:49:10 公開日:2023-09-09
# スクイーズドカー状態を用いたマッハ・ゼーダー干渉計の量子エンハンスド超感度

Quantum-enhanced super-sensitivity of Mach-Zehnder interferometer using squeezed Kerr state ( http://arxiv.org/abs/2309.04731v1 )

ライセンス: Link先を確認
Dhiraj Yadav, Gaurav Shukla, Priyanka Sharma, and Devendra Kumar Mishra(参考訳) 我々は,MZI(Mach-Zehnder Interferometer)の位相超感度を,圧縮したKerrとコヒーレントな状態を入力として検討した。 本稿では,QFI(Quantum Fisher Information)とQCRB(Quantum Cramer-Rao bound)による位相感度の低下について論じる。 単一強度検出 (SID) , 強度差検出 (IDD) およびホモダイン検出 (HD) の手法により, 本手法は, 損失のない状態と損失のある状態の両方において, コヒーレント+真空, コヒーレント+圧縮真空, 二重コヒーレント状態などの入力結果の組合せに比べて, 優れた感度が得られることがわかった。 現在利用可能な量子光学技術でシャープされたカー状態(SKS)を生成する可能性があるため、現実的なシナリオ下でのMZIの位相超感度向上のための代替的な非古典的資源としてSKSが期待できる。

We study the phase super-sensitivity of a Mach-Zehnder interferometer (MZI) with the squeezed Kerr and coherent states as the inputs. We discuss the lower bound in phase sensitivity by considering the quantum Fisher information (QFI) and corresponding quantum Cramer-Rao bound (QCRB). With the help of single intensity detection (SID), intensity difference detection (IDD) and homodyne detection (HD) schemes, we find that our scheme gives better sensitivity in both the lossless as well as in lossy conditions as compared to the combination of well-known results of inputs as coherent plus vacuum, coherent plus squeezed vacuum and double coherent state as the inputs. Because of the possibility of generation of squeezed Kerr state (SKS) with the present available quantum optical techniques, we expect that SKS may be an alternative nonclassical resource for the improvement in the phase super-sensitivity of the MZI under realistic scenario.
翻訳日:2023-09-12 16:48:49 公開日:2023-09-09
# エコー指数の推移と入力繰り返しへの依存性

Transitions in echo index and dependence on input repetitions ( http://arxiv.org/abs/2309.04728v1 )

ライセンス: Link先を確認
Peter Ashwin and Andrea Ceni(参考訳) エコー指数は、非線形(入力駆動)力学系の同時に安定な漸近応答の数をカウントする。 エコー指数が1と等しいリカレントニューラルネットワークのよく知られたエコー状態特性を一般化する。 本稿では,有限状態エルゴード外部入力に対する典型的な応答を規定するパラメータにエコー指数がどのように依存するかについて検討する。 各写像が双曲平衡アトラクタの有限集合を持つと仮定し、有限な写像の集合の間を切り替える非自律系のエコー指数を考える。 それぞれの地図の最小繰り返しと最大反復は、結果のエコー指数に不可欠である。 RNN計算フレームワークに理論的な知見を投入することにより、エコー指数を強制する小さな振幅は入力不要系のアトラクタ数に対応し、大きな振幅強制ではエコー指数は1に減少することがわかった。 この領域ではエコー指数は強制の振幅だけでなく、入力のより微妙な性質にも依存する。

The echo index counts the number of simultaneously stable asymptotic responses of a nonautonomous (i.e. input-driven) dynamical system. It generalizes the well-known echo state property for recurrent neural networks - this corresponds to the echo index being equal to one. In this paper, we investigate how the echo index depends on parameters that govern typical responses to a finite-state ergodic external input that forces the dynamics. We consider the echo index for a nonautonomous system that switches between a finite set of maps, where we assume that each map possesses a finite set of hyperbolic equilibrium attractors. We find the minimum and maximum repetitions of each map are crucial for the resulting echo index. Casting our theoretical findings in the RNN computing framework, we obtain that for small amplitude forcing the echo index corresponds to the number of attractors for the input-free system, while for large amplitude forcing, the echo index reduces to one. The intermediate regime is the most interesting; in this region the echo index depends not just on the amplitude of forcing but also on more subtle properties of the input.
翻訳日:2023-09-12 16:48:25 公開日:2023-09-09
# EPA: 複数ソースと複数ターゲットによる大規模言語モデルへの容易なプロンプト拡張

EPA: Easy Prompt Augmentation on Large Language Models via Multiple Sources and Multiple Targets ( http://arxiv.org/abs/2309.04725v1 )

ライセンス: Link先を確認
Hongyuan Lu, Wai Lam(参考訳) 大規模言語モデル(LLM)はタスクプロンプトを通じて様々なNLPタスクに対して有望な性能を示す。 プロンプトの先頭にタスクのデモを追加することで、パフォーマンスをさらに向上することができる。 そして、通常、より多くのデモでより良いパフォーマンスを達成できます。 しかし、ユーザにデモを書くように依頼するのは面倒です。 簡単なコスト効率の良い回避策として, epa (\textbf{e}asy \textbf{p}rompt \textbf{a}ugmentation)\footnote{本論文では, デモンストレーションによるプロンプトの強化を考察する一方で, eda という名称はすでによく知られた nlp 手法である \citep{wei-zou-2019-eda} に取られているため, epa と呼ぶ。 同時にモデルパフォーマンスを改善しながら、デモを書く際のユーザの労力を効果的に最小化する。 EPAは、複数のソース/ターゲットでデモを自動的に拡張することで、これらの目標を達成する。 パラフレージングによるデータ拡張は、ニューラルネットワークモデルを効果的に改善する。 EPAは、文脈内学習のための拡張方法としてパラフレーズを用いる。 EPAは、自然言語推論から機械翻訳まで、数十の言語を翻訳する際に、NLUとNLGのタスクを効果的に改善することを示している。 \footnote{Codeとデータは公開時にリリースされる。 }

Large language models (LLMs) have shown promising performance on various NLP tasks via task prompting. And their performance can be further improved by appending task demonstrations to the head of the prompt. And usually, a better performance can be achieved with more demonstrations. However, asking the users to write the demonstrations can be cumbersome. As a simple yet cost-effective workaround, this paper proposes a novel method called EPA (\textbf{E}asy \textbf{P}rompt \textbf{A}ugmentation)\footnote{While this paper considers augmenting prompts via demonstrations, we name it EPA as the name EDA is already taken by a well-known NLP method \citep{wei-zou-2019-eda}.} that effectively minimizes user efforts in writing demonstrations while improving the model performance at the same time. EPA achieves these goals by automatically augmenting the demonstrations with multiple sources/targets, where each of them paraphrases each other. This is well motivated as augmenting data via paraphrasing effectively improves neural language models. EPA thus employs paraphrasing as an augmentation method for in-context learning. Extensive experiments indicate that EPA effectively improves both NLU and NLG tasks, covering from natural language inference to machine translation in translating tens of languages.\footnote{Code and data will be released upon publication.}
翻訳日:2023-09-12 16:48:08 公開日:2023-09-09
# 周波数対応型自己監督型長期学習

Frequency-Aware Self-Supervised Long-Tailed Learning ( http://arxiv.org/abs/2309.04723v1 )

ライセンス: Link先を確認
Ci-Siang Lin, Min-Hung Chen, Yu-Chiang Frank Wang(参考訳) 現実世界から収集されたデータは、典型的には長い尾の分布を示し、希少なものは限られた数のサンプルしか持たない。 このようなデータ不均衡に対処するために、既存の教師付き学習アプローチが提案されているが、ラベル管理の要件は、ラベルアノテーションが利用できない現実のシナリオに適用性を制限する。 本稿では,クラスラベルへのアクセスや関連するクラス周波数を使わずに,FASSL( Frequency-Aware Self-Supervised Learning)を提案する。 FASSLの目的は、下流の分類タスクのための差別的な特徴表現を作ることである。 FASSLでは、まず周波数対応のプロトタイプを学習し、関連する長い尾の分布を反映する。 特にレアクラスのサンプルに着目し,画像データと派生したプロトタイプの関係を自己教師付き学習方式によりさらに活用する。 学習手法の有効性を定量的・定性的に検証したロングテール画像データセット実験を行った。

Data collected from the real world typically exhibit long-tailed distributions, where frequent classes contain abundant data while rare ones have only a limited number of samples. While existing supervised learning approaches have been proposed to tackle such data imbalance, the requirement of label supervision would limit their applicability to real-world scenarios in which label annotation might not be available. Without the access to class labels nor the associated class frequencies, we propose Frequency-Aware Self-Supervised Learning (FASSL) in this paper. Targeting at learning from unlabeled data with inherent long-tailed distributions, the goal of FASSL is to produce discriminative feature representations for downstream classification tasks. In FASSL, we first learn frequency-aware prototypes, reflecting the associated long-tailed distribution. Particularly focusing on rare-class samples, the relationships between image data and the derived prototypes are further exploited with the introduced self-supervised learning scheme. Experiments on long-tailed image datasets quantitatively and qualitatively verify the effectiveness of our learning scheme.
翻訳日:2023-09-12 16:47:39 公開日:2023-09-09
# 光格子における大規模原子配列の高精度検出

High-fidelity detection of large-scale atom arrays in an optical lattice ( http://arxiv.org/abs/2309.04717v1 )

ライセンス: Link先を確認
Renhao Tao, Maximilian Ammenwerth, Flavien Gyger, Immanuel Bloch, Johannes Zeiher(参考訳) 中性原子に基づく量子シミュレーションの最近の進歩は、高分解能単原子高感度イメージング技術の恩恵を受けている。 光格子や光ツイーザー中の原子を局所的に検出する様々な手法が開発されている。 アルカリ土類やアルカリ土類のような原子では、狭い光学遷移の存在は、トラップポテンシャルにおける微分光学レベルシフトを空間的に解決する能力に由来する新しいタイプのシシフス冷却を行う可能性を開く。 これまでのところ、地上状態のトラップ深さが冷却に関わる励起状態のそれを超える「反発型シシフス」構成で高忠実な画像が達成できるかどうかという未解決の問題があった。 ここでは,反発型シリフス冷却によるストロンチウム原子の高忠実度(99.9995(3)\%$)および高生存(99.80(5)\%$)画像を示す。 最大399ドルのtweezersを持つ大規模tweezerアレイの原子のピンニング電位として光格子を用い、繰り返し忠実な格子-tweezer-lattice転送を示す。 さらに、光格子の1面に10000ドル以上の原子を直接ロードすることで、プラットフォームのスケーラビリティを実証し、これは将来、光トウェザアレイの連続的な再充填のための局所アドレス可能かつソート可能な貯水池として使用できる。

Recent advances in quantum simulation based on neutral atoms have largely benefited from high-resolution, single-atom sensitive imaging techniques. A variety of approaches have been developed to achieve such local detection of atoms in optical lattices or optical tweezers. For alkaline-earth and alkaline-earth-like atoms, the presence of narrow optical transitions opens up the possibility of performing novel types of Sisyphus cooling, where the cooling mechanism originates from the capability to spatially resolve the differential optical level shifts in the trap potential. Up to now, it has been an open question whether high-fidelity imaging could be achieved in a "repulsive Sisyphus" configuration, where the trap depth of the ground state exceeds that of the excited state involved in cooling. Here, we demonstrate high-fidelity ($99.9995(3)\%$) and high-survival ($99.80(5)\%$) imaging of strontium atoms using repulsive Sisyphus cooling. We use an optical lattice as a pinning potential for atoms in a large-scale tweezer array with up to $399$ tweezers and show repeated, high-fidelity lattice-tweezer-lattice transfers. We furthermore demonstrate the scalability of the platform by directly loading more than $10000$ atoms in a single plane of the optical lattice, which can be used as a locally addressable and sortable reservoir for continuous refilling of optical tweezer arrays in the future.
翻訳日:2023-09-12 16:47:24 公開日:2023-09-09
# 大規模言語モデルを用いたネットワーク研究成果の再現に向けて

Toward Reproducing Network Research Results Using Large Language Models ( http://arxiv.org/abs/2309.04716v1 )

ライセンス: Link先を確認
Qiao Xiang, Yuling Lin, Mingjun Fang, Bang Huang, Siyong Huang, Ridi Wen, Franck Le, Linghe Kong, Jiwu Shu(参考訳) ネットワークコミュニティにおける研究成果の再現は、学界と産業の両方にとって重要である。 現在のベストプラクティスは,(1)公開プロトタイプを探すこと,(2)個人プロトタイプを得るために著者に連絡すること,(3)公開説明の後にプロトタイプを手作業で実施すること,の3つのアプローチを基本としている。 しかし、ほとんどのネットワーク研究は公開プロトタイプを持っておらず、プライベートプロトタイプは入手が難しい。 したがって、ほとんどの再現作業は、時間と労力の両方を消費し、エラーが発生しやすい出版物に基づく手作業による実装に費やされる。 本稿では,新しい大規模言語モデル (llms) を用いたネットワーク研究結果の再現を大胆に提案する。 特に,初等的なネットワーク知識を持つ4人の学生が,ChatGPTの迅速なエンジニアリングによって,著名な会議や雑誌に掲載されているネットワークシステムをそれぞれ再現する,小規模な実験で実現可能であることを示す。 本稿では,実験の観察と教訓を報告し,今後のオープンな研究課題について論じる。 この仕事は倫理的な問題を提起しない。

Reproducing research results in the networking community is important for both academia and industry. The current best practice typically resorts to three approaches: (1) looking for publicly available prototypes; (2) contacting the authors to get a private prototype; and (3) manually implementing a prototype following the description of the publication. However, most published network research does not have public prototypes and private prototypes are hard to get. As such, most reproducing efforts are spent on manual implementation based on the publications, which is both time and labor consuming and error-prone. In this paper, we boldly propose reproducing network research results using the emerging large language models (LLMs). In particular, we first prove its feasibility with a small-scale experiment, in which four students with essential networking knowledge each reproduces a different networking system published in prominent conferences and journals by prompt engineering ChatGPT. We report the experiment's observations and lessons and discuss future open research questions of this proposal. This work raises no ethical issue.
翻訳日:2023-09-12 16:46:57 公開日:2023-09-09
# 局所スピン熱機械の異方性支援熱力学特性

Anisotropy-assisted thermodynamic advantage of a local-spin thermal machine ( http://arxiv.org/abs/2309.04757v1 )

ライセンス: Link先を確認
Chayan Purkait, Suman Chand, Asoka Biswas(参考訳) 異方性相互作用に結合した2スピン動作系を用いた量子オットー熱機械の研究を行った。 異なるパラメータの選択によって、量子オットーサイクルは熱エンジン、冷凍機、加速器、ヒーターを含む様々な熱機械として機能する。 我々は,異なる時間スケールで動作する量子オットーエンジンの性能において,異方性がどのように基本的な役割を果たすかを検討することを目的とする。 擬似動作における異方性の増加に伴い, エンジン効率は向上するが, 量子内部摩擦と不完全熱化は有限時間サイクルで性能を低下させることがわかった。 さらに,作業系としてスピンの1つである局所スピンを用いてqoeの研究を行った。 このようなエンジンの効率は、異方性により最大電力とともに、標準量子オットー限界を超えることができることを示す。 これは量子干渉効果に起因する。 局所スピンQOEの強化性能は、有限時間動作における測定ベースQOEと同様の干渉効果から生じることを示した。

We study quantum Otto thermal machines with a two-spin working system coupled by anisotropic interaction. Depending on the choice of different parameters, the quantum Otto cycle can function as different thermal machines, including a heat engine, refrigerator, accelerator and heater. We aim to investigate how the anisotropy plays a fundamental role in the performance of the quantum Otto engine operating in different time scales. We find that while the efficiency of the engine efficiency increases with the increase in anisotropy for the quasistatic operation, quantum internal friction and incomplete thermalization degrade the performance in a finite time cycle. Further, we study the QOE with one of the spins, the local spin, as the working system. We show that the efficiency of such an engine can surpass the standard quantum Otto limit, along with maximum power, thanks to the anisotropy. This can be attributed to quantum interference effects. We demonstrate that the enhanced performance of a local-spin QOE originates from the same interference effects, as in a measurement-based QOE for their finite time operation.
翻訳日:2023-09-12 16:39:11 公開日:2023-09-09
# マルチビュー3次元ポーズ推定のための確率的三角測量

Probabilistic Triangulation for Uncalibrated Multi-View 3D Human Pose Estimation ( http://arxiv.org/abs/2309.04756v1 )

ライセンス: Link先を確認
Boyuan Jiang, Lei Hu and Shihong Xia(参考訳) 3次元の人間のポーズ推定は、コンピュータビジョンとグラフィックスにおいて長年の課題であり、マルチビュー手法は大幅に進歩しているが、面倒なキャリブレーションプロセスによって制限されている。 既存のマルチビュー手法は固定カメラのポーズに制限されるため、一般化能力に欠ける。 本稿では,3次元ポーズ推定法に組み込むことが可能な,新しい確率的三角測量モジュールを提案する。 重要なアイデアは、確率分布を使ってカメラのポーズをモデル化し、カメラのポーズの代わりに2d機能からの分布を反復的に更新することだ。 具体的には、カメラポーズ分布を維持し、モンテカルロサンプリングによるカメラポーズの後方確率を計算して、この分布を反復的に更新する。 このようにして、勾配を3Dポーズ推定から直接2Dヒートマップに逆転させ、エンドツーエンドのトレーニングを可能にする。 また,Human3.6MとCMU Panopticの広汎な実験により,本手法が他の非校正法より優れ,最先端校正法と同等の結果が得られることを示した。 そこで本手法は,推定精度と一般化可能性とのトレードオフを実現する。 私たちのコードはhttps://github.com/bymaths/probabilistic_triangulationにあります。

3D human pose estimation has been a long-standing challenge in computer vision and graphics, where multi-view methods have significantly progressed but are limited by the tedious calibration processes. Existing multi-view methods are restricted to fixed camera pose and therefore lack generalization ability. This paper presents a novel Probabilistic Triangulation module that can be embedded in a calibrated 3D human pose estimation method, generalizing it to uncalibration scenes. The key idea is to use a probability distribution to model the camera pose and iteratively update the distribution from 2D features instead of using camera pose. Specifically, We maintain a camera pose distribution and then iteratively update this distribution by computing the posterior probability of the camera pose through Monte Carlo sampling. This way, the gradients can be directly back-propagated from the 3D pose estimation to the 2D heatmap, enabling end-to-end training. Extensive experiments on Human3.6M and CMU Panoptic demonstrate that our method outperforms other uncalibration methods and achieves comparable results with state-of-the-art calibration methods. Thus, our method achieves a trade-off between estimation accuracy and generalizability. Our code is in https://github.com/bymaths/probabilistic_triangulation
翻訳日:2023-09-12 16:38:41 公開日:2023-09-09
# 物理インフォームドニューラルネットワークのリアルタイムトレーニングに向けて:超高速超音波血流イメージングへの応用

Towards Real-time Training of Physics-informed Neural Networks: Applications in Ultrafast Ultrasound Blood Flow Imaging ( http://arxiv.org/abs/2309.04755v1 )

ライセンス: Link先を確認
Haotian Guan, Jinping Dong, Wei-Ning Lee(参考訳) 物理学に変形したニューラルネットワーク(pinn)は、ナビエ・ストークス方程式の最も有力な解法の一つであり、血流の制御方程式として広く使われている。 しかし、navier-stokes方程式に完全依存する現在のアプローチは、毎秒数千フレーム(またはタイムスタンプ)の取得によって複雑な血流動態を表現できる最先端のドプラ法である超高速超音波ドプラ法では実用的ではない。 本稿では,Navier-Stokes方程式を定常状態に離散化し,遷移学習を伴う定常状態Navier-Stokes方程式を逐次解くことにより,Navier-Stokes方程式を解くためのPINNの新しいトレーニングフレームワークを提案する。 新たなトレーニングフレームワークはSeqPINNと呼ばれている。 SeqPINNの成功により、初期化として平均定性確率勾配降下(SGD)の概念を採用し、全タイムスタンプに対する並列トレーニング手法を提案する。 一般化した初期化を確実にするために、ガウス平均化確率的重みの概念を借用し、初期化の一般化可能性の指標として不確実性推定を行う。 SP-PINNと名付けられたこのアルゴリズムは、SeqPINNと同等の精度でPINNのトレーニングを高速化する。 SeqPINNとSP-PINNの性能を評価するために, 有限要素シミュレーションと単枝血管および三葉血管のファントムを用いた。 その結果,SeqPINN と SP-PINN はいずれも PINN の当初の設計よりはるかに高速であり,それぞれ1.1 cm/s と 1.26 cm/s のルート平均角誤差 (RMSEs) を直線血管で達成し,血流速度の回復時に3成分血管で 1.91 cm/s と 2.56 cm/s を達成できた。

Physics-informed Neural Network (PINN) is one of the most preeminent solvers of Navier-Stokes equations, which are widely used as the governing equation of blood flow. However, current approaches, relying on full Navier-Stokes equations, are impractical for ultrafast Doppler ultrasound, the state-of-the-art technique for depiction of complex blood flow dynamics \emph{in vivo} through acquired thousands of frames (or, timestamps) per second. In this article, we first propose a novel training framework of PINN for solving Navier-Stokes equations by discretizing Navier-Stokes equations into steady state and sequentially solving steady-state Navier-Stokes equations with transfer learning. The novel training framework is coined as SeqPINN. Upon the success of SeqPINN, we adopt the idea of averaged constant stochastic gradient descent (SGD) as initialization and propose a parallel training scheme for all timestamps. To ensure an initialization that generalizes well, we borrow the concept of Stochastic Weight Averaging Gaussian to perform uncertainty estimation as an indicator of generalizability of the initialization. This algorithm, named SP-PINN, further expedites training of PINN while achieving comparable accuracy with SeqPINN. Finite-element simulations and \emph{in vitro} phantoms of single-branch and trifurcate blood vessels are used to evaluate the performance of SeqPINN and SP-PINN. Results show that both SeqPINN and SP-PINN are manyfold faster than the original design of PINN, while respectively achieving Root Mean Square Errors (RMSEs) of 1.01 cm/s and 1.26 cm/s on the straight vessel and 1.91 cm/s and 2.56 cm/s on the trifurcate blood vessel when recovering blood flow velocities.
翻訳日:2023-09-12 16:38:21 公開日:2023-09-09
# 浅影を用いた変分量子アルゴリズムにおけるAnsatz-Agnostic Exponential Resourcesの削減

Ansatz-Agnostic Exponential Resource Saving in Variational Quantum Algorithms Using Shallow Shadows ( http://arxiv.org/abs/2309.04754v1 )

ライセンス: Link先を確認
Afrad Basheer, Yuan Feng, Christopher Ferrie, Sanjiang Li(参考訳) 変分量子アルゴリズム(VQA)は、化学シミュレーション、量子情報、機械学習における最適化タスクの解決における短期的な量子優位性の実証の候補として特定されている。 トレーニングの標準モデルは膨大な量の量子リソースを必要とするため、古典的な影を使って指数的に少ない量子リソースを消費する代替品を考案しました。 しかし、このアプローチは観測可能が局所的であり、アンザッツが浅い交互層アンザッツ (ALA) である場合にのみ有効であり、したがって理想状態がALAと近似できないような量子状態の準備のような問題の解決においてそのポテンシャルを著しく制限する。 本研究では,低フロベニウスノルムの観測可能量と組み合わせることで,文献で研究されるほぼすべての浅層アンザッツに対して,同様のレベルの貯蓄を実現する浅層影に基づくプロトコルを提案する。 VQAが強力な選択肢である量子情報、すなわち変分量子状態準備と変分量子回路合成の2つの重要な応用が、我々のプロトコルと互換性があることが示されている。 また,標準VQAモデルと比較して,大域的改善の順序を実験的に示す。

Variational Quantum Algorithms (VQA) have been identified as a promising candidate for the demonstration of near-term quantum advantage in solving optimization tasks in chemical simulation, quantum information, and machine learning. The standard model of training requires a significant amount of quantum resources, which led us to use classical shadows to devise an alternative that consumes exponentially fewer quantum resources. However, the approach only works when the observables are local and the ansatz is the shallow Alternating Layered Ansatz (ALA), thus severely limiting its potential in solving problems such as quantum state preparation, where the ideal state might not be approximable with an ALA. In this work, we present a protocol based on shallow shadows that achieves similar levels of savings for almost any shallow ansatz studied in the literature, when combined with observables of low Frobenius norm. We show that two important applications in quantum information for which VQAs can be a powerful option, namely variational quantum state preparation and variational quantum circuit synthesis, are compatible with our protocol. We also experimentally demonstrate orders of magnitude improvement in comparison to the standard VQA model.
翻訳日:2023-09-12 16:37:44 公開日:2023-09-09
# アンダーディスプレイカメラの深部映像復元

Deep Video Restoration for Under-Display Camera ( http://arxiv.org/abs/2309.04752v1 )

ライセンス: Link先を確認
Xuanxi Chen, Tao Wang, Ziqian Shao, Kaihao Zhang, Wenhan Luo, Tong Lu, Zikun Liu, Tae-Kyun Kim, Hongdong Li(参考訳) under-display camera (udc) で撮影された画像やビデオは飽和変性やカラーシフトなどの深刻な劣化に苦しむ。 UDCの修復は重要な課題であるが、既存のUDCの修復作業は画像のみに焦点を当てている。 UDCビデオ復元(UDC-VR)は、コミュニティでは行われていない。 本稿では,まず,実効的な直流劣化過程をシミュレートするgan型生成パイプラインを提案する。 このパイプラインでは,pexelsudc-t と pexelsudc-p という2つのサブセットと,udc の異なるディスプレイに対応する2つのサブセットを含む,pexelsudc という,最初の大規模udcビデオ復元データセットを構築した。 提案したデータセットを用いて,既存の映像復元手法の広範なベンチマークを行い,その限界をUDC-VRタスクで観測する。 そこで本研究では,劣化映像を適応的に高めるトランスベースライン手法を提案する。 この手法の鍵となる構成要素は、局所認識変換器を備えた空間分岐、時間分岐埋め込み時間変換器、時空間融合モジュールである。 これらのコンポーネントはモデルを駆動し、UDC-VRの空間的および時間的情報を完全に活用する。 本手法はPexelsUDC上での最先端性能を実現する。 ベンチマークとベースライン手法は,コミュニティにおけるUDC-VRの進展を促進することが期待されている。

Images or videos captured by the Under-Display Camera (UDC) suffer from severe degradation, such as saturation degeneration and color shift. While restoration for UDC has been a critical task, existing works of UDC restoration focus only on images. UDC video restoration (UDC-VR) has not been explored in the community. In this work, we first propose a GAN-based generation pipeline to simulate the realistic UDC degradation process. With the pipeline, we build the first large-scale UDC video restoration dataset called PexelsUDC, which includes two subsets named PexelsUDC-T and PexelsUDC-P corresponding to different displays for UDC. Using the proposed dataset, we conduct extensive benchmark studies on existing video restoration methods and observe their limitations on the UDC-VR task. To this end, we propose a novel transformer-based baseline method that adaptively enhances degraded videos. The key components of the method are a spatial branch with local-aware transformers, a temporal branch embedded temporal transformers, and a spatial-temporal fusion module. These components drive the model to fully exploit spatial and temporal information for UDC-VR. Extensive experiments show that our method achieves state-of-the-art performance on PexelsUDC. The benchmark and the baseline method are expected to promote the progress of UDC-VR in the community, which will be made public.
翻訳日:2023-09-12 16:37:21 公開日:2023-09-09
# 絡み合った光子分光のための光マイクロキャビティ

Optical microcavities as platforms for entangled photon spectroscopy ( http://arxiv.org/abs/2309.04751v1 )

ライセンス: Link先を確認
Ravyn Malatesta, Lorenzo Uboldi, Evan J. Kumar, Esteban Rojas-Gatjens, Luca Moretti, Andy Cruz, Vinod Menon, Giulio Cerullo, and Ajay Ram Srimath Kandada(参考訳) 光マイクロキャビティは、強い光とマターのカップリングのため、単光子系と数光子系の分光のプラットフォームとしてしばしば提案される。 古典光分光では、空のマイクロキャビティは単に光学フィルターとして機能する。 しかし、単一または少数光子状態において、空の微小キャビティを光学フィルタとして扱うと、送信された光子の量子状態に対する完全な効果が得られない。 絡み合った光子対分光法に着目し、光マイクロキャビティによる1つの光子の伝播が周波数-絡み合った光子対の接合スペクトルをどのように変化させるかを検討する。 ディッケモデルの入出力処理を用いて、ある結合しきい値を超える強い結合性マイクロキャビティによる伝播は、信号とアイドラー光子の間の絡み合いエントロピーを高めることを見出した。 これらの結果から,光マイクロキャビティは量子光分光の中立プラットフォームではなく,エントロピーの変化を観測可能なものとして用いる場合,その効果を慎重に検討する必要がある。

Optical microcavities are often proposed as platforms for spectroscopy in the single- and few-photon regime due to strong light-matter coupling. For classical-light spectroscopies, an empty microcavity simply acts as an optical filter. However, we find that in the single- or few-photon regime treating the empty microcavity as an optical filter does not capture the full effect on the quantum state of the transmitted photons. Focusing on the case of entangled photon-pair spectroscopy, we consider how the propagation of one photon through an optical microcavity changes the joint spectrum of a frequency-entangled photon pair. Using the input-output treatment of a Dicke model, we find that propagation through a strongly coupled microcavity above a certain coupling threshold enhances the entanglement entropy between the signal and idler photons. These results show that optical microcavities are not neutral platforms for quantum-light spectroscopies and their effects must be carefully considered when using change in entanglement entropy as an observable.
翻訳日:2023-09-12 16:36:59 公開日:2023-09-09
# ミラーアウェアニューラルヒューマン

Mirror-Aware Neural Humans ( http://arxiv.org/abs/2309.04750v1 )

ライセンス: Link先を確認
Daniel Ajisafe, James Tang, Shih-Yang Su, Bastian Wandt, Helge Rhodin(参考訳) 人間のモーションキャプチャはマルチカメラシステムを必要とするか、奥行きの曖昧さによる単一ビュー入力では信頼性が低い。 一方、鏡は都会の環境でも簡単に利用でき、1台のカメラで2つのビューを記録することで手頃な価格の代替手段となる。 しかし、ミラー設定は、リアル画像とミラー画像のオクルージョンを扱うための追加の課題となる。 3次元人間のポーズ推定のための既存のミラーアプローチを超えて、形状や濃密な外観を含む完全なボディモデルを学ぶためにミラーを利用する。 我々の主な貢献は、鏡の概念を含むように調音された神経放射場を拡張し、潜在的な閉塞領域に対して試料効率を高めることである。 そこで,本研究では,市販の2dポーズから開始した3dモーションキャプチャシステムを実現するために,カメラの自動調整,ミラー方向推定,およびミラーアウェアnrfの調整に用いられる3dスケルトンポーズへの2dキーポイント検出を行った。 我々は,身体モデル学習のメリットを実証的に実証し,難解なミラーシーンにおける隠蔽を考慮に入れた。

Human motion capture either requires multi-camera systems or is unreliable using single-view input due to depth ambiguities. Meanwhile, mirrors are readily available in urban environments and form an affordable alternative by recording two views with only a single camera. However, the mirror setting poses the additional challenge of handling occlusions of real and mirror image. Going beyond existing mirror approaches for 3D human pose estimation, we utilize mirrors for learning a complete body model, including shape and dense appearance. Our main contributions are extending articulated neural radiance fields to include a notion of a mirror, making it sample-efficient over potential occlusion regions. Together, our contributions realize a consumer-level 3D motion capture system that starts from off-the-shelf 2D poses by automatically calibrating the camera, estimating mirror orientation, and subsequently lifting 2D keypoint detections to 3D skeleton pose that is used to condition the mirror-aware NeRF. We empirically demonstrate the benefit of learning a body model and accounting for occlusion in challenging mirror scenes.
翻訳日:2023-09-12 16:36:41 公開日:2023-09-09
# 何を学ぶか:モデル適応型データ拡張カリキュラム

When to Learn What: Model-Adaptive Data Augmentation Curriculum ( http://arxiv.org/abs/2309.04747v1 )

ライセンス: Link先を確認
Chengkai Hou, Jieyu Zhang, Tianyi Zhou(参考訳) データ拡張(DA)は、入力データに適用された事前定義された変換に不変性と対称性を強制することにより、ニューラルネットワークの一般化を改善するために広く用いられている。 しかし, 定式化政策は, 異なる訓練段階における各試料に異なる効果を与える可能性があるが, 既存のアプローチでは各試料と訓練モデルに適応する政策を調整できない。 本稿では,モデル適応型データ拡張(madaug, model adaptive data enhancementation)を提案する。 以前の作業とは異なり、madaugはトレーニング段階によって異なるモデル適応ポリシーによって入力画像ごとに拡張演算子を選択し、より良い一般化のために最適化されたデータ拡張カリキュラムを生成する。 MADAugでは、ポリシー生成データ拡張を用いてトレーニングされたモデルの検証セット損失を最小限に抑えるために、二段階最適化方式を用いてポリシーを訓練する。 既存のDA手法と比較して,複数の画像分類タスクやネットワークアーキテクチャ上でMADAugを広範囲に評価する。 madaugは他のベースラインよりも優れており、より公平である。すべてのクラスに改善をもたらし、難しいクラスにも改善をもたらす。 さらに、MADAugの学習ポリシーは、きめ細かいデータセットに転送すると、より良いパフォーマンスを示す。 さらに、MADAugにおける自動最適化政策は、徐々に摂動の増大を導入し、自然に難しいカリキュラムを形成している。

Data augmentation (DA) is widely used to improve the generalization of neural networks by enforcing the invariances and symmetries to pre-defined transformations applied to input data. However, a fixed augmentation policy may have different effects on each sample in different training stages but existing approaches cannot adjust the policy to be adaptive to each sample and the training model. In this paper, we propose Model Adaptive Data Augmentation (MADAug) that jointly trains an augmentation policy network to teach the model when to learn what. Unlike previous work, MADAug selects augmentation operators for each input image by a model-adaptive policy varying between training stages, producing a data augmentation curriculum optimized for better generalization. In MADAug, we train the policy through a bi-level optimization scheme, which aims to minimize a validation-set loss of a model trained using the policy-produced data augmentations. We conduct an extensive evaluation of MADAug on multiple image classification tasks and network architectures with thorough comparisons to existing DA approaches. MADAug outperforms or is on par with other baselines and exhibits better fairness: it brings improvement to all classes and more to the difficult ones. Moreover, MADAug learned policy shows better performance when transferred to fine-grained datasets. In addition, the auto-optimized policy in MADAug gradually introduces increasing perturbations and naturally forms an easy-to-hard curriculum.
翻訳日:2023-09-12 16:36:24 公開日:2023-09-09
# ReLUネットワークにおける予測不確かさを改善するアフィン不変アンサンブル変換法

Affine Invariant Ensemble Transform Methods to Improve Predictive Uncertainty in ReLU Networks ( http://arxiv.org/abs/2309.04742v1 )

ライセンス: Link先を確認
Diksha Bhandari, Jakiw Pidstrigach, Sebastian Reich(参考訳) 本稿では,アンサンブルカルマンフィルタの適切な拡張を用いて,ロジスティック回帰に対するベイズ推定を行う問題を考える。 2つの相互作用する粒子系は、近似的な後方からサンプルを抽出し、粒子の数が無限になるにつれて、相互作用する粒子系の量的収束率を平均場限界まで証明することを提案している。 さらに,これらの手法を適用し,ReLUネットワークにおける予測不確実性を定量化するためのベイズ近似の手法としての有効性を検討する。

We consider the problem of performing Bayesian inference for logistic regression using appropriate extensions of the ensemble Kalman filter. Two interacting particle systems are proposed that sample from an approximate posterior and prove quantitative convergence rates of these interacting particle systems to their mean-field limit as the number of particles tends to infinity. Furthermore, we apply these techniques and examine their effectiveness as methods of Bayesian approximation for quantifying predictive uncertainty in ReLU networks.
翻訳日:2023-09-12 16:36:03 公開日:2023-09-09
# 会話型AIのためのデータ拡張

Data Augmentation for Conversational AI ( http://arxiv.org/abs/2309.04739v1 )

ライセンス: Link先を確認
Heydar Soudani, Evangelos Kanoulas and Faegheh Hasibi(参考訳) 会話システムの進歩は情報アクセスに革命をもたらし、単一のクエリの制限を超えた。 しかし、対話システムの開発には大量のトレーニングデータが必要であるため、低リソースのドメインや言語では困難である。 クラウドソーシングのような従来のデータ収集手法は、労働集約的で時間を要するため、この文脈では効果がない。 データ拡張 (da) は会話システムにおけるデータ不足問題を解決するための感情的なアプローチである。 このチュートリアルは、会話システムのコンテキストにおけるDAアプローチの包括的で最新の概要を提供する。 会話強化、オープンドメインとタスク指向の会話生成、およびこれらのモデルを評価するための異なるパラダイムの最近の進歩を強調している。 我々はまた、研究者や実践者がこの分野のさらなる発展を支援するために、現在の課題と今後の方向性についても論じる。

Advancements in conversational systems have revolutionized information access, surpassing the limitations of single queries. However, developing dialogue systems requires a large amount of training data, which is a challenge in low-resource domains and languages. Traditional data collection methods like crowd-sourcing are labor-intensive and time-consuming, making them ineffective in this context. Data augmentation (DA) is an affective approach to alleviate the data scarcity problem in conversational systems. This tutorial provides a comprehensive and up-to-date overview of DA approaches in the context of conversational systems. It highlights recent advances in conversation augmentation, open domain and task-oriented conversation generation, and different paradigms of evaluating these models. We also discuss current challenges and future directions in order to help researchers and practitioners to further advance the field in this area.
翻訳日:2023-09-12 16:35:53 公開日:2023-09-09
# RRCNN$^{+}$:非定常信号分解のためのResidual Recursive Convolutional Neural Networkの拡張

RRCNN$^{+}$: An Enhanced Residual Recursive Convolutional Neural Network for Non-stationary Signal Decomposition ( http://arxiv.org/abs/2309.04782v1 )

ライセンス: Link先を確認
Feng Zhou, Antonio Cicone, Haomin Zhou(参考訳) 時間周波数分析は多くのアプリケーションにおいて重要かつ困難な課題である。 フーリエ解析とウェーブレット解析は、多くの分野で顕著な成功を収めた2つの古典的な手法である。 また、非線形信号や非定常信号にも適用できる。 この課題に対処するために,経験的モード分解法による非線形適応法が提案されている。 彼らの目標は、非定常信号を準定常成分に分解し、時間周波数分析のより良い特徴を明らかにすることである。 近年,深層学習に触発され,残余再帰的畳み込みニューラルネットワーク(rrcnn)と呼ばれる新しい手法が提案されている。 rrcnnは、計算コストの低い大規模信号をバッチ処理しながら、既存の方法よりも安定した分解を実現するだけでなく、非定常信号分解に対するユニークな視点を提供する。 本研究では,本手法の限界を克服するために,深層学習や最適化といったニムブル手法を駆使して,rrcnnをさらに改善することを目指している。

Time-frequency analysis is an important and challenging task in many applications. Fourier and wavelet analysis are two classic methods that have achieved remarkable success in many fields. They also exhibit limitations when applied to nonlinear and non-stationary signals. To address this challenge, a series of nonlinear and adaptive methods, pioneered by the empirical mode decomposition method have been proposed. Their aim is to decompose a non-stationary signal into quasi-stationary components which reveal better features in the time-frequency analysis. Recently, inspired by deep learning, we proposed a novel method called residual recursive convolutional neural network (RRCNN). Not only RRCNN can achieve more stable decomposition than existing methods while batch processing large-scale signals with low computational cost, but also deep learning provides a unique perspective for non-stationary signal decomposition. In this study, we aim to further improve RRCNN with the help of several nimble techniques from deep learning and optimization to ameliorate the method and overcome some of the limitations of this technique.
翻訳日:2023-09-12 16:29:53 公開日:2023-09-09
# 光子対生成のための金属-有機系の第一原理スクリーニング

First-Principles Screening of Metal-Organic Frameworks for Entangled Photon Pair Generation ( http://arxiv.org/abs/2309.04781v1 )

ライセンス: Link先を確認
Sanoj Raj, Sim\'on Paiva, Rub\'en Fritz, Felipe Herrera and Yamil J. Col\'on(参考訳) 非線形光学材料における強いレーザー光の透過は、様々な自由度で量子絡み合う出力光子源を生成することができ、このプロセスは光量子技術において根本的に重要なツールとなる。 しかし, 量子センシング, 通信, 計算における次世代プロトコルの実装の見通しを低下させるため, 絡み合った光発生のための効率的な光学結晶の利用可能性は, 多様性の面で著しく制限されている。 そこで本研究では, 自発的パラメトリック・ダウンコンバージョン(spdc)により効率的に絡み合う光を発生できる金属-有機フレームワーク(mof)材料に基づく新しい非線形光学素子の計算的発見のための, マルチスケール第一原理モデリング手法を開発し, 実装した。 共線形縮退型i型spdをケーススタディとして114,373個のmof材料を合成し,光子対の輝度・コヒーレンス特性とmofの構造と化学組成の相関関係を確立する。 結合時間$\tau_c\sim 10-30$ fs とペア生成率$10^4-10^{8}$ s$^{-1}$mw$^{-1}$mm$^{-1}$mm$^{-1}$ 1064 nm のエンタングル光子対を生成する化学および光学安定性の高い49の非中心対称モノリガンドmof結晶のサブセットを同定した。 それぞれのMOFに対して最適なI型位相整合条件が与えられ、ペア輝度、結晶バンドギャップ、光複屈折の関係が議論される。 結晶の光学的性質とそれらの構成分子リガンドとの相関も与えられる。 我々の研究は、光学量子技術のためのMOFベースのデバイスの計算設計の道を開くものである。

The transmission of strong laser light in nonlinear optical materials can generate output photons sources that carry quantum entanglement in multiple degrees of freedom, making this process a fundamentally important tool in optical quantum technology. However, the availability of efficient optical crystals for entangled light generation is severely limited in terms of diversity, thus reducing the prospects for the implementation of next-generation protocols in quantum sensing, communication and computing. To overcome this, we developed and implemented a multi-scale first-principles modeling technique for the computational discovery of novel nonlinear optical devices based on metal-organic framework (MOF) materials that can efficiently generate entangled light via spontaneous parametric down-conversion(SPDC). Using collinear degenerate type-I SPDC as a case study, we computationally screen a database of 114,373 synthesized MOF materials to establish correlations between the structure and chemical composition of MOFs with the brightness and coherence properties of entangled photon pairs. We identify a subset of 49 non-centrosymmetric mono-ligand MOF crystals with high chemical and optical stability that produce entangled photon pairs with intrinsic $G^{(2)}$ correlation times $\tau_c\sim 10-30$ fs and pair generation rates in the range $10^4-10^{8}$ s$^{-1}$mW$^{-1}$mm$^{-1}$ at 1064 nm. Conditions for optimal type-I phase matching are given for each MOF and relationships between pair brightness, crystal band gap and optical birefringence are discussed. Correlations between the optical properties of crystals and their constituent molecular ligands are also given. Our work paves the way for the computational design of MOF-based devices for optical quantum technology.
翻訳日:2023-09-12 16:29:35 公開日:2023-09-09
# 単一画像参照に対する潜在劣化表現制約

Latent Degradation Representation Constraint for Single Image Deraining ( http://arxiv.org/abs/2309.04780v1 )

ライセンス: Link先を確認
Yuhong He, Long Peng, Lu Wang, Jun Cheng(参考訳) 雨片は様々な形状や方向を示すため、劣化表現の学習は単一の画像参照において極めて困難である。 既存の手法は主に複雑なモジュールの設計を目的としており、雨画像から潜在劣化表現を暗黙的に学習している。 このように、明示的な制約の欠如により、コンテンツ非依存の劣化表現を分離することは困難であり、結果として過度あるいは過小評価の問題が発生する。 そこで本稿では,DAEncoder(Direction-Aware Encoder),UNet Deraining Network(UNet Deraining Network),Multi-Scale Interaction Block(MSIBlock)からなるLDRCNet(Latent Degradation Representation Constraint Network)を提案する。 具体的には, 変形可能な畳み込みを用いて降雨の方向の整合性を利用して, 遅延劣化表現を適応的に抽出するDAEncoderを提案する。 次に、トレーニング中の劣化表現学習を明示的に制約するために制約損失を導入する。 最後に,情報伝達を適応的に行うために,情報伝達ネットワークの学習した劣化表現とデコーダ特徴を融合させるmsiブロックを提案する。 合成および実データを用いた実験結果から,本手法が新たな最先端性能を実現することを示す。

Since rain streaks show a variety of shapes and directions, learning the degradation representation is extremely challenging for single image deraining. Existing methods are mainly targeted at designing complicated modules to implicitly learn latent degradation representation from coupled rainy images. This way, it is hard to decouple the content-independent degradation representation due to the lack of explicit constraint, resulting in over- or under-enhancement problems. To tackle this issue, we propose a novel Latent Degradation Representation Constraint Network (LDRCNet) that consists of Direction-Aware Encoder (DAEncoder), UNet Deraining Network, and Multi-Scale Interaction Block (MSIBlock). Specifically, the DAEncoder is proposed to adaptively extract latent degradation representation by using the deformable convolutions to exploit the direction consistency of rain streaks. Next, a constraint loss is introduced to explicitly constraint the degradation representation learning during training. Last, we propose an MSIBlock to fuse with the learned degradation representation and decoder features of the deraining network for adaptive information interaction, which enables the deraining network to remove various complicated rainy patterns and reconstruct image details. Experimental results on synthetic and real datasets demonstrate that our method achieves new state-of-the-art performance.
翻訳日:2023-09-12 16:28:57 公開日:2023-09-09
# パラメトリック脆弱性低減によるロバストモデル透かし

Towards Robust Model Watermark via Reducing Parametric Vulnerability ( http://arxiv.org/abs/2309.04777v1 )

ライセンス: Link先を確認
Guanhao Gan, Yiming Li, Dongxian Wu and Shu-Tao Xia(参考訳) ディープニューラルネットワークは、その商業的利益とコストのかかるアノテーションと計算リソースに対する巨大な要求を考慮して、貴重な資産である。 DNNの著作権を保護するため、最近、モデル所有者が特定のバックドア動作を埋め込んでモデルをウォーターマークできるバックドアベースのオーナシップ検証が普及している。 ディフェンダー(通常はモデル所有者)は、不審なサードパーティモデルが振る舞いの存在に基づいて'stolen'であるかどうかを識別することができる。 残念ながら、これらの透かしは微調整のように除去攻撃に弱いことが証明されている。 この脆弱性をさらに調査するため、パラメータ空間を調査し、ウォーターマークのあるモデルの近くに多くのウォーターマーク削除モデルが存在することを発見した。 この発見に触発されて,これらの透かし除去モデルを見つけ,透かしの挙動を回復するためのミニマックス定式化を提案する。 広範な実験により,パラメトリック変化や多数のウォーターマーク除去攻撃に対するモデルウォーターマーキングのロバスト性が向上することを示した。 主な実験を再現するためのコードは、 \url{https://github.com/guanhaogan/robust-model-watermarking}で利用可能です。

Deep neural networks are valuable assets considering their commercial benefits and huge demands for costly annotation and computation resources. To protect the copyright of DNNs, backdoor-based ownership verification becomes popular recently, in which the model owner can watermark the model by embedding a specific backdoor behavior before releasing it. The defenders (usually the model owners) can identify whether a suspicious third-party model is ``stolen'' from them based on the presence of the behavior. Unfortunately, these watermarks are proven to be vulnerable to removal attacks even like fine-tuning. To further explore this vulnerability, we investigate the parameter space and find there exist many watermark-removed models in the vicinity of the watermarked one, which may be easily used by removal attacks. Inspired by this finding, we propose a mini-max formulation to find these watermark-removed models and recover their watermark behavior. Extensive experiments demonstrate that our method improves the robustness of the model watermarking against parametric changes and numerous watermark-removal attacks. The codes for reproducing our main experiments are available at \url{https://github.com/GuanhaoGan/robust-model-watermarking}.
翻訳日:2023-09-12 16:28:29 公開日:2023-09-09
# 不規則可解テンソルネットワーク状態の相関

Correlations in Disordered Solvable Tensor Network States ( http://arxiv.org/abs/2309.04776v1 )

ライセンス: Link先を確認
Daniel Haag, Richard M. Milbradt, Christian B. Mendl(参考訳) 可解行列積と射影絡み合ったペア状態は、双対および三次単位量子回路によって進化し、解析的にアクセス可能な相関関数を持つ。 ここでは障害の影響について検討する。 具体的には、単位群上のハール測度から生じるランダム乱れ可解テンソルネットワーク状態に対して、物理的に動機付けられた2点等時相関関数の平均挙動を計算する。 Weingarten 計算を用いることで、相関関数の $k$th モーメントの平均に対して正確な解析式を提供する。 表現の複雑さは$kでスケールします! 基礎となるテンソルネットワーク状態の複雑さとは独立している。 その結果,相関関数は平均で消失するが,共分散は0。

Solvable matrix product and projected entangled pair states evolved by dual and ternary-unitary quantum circuits have analytically accessible correlation functions. Here, we investigate the influence of disorder. Specifically, we compute the average behavior of a physically motivated two-point equal-time correlation function with respect to random disordered solvable tensor network states arising from the Haar measure on the unitary group. By employing the Weingarten calculus, we provide an exact analytical expression for the average of the $k$th moment of the correlation function. The complexity of the expression scales with $k!$ and is independent of the complexity of the underlying tensor network state. Our result implies that the correlation function vanishes on average, while its covariance is nonzero.
翻訳日:2023-09-12 16:28:10 公開日:2023-09-09
# 多言語基盤モデルのためのSeaEval:言語横断的アライメントから文化的推論へ

SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning ( http://arxiv.org/abs/2309.04766v1 )

ライセンス: Link先を確認
Bin Wang, Zhengyuan Liu, Xin Huang, Fangkai Jiao, Yang Ding, Ai Ti Aw, Nancy F. Chen(参考訳) マルチ言語基盤モデルのベンチマークであるSeaEvalを紹介する。 これらのモデルが自然言語をどのように理解し、理由づけしているかを特徴づけるだけでなく、文化の実践やニュアンス、価値観をいかに理解しているかも調べる。 標準的な精度指標とともに,意味論と多言語性の次元における基礎モデルの脆さについて検討する。 我々の分析は、オープンソースのモデルとクローズドモデルの両方にまたがっており、古典的なNLPタスク、推論、文化的理解に経験的な結果をもたらす。 主要な知見は,(1)言い換え指示が与えられた場合,ほとんどのモデルは様々な行動を示す。 2)多くのモデルはまだ露出バイアス(位置バイアス、ラベルバイアスなど)に苦しんでいる。 3) 事実,科学的,常識的知識に根ざした質問に対しては,意味論的に等価な多言語クエリに対して一貫した応答が期待できる。 しかし、ほとんどのモデルは、これらのクエリで驚くほど不整合性能を示している。 (4)多言語学習モデルでは「バランスの取れた多言語」能力は得られていない。 我々の取り組みは、より一般化可能な意味表現と拡張された多言語文脈化の必要性を強調している。 SeaEvalは、多言語および多文化シナリオに対するより徹底的な調査と評価のための発射台として機能する。

We present SeaEval, a benchmark for multilingual foundation models. In addition to characterizing how these models understand and reason with natural language, we also investigate how well they comprehend cultural practices, nuances, and values. Alongside standard accuracy metrics, we investigate the brittleness of foundation models in the dimensions of semantics and multilinguality. Our analyses span both open-sourced and closed models, leading to empirical results across classic NLP tasks, reasoning, and cultural comprehension. Key findings indicate (1) Most models exhibit varied behavior when given paraphrased instructions. (2) Many models still suffer from exposure bias (e.g., positional bias, majority label bias). (3) For questions rooted in factual, scientific, and commonsense knowledge, consistent responses are expected across multilingual queries that are semantically equivalent. Yet, most models surprisingly demonstrate inconsistent performance on these queries. (4) Multilingually-trained models have not attained "balanced multilingual" capabilities. Our endeavors underscore the need for more generalizable semantic representations and enhanced multilingual contextualization. SeaEval can serve as a launchpad for more thorough investigations and evaluations for multilingual and multicultural scenarios.
翻訳日:2023-09-12 16:28:00 公開日:2023-09-09
# 循環医療における視覚材料特性学習

Visual Material Characteristics Learning for Circular Healthcare ( http://arxiv.org/abs/2309.04763v1 )

ライセンス: Link先を確認
Federico Zocco and Shahin Rahimifard(参考訳) 従来の経済基盤におけるリニア・テイク・メイク・ディスポージ・パラダイムは、廃棄物汚染や物質供給の不確実性のために持続不可能であることが証明されている。 そのため、物質流の循環性を高める必要がある。 本稿では, 資源マッピング, 定量化, 廃棄物ソート, 解体という3つの主要な循環経済課題を対象とする視覚システムを開発することにより, 循環医療への一歩を踏み出した。 システムの性能は,汚染リスクによる自律システムが鍵となるリカバリチェーンを,表現学習のビジョンが改善することを示す。 また,画像分割のための完全注釈付きデータセットと,吸入器とグルコース計の分解操作におけるキーポイント追跡データセットを2つ公開した。 データセットとソースコードは公開されている。

The linear take-make-dispose paradigm at the foundations of our traditional economy is proving to be unsustainable due to waste pollution and material supply uncertainties. Hence, increasing the circularity of material flows is necessary. In this paper, we make a step towards circular healthcare by developing several vision systems targeting three main circular economy tasks: resources mapping and quantification, waste sorting, and disassembly. The performance of our systems demonstrates that representation-learning vision can improve the recovery chain, where autonomous systems are key enablers due to the contamination risks. We also published two fully-annotated datasets for image segmentation and for key-point tracking in disassembly operations of inhalers and glucose meters. The datasets and source code are publicly available.
翻訳日:2023-09-12 16:27:43 公開日:2023-09-09
# AudRandAug: オーディオ分類のためのランダム画像拡張

AudRandAug: Random Image Augmentations for Audio Classification ( http://arxiv.org/abs/2309.04762v1 )

ライセンス: Link先を確認
Teerath Kumar, Muhammad Turab, Alessandra Mileo, Malika Bendechache and Takfarinas Saber(参考訳) データ拡張はニューラルネットワークのトレーニングに有効であることが証明されている。 近年,前述した検索空間からランダムにデータ拡張手法を選択するrandaug法が提案されている。 RandAugは、最小の計算オーバーヘッドを伴いながら、画像関連タスクのパフォーマンスを大幅に改善した。 しかし、オーディオをイメージライクなパターンに変換するオーディオデータ拡張に特化したrandaugの応用について、これまでの研究は行われていない。 このギャップに対処するために、オーディオデータに対するRandAugの適応であるAudRandAugを紹介する。 AudRandAugは専用の音声検索空間からデータ拡張ポリシーを選択する。 AudRandAugの有効性を評価するために,様々なモデルとデータセットを用いて実験を行った。 以上の結果から,AudRandAugは既存のデータ拡張手法よりも精度が高いことがわかった。

Data augmentation has proven to be effective in training neural networks. Recently, a method called RandAug was proposed, randomly selecting data augmentation techniques from a predefined search space. RandAug has demonstrated significant performance improvements for image-related tasks while imposing minimal computational overhead. However, no prior research has explored the application of RandAug specifically for audio data augmentation, which converts audio into an image-like pattern. To address this gap, we introduce AudRandAug, an adaptation of RandAug for audio data. AudRandAug selects data augmentation policies from a dedicated audio search space. To evaluate the effectiveness of AudRandAug, we conducted experiments using various models and datasets. Our findings indicate that AudRandAug outperforms other existing data augmentation methods regarding accuracy performance.
翻訳日:2023-09-12 16:27:29 公開日:2023-09-09
# 教育データマイニングにおけるディープラーニング技術に関する包括的調査

A Comprehensive Survey on Deep Learning Techniques in Educational Data Mining ( http://arxiv.org/abs/2309.04761v1 )

ライセンス: Link先を確認
Yuanguo Lin, Hong Chen, Wei Xia, Fan Lin, Pengcheng Wu, Zongyue Wang, Yong Li(参考訳) 教育データマイニング(edm: educational data mining)は、計算技術の力を活用し、教育データを分析する重要な研究分野である。 教育データの複雑さと多様性が高まる中、ディープラーニング技術は、データの解析とモデリングに関連する課題に対処する上で、大きなアドバンテージを示している。 この調査は、Deep LearningによるEDMの現状を体系的にレビューすることを目的としている。 まず、EDMとDeep Learningの簡単な紹介から始め、現代の教育の文脈におけるそれらの関連性を強調します。 次に、知識追跡、望ましくない学生検出、性能予測、パーソナライズドレコメンデーションを含む4つの典型的な教育シナリオに適用されるディープラーニング技術について、詳細なレビューを行う。 さらに、EDMのための公開データセットと処理ツールの概要を概観する。 最後に,本研究領域における新たな動向と今後の方向性を指摘する。

Educational Data Mining (EDM) has emerged as a vital field of research, which harnesses the power of computational techniques to analyze educational data. With the increasing complexity and diversity of educational data, Deep Learning techniques have shown significant advantages in addressing the challenges associated with analyzing and modeling this data. This survey aims to systematically review the state-of-the-art in EDM with Deep Learning. We begin by providing a brief introduction to EDM and Deep Learning, highlighting their relevance in the context of modern education. Next, we present a detailed review of Deep Learning techniques applied in four typical educational scenarios, including knowledge tracing, undesirable student detecting, performance prediction, and personalized recommendation. Furthermore, a comprehensive overview of public datasets and processing tools for EDM is provided. Finally, we point out emerging trends and future directions in this research area.
翻訳日:2023-09-12 16:27:19 公開日:2023-09-09
# RR-CP:信頼できる医用画像分類のための信頼度に基づくコンフォーマル予測

RR-CP: Reliable-Region-Based Conformal Prediction for Trustworthy Medical Image Classification ( http://arxiv.org/abs/2309.04760v1 )

ライセンス: Link先を確認
Yizhe Zhang, Shuo Wang, Yejia Zhang, Danny Z. Chen(参考訳) 整形予測(CP)は、与えられたテストサンプルに対して、予測セットがほぼ常に真のラベル(例えば、時間の99.5\%)を含むような一連の予測を生成する。 CP は与えられたテストサンプルのラベルを包括的に予測し、その集合のサイズは、その予測がどの程度あるかを示す(例えば、1より大きい集合が '不確か' である)。 このようなCPの特徴は、ヒトの専門家と医療AIモデルとの効果的なコラボレーションを可能にし、臨床意思決定における効果的な介入と品質チェックを可能にする。 本稿では,ユーザが特定したエラー率(0.5 %)をテスト時間内に達成し,その制約下では,予測セットのサイズを最適化(小さくする)できるように,より強力な統計的保証を課すことを目的とした,Reliable-Region-Based Conformal Prediction (RR-CP)と呼ばれる新しい手法を提案する。 ユーザが特定したエラー率を達成する場合に限って、小さな予測セットのサイズを重要な尺度とみなす。 5つの公開データセットの実験では、我々のRR-CPは、合理的に小さな予測セットで、ユーザが指定したエラー率(例:0.5\%)をCPメソッドを終了するよりもはるかに頻繁に達成する。

Conformal prediction (CP) generates a set of predictions for a given test sample such that the prediction set almost always contains the true label (e.g., 99.5\% of the time). CP provides comprehensive predictions on possible labels of a given test sample, and the size of the set indicates how certain the predictions are (e.g., a set larger than one is `uncertain'). Such distinct properties of CP enable effective collaborations between human experts and medical AI models, allowing efficient intervention and quality check in clinical decision-making. In this paper, we propose a new method called Reliable-Region-Based Conformal Prediction (RR-CP), which aims to impose a stronger statistical guarantee so that the user-specified error rate (e.g., 0.5\%) can be achieved in the test time, and under this constraint, the size of the prediction set is optimized (to be small). We consider a small prediction set size an important measure only when the user-specified error rate is achieved. Experiments on five public datasets show that our RR-CP performs well: with a reasonably small-sized prediction set, it achieves the user-specified error rate (e.g., 0.5\%) significantly more frequently than exiting CP methods.
翻訳日:2023-09-12 16:27:07 公開日:2023-09-09
# リアルタイムバースト画像スーパーリゾリューションを目指して:ベンチマークと方法

Towards Real-World Burst Image Super-Resolution: Benchmark and Method ( http://arxiv.org/abs/2309.04803v1 )

ライセンス: Link先を確認
Pengxu Wei and Yujing Sun and Xingbei Guo and Chang Liu and Jie Chen and Xiangyang Ji and Liang Lin(参考訳) 大幅な進歩にもかかわらず、シングルイメージ超解像(SISR)は、特に現実的なシナリオにおいて、1つの入力画像から限られた情報で高品質な画像を再構成するジレンマ状態にある。 本稿では,複数のフレームから画像の詳細を忠実に再構成する大規模リアルタイムバースト超解像データセットであるRealBSRを確立する。 さらに,fbanet (federated burst affinity network) を導入し,実世界の画像劣化における画像間の非自明な画素方向の変位について検討する。 具体的には、画素のアライメントではなく、構造幾何学的側面からの単純なホモグラフィアライメントとフェデレート親和性融合(FAF)戦略を用いて、フレーム間の補完情報を集約する。 これらの融合した情報表現は、バースト表現デコーディングのTransformerベースのモジュールに送られる。 また,RealBSR-RAWとRealBSR-RGBの2種類のデータセットについて広範な実験を行った。 実験の結果,fbanet は既存のburst sr 法よりも優れており,モデル詳細によるsr画像予測も可能であった。 私たちのデータセット、コード、モデルはhttps://github.com/yjsunnn/fbanetで公開されている。

Despite substantial advances, single-image super-resolution (SISR) is always in a dilemma to reconstruct high-quality images with limited information from one input image, especially in realistic scenarios. In this paper, we establish a large-scale real-world burst super-resolution dataset, i.e., RealBSR, to explore the faithful reconstruction of image details from multiple frames. Furthermore, we introduce a Federated Burst Affinity network (FBAnet) to investigate non-trivial pixel-wise displacements among images under real-world image degradation. Specifically, rather than using pixel-wise alignment, our FBAnet employs a simple homography alignment from a structural geometry aspect and a Federated Affinity Fusion (FAF) strategy to aggregate the complementary information among frames. Those fused informative representations are fed to a Transformer-based module of burst representation decoding. Besides, we have conducted extensive experiments on two versions of our datasets, i.e., RealBSR-RAW and RealBSR-RGB. Experimental results demonstrate that our FBAnet outperforms existing state-of-the-art burst SR methods and also achieves visually-pleasant SR image predictions with model details. Our dataset, codes, and models are publicly available at https://github.com/yjsunnn/FBANet.
翻訳日:2023-09-12 16:19:03 公開日:2023-09-09
# CPMR: Pseudo-Multi-Task Learning を用いた文脈対応インクリメンタルシークエンシャルレコメンデーション

CPMR: Context-Aware Incremental Sequential Recommendation with Pseudo-Multi-Task Learning ( http://arxiv.org/abs/2309.04802v1 )

ライセンス: Link先を確認
Qingtian Bian, Jiaxing Xu, Hui Fang, Yiping Ke(参考訳) ユーザによるインタラクションのモチベーションは、静的な好みと動的関心に分けることができる。 ユーザの表現を時間とともに正確にモデル化するために,近年の逐次的な推奨研究は,到着するインタラクションのバッチから情報伝達と進化を利用する。 しかし、人々は文脈シナリオにおける他のユーザの最近の行動に影響を受けやすいという事実を無視し、すべての歴史的相互作用に進化を適用することは、最近のものの重要性を弱め、ダイナミックな関心の進化を正確にモデル化できない。 この問題を解決するために,静的埋め込み,時間的時間的状態,文脈的時間的状態の3つの表現を作成することで,歴史的・文脈的シナリオの進化をモデル化するコンテキスト認識型Pseudo-Multi-Task Recommender System (CPMR)を提案する。 時間的状態の進化と漸進的レコメンデーションのパフォーマンスを両立させるため,逐次的単目標レコメンデーションを1つのマルチターゲットタスクに積み重ねることで,疑似マルチタスク学習(pmtl)パラダイムを設計する。 PMTLパラダイム内では、CPMRは共有ボットネットワークを使用して、歴史的、文脈的なシナリオをまたいだ時間的状態の進化と、それらの融合をユーザ・イテムレベルで行う。 さらにCPMRは、インクリメンタルな予測のために1つの実際の塔と、新しい相互作用のバッチに基づいてそれぞれの時間状態を更新する2つの擬似塔を組み込んでいる。 4つのベンチマークレコメンデーションデータセットの実験結果から、CPMRは最先端のベースラインを一貫して上回り、3つのベースラインで大幅に向上している。 コードはhttps://github.com/dimarziobian/cpmr。

The motivations of users to make interactions can be divided into static preference and dynamic interest. To accurately model user representations over time, recent studies in sequential recommendation utilize information propagation and evolution to mine from batches of arriving interactions. However, they ignore the fact that people are easily influenced by the recent actions of other users in the contextual scenario, and applying evolution across all historical interactions dilutes the importance of recent ones, thus failing to model the evolution of dynamic interest accurately. To address this issue, we propose a Context-Aware Pseudo-Multi-Task Recommender System (CPMR) to model the evolution in both historical and contextual scenarios by creating three representations for each user and item under different dynamics: static embedding, historical temporal states, and contextual temporal states. To dually improve the performance of temporal states evolution and incremental recommendation, we design a Pseudo-Multi-Task Learning (PMTL) paradigm by stacking the incremental single-target recommendations into one multi-target task for joint optimization. Within the PMTL paradigm, CPMR employs a shared-bottom network to conduct the evolution of temporal states across historical and contextual scenarios, as well as the fusion of them at the user-item level. In addition, CPMR incorporates one real tower for incremental predictions, and two pseudo towers dedicated to updating the respective temporal states based on new batches of interactions. Experimental results on four benchmark recommendation datasets show that CPMR consistently outperforms state-of-the-art baselines and achieves significant gains on three of them. The code is available at: https://github.com/DiMarzioBian/CPMR.
翻訳日:2023-09-12 16:18:40 公開日:2023-09-09
# TMComposites: 特殊なTsetlinマシン間のプラグインとプレイのコラボレーション

TMComposites: Plug-and-Play Collaboration Between Specialized Tsetlin Machines ( http://arxiv.org/abs/2309.04801v1 )

ライセンス: Link先を確認
Ole-Christoffer Granmo(参考訳) Tsetlin Machines (TM) は算術ベースから論理ベースの機械学習への根本的なシフトを提供する。 畳み込みをサポートするため、MNIST、Fashion-MNIST、CIFAR-2などの画像分類データセットにうまく対応している。 しかし、TMはCIFAR-10とCIFAR-100で最先端の性能を得るのに苦労し、より複雑なタスクを表現した。 本稿では、TMコンポジットと呼ばれる特殊なTM間のプラグアンドプレイコラボレーションを紹介する。 このコラボレーションは、学習中に専門化し、推論中にその能力を評価するTMの能力に依存している。 チームを組むとき、最も自信のあるtmsが決定を下し、不確かさを軽減します。 このようにして、TMコンポジットはメンバーよりも有能になり、その特殊化の恩恵を受ける。 コラボレーションはプラグイン・アンド・プレイであり、メンバーはいつでも微調整なしで任意の方法で組み合わせることができる。 我々は,グラデーションのヒストグラム,適応ガウスしきい値,色温度計の3つのtm特殊化を実装した。 その結果, Fashion-MNIST の精度は CIFAR-10 の12点, CIFAR-100 の9点に向上し, TM の最先端結果が得られた。 全体として、TMコンポジットは、より多くのタスクやデータセットに関する最先端のディープラーニングに対して、超低エネルギーで透明な代替手段を可能にすると期待しています。

Tsetlin Machines (TMs) provide a fundamental shift from arithmetic-based to logic-based machine learning. Supporting convolution, they deal successfully with image classification datasets like MNIST, Fashion-MNIST, and CIFAR-2. However, the TM struggles with getting state-of-the-art performance on CIFAR-10 and CIFAR-100, representing more complex tasks. This paper introduces plug-and-play collaboration between specialized TMs, referred to as TM Composites. The collaboration relies on a TM's ability to specialize during learning and to assess its competence during inference. When teaming up, the most confident TMs make the decisions, relieving the uncertain ones. In this manner, a TM Composite becomes more competent than its members, benefiting from their specializations. The collaboration is plug-and-play in that members can be combined in any way, at any time, without fine-tuning. We implement three TM specializations in our empirical evaluation: Histogram of Gradients, Adaptive Gaussian Thresholding, and Color Thermometers. The resulting TM Composite increases accuracy on Fashion-MNIST by two percentage points, CIFAR-10 by twelve points, and CIFAR-100 by nine points, yielding new state-of-the-art results for TMs. Overall, we envision that TM Composites will enable an ultra-low energy and transparent alternative to state-of-the-art deep learning on more tasks and datasets.
翻訳日:2023-09-12 16:18:04 公開日:2023-09-09
# VeRi3D:3次元制御可能な人体画像合成のための生成頂点ベース放射場

VeRi3D: Generative Vertex-based Radiance Fields for 3D Controllable Human Image Synthesis ( http://arxiv.org/abs/2309.04800v1 )

ライセンス: Link先を確認
Xinya Chen, Jiaxin Huang, Yanrui Bin, Lu Yu, and Yiyi Liao(参考訳) 近年,3次元認識型生成敵ネットワークの教師なし学習が進展している。 最近の研究は、ニューラルネットワークによる放射能場を用いた人間の生成モデル学習の有望な結果を示しているが、その一般化能力と、パラメトリックな人間のモデルの背後にある制御可能性の遅れは、新しいポーズ/形状への一般化ではうまく機能せず、部分制御不能である。 これらの問題を解決するために,パラメトリックな人体テンプレートSMPLの頂点によってパラメータ化された生成ヒト頂点系放射界であるVeRi3Dを提案する。 各3次元点を隣接する頂点上で定義された局所座標系にマッピングし、対応する頂点特徴と局所座標を用いて色と密度の値にマッピングする。 提案手法は, カメラのポーズ, 人間のポーズ, 形状を自由に制御し, 部分レベルの編集を可能にするとともに, フォトリアリスティックな人間像を生成できることを実証する。

Unsupervised learning of 3D-aware generative adversarial networks has lately made much progress. Some recent work demonstrates promising results of learning human generative models using neural articulated radiance fields, yet their generalization ability and controllability lag behind parametric human models, i.e., they do not perform well when generalizing to novel pose/shape and are not part controllable. To solve these problems, we propose VeRi3D, a generative human vertex-based radiance field parameterized by vertices of the parametric human template, SMPL. We map each 3D point to the local coordinate system defined on its neighboring vertices, and use the corresponding vertex feature and local coordinates for mapping it to color and density values. We demonstrate that our simple approach allows for generating photorealistic human images with free control over camera pose, human pose, shape, as well as enabling part-level editing.
翻訳日:2023-09-12 16:17:40 公開日:2023-09-09
# 機械学習に基づく全文コミットメッセージ品質チェッカー

A Full-fledged Commit Message Quality Checker Based on Machine Learning ( http://arxiv.org/abs/2309.04797v1 )

ライセンス: Link先を確認
David Farag\'o, Michael F\"arber, Christian Petrov(参考訳) コミットメッセージ(CM)はバージョン管理の重要な部分です。 変更点と理由に関して重要なコンテキストを提供することで、ソフトウェアのメンテナンスと進化を強くサポートします。 しかし、良いCMを書くことは難しく、しばしば開発者は無視します。 今のところ、CMがどれだけうまく書かれているかを自動的に評価するプラクティスに適したツールは存在しません。 このタスクは難しいので、私たちは研究の質問に答える: セマンティクスやコンテキストを含むCMの品質は、機械学習の手法でどの程度測定できるのか? 最も人気のあるcm品質ガイドラインからのすべてのルールを考慮し、それらのルールのためのデータセットを作成し、それらのルールをチェックするために最先端の機械学習モデルをトレーニングし、評価することで、調査の質問に答えることができる: 実践に十分適しており、最も困難なタスクのために最低のf$_1$スコアが82.9\%である。 これらのCM品質ルールをすべてチェックできる、本格的なオープンソースフレームワークを開発しています。 これは、例えば自動CM生成などの研究に有用であるが、最も重要なことはソフトウェア実践者がCMの品質を高め、ソフトウェアの保守性と進化速度を高めることである。

Commit messages (CMs) are an essential part of version control. By providing important context in regard to what has changed and why, they strongly support software maintenance and evolution. But writing good CMs is difficult and often neglected by developers. So far, there is no tool suitable for practice that automatically assesses how well a CM is written, including its meaning and context. Since this task is challenging, we ask the research question: how well can the CM quality, including semantics and context, be measured with machine learning methods? By considering all rules from the most popular CM quality guideline, creating datasets for those rules, and training and evaluating state-of-the-art machine learning models to check those rules, we can answer the research question with: sufficiently well for practice, with the lowest F$_1$ score of 82.9\%, for the most challenging task. We develop a full-fledged open-source framework that checks all these CM quality rules. It is useful for research, e.g., automatic CM generation, but most importantly for software practitioners to raise the quality of CMs and thus the maintainability and evolution speed of their software.
翻訳日:2023-09-12 16:17:21 公開日:2023-09-09
# 汎用顔偽ビデオ検出のためのドメイン適応再構成を用いた自己監督変換器

Self-Supervised Transformer with Domain Adaptive Reconstruction for General Face Forgery Video Detection ( http://arxiv.org/abs/2309.04795v1 )

ライセンス: Link先を確認
Daichi Zhang, Zihao Xiao, Jianmin Li, Shiming Ge(参考訳) 顔の偽造ビデオは社会の深刻な懸念を招き、様々な検出器が最近提案されている。 しかし、それらの多くは、異なる偽造法や実映像からビデオを検出する際に、限定的な一般化で教師付きで訓練されている。 この問題に取り組むため,我々は,実写ビデオと偽写ビデオの違いを最大限に活用するために,実写ビデオの共通表現のみを探索する。 本稿では,実顔映像にのみ自己教師あり方式で事前学習し,特定の顔偽造映像データセットに線形頭部を微調整した自己教師ありトランスフォーマ(corest)を提案する。 コントラスト学習と再構成学習を組み込んだ2つの補助タスクは、表現学習を強化するために設計されている。 さらに、細調整時に未ラベルのターゲットビデオに再構成することで、異なる偽ドメイン間のギャップを埋めるために、ドメイン適応再構築(DAR)モジュールを導入する。 公開データセットに対する大規模な実験により,提案手法は最先端の教師付き競争相手よりも優れた性能を示した。

Face forgery videos have caused severe social public concern, and various detectors have been proposed recently. However, most of them are trained in a supervised manner with limited generalization when detecting videos from different forgery methods or real source videos. To tackle this issue, we explore to take full advantage of the difference between real and forgery videos by only exploring the common representation of real face videos. In this paper, a Self-supervised Transformer cooperating with Contrastive and Reconstruction learning (CoReST) is proposed, which is first pre-trained only on real face videos in a self-supervised manner, and then fine-tuned a linear head on specific face forgery video datasets. Two specific auxiliary tasks incorporated contrastive and reconstruction learning are designed to enhance the representation learning. Furthermore, a Domain Adaptive Reconstruction (DAR) module is introduced to bridge the gap between different forgery domains by reconstructing on unlabeled target videos when fine-tuning. Extensive experiments on public datasets demonstrate that our proposed method performs even better than the state-of-the-art supervised competitors with impressive generalization.
翻訳日:2023-09-12 16:17:02 公開日:2023-09-09
# 量子アニーリングに基づく可変メイズ生成の困難化

Quantum Annealing Based Difficulty Adjustable Maze Generation ( http://arxiv.org/abs/2309.04792v1 )

ライセンス: Link先を確認
Yuto Ishikawa, Takuma Yoshihara, Keita Okamura and Masayuki Ohzeki(参考訳) 本稿では,量子アニールを用いた迷路生成法を提案する。 量子アニールの入力に適した2次非制約二元最適化問題の特定の形式に迷路を生成するための標準的なアルゴリズムを再構成する。 より難しい迷路を生成するために、コスト関数を$Q_{update}$に追加し、難易度を高める。 その難易度は迷路を解く時間によって評価される。 本研究では,maze作成の効率性を確認するため,量子処理ユニット,古典コンピュータ,ハイブリッドソルバの解解時間について検討した。

In this paper, the maze generation using quantum annealing is proposed. We reformulate a standard algorithm to generate a maze into a specific form of a quadratic unconstrained binary optimization problem suitable for the input of the quantum annealer. To generate more difficult mazes, we introduce an additional cost function $Q_{update}$ to increase the difficulty. The difficulty is evaluated by the time to solve the maze. To check the efficiency of our scheme to create the maze, we investigated the time-to-solution of a quantum processing unit, classical computer, and hybrid solver.
翻訳日:2023-09-12 16:16:43 公開日:2023-09-09
# MMHQA-ICL:テキスト・テーブル・画像によるハイブリッド質問応答のためのマルチモーダルインコンテキスト学習

MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering over Text, Tables and Images ( http://arxiv.org/abs/2309.04790v1 )

ライセンス: Link先を確認
Weihao Liu, Fangyu Lei, Tongxu Luo, Jiahe Lei, Shizhu He, Jun Zhao and Kang Liu(参考訳) 実世界では、知識は多様で異質な形でしばしば存在する。 テキスト、テーブル、イメージを含むハイブリッドデータ型による質問応答のタスクに対処することは、挑戦的タスク(mmhqa)である。 近年,大規模言語モデル (LLM) の台頭に伴い,文脈内学習 (ICL) がQA問題を解く最も一般的な方法となっている。 本稿では,より強固な異種データレトリバーと画像キャプションモジュールを含む,この問題に対処するためのmmhqa-iclフレームワークを提案する。 最も重要なことは、MMHQAのためのタイプ固有のインコンテキスト学習戦略を提案することである。 私たちは、このタスクにエンドツーエンドのLCMプロンプトメソッドを最初に使用しています。 実験の結果,本フレームワークは,全データセットでトレーニングされたすべてのベースラインとメソッドを上回っており,マルチモーダルカデータセットの限られた設定下で最先端の結果を得ることができた。

In the real world, knowledge often exists in a multimodal and heterogeneous form. Addressing the task of question answering with hybrid data types, including text, tables, and images, is a challenging task (MMHQA). Recently, with the rise of large language models (LLM), in-context learning (ICL) has become the most popular way to solve QA problems. We propose MMHQA-ICL framework for addressing this problems, which includes stronger heterogeneous data retriever and an image caption module. Most importantly, we propose a Type-specific In-context Learning Strategy for MMHQA, enabling LLMs to leverage their powerful performance in this task. We are the first to use end-to-end LLM prompting method for this task. Experimental results demonstrate that our framework outperforms all baselines and methods trained on the full dataset, achieving state-of-the-art results under the few-shot setting on the MultimodalQA dataset.
翻訳日:2023-09-12 16:16:34 公開日:2023-09-09
# ガラス状エネルギー景観における高次元信号の回復における確率的グラディエントDescentのグラディエントDescent

Stochastic Gradient Descent outperforms Gradient Descent in recovering a high-dimensional signal in a glassy energy landscape ( http://arxiv.org/abs/2309.04788v1 )

ライセンス: Link先を確認
Persia Jana Kamali, Pierfrancesco Urbani(参考訳) Stochastic Gradient Descent (SGD) は、ニューラルネットワークのトレーニングに広く使われている非平衡アルゴリズムである。 しかし、SGDがこの技術の成功にどの程度重要なのか、特に高次元の非凸コスト関数をグラディエント・ディクセント(GD)のような他の最適化アルゴリズムと比較して最適化するのにどの程度有効かは、ほとんど分かっていない。 本研究では、動的平均場理論を利用して、高次元極限におけるその性能を正確に解析する。 本研究では, 隠れた高次元非線形暗号信号, プロトタイプの高次元非凸ハード最適化問題について考察する。 SGD と GD を比較し,SGD が GD を大幅に上回っていることを示す。 特に、これらのアルゴリズムの緩和時間の電力法則は、バッチサイズが小さいSGDの回復しきい値が対応するGDよりも小さいことを示す。

Stochastic Gradient Descent (SGD) is an out-of-equilibrium algorithm used extensively to train artificial neural networks. However very little is known on to what extent SGD is crucial for to the success of this technology and, in particular, how much it is effective in optimizing high-dimensional non-convex cost functions as compared to other optimization algorithms such as Gradient Descent (GD). In this work we leverage dynamical mean field theory to analyze exactly its performances in the high-dimensional limit. We consider the problem of recovering a hidden high-dimensional non-linearly encrypted signal, a prototype high-dimensional non-convex hard optimization problem. We compare the performances of SGD to GD and we show that SGD largely outperforms GD. In particular, a power law fit of the relaxation time of these algorithms shows that the recovery threshold for SGD with small batch size is smaller than the corresponding one of GD.
翻訳日:2023-09-12 16:16:16 公開日:2023-09-09
# デジタルツインニングのための自律型サプライチェーンの実装:マルチエージェントアプローチ

Implementation of Autonomous Supply Chains for Digital Twinning: a Multi-Agent Approach ( http://arxiv.org/abs/2309.04785v1 )

ライセンス: Link先を確認
Liming Xu and Yaniv Proselkov and Stefan Schoepf and David Minarsch and Maria Minaricova and Alexandra Brintrup(参考訳) 過去数年間の貿易混乱、パンデミック、ウクライナ戦争は世界的なサプライチェーンに悪影響を及ぼし、その脆弱性が明らかになった。 自律的なサプライチェーンは、監視と堅牢性を高める手段として、産業や学界で注目を集めている。 多くの理論的なフレームワークが存在するが、一般的な技術的実装を促進するための作業は少ない。 我々は、自律的なサプライチェーンを実装するためのマルチエージェントシステムアプローチを調査し、自律的な経済エージェントベースの技術枠組みを提示し、このギャップに対処する。 この枠組みをプロトタイプで説明し,生鮮食品サプライチェーンのシナリオで研究し,拡張の可能性について議論する。

Trade disruptions, the pandemic, and the Ukraine war over the past years have adversely affected global supply chains, revealing their vulnerability. Autonomous supply chains are an emerging topic that has gained attention in industry and academia as a means of increasing their monitoring and robustness. While many theoretical frameworks exist, there is only sparse work to facilitate generalisable technical implementation. We address this gap by investigating multi-agent system approaches for implementing autonomous supply chains, presenting an autonomous economic agent-based technical framework. We illustrate this framework with a prototype, studied in a perishable food supply chain scenario, and discuss possible extensions.
翻訳日:2023-09-12 16:15:55 公開日:2023-09-09
# 領域エンハンス型原型変圧器による医療画像の分画

Few-Shot Medical Image Segmentation via a Region-enhanced Prototypical Transformer ( http://arxiv.org/abs/2309.04825v1 )

ライセンス: Link先を確認
Yazhou Zhu, Shidong Wang, Tong Xin, Haofeng Zhang(参考訳) 大量の医療画像の自動セグメンテーションは、完全に注釈付きデータの可用性の制限や、異なる患者に対する異なる取得プロトコルの使用による臓器表面特性の多様性によってしばしば悩まされる。 本稿では,多種間多様性・バイアスの増大を緩和するための,より有望な学習ベース手法である領域強調型トランスフォーマ(rpt)を提案する。 まず, 支援プロトタイプの前面から地域プロトタイプのコレクションを作成するために, 分割戦略を導入する。 次に,Bias-alleviated Transformer(BaT)ブロックに自己選択機構を導入し,クエリプロトタイプおよび地域サポートプロトタイプに存在する干渉を抑制・除去する。 BaTブロックを積み重ねることで、提案したRTTは、生成された地域プロトタイプを反復的に最適化し、最終的にFew-Shot Medical Image Segmentation (FSMS)の修正されたより正確なグローバルプロトタイプを生成することができる。 3つの医療画像データセットについて広範な実験を行い,得られた結果から,最先端のfsms法と比較して一貫した改善が得られた。 ソースコードはhttps://github.com/yazhouzhu19/rpt。

Automated segmentation of large volumes of medical images is often plagued by the limited availability of fully annotated data and the diversity of organ surface properties resulting from the use of different acquisition protocols for different patients. In this paper, we introduce a more promising few-shot learning-based method named Region-enhanced Prototypical Transformer (RPT) to mitigate the effects of large intra-class diversity/bias. First, a subdivision strategy is introduced to produce a collection of regional prototypes from the foreground of the support prototype. Second, a self-selection mechanism is proposed to incorporate into the Bias-alleviated Transformer (BaT) block to suppress or remove interferences present in the query prototype and regional support prototypes. By stacking BaT blocks, the proposed RPT can iteratively optimize the generated regional prototypes and finally produce rectified and more accurate global prototypes for Few-Shot Medical Image Segmentation (FSMS). Extensive experiments are conducted on three publicly available medical image datasets, and the obtained results show consistent improvements compared to state-of-the-art FSMS methods. The source code is available at: https://github.com/YazhouZhu19/RPT.
翻訳日:2023-09-12 16:10:34 公開日:2023-09-09
# 空間モデリングのための重み付けによるサンプリングバイアスの補正

Correcting sampling biases via importancereweighting for spatial modeling ( http://arxiv.org/abs/2309.04824v1 )

ライセンス: Link先を確認
Boris Prokhorov, Diana Koldasbayeva, Alexey Zaytsev(参考訳) 機械学習モデルでは、特に環境研究に見られるような空間データにおいて、分布バイアスによる誤差の推定は複雑であることが多い。 本稿では,目標誤差の偏りのない推定を行うために,重要サンプリングの考え方に基づく手法を提案する。 所望の誤差と利用可能なデータの違いを考慮して,各サンプル点における誤差を重み付けし,シフトを中和する。 重み付けには重要サンプリング法と核密度推定法が用いられた。 実世界の空間データセットに類似した人工データを用いたアプローチの有効性を検証する。 本研究は,分布シフト問題に対する解法として,対象誤差の推定に提案手法の利点を示すものである。 全体の予測誤差は7%から2%に減少し、より大きなサンプルでは小さくなった。

In machine learning models, the estimation of errors is often complex due to distribution bias, particularly in spatial data such as those found in environmental studies. We introduce an approach based on the ideas of importance sampling to obtain an unbiased estimate of the target error. By taking into account difference between desirable error and available data, our method reweights errors at each sample point and neutralizes the shift. Importance sampling technique and kernel density estimation were used for reweighteing. We validate the effectiveness of our approach using artificial data that resemble real-world spatial datasets. Our findings demonstrate advantages of the proposed approach for the estimation of the target error, offering a solution to a distribution shift problem. Overall error of predictions dropped from 7% to just 2% and it gets smaller for larger samples.
翻訳日:2023-09-12 16:10:12 公開日:2023-09-09
# FaNS: Facetベースのナラティブ類似度メトリクス

FaNS: a Facet-based Narrative Similarity Metric ( http://arxiv.org/abs/2309.04823v1 )

ライセンス: Link先を確認
Mousumi Akter, Shubhra Kanti Karmaker Santu(参考訳) 類似の物語検索は、物語が出来事の説明と理解に不可欠であるため、重要な課題であり、複数の関連する物語は、しばしば関心事の全体像を作るのに役立つ。 本稿では,従来の5W1Hファセット (Who, What, When, Where, Why, How, How) に基づいて,現在最先端のLarge Language Models (LLMs) を活用して抽出した物語類似度尺度であるFacet-based Narrative similarity (FaNS)を提案する。 既存の類似度メトリクスとは異なり、ファンは6つの異なるファセットに沿ってより細かいマッチングを提供し、それらを組み合わせる。 FaNSを評価するために、サードパーティのニュースポータルであるAllSidesから物語を収集し、包括的なデータセットを作成しました。 実験の結果、ファンメトリクスは、物語間の語彙/意味の一致を直接測定する従来のテキスト類似度指標よりも高い相関(37\%以上)を示し、一対の物語間の詳細を比較する効果を示している。

Similar Narrative Retrieval is a crucial task since narratives are essential for explaining and understanding events, and multiple related narratives often help to create a holistic view of the event of interest. To accurately identify semantically similar narratives, this paper proposes a novel narrative similarity metric called Facet-based Narrative Similarity (FaNS), based on the classic 5W1H facets (Who, What, When, Where, Why, and How), which are extracted by leveraging the state-of-the-art Large Language Models (LLMs). Unlike existing similarity metrics that only focus on overall lexical/semantic match, FaNS provides a more granular matching along six different facets independently and then combines them. To evaluate FaNS, we created a comprehensive dataset by collecting narratives from AllSides, a third-party news portal. Experimental results demonstrate that the FaNS metric exhibits a higher correlation (37\% higher) than traditional text similarity metrics that directly measure the lexical/semantic match between narratives, demonstrating its effectiveness in comparing the finer details between a pair of narratives.
翻訳日:2023-09-12 16:09:59 公開日:2023-09-09
# 因子拡大ベクトル自己回帰における非線形次元の減少

Non-linear dimension reduction in factor-augmented vector autoregressions ( http://arxiv.org/abs/2309.04821v1 )

ライセンス: Link先を確認
Karin Klieber(参考訳) 本稿では, 因子付加ベクトル自己回帰の非線形次元低減法を導入し, 異なる経済ショックの影響を解析する。 大規模データセットと潜在要因の間の非線形性を制御することは、特にビジネスサイクルの乱時において有用である、と私は主張する。 シミュレーションでは, 非線形次元低減手法が, 特にデータが揮発性が高い場合, 良好な予測性能をもたらすことを示す。 実証的な応用として、新型コロナウイルスのパンデミックの観察を含む不確実性ショックと同様に、金融政策を特定します。 これらの2つの応用は、covid-19のパンデミックによって引き起こされる大きな異常に対処でき、両方のシナリオで信頼できる結果が得られることを示唆している。

This paper introduces non-linear dimension reduction in factor-augmented vector autoregressions to analyze the effects of different economic shocks. I argue that controlling for non-linearities between a large-dimensional dataset and the latent factors is particularly useful during turbulent times of the business cycle. In simulations, I show that non-linear dimension reduction techniques yield good forecasting performance, especially when data is highly volatile. In an empirical application, I identify a monetary policy as well as an uncertainty shock excluding and including observations of the COVID-19 pandemic. Those two applications suggest that the non-linear FAVAR approaches are capable of dealing with the large outliers caused by the COVID-19 pandemic and yield reliable results in both scenarios.
翻訳日:2023-09-12 16:09:36 公開日:2023-09-09
# abc easy as 123:exemplar-free multi-class class-agnostic countingのブラインドカウンタ

ABC Easy as 123: A Blind Counter for Exemplar-Free Multi-Class Class-agnostic Counting ( http://arxiv.org/abs/2309.04820v1 )

ライセンス: Link先を確認
Michael A. Hobley and Victor A. Prisacariu(参考訳) クラスに依存しないカウントメソッドは任意のクラスのオブジェクトを列挙します。 先行作品は、カウントされるタイプの例のセットを必要とするか、画像に1つのタイプのオブジェクトだけが含まれるため、有用性が限られている。 これらの欠点の重要な要因は、複数の種類のオブジェクトが存在する設定におけるカウントに適切に対処するデータセットがないことである。 これらの問題に対処するために、トレーニングや推論中に型の実例を使わずに複数の種類のオブジェクトを同時にカウントする手法であるMCAC(Multi-class-Agnostic Counting dataset)とABC123(A Blind Counter)を提案する。 ABC123は新しいパラダイムを導入し、例題を列挙をガイドする代わりに、ユーザが生成した出力を理解するのを助けるために、カウントステージの後に例が見つかる。 abc123は,人間のループ内アノテーションを必要とせず,mccの現代的手法を上回っている。 また,この性能は,標準クラス非依存の計数データセットであるfsc-147に伝達されることを示した。

Class-agnostic counting methods enumerate objects of an arbitrary class, providing tremendous utility in many fields. Prior works have limited usefulness as they require either a set of examples of the type to be counted or that the image contains only a single type of object. A significant factor in these shortcomings is the lack of a dataset to properly address counting in settings with more than one kind of object present. To address these issues, we propose the first Multi-class, Class-Agnostic Counting dataset (MCAC) and A Blind Counter (ABC123), a method that can count multiple types of objects simultaneously without using examples of type during training or inference. ABC123 introduces a new paradigm where instead of requiring exemplars to guide the enumeration, examples are found after the counting stage to help a user understand the generated outputs. We show that ABC123 outperforms contemporary methods on MCAC without the requirement of human in-the-loop annotations. We also show that this performance transfers to FSC-147, the standard class-agnostic counting dataset.
翻訳日:2023-09-12 16:09:24 公開日:2023-09-09
# 量子アルゴリズムにおける差分プライバシー違反の検出

Detecting Violations of Differential Privacy for Quantum Algorithms ( http://arxiv.org/abs/2309.04819v1 )

ライセンス: Link先を確認
Ji Guan, Wang Fang, Mingyu Huang and Mingsheng Ying(参考訳) 過去10年間,データ検索や分析,製品推薦,クレジットスコアリングなど,幅広い実用的問題を解決するための量子アルゴリズムが提案されてきた。 量子コンピューティングにおけるプライバシーや倫理的な問題に対する懸念は自然に高まる。 本稿では,量子アルゴリズムの差分プライバシー違反を検出するための形式的枠組みを定義する。 検出アルゴリズムを開発し、(ノイズ)量子アルゴリズムが差分プライベートかどうかを検証し、差分プライバシー違反が報告されると自動的にバッキング情報を生成する。 この情報は、プライバシを侵害する2つの量子状態から成り、違反の原因を説明する。 私たちのアルゴリズムは、非常に効率的なデータ構造であるテンソルネットワークを備えており、tensorflow quantumとtorchquantumの両方で実行されています。 このアルゴリズムの有効性と効率は、量子超越アルゴリズム(古典的アルゴリズムの能力を超える)、量子機械学習モデル、量子近似最適化アルゴリズム、最大21量子ビットの変分量子固有ソルバを含む、すでに現実的な量子コンピュータに実装されているほぼ全ての量子アルゴリズムの実験結果によって確認される。

Quantum algorithms for solving a wide range of practical problems have been proposed in the last ten years, such as data search and analysis, product recommendation, and credit scoring. The concern about privacy and other ethical issues in quantum computing naturally rises up. In this paper, we define a formal framework for detecting violations of differential privacy for quantum algorithms. A detection algorithm is developed to verify whether a (noisy) quantum algorithm is differentially private and automatically generate bugging information when the violation of differential privacy is reported. The information consists of a pair of quantum states that violate the privacy, to illustrate the cause of the violation. Our algorithm is equipped with Tensor Networks, a highly efficient data structure, and executed both on TensorFlow Quantum and TorchQuantum which are the quantum extensions of famous machine learning platforms -- TensorFlow and PyTorch, respectively. The effectiveness and efficiency of our algorithm are confirmed by the experimental results of almost all types of quantum algorithms already implemented on realistic quantum computers, including quantum supremacy algorithms (beyond the capability of classical algorithms), quantum machine learning models, quantum approximate optimization algorithms, and variational quantum eigensolvers with up to 21 quantum bits.
翻訳日:2023-09-12 16:09:03 公開日:2023-09-09
# Speech2Lip:短いビデオから学習した唇生成のための高忠実度音声

Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a Short Video ( http://arxiv.org/abs/2309.04814v1 )

ライセンス: Link先を確認
Xiuzhe Wu, Pengfei Hu, Yang Wu, Xiaoyang Lyu, Yan-Pei Cao, Ying Shan, Wenming Yang, Zhongqian Sun, Xiaojuan Qi(参考訳) 音声によるリアルなビデオの合成は、まだオープンな課題だ。 以前の作品は、不正確な唇形状の生成や画質の悪さといった問題に苦しめられている。 主な理由は、限られた顔領域(例えば唇領域)における動きと外観だけが主に入力音声によって駆動されるためである。 したがって、音声から頭部画像全体へのマッピング関数を直接学習することは、特に訓練に短いビデオを使用する場合、あいまいになりがちである。 そこで本研究では,音声に敏感な音声・無感な動き・出現を解消し,限られた学習データから効果的な学習を促進する分解合成合成フレームワークであるSpeech2Lipを提案する。 まず、固定された頭部ポーズ(例えば、標準空間)を与えられた場合、音声知覚運動と外観の学習に集中した唇画像生成のための音声駆動暗黙モデルを提案する。 次に,主要音声非感性動作(頭部運動)をモデル化するために,異なる頭部ポーズ間の幾何学的マッピングを確立する幾何認識相互明示的マッピング(GAMEM)モジュールを導入する。 これにより、生成された唇画像を任意のポーズで頭部画像に貼り付け、自然な頭部の動きで会話ビデオを合成することができる。 さらに、全体的な合成性能を高めるため、ブレンドネットとコントラスト同期損失を導入する。 3つのベンチマークの定量的および定性的な結果から、我々のモデルは、ほんの数分の動画で訓練でき、視覚的品質と音声視覚同期の両方で最先端のパフォーマンスを達成できることを示した。 コード:https://github.com/CVMI-Lab/Speech2Lip

Synthesizing realistic videos according to a given speech is still an open challenge. Previous works have been plagued by issues such as inaccurate lip shape generation and poor image quality. The key reason is that only motions and appearances on limited facial areas (e.g., lip area) are mainly driven by the input speech. Therefore, directly learning a mapping function from speech to the entire head image is prone to ambiguity, particularly when using a short video for training. We thus propose a decomposition-synthesis-composition framework named Speech to Lip (Speech2Lip) that disentangles speech-sensitive and speech-insensitive motion/appearance to facilitate effective learning from limited training data, resulting in the generation of natural-looking videos. First, given a fixed head pose (i.e., canonical space), we present a speech-driven implicit model for lip image generation which concentrates on learning speech-sensitive motion and appearance. Next, to model the major speech-insensitive motion (i.e., head movement), we introduce a geometry-aware mutual explicit mapping (GAMEM) module that establishes geometric mappings between different head poses. This allows us to paste generated lip images at the canonical space onto head images with arbitrary poses and synthesize talking videos with natural head movements. In addition, a Blend-Net and a contrastive sync loss are introduced to enhance the overall synthesis performance. Quantitative and qualitative results on three benchmarks demonstrate that our model can be trained by a video of just a few minutes in length and achieve state-of-the-art performance in both visual quality and speech-visual synchronization. Code: https://github.com/CVMI-Lab/Speech2Lip.
翻訳日:2023-09-12 16:08:41 公開日:2023-09-09
# 暗黒物質は普通の物質に結びついているのか? 観測可能な量子効果を生成できるのか?

Is there charged dark matter bound to ordinary matter? Can it produce observable quantum effects? ( http://arxiv.org/abs/2309.04812v1 )

ライセンス: Link先を確認
Muhammad Asjad and Paolo Tombesi(参考訳) 単一トラップ場と帯電したリング電極の静電場を有するファブリペロキャビティに光学的に閉じ込められたシリカのナノ球は、無限小電荷のダークマター粒子の存在を推測するために用いられる。 これらの粒子は、原始宇宙の遺物としてバルク物質に存在すると推定される。 選択されたナノ球内に無限小の荷電粒子が存在しない場合、この装置の出力光は熱となる。 しかし、これらの粒子が存在する場合、キャビティの出力光は室温でも硬化することが期待され、光とナノ球の質量の中心との間の絡み合いを観測できる。

Levitated nano-spheres of silica, optically trapped in a Fabry-Perot cavity with a single trapping field and the electrostatic field of a charged ring electrode, are used to infer the potential existence of dark matter particles with infinitesimal charge. These particles are presumed to exist in bulk matter as relics of the primordial Universe. In the absence of infinitesimally charged particles within the chosen nano-sphere, the output light in this setup should be thermal. However, if these particles do exist, the cavity's output light is expected to be squeezed even at room temperature, and one could observe entanglement between light and the nano-sphere's center of mass.
翻訳日:2023-09-12 16:08:14 公開日:2023-09-09
# ニューラル潜時幾何探索:Gromov-Hausdorff-informed Bayesian Optimization による積多様体推論

Neural Latent Geometry Search: Product Manifold Inference via Gromov-Hausdorff-Informed Bayesian Optimization ( http://arxiv.org/abs/2309.04810v1 )

ライセンス: Link先を確認
Haitz Saez de Ocariz Borde, Alvaro Arroyo, Ismael Morales, Ingmar Posner, Xiaowen Dong(参考訳) 近年の研究では、潜在空間の形状と基礎となるデータ構造を整合させることで、機械学習モデルの性能を向上させることが示されている。 研究者はユークリッド空間のみに頼るのではなく、一定の曲率を持つ双曲空間と球面空間、あるいはそれらの組合せを用いることによって、潜在空間のモデル化とモデル性能の向上を提唱している。 しかし,下流タスクの最適潜在幾何を自動的に同定する問題にはほとんど注意が払われていない。 我々は、この新しい定式化を数学的に定義し、それをneural latent geometry search (nlgs) と呼ぶ。 より具体的には、最小のクエリ評価を持つ定数曲率モデル空間の積からなる潜時幾何学を探索する原理的手法を提案する。 そこで本研究では,距離幾何学からグロモフ・ハウスドルフ距離を基準として,潜在測地線候補間距離の新たな概念を提案する。 グロモフ・ハウスドルフ距離を計算するために、共通高次元の周囲空間にそれらを埋め込むことで異なる多様体の比較を可能にする写像関数を導入する。 最後に、候補多様体間の計算距離に基づいてグラフ探索空間を設計し、ベイズ最適化を用いてクエリー効率の良い方法で最適な潜在幾何を探索する。 これは、様々なモデルや下流タスクの最適な潜在幾何を探索するために適用できる一般的な方法である。 合成および実世界のデータセットに対する大規模な実験により、複数の機械学習問題に対する最適潜時幾何学を特定する方法の有効性が確認された。

Recent research indicates that the performance of machine learning models can be improved by aligning the geometry of the latent space with the underlying data structure. Rather than relying solely on Euclidean space, researchers have proposed using hyperbolic and spherical spaces with constant curvature, or combinations thereof, to better model the latent space and enhance model performance. However, little attention has been given to the problem of automatically identifying the optimal latent geometry for the downstream task. We mathematically define this novel formulation and coin it as neural latent geometry search (NLGS). More specifically, we introduce a principled method that searches for a latent geometry composed of a product of constant curvature model spaces with minimal query evaluations. To accomplish this, we propose a novel notion of distance between candidate latent geometries based on the Gromov-Hausdorff distance from metric geometry. In order to compute the Gromov-Hausdorff distance, we introduce a mapping function that enables the comparison of different manifolds by embedding them in a common high-dimensional ambient space. Finally, we design a graph search space based on the calculated distances between candidate manifolds and use Bayesian optimization to search for the optimal latent geometry in a query-efficient manner. This is a general method which can be applied to search for the optimal latent geometry for a variety of models and downstream tasks. Extensive experiments on synthetic and real-world datasets confirm the efficacy of our method in identifying the optimal latent geometry for multiple machine learning problems.
翻訳日:2023-09-12 16:07:59 公開日:2023-09-09
# 自律走行システムにおける物体検出のための周辺レーダ/ライダーの時間融合

Timely Fusion of Surround Radar/Lidar for Object Detection in Autonomous Driving Systems ( http://arxiv.org/abs/2309.04806v1 )

ライセンス: Link先を確認
Wenjing Xie, Tao Hu, Neiwen Ling, Guoliang Xing, Shaoshan Liu, Nan Guan(参考訳) fusing radarとlidarセンサーデータは、その補完的な利点を十分に活用でき、自律運転システムの周囲をより正確に再構築することができる。 Surround Radar/Lidarは、最小限のコストで360度ビューサンプリングを提供する。 しかし、本質的な物理的制約のため、Radarの周囲の回転速度、すなわちRadarデータフレームを生成する周波数は、Lidarの周囲よりもはるかに低い。 既存のRadar/Lidar融合法は、自律走行システムの高応答性要件を満たすことができないRadarの低周波で動作する必要があるが、本稿では、現状のオブジェクト検出モデルMVDNetに基づいて、Radar/Lidarを低周波ではなく、より高速なLidarのみに制限された作業周波数でヒューズする方法を開発した。 このアプローチの基本的な考え方は単純で、mvdnetにレーダー/ライダーからの時間的不整合データを処理させ、新しいlidarデータフレームが到着した時にいつでも、遅いレーダーデータフレームを待つことなく融合を行えるようにします。 しかし、時間的に不整合なRadar/Lidarデータに直接MVDNetを適用すると、オブジェクト検出精度は大きく低下する。 本稿では、MVDNetにおける時間的冗長性を探究し、入力データの時間的不整合を許容できるようにトレーニング手順を強化することにより、高い出力周波数を少ない精度で達成できることを示す。 トレーニング強化の様々な方法を探求し、それらを実験と定量的に比較する。

Fusing Radar and Lidar sensor data can fully utilize their complementary advantages and provide more accurate reconstruction of the surrounding for autonomous driving systems. Surround Radar/Lidar can provide 360-degree view sampling with the minimal cost, which are promising sensing hardware solutions for autonomous driving systems. However, due to the intrinsic physical constraints, the rotating speed of surround Radar, and thus the frequency to generate Radar data frames, is much lower than surround Lidar. Existing Radar/Lidar fusion methods have to work at the low frequency of surround Radar, which cannot meet the high responsiveness requirement of autonomous driving systems.This paper develops techniques to fuse surround Radar/Lidar with working frequency only limited by the faster surround Lidar instead of the slower surround Radar, based on the state-of-the-art object detection model MVDNet. The basic idea of our approach is simple: we let MVDNet work with temporally unaligned data from Radar/Lidar, so that fusion can take place at any time when a new Lidar data frame arrives, instead of waiting for the slow Radar data frame. However, directly applying MVDNet to temporally unaligned Radar/Lidar data greatly degrades its object detection accuracy. The key information revealed in this paper is that we can achieve high output frequency with little accuracy loss by enhancing the training procedure to explore the temporal redundancy in MVDNet so that it can tolerate the temporal unalignment of input data. We explore several different ways of training enhancement and compare them quantitatively with experiments.
翻訳日:2023-09-12 16:07:31 公開日:2023-09-09
# AmbientFlow:不完全・雑音測定による可逆生成モデル

AmbientFlow: Invertible generative models from incomplete, noisy measurements ( http://arxiv.org/abs/2309.04856v1 )

ライセンス: Link先を確認
Varun A. Kelkar, Rucha Deshpande, Arindam Banerjee, Mark A. Anastasio(参考訳) 生成モデルは、画像再構成、後部サンプリング、データ共有など、画像科学の潜在的な応用で人気を集めている。 フローベースの生成モデルは、高速で安価で多様なサンプルとともに正確な密度推定を正確に提供できるため、特に魅力的である。 しかし、そのようなモデルのトレーニングには、大規模で高品質なオブジェクトデータセットが必要である。 計算画像などのアプリケーションでは、長い取得時間や高い放射線線量などの要求により、そのようなデータを取得することは困難であることが多いが、ノイズや部分的に観察されたこれらの物体の計測はより実現可能である。 本研究では、ノイズや不完全データから直接フローベースの生成モデルを学習するフレームワークであるAmbientFlowを提案する。 変分ベイズ法を用いて,不完全データからフローベース生成モデルを構築する新しい枠組みを提案する。 広範囲にわたる数値的な研究は、物体分布を正しく学習する上でのアンビエントフローの有効性を示している。 画像再構成の下流推論タスクにおける AmbientFlow の有用性を示す。

Generative models have gained popularity for their potential applications in imaging science, such as image reconstruction, posterior sampling and data sharing. Flow-based generative models are particularly attractive due to their ability to tractably provide exact density estimates along with fast, inexpensive and diverse samples. Training such models, however, requires a large, high quality dataset of objects. In applications such as computed imaging, it is often difficult to acquire such data due to requirements such as long acquisition time or high radiation dose, while acquiring noisy or partially observed measurements of these objects is more feasible. In this work, we propose AmbientFlow, a framework for learning flow-based generative models directly from noisy and incomplete data. Using variational Bayesian methods, a novel framework for establishing flow-based generative models from noisy, incomplete data is proposed. Extensive numerical studies demonstrate the effectiveness of AmbientFlow in correctly learning the object distribution. The utility of AmbientFlow in a downstream inference task of image reconstruction is demonstrated.
翻訳日:2023-09-12 15:59:15 公開日:2023-09-09
# 拡張韻律と言語的感情表現を用いた音声感情認識

Speech Emotion Recognition with Distilled Prosodic and Linguistic Affect Representations ( http://arxiv.org/abs/2309.04849v1 )

ライセンス: Link先を確認
Debaditya Shome, Ali Etemad(参考訳) 本研究では,音声から感情の強固な言語表現と韻律表現を学ぶために,訓練中のクロスモーダル知識蒸留を利用する新しい音声感情認識(ser)フレームワークであるエモジスティルを提案する。 提案手法では,音声信号のストリームのみを用いて一斉SERを実行することで,計算オーバーヘッドを低減し,実行時の書き起こしや韻律的特徴抽出エラーを回避する。 学習中,本手法は,SER向けに微調整された1組の韻律教師と言語教師から,埋め込みレベルとロジットレベルの両方の情報を抽出する。 iemocapベンチマークにおける実験は、この手法が他のユニモーダルおよびマルチモーダル技術よりもかなり優れており、77.49%の非重み付け精度と78.91%の重み付け精度で最先端の性能を達成していることを示している。 詳細なアブレーション研究は,各成分が与える影響を実証する。

We propose EmoDistill, a novel speech emotion recognition (SER) framework that leverages cross-modal knowledge distillation during training to learn strong linguistic and prosodic representations of emotion from speech. During inference, our method only uses a stream of speech signals to perform unimodal SER thus reducing computation overhead and avoiding run-time transcription and prosodic feature extraction errors. During training, our method distills information at both embedding and logit levels from a pair of pre-trained Prosodic and Linguistic teachers that are fine-tuned for SER. Experiments on the IEMOCAP benchmark demonstrate that our method outperforms other unimodal and multimodal techniques by a considerable margin, and achieves state-of-the-art performance of 77.49% unweighted accuracy and 78.91% weighted accuracy. Detailed ablation studies demonstrate the impact of each component of our method.
翻訳日:2023-09-12 15:59:00 公開日:2023-09-09
# 2光子吸収または和周波発生を駆動する広帯域圧縮真空の古典モデル

Classical Model for Broadband Squeezed Vacuum Driving Two-Photon Absorption or Sum Frequency Generation ( http://arxiv.org/abs/2309.04845v1 )

ライセンス: Link先を確認
Michael G. Raymer and Tiemo Landes(参考訳) 非線形分光と非線形光学の文脈で光量子状態を模倣する古典的確率場、特に2光子吸収(tpa)と和周波発生(sfg)は、光子間の時間周波数の絡み合いを持つ弱いまたは明るい広帯域の圧縮真空によって駆動される。 真空エネルギー項の高次減算(正規化)を用いて、古典確率モデルは、ここで考慮された全ての現象について、低利得と高利得の真空の双方において、全量子場理論と全く同じ予測を得られる。 このような予測には、低入射光束でのtpaおよびsfg速度の線形流束スケーリングや、圧縮された光の相対線幅へのtpaおよびshg速度の依存性、物質系における基底から最終状態への遷移、明るい真空によるsfgのスペクトルなどが含まれる。

We address theoretically the question of classical stochastic fields mimicking quantum states of light in the context of nonlinear spectroscopy and nonlinear optics, in particular two-photon absorption (TPA) and sum-frequency generation (SFG) driven by weak or bright broadband squeezed vacuum with time-frequency entanglement between photons. Upon using a well-defined but ad hoc subtraction of vacuum-energy terms (renormalization), we find that the classical stochastic model yields exactly the same predictions as the full quantum-field theory for all of the phenomena considered here, in both the low-gain and high-gain regimes of squeezed vacuum. Such predictions include the linear-flux scaling of TPA and SFG rates at low incident photon flux, as well as the dependence of TPA and SHG rates on the relative linewidths of the squeezed light and the ground-to-final-state transition in the material system, and the spectrum of SFG generated by bright squeezed vacuum.
翻訳日:2023-09-12 15:58:43 公開日:2023-09-09
# ASR不確実性を爆発させる大規模言語モデルを活用する

Leveraging Large Language Models for Exploiting ASR Uncertainty ( http://arxiv.org/abs/2309.04842v1 )

ライセンス: Link先を確認
Pranay Dighe, Yi Su, Shangshang Zheng, Yunshu Liu, Vineet Garg, Xiaochuan Niu, Ahmed Tewfik(参考訳) 大きな言語モデルは、様々な自然言語処理(NLP)タスクに優れており、音声言語理解(SLU)タスクでうまく機能するためには、オフ・ザ・シェルフ自動音声認識(ASR)システムに依存するか、あるいは内蔵された音声モダリティを備える必要がある。 本研究は、SLUタスクにおけるLLMの精度が、音声入力における固定ASRシステムの精度によって制約される以前のシナリオに焦点を当てる。 具体的には、高い単語誤り率でLLMが発話意図を理解する能力を制限できる音声意図分類タスクに取り組む。 デプロイメントコストに関わらず、複雑なアーキテクチャや特殊なアーキテクチャを設計することで、高い精度を追求する代わりに、複数の非関連タスクで共有可能な、基盤となるASRとLLMを大きく変えることなく、どこまで進めるかを問う。 そこで本研究では, 誤り発生確率1-best仮説に代えて, n-best の ASR 仮説のリストを用いた LLM の提案を行う。 我々は,LLMにおけるn-bestリストの概念を説明するためにプロンプトエンジニアリングを検討し,続いて下流タスクにおける低ランク適応器の微調整を行った。 n-best list を用いたアプローチは,n-best list を用いたシステムが 1-best asr 仮説 を用いたものよりも優れており,それによって llms を用いた音声認識における asr の不確かさを効果的に活用するための方法が確立されている。

While large language models excel in a variety of natural language processing (NLP) tasks, to perform well on spoken language understanding (SLU) tasks, they must either rely on off-the-shelf automatic speech recognition (ASR) systems for transcription, or be equipped with an in-built speech modality. This work focuses on the former scenario, where LLM's accuracy on SLU tasks is constrained by the accuracy of a fixed ASR system on the spoken input. Specifically, we tackle speech-intent classification task, where a high word-error-rate can limit the LLM's ability to understand the spoken intent. Instead of chasing a high accuracy by designing complex or specialized architectures regardless of deployment costs, we seek to answer how far we can go without substantially changing the underlying ASR and LLM, which can potentially be shared by multiple unrelated tasks. To this end, we propose prompting the LLM with an n-best list of ASR hypotheses instead of only the error-prone 1-best hypothesis. We explore prompt-engineering to explain the concept of n-best lists to the LLM; followed by the finetuning of Low-Rank Adapters on the downstream tasks. Our approach using n-best lists proves to be effective on a device-directed speech detection task as well as on a keyword spotting task, where systems using n-best list prompts outperform those using 1-best ASR hypothesis; thus paving the way for an efficient method to exploit ASR uncertainty via LLMs for speech-based applications.
翻訳日:2023-09-12 15:58:22 公開日:2023-09-09
# 高密度QAOA回路の高速シミュレーション

Fast Simulation of High-Depth QAOA Circuits ( http://arxiv.org/abs/2309.04841v1 )

ライセンス: Link先を確認
Danylo Lykov, Ruslan Shaydulin, Yue Sun, Yuri Alexeev, Marco Pistoia(参考訳) 多くの量子ビットを持つ高忠実度量子コンピュータが広く利用可能になるまで、古典的なシミュレーションはアルゴリズムの設計、チューニング、検証に不可欠である。 本稿では,量子近似最適化アルゴリズム(QAOA)のシミュレータを提案する。 このシミュレータはQAOAパラメータ最適化の計算コストを削減し,CPUとGPUの両方の実行をサポートすることを目標に設計されている。 我々の中心的な観察は、QAOA状態のシミュレーションと最適化すべきQAOA目標の計算の両方の計算コストを、この問題を符号化する対角ハミルトニアンをプリ計算することで削減できるということである。 cuQuantumをベースとした最先端のGPU量子回路シミュレータと比較して,典型的なQAOAパラメータ最適化の時間を,$n = 26$ qubitsで11倍削減する。 私たちのシミュレータはgithubで入手できる。 https://github.com/jpmorganchase/qokit

Until high-fidelity quantum computers with a large number of qubits become widely available, classical simulation remains a vital tool for algorithm design, tuning, and validation. We present a simulator for the Quantum Approximate Optimization Algorithm (QAOA). Our simulator is designed with the goal of reducing the computational cost of QAOA parameter optimization and supports both CPU and GPU execution. Our central observation is that the computational cost of both simulating the QAOA state and computing the QAOA objective to be optimized can be reduced by precomputing the diagonal Hamiltonian encoding the problem. We reduce the time for a typical QAOA parameter optimization by eleven times for $n = 26$ qubits compared to a state-of-the-art GPU quantum circuit simulator based on cuQuantum. Our simulator is available on GitHub: https://github.com/jpmorganchase/QOKit
翻訳日:2023-09-12 15:57:54 公開日:2023-09-09
# AnyPose: ニューラルな正規微分方程式による3D人物の予測

AnyPose: Anytime 3D Human Pose Forecasting via Neural Ordinary Differential Equations ( http://arxiv.org/abs/2309.04840v1 )

ライセンス: Link先を確認
Zixing Wang, Ahmed H. Qureshi(参考訳) いつでも3次元のポーズ予測は、実世界の人間と機械の相互作用の同期に不可欠であり、そこでは``anytime'という用語は、あらゆる実数値の時間ステップにおける人間のポーズの予測に対応している。 しかし、我々の知る限り、人間のポーズ予測における既存の手法はすべて、予め設定された離散時間間隔で予測を行う。 そこで本研究では,人間の行動ダイナミクスをニューラル常微分方程式でモデル化する軽量な連続時間ニューラルネットワークであるanyposeを提案する。 我々は,Human3.6M,AMASS,3DPWデータセットの枠組みを検証し,既存の手法との比較と人間のポーズとニューラル常微分方程式の交叉に対する一連の包括的分析を行う。 この結果から,AnyPoseは将来予測の精度が高く,時間予測タスクの解法に比べて計算時間もかなり低いことがわかった。

Anytime 3D human pose forecasting is crucial to synchronous real-world human-machine interaction, where the term ``anytime" corresponds to predicting human pose at any real-valued time step. However, to the best of our knowledge, all the existing methods in human pose forecasting perform predictions at preset, discrete time intervals. Therefore, we introduce AnyPose, a lightweight continuous-time neural architecture that models human behavior dynamics with neural ordinary differential equations. We validate our framework on the Human3.6M, AMASS, and 3DPW dataset and conduct a series of comprehensive analyses towards comparison with existing methods and the intersection of human pose and neural ordinary differential equations. Our results demonstrate that AnyPose exhibits high-performance accuracy in predicting future poses and takes significantly lower computational time than traditional methods in solving anytime prediction tasks.
翻訳日:2023-09-12 15:57:40 公開日:2023-09-09
# HAct:ニューラルネット活性化ヒストグラムを用いた分布外検出

HAct: Out-of-Distribution Detection with Neural Net Activation Histograms ( http://arxiv.org/abs/2309.04837v1 )

ライセンス: Link先を確認
Sudeepta Mondal and Ganesh Sundaramoorthi(参考訳) 我々は,OOD一般化の手法の第一歩として,トレーニングニューラルネットワークのアウト・オブ・ディストリビューション(OOD)データを簡易かつ効率的に検出する手法を提案する。 本稿では,OOD 検出のための新しい記述子 HActactivation histograms,すなわち,入力データの影響下でのニューラルネットワーク層の出力値の確率分布(ヒストグラムで近似)を提案する。 複数のOOD画像分類ベンチマークにおいて,HActは最先端技術よりもはるかに精度が高いことを示す。 例えば、我々の手法は標準OODベンチマークでResnet-50を用いて0.05%の偽陽性で95%の真正率(TPR)を達成し、偽陽性率(95%と同じTPR)の20.66%を上回りました。 計算複雑性の低さと実装の容易さにより、HActは大規模にデプロイされたニューラルネットワークを監視対象とするオンライン実装に適している。

We propose a simple, efficient, and accurate method for detecting out-of-distribution (OOD) data for trained neural networks, a potential first step in methods for OOD generalization. We propose a novel descriptor, HAct - activation histograms, for OOD detection, that is, probability distributions (approximated by histograms) of output values of neural network layers under the influence of incoming data. We demonstrate that HAct is significantly more accurate than state-of-the-art on multiple OOD image classification benchmarks. For instance, our approach achieves a true positive rate (TPR) of 95% with only 0.05% false-positives using Resnet-50 on standard OOD benchmarks, outperforming previous state-of-the-art by 20.66% in the false positive rate (at the same TPR of 95%). The low computational complexity and the ease of implementation make HAct suitable for online implementation in monitoring deployed neural networks in practice at scale.
翻訳日:2023-09-12 15:57:23 公開日:2023-09-09
# ニューラルセマンティックサーフェスマップ

Neural Semantic Surface Maps ( http://arxiv.org/abs/2309.04836v1 )

ライセンス: Link先を確認
Luca Morreale and Noam Aigerman and Vladimir G. Kim and Niloy J. Mitra(参考訳) 本稿では,意味的に対応する領域と一致する2つの属ゼロ形状間のマップを自動計算する手法を提案する。 注釈付きデータの欠如は、3dセマンティクスの直接的推論を禁止している。代わりに、現在の最先端の手法は、主に幾何学的特性を最適化するか、あるいは様々な手動アノテーションを必要とする。 注釈付きトレーニングデータの欠如を克服するため,事前学習された視覚モデルからセマンティックマッチを抽出し,複数の視点から2組の3次元形状をレンダリングし,得られたレンダリング結果を,事前学習された視覚モデルを利用して特徴点を生成するオフザシェルフ画像マッチング手法に投入する。 これにより意味対応が得られ、3次元形状に投影され、異なる視点間で不正確で矛盾する生のマッチングが生成される。 これらの対応は、出力マップの単射性と連続性を促進する専用最適化スキームにより、表面マップに精製され、蒸留される。 提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。 さらに、オブジェクトが非等尺的に関連しているような意味複雑性の高いシナリオや、それらがほぼ等尺的な状況において有効であることを示す。

We present an automated technique for computing a map between two genus-zero shapes, which matches semantically corresponding regions to one another. Lack of annotated data prohibits direct inference of 3D semantic priors; instead, current State-of-the-art methods predominantly optimize geometric properties or require varying amounts of manual annotation. To overcome the lack of annotated training data, we distill semantic matches from pre-trained vision models: our method renders the pair of 3D shapes from multiple viewpoints; the resulting renders are then fed into an off-the-shelf image-matching method which leverages a pretrained visual model to produce feature points. This yields semantic correspondences, which can be projected back to the 3D shapes, producing a raw matching that is inaccurate and inconsistent between different viewpoints. These correspondences are refined and distilled into an inter-surface map by a dedicated optimization scheme, which promotes bijectivity and continuity of the output map. We illustrate that our approach can generate semantic surface-to-surface maps, eliminating manual annotations or any 3D training data requirement. Furthermore, it proves effective in scenarios with high semantic complexity, where objects are non-isometrically related, as well as in situations where they are nearly isometric.
翻訳日:2023-09-12 15:57:04 公開日:2023-09-09
# 学習推定器設計における回帰水平政策探索のグローバル収束

Global Convergence of Receding-Horizon Policy Search in Learning Estimator Designs ( http://arxiv.org/abs/2309.04831v1 )

ライセンス: Link先を確認
Xiangyuan Zhang, Saviz Mowlavi, Mouhacine Benosman, Tamer Ba\c{s}ar(参考訳) 我々は、最適線形推定器設計、すなわちカルマンフィルタ(KF)の学習において、証明可能な大域収束性を持つ最初のPGアルゴリズムであるReceding-Horizon Policy gradient (RHPG)アルゴリズムを導入する。 特に、rhpgアルゴリズムは初期化のためにシステムの事前知識を必要とせず、ターゲットのシステムがオープンループ安定である必要はない。 RHPGの鍵となるのは、バニラPG(または他のポリシー探索方向)を動的プログラミング外ループに組み込むことであり、これは、ポリシーパラメータの制約された非凸な無限水平KF問題を、非制約で強凸な静的推定問題列に繰り返し分解することで、大域収束を可能にする。 さらに,rhpg下での最適化景観の詳細な解析を行い,アルゴリズムの収束とサンプル複雑性の保証について詳述する。 この研究は、古典的な制御理論をアルゴリズム設計と理論解析の両方に利用することにより、性能保証付き制御アプリケーションに特化して強化学習アルゴリズムを開発するための最初の試みである。 最後に, 大規模対流拡散モデルのカルマンフィルタ設計を学習するために RHPG アルゴリズムを導入し, 理論を検証する。 私たちは、コードリポジトリを \url{https://github.com/xiangyuan-zhang/LearningKF} でオープンソース化しました。

We introduce the receding-horizon policy gradient (RHPG) algorithm, the first PG algorithm with provable global convergence in learning the optimal linear estimator designs, i.e., the Kalman filter (KF). Notably, the RHPG algorithm does not require any prior knowledge of the system for initialization and does not require the target system to be open-loop stable. The key of RHPG is that we integrate vanilla PG (or any other policy search directions) into a dynamic programming outer loop, which iteratively decomposes the infinite-horizon KF problem that is constrained and non-convex in the policy parameter into a sequence of static estimation problems that are unconstrained and strongly-convex, thus enabling global convergence. We further provide fine-grained analyses of the optimization landscape under RHPG and detail the convergence and sample complexity guarantees of the algorithm. This work serves as an initial attempt to develop reinforcement learning algorithms specifically for control applications with performance guarantees by utilizing classic control theory in both algorithmic design and theoretical analyses. Lastly, we validate our theories by deploying the RHPG algorithm to learn the Kalman filter design of a large-scale convection-diffusion model. We open-source the code repository at \url{https://github.com/xiangyuan-zhang/LearningKF}.
翻訳日:2023-09-12 15:56:40 公開日:2023-09-09
# 大きな言語モデルのニューロン:dead、n-gram、 positional

Neurons in Large Language Models: Dead, N-gram, Positional ( http://arxiv.org/abs/2309.04827v1 )

ライセンス: Link先を確認
Elena Voita, Javier Ferrando, Christoforos Nalmpantis(参考訳) 我々は、単一のGPU上で実行できるような軽量な方法で、大規模な言語モデルのファミリーを分析する。 具体的には、125mから66bのパラメータのopファミリーに注目し、ffnニューロンが活性化されているかどうかにのみ依存する。 まず、ネットワークの初期の部分はスパースであり、多くの離散的な特徴を表しています。 ここでは、多くのニューロン(66bモデルのいくつかの層では70%以上)が「死」である。 同時に、生きたニューロンの多くは離散的な特徴のために保存され、トークンやn-gram検出器として機能する。 興味深いことに、対応するffnアップデートは次のトークン候補を期待どおりに促進するだけでなく、トークンをトリガーする情報、すなわち現在の入力を明示的に削除することに注力している。 私たちの知る限りでは、これは残留ストリームから情報を削除する(追加するよりむしろ)ことに特化したメカニズムの最初の例です。 スケールでは、ニューロンやトークン検出器がより多く存在するという意味で、モデルはよりスパースになる。 最後に、いくつかのニューロンは位置的であり、それらが活性化されているか、あるいは単にその位置に依存するか、テキストデータに依存しない。 より小さなモデルでは、位置範囲インジケータとして機能するニューロンの集合が存在し、大きなモデルではより明示的な操作が可能である。

We analyze a family of large language models in such a lightweight manner that can be done on a single GPU. Specifically, we focus on the OPT family of models ranging from 125m to 66b parameters and rely only on whether an FFN neuron is activated or not. First, we find that the early part of the network is sparse and represents many discrete features. Here, many neurons (more than 70% in some layers of the 66b model) are "dead", i.e. they never activate on a large collection of diverse data. At the same time, many of the alive neurons are reserved for discrete features and act as token and n-gram detectors. Interestingly, their corresponding FFN updates not only promote next token candidates as could be expected, but also explicitly focus on removing the information about triggering them tokens, i.e., current input. To the best of our knowledge, this is the first example of mechanisms specialized at removing (rather than adding) information from the residual stream. With scale, models become more sparse in a sense that they have more dead neurons and token detectors. Finally, some neurons are positional: them being activated or not depends largely (or solely) on position and less so (or not at all) on textual data. We find that smaller models have sets of neurons acting as position range indicators while larger models operate in a less explicit manner.
翻訳日:2023-09-12 15:56:14 公開日:2023-09-09
# ViTScore Metricを用いた画像のセマンティックコミュニケーションの評価法

How to Evaluate Semantic Communications for Images with ViTScore Metric? ( http://arxiv.org/abs/2309.04891v1 )

ライセンス: Link先を確認
Tingting Zhu, Bo Peng, Jifan Liang, Tingchen Han, Hai Wan, Jingqiao Fu, and Junjie Chen(参考訳) セマンティック通信 (SC) は, 通信における正確なビット伝送から効果的なセマンティック情報交換へと, 次世代通信を触媒する新たなパラダイムシフトとして期待されている。 しかし,scの画像意味的類似性の評価には,従来および広く用いられてきた画像の指標は適用できない。 2つの画像間の類似度を測定する古典的なメトリクスは、通常PSNRやMS-SSIMのようなピクセルレベルや構造レベルに依存している。 LPIPS のような CV コミュニティの深層学習手法をベースとした改善されたメトリクスをストレートフォワードで使用することは,SC では不可能である。 そこで,nlpコミュニティのbertscoreに触発され,視覚トランスフォーマースコア(vitscore)という画像意味の類似性を評価するための新しい指標を提案する。 理論的には,vitscoreには対称性,境界性,正規化という3つの重要な特性があり,vitscoreは画像計測に便利で直感的である。 ViTScoreの性能を評価するために,ViTScoreとPSNR,MS-SSIM,LPIPSの3つの典型的な指標を5種類の実験で比較した。 実験の結果、ViTScoreは他の3つの典型的なメトリクスよりもイメージセマンティックな類似性を評価することができることが示され、これは、ViTScoreがSCシナリオにデプロイする際の効果的なパフォーマンス指標であることを示している。

Semantic communications (SC) have been expected to be a new paradigm shifting to catalyze the next generation communication, whose main concerns shift from accurate bit transmission to effective semantic information exchange in communications. However, the previous and widely-used metrics for images are not applicable to evaluate the image semantic similarity in SC. Classical metrics to measure the similarity between two images usually rely on the pixel level or the structural level, such as the PSNR and the MS-SSIM. Straightforwardly using some tailored metrics based on deep-learning methods in CV community, such as the LPIPS, is infeasible for SC. To tackle this, inspired by BERTScore in NLP community, we propose a novel metric for evaluating image semantic similarity, named Vision Transformer Score (ViTScore). We prove theoretically that ViTScore has 3 important properties, including symmetry, boundedness, and normalization, which make ViTScore convenient and intuitive for image measurement. To evaluate the performance of ViTScore, we compare ViTScore with 3 typical metrics (PSNR, MS-SSIM, and LPIPS) through 5 classes of experiments. Experimental results demonstrate that ViTScore can better evaluate the image semantic similarity than the other 3 typical metrics, which indicates that ViTScore is an effective performance metric when deployed in SC scenarios.
翻訳日:2023-09-12 15:50:29 公開日:2023-09-09
# 学習形状に先行した半教師付きインスタンスセグメンテーション

Semi-supervised Instance Segmentation with a Learned Shape Prior ( http://arxiv.org/abs/2309.04888v1 )

ライセンス: Link先を確認
Long Chen, Weiwen Zhang, Yuli Wu, Martin Strauch, Dorit Merhof(参考訳) 現在、ほとんどの例のセグメンテーションアプローチは、基礎的真実を訓練するためにかなりの量の注釈付きオブジェクト輪郭を必要とする教師付き学習に基づいている。 本稿では,先行する形状に基づいて対象物体を検索する枠組みを提案する。 我々の実験では、ターゲットデータセットからの数十のオブジェクト形状パッチと純粋に合成された形状は、3つのセルセグメンテーションデータセットのうち2つでトレーニングデータに完全にアクセス可能な教師付き手法と同等の結果を得るのに十分でした。 提案手法は,事前学習された教師付きモデルよりも,事前学習された3つのデータセットのドメイン固有トレーニングデータへのアクセス性が優れていた。 先行モデルの学習には、実データであれ合成データであれ、形状パッチが必要であるため、このフレームワークを半教師付き学習と呼ぶ。

To date, most instance segmentation approaches are based on supervised learning that requires a considerable amount of annotated object contours as training ground truth. Here, we propose a framework that searches for the target object based on a shape prior. The shape prior model is learned with a variational autoencoder that requires only a very limited amount of training data: In our experiments, a few dozens of object shape patches from the target dataset, as well as purely synthetic shapes, were sufficient to achieve results en par with supervised methods with full access to training data on two out of three cell segmentation datasets. Our method with a synthetic shape prior was superior to pre-trained supervised models with access to limited domain-specific training data on all three datasets. Since the learning of prior models requires shape patches, whether real or synthetic data, we call this framework semi-supervised learning.
翻訳日:2023-09-12 15:49:46 公開日:2023-09-09
# SortedAP: インスタンスセグメンテーションの評価基準の再検討

SortedAP: Rethinking evaluation metrics for instance segmentation ( http://arxiv.org/abs/2309.04887v1 )

ライセンス: Link先を確認
Long Chen, Yuli Wu, Johannes Stegmaier, Dorit Merhof(参考訳) インスタンスセグメンテーションを評価するためのメトリクスの設計は、オブジェクトの検出とセグメンテーションの精度を包括的に考慮する。 しかし, 感度, 連続性, 等性といった他の重要な性質は, 現状の研究では見過ごされている。 本稿では,既存の指標の大部分がセグメンテーション品質の限界値であることを示す。 マスクの変化や偽の予測にのみ、条件に敏感である。 特定の指標について、スコアは狭い範囲で劇的に変化し、結果間の品質ギャップの誤解を招く可能性がある。 そこで本研究では,オブジェクトレベルとピクセルレベルの不完全度で厳格に減少し,ドメイン全体にわたって断続的なペナリゼーションスケールを持つ,ソートedapと呼ばれる新しいメトリックを提案する。 評価ツールキットと実験コードはhttps://www.github.com/looooongChen/sortedAPで提供します。

Designing metrics for evaluating instance segmentation revolves around comprehensively considering object detection and segmentation accuracy. However, other important properties, such as sensitivity, continuity, and equality, are overlooked in the current study. In this paper, we reveal that most existing metrics have a limited resolution of segmentation quality. They are only conditionally sensitive to the change of masks or false predictions. For certain metrics, the score can change drastically in a narrow range which could provide a misleading indication of the quality gap between results. Therefore, we propose a new metric called sortedAP, which strictly decreases with both object- and pixel-level imperfections and has an uninterrupted penalization scale over the entire domain. We provide the evaluation toolkit and experiment code at https://www.github.com/looooongChen/sortedAP.
翻訳日:2023-09-12 15:49:19 公開日:2023-09-09
# シンプレクティック構造-ハミルトニアン(グラフ)埋め込み

Symplectic Structure-Aware Hamiltonian (Graph) Embeddings ( http://arxiv.org/abs/2309.04885v1 )

ライセンス: Link先を確認
Jiaxu Liu, Xinping Yi, Tianle Zhang, Xiaowei Huang(参考訳) 従来のグラフニューラルネットワーク(gnn)では、固定埋め込み多様体の仮定はしばしば、多様なグラフジオメトリへの適応性を制限する。 近年,ノード特徴更新に物理法則を組み込むことにより,そのような埋め込みの動的性質に対処するために,ハミルトン系GNNを提案する。 本研究では,より柔軟なノード特徴更新のためにハミルトン力学を一般化したSAH-GNNを提案する。 既存のハミルトンに着想を得たGNNとは異なり、SAH-GNNはシンプレクティック・スティーフェル多様体上でリーマン最適化を用いてトレーニング中に基礎となるシンプレクティック構造を適応的に学習し、標準シンプレクティック構造の事前定義された形式に依存する既存のハミルトンGNNの制限を回避する。 このイノベーションにより、SAH-GNNは広範なハイパーパラメータチューニングなしで、様々なグラフデータセットに自動的に適応できる。 さらに、トレーニング中にエネルギーを保存し、暗黙のハミルトニアン系は物理的に有意である。 この目的のために,複数種類のグラフデータセットにまたがるノード分類タスクにおいて,SAH-GNNの優れた性能と適応性を実証的に検証した。

In traditional Graph Neural Networks (GNNs), the assumption of a fixed embedding manifold often limits their adaptability to diverse graph geometries. Recently, Hamiltonian system-inspired GNNs are proposed to address the dynamic nature of such embeddings by incorporating physical laws into node feature updates. In this work, we present SAH-GNN, a novel approach that generalizes Hamiltonian dynamics for more flexible node feature updates. Unlike existing Hamiltonian-inspired GNNs, SAH-GNN employs Riemannian optimization on the symplectic Stiefel manifold to adaptively learn the underlying symplectic structure during training, circumventing the limitations of existing Hamiltonian GNNs that rely on a pre-defined form of standard symplectic structure. This innovation allows SAH-GNN to automatically adapt to various graph datasets without extensive hyperparameter tuning. Moreover, it conserves energy during training such that the implicit Hamiltonian system is physically meaningful. To this end, we empirically validate SAH-GNN's superior performance and adaptability in node classification tasks across multiple types of graph datasets.
翻訳日:2023-09-12 15:48:50 公開日:2023-09-09
# 曖昧さ・可視性・否定性

Ambiguity, Invisibility, and Negativity ( http://arxiv.org/abs/2309.04882v1 )

ライセンス: Link先を確認
Frank Wilczek(参考訳) 広く異なる多くの問題は共通の数学的構造を持ち、限られた知識は、本質的に正の量に対する負の値の導入を必要とする可視性の概念を用いて便利に捉えられるあいまいさをもたらす。 ここでは、知覚理論、剛体力学、量子測定の3つの例を分析した。

Many widely different problems have a common mathematical structure wherein limited knowledge lead to ambiguity that can be captured conveniently using a concept of invisibility that requires the introduction of negative values for quantities that are inherently positive. Here I analyze three examples taken from perception theory, rigid body mechanics, and quantum measurement.
翻訳日:2023-09-12 15:48:27 公開日:2023-09-09
# 機械学習のための勾配最適化と変分不等式入門

A Gentle Introduction to Gradient-Based Optimization and Variational Inequalities for Machine Learning ( http://arxiv.org/abs/2309.04877v1 )

ライセンス: Link先を確認
Neha S. Wadia, Yatin Dandi, and Michael I. Jordan(参考訳) 近年の機械学習の急速な進歩は、勾配に基づく最適化への高度に生産的な接続に基づいている。 さらなる進歩は、パターン認識から意思決定やマルチエージェント問題へと焦点を移すことにある。 これらの広い環境では、オプティマの代わりに平衡とゲーム理論を含む新しい数学的課題が現れる。 勾配に基づく手法は、高次元と大規模な機械学習問題を考えると、依然として不可欠だが、単純な勾配降下はアルゴリズム設計の出発点ではない。 機械学習における勾配に基づくアルゴリズムのより広範なフレームワークについて,サドルポイントとモノトーンゲームから始まり,一般的な変分不等式へと進む。 提示するアルゴリズムのいくつかの収束証明を提供する一方で、私たちの焦点はモチベーションと直感を提供することです。

The rapid progress in machine learning in recent years has been based on a highly productive connection to gradient-based optimization. Further progress hinges in part on a shift in focus from pattern recognition to decision-making and multi-agent problems. In these broader settings, new mathematical challenges emerge that involve equilibria and game theory instead of optima. Gradient-based methods remain essential -- given the high dimensionality and large scale of machine-learning problems -- but simple gradient descent is no longer the point of departure for algorithm design. We provide a gentle introduction to a broader framework for gradient-based algorithms in machine learning, beginning with saddle points and monotone games, and proceeding to general variational inequalities. While we provide convergence proofs for several of the algorithms that we present, our main focus is that of providing motivation and intuition.
翻訳日:2023-09-12 15:48:20 公開日:2023-09-09
# 効率的なMPCに基づくプライベート推論のための還元リング上のReLUの近似

Approximating ReLU on a Reduced Ring for Efficient MPC-based Private Inference ( http://arxiv.org/abs/2309.04875v1 )

ライセンス: Link先を確認
Kiwan Maeng, G. Edward Suh(参考訳) セキュアなマルチパーティ計算(MPC)により、ユーザはプライバシに敏感なデータを共有することなく、信頼できないサーバで機械学習推論をオフロードできる。 強力なセキュリティ特性にもかかわらず、MPCベースのプライベート推論は、高い通信オーバーヘッドのため、現実世界では広く採用されていない。 relu層を評価するとき、mpcプロトコルは当事者間の通信量を大幅に増加させ、エンド・ツー・エンドの実行時間は非プライベートのプロトコルよりも複数の命令を遅くする。 本稿では、より小さなリング上でReLUを評価するために、ビットのサブセットだけを使用することで、ReLU通信オーバーヘッドを大幅に削減するMPCフレームワークであるHummingBirdを提案する。 理論的解析に基づいて、HummingBirdは、正確性に欠かせない秘密共有のビットを特定し、ReLU評価中にそれらを除外して通信を減らす。 効率的な検索エンジンであるHummingBirdは、ReLU中に87~91%のビットを破棄し、高い精度を維持している。複数のサーバを含む実際のMPCセットアップでは、HummingBirdはエラーを発生させることなく平均2.03~2.67倍のエンドツーエンドのスピードアップを実現し、最大8.64倍の精度低下を許容できる平均スピードアップを実現している。

Secure multi-party computation (MPC) allows users to offload machine learning inference on untrusted servers without having to share their privacy-sensitive data. Despite their strong security properties, MPC-based private inference has not been widely adopted in the real world due to their high communication overhead. When evaluating ReLU layers, MPC protocols incur a significant amount of communication between the parties, making the end-to-end execution time multiple orders slower than its non-private counterpart. This paper presents HummingBird, an MPC framework that reduces the ReLU communication overhead significantly by using only a subset of the bits to evaluate ReLU on a smaller ring. Based on theoretical analyses, HummingBird identifies bits in the secret share that are not crucial for accuracy and excludes them during ReLU evaluation to reduce communication. With its efficient search engine, HummingBird discards 87--91% of the bits during ReLU and still maintains high accuracy. On a real MPC setup involving multiple servers, HummingBird achieves on average 2.03--2.67x end-to-end speedup without introducing any errors, and up to 8.64x average speedup when some amount of accuracy degradation can be tolerated, due to its up to 8.76x communication reduction.
翻訳日:2023-09-12 15:48:01 公開日:2023-09-09
# 低リソース言語のための分布データ拡張手法

Distributional Data Augmentation Methods for Low Resource Language ( http://arxiv.org/abs/2309.04862v1 )

ライセンス: Link先を確認
Mosleh Mahamud, Zed Lee, Isak Samsten(参考訳) テキスト拡張は、未資源のコーパスから合成データを構築し、予測性能を向上させる技術である。 合成データ生成は多くの領域で一般的である。 しかし、最近、下流タスクを改善するために自然言語処理(NLP)にテキスト拡張が出現した。 現在の最先端のテキスト拡張手法の1つは、簡単なデータ拡張(EDA)であり、同義語を注入して置換し、ランダムに置換することでトレーニングデータを増強する。 EDAの大きな障害の1つは、低リソース言語では容易に見つからない、多目的で完全な同義語辞書の必要性である。 EDAの有用性を改善するために,意味的単語コンテキスト情報と単語置換・拡張のためのパート・オブ・音声タグを使用する2つの拡張,EDDAとタイプ固有類似語置換(TSSR)を提案する。 低リソース言語の一例として,スウェーデンの2つの代表的なデータセットに対して,F1スコアによって測定された提案手法の有用性を示す。 提案手法により,低リソース環境での分類性能が向上することを示す。

Text augmentation is a technique for constructing synthetic data from an under-resourced corpus to improve predictive performance. Synthetic data generation is common in numerous domains. However, recently text augmentation has emerged in natural language processing (NLP) to improve downstream tasks. One of the current state-of-the-art text augmentation techniques is easy data augmentation (EDA), which augments the training data by injecting and replacing synonyms and randomly permuting sentences. One major obstacle with EDA is the need for versatile and complete synonym dictionaries, which cannot be easily found in low-resource languages. To improve the utility of EDA, we propose two extensions, easy distributional data augmentation (EDDA) and type specific similar word replacement (TSSR), which uses semantic word context information and part-of-speech tags for word replacement and augmentation. In an extensive empirical evaluation, we show the utility of the proposed methods, measured by F1 score, on two representative datasets in Swedish as an example of a low-resource language. With the proposed methods, we show that augmented data improve classification performances in low-resource settings.
翻訳日:2023-09-12 15:47:34 公開日:2023-09-09
# グラディエントDescent Training Neural Networkの近似結果

Approximation Results for Gradient Descent trained Neural Networks ( http://arxiv.org/abs/2309.04860v1 )

ライセンス: Link先を確認
G. Welper(参考訳) この論文は、勾配流で訓練されたニューラルネットワークに対して、$d$次元単位球面上の連続$L_2(\mathbb{S}^{d-1})$-normで測定された誤差と、ソボレフの滑らかなターゲットを含む近似保証を含んでいる。 ネットワークは一定の深さと幅で完全に接続されている。 全ての層が訓練されているが、勾配流収束は、非凸第2、最後の層に対するニューラルネットワークカーネル(NTK)の引数に基づいている。 標準のNTK解析とは異なり、連続誤差ノルムは近似に必要な自然な滑らかさの仮定によって可能となる、過度にパラメータ化された状態を意味する。 典型的なオーバーパラメトリゼーションは、ソボレフ滑らか関数の確立された近似法と比較して近似率の損失の形に再突入する。

The paper contains approximation guarantees for neural networks that are trained with gradient flow, with error measured in the continuous $L_2(\mathbb{S}^{d-1})$-norm on the $d$-dimensional unit sphere and targets that are Sobolev smooth. The networks are fully connected of constant depth and increasing width. Although all layers are trained, the gradient flow convergence is based on a neural tangent kernel (NTK) argument for the non-convex second but last layer. Unlike standard NTK analysis, the continuous error norm implies an under-parametrized regime, possible by the natural smoothness assumption required for approximation. The typical over-parametrization re-enters the results in form of a loss in approximation rate relative to established approximation methods for Sobolev smooth functions.
翻訳日:2023-09-12 15:47:15 公開日:2023-09-09
# 言語生成システムにブラックボックスアクセスを付与したリバースエンジニアリングデコード方式

Reverse-Engineering Decoding Strategies Given Blackbox Access to a Language Generation System ( http://arxiv.org/abs/2309.04858v1 )

ライセンス: Link先を確認
Daphne Ippolito, Nicholas Carlini, Katherine Lee, Milad Nasr, Yun William Yu(参考訳) ニューラル言語モデルは、ユーザーがプロンプトを渡して生成されたテキストを受信できるように、APIやWebサイトにますますデプロイされている。 これらのシステムの多くは生成パラメータを明らかにしない。 本稿では,テキスト生成に用いる復号法(トップ$k$または核サンプリング)をリバースエンジニアリングする手法を提案する。 どのデコード戦略が使われたかを検出する能力は、生成されたテキストを検出するための意味を持つ。 さらに、デコード戦略を発見するプロセスは、モデルが予測する分布を著しく歪ませるデコード設定を選択することで生じるバイアスを明らかにすることができる。 私たちは、いくつかのオープンソースの言語モデル、およびプロダクションシステム(例えば、chatgpt)に対して攻撃を行います。

Neural language models are increasingly deployed into APIs and websites that allow a user to pass in a prompt and receive generated text. Many of these systems do not reveal generation parameters. In this paper, we present methods to reverse-engineer the decoding method used to generate text (i.e., top-$k$ or nucleus sampling). Our ability to discover which decoding strategy was used has implications for detecting generated text. Additionally, the process of discovering the decoding strategy can reveal biases caused by selecting decoding settings which severely truncate a model's predicted distributions. We perform our attack on several families of open-source language models, as well as on production systems (e.g., ChatGPT).
翻訳日:2023-09-12 15:47:01 公開日:2023-09-09
# 電気回路を用いた実験トポロジカル量子コンピューティング

Experimental topological quantum computing with electric circuits ( http://arxiv.org/abs/2309.04896v1 )

ライセンス: Link先を確認
Deyuan Zou, Naiqiao Pan, Tian Chen, Houjun Sun, and Xiangdong Zhang(参考訳) スケーラブルな量子コンピュータの実現の鍵となる障害は、環境および制御エラーを克服することである。 トポロジカル量子計算は、これらの問題を解決する最も有望なアプローチの1つとして登場したため、大きな注目を集めている。 トポロジカル量子計算を構築するための様々な理論スキームが提案されている。 しかし、実システムにおけるトポロジカルキュービットの生成と操作が非常に困難であることが証明されたため、実験的な実装は常に大きな課題であった。 したがって、トポロジカル量子計算はまだ実験で実現されていない。 本稿では,電気回路を用いたトポロジカル量子計算を初めて実験的に実現する。 提案した回路を用いた新しいスキームに基づいて,マヨラナ様のエッジ状態が実験的に観察されるだけでなく,T接合がブレイディングプロセスのために構築される。 さらに,1ビットと2ビットのユニタリ演算によるトポロジカル量子コンピューティングの実現可能性を示す。 最後に、Groverの探索アルゴリズムの実装により、トポロジカル量子計算がそのようなタスクに最適であることを示す。

The key obstacle to the realization of a scalable quantum computer is overcoming environmental and control errors. Topological quantum computation has attracted great attention because it has emerged as one of the most promising approaches to solving these problems. Various theoretical schemes for building topological quantum computation have been proposed. However, experimental implementation has always been a great challenge because it has proved to be extremely difficult to create and manipulate topological qubits in real systems. Therefore, topological quantum computation has not been realized in experiments yet. Here, we report the first experimental realization of topological quantum computation with electric circuits. Based on our proposed new scheme with circuits, Majorana-like edge states are not only observed experimentally, but also T junctions are constructed for the braiding process. Furthermore, we demonstrate the feasibility of topological quantum computing through a set of one- and two-qubit unitary operations. Finally, our implementation of Grover's search algorithm demonstrates that topological quantum computation is ideally suited for such tasks.
翻訳日:2023-09-12 15:36:12 公開日:2023-09-09
# 逆設計要素を持つ超コンパクトユニバーサル量子論理ゲート

Super-compact universal quantum logic gates with inversedesigned elements ( http://arxiv.org/abs/2309.04895v1 )

ライセンス: Link先を確認
Lu He, Dongning Liu, Jingxing Gao, Weixuan Zhang, Huizhen Zhang, Xue Feng, Yidong Huang, Kaiyu Cui, Fang Liu, Wei Zhang and Xiangdong Zhang(参考訳) 集積量子フォトニック回路は、将来量子情報処理を実現するための有望なプラットフォームである。 大規模量子フォトニック回路を実現するためには、チップへの高密度集積のために、応用量子論理ゲートをできるだけ小さくする必要がある。 本稿では、シリコンチップ上に超コンパクトなユニバーサル量子論理ゲートを逆設計により実装する。 特に、製造された制御されていないゲートとハダマールゲートは真空波長に近いため、これまで報告された最小の光学量子ゲートである。 さらに、これらの基本ゲートをカスケードして任意の量子処理を行い、対応するサイズが従来の量子フォトニック回路よりも数桁小さい量子回路を設計する。 本研究は,大規模な量子フォトニックチップを集積ソースで実現する方法を開拓し,量子情報処理の分野において重要な応用を期待できる。

Integrated quantum photonic circuit is a promising platform for the realization of quantum information processing in the future. To achieve the largescale quantum photonic circuits, the applied quantum logic gates should be as small as possible for the high-density integration on chips. Here, we report the implementation of super-compact universal quantum logic gates on silicon chips by the method of inverse design. In particular, the fabricated controlled-NOT gate and Hadamard gate are both nearly a vacuum wavelength, being the smallest optical quantum gates reported up to now. We further design the quantum circuit by cascading these fundamental gates to perform arbitrary quantum processing, where the corresponding size is about several orders smaller than that of previous quantum photonic circuits. Our study paves the way for the realization of largescale quantum photonic chips with integrated sources, and can possess important applications in the field of quantum information processes.
翻訳日:2023-09-12 15:35:56 公開日:2023-09-09