このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231209となっている論文です。

PDF登録状況(公開日: 20231209)

TitleAuthorsAbstract論文公表日・翻訳日
# 投資決定のための財務データ可視化の強化

Enhancing Financial Data Visualization for Investment Decision-Making ( http://arxiv.org/abs/2403.18822v1 )

ライセンス: Link先を確認
Nisarg Patel, Harmit Shah, Kishan Mewada, (参考訳) 金融市場の複雑な環境をナビゲートするには、株価の動きを十分に予測する必要がある。 本稿では,ストックダイナミクスを予測するためのLong Short-Term Memory(LSTM)ネットワークの可能性について述べる。 ニューヨーク証券取引所(NYSE)のデータセットを活用することで、複雑なパターンをキャプチャするLSTMの能力を高めるために、複数の特徴が組み込まれている。 開店、閉店、安値、高価格などの重要な属性の可視化は、市場を包括的に理解するために不可欠な微妙な区別を明らかにするのに役立つ。 LSTM入力構造は、確立されたガイドラインにインスパイアされ、25日間の時間ステップで価格と体積の属性を組み込むことで、時間的複雑さを捉えることができる。 グリッドサーチによるハイパーパラメータチューニング、早期停止、コールバック機構を含む包括的な方法論は、予測精度を53%向上させる。 この調査は、モデルロバスト性、財務予測文学への貢献、リアルタイムの株式市場予測のロードマップに関する洞察で締めくくっている。 LSTMネットワークの集約、戦略的ハイパーパラメータチューニング、情報機能選択は、株価予測の精度を向上するための強力な枠組みを示し、金融時系列予測の談話に実質的に寄与する。

Navigating the intricate landscape of financial markets requires adept forecasting of stock price movements. This paper delves into the potential of Long Short-Term Memory (LSTM) networks for predicting stock dynamics, with a focus on discerning nuanced rise and fall patterns. Leveraging a dataset from the New York Stock Exchange (NYSE), the study incorporates multiple features to enhance LSTM's capacity in capturing complex patterns. Visualization of key attributes, such as opening, closing, low, and high prices, aids in unraveling subtle distinctions crucial for comprehensive market understanding. The meticulously crafted LSTM input structure, inspired by established guidelines, incorporates both price and volume attributes over a 25-day time step, enabling the model to capture temporal intricacies. A comprehensive methodology, including hyperparameter tuning with Grid Search, Early Stopping, and Callback mechanisms, leads to a remarkable 53% improvement in predictive accuracy. The study concludes with insights into model robustness, contributions to financial forecasting literature, and a roadmap for real-time stock market prediction. The amalgamation of LSTM networks, strategic hyperparameter tuning, and informed feature selection presents a potent framework for advancing the accuracy of stock price predictions, contributing substantively to financial time series forecasting discourse.
翻訳日:2024-04-01 02:34:48 公開日:2023-12-09
# リアルタイムサイバー脅威検出・応答のための階層的セキュリティ事象相関モデル

A Hierarchical Security Events Correlation Model for Real-time Cyber Threat Detection and Response ( http://arxiv.org/abs/2312.01219v2 )

ライセンス: Link先を確認
Herbert Maosa, Karim Ouazzane, Mohamed Chahine Ghanem, (参考訳) 侵入検知システムは、ファイアウォールなどの予防措置が攻撃を回避しない場合に、セキュリティ違反の事後検出を行う。 しかし、これらのシステムは、セキュリティアナリストによって分析され、トリアージされなければならない膨大な数の警告を提起する。 このプロセスは大部分が手作業で、面倒で、時間を要する。 アラート相関(Alert correlation)とは、何らかの方法で関連するものを集約することで侵入警報の数を減らそうとする手法である。 しかし、この相関はサードパーティのシステムやツールを通じてIDSの外部で実行される。 これらの他のサードパーティシステムは、セキュリティ操作の複雑さを増す。 本稿では,侵入検知システムによって発行される警告を減らすことを約束する,新しい階層型事象相関モデルを開発することにより,非常に研究された相関手法の領域を構築する。 これはIDSがそれらを分類する前にイベントを関連付けることで達成される。 提案モデルでは、類似性とグラフベースの相関技術から特徴を最大限に活用して、どちらのアプローチも別途実現できないアンサンブル機能を実現する。 さらに,現在の技術のように,警告よりもイベントの相関関係の相関プロセスを提案する。 さらに,ネットワークイベントデータの相関とクラスタリングに適した相関とクラスタリングアルゴリズムを開発した。 このモデルはDARPA 99 侵入検知セットで実験を行うという概念実証として実装されている。 この相関は、集約によって87%のデータ削減を実現し、約30秒で21000近いクラスタを生成した。

Intrusion detection systems perform post-compromise detection of security breaches whenever preventive measures such as firewalls do not avert an attack. However, these systems raise a vast number of alerts that must be analysed and triaged by security analysts. This process is largely manual, tedious and time-consuming. Alert correlation is a technique that tries to reduce the number of intrusion alerts by aggregating those that are related in some way. However, the correlation is performed outside the IDS through third-party systems and tools, after the high volume of alerts has already been raised. These other third-party systems add to the complexity of security operations. In this paper, we build on the very researched area of correlation techniques by developing a novel hierarchical event correlation model that promises to reduce the number of alerts issued by an Intrusion Detection System. This is achieved by correlating the events before the IDS classifies them. The proposed model takes the best of features from similarity and graph-based correlation techniques to deliver an ensemble capability not possible by either approach separately. Further, we propose a correlation process for correlation of events rather than alerts as is the case in current art. We further develop our own correlation and clustering algorithm which is tailor-made to the correlation and clustering of network event data. The model is implemented as a proof of concept with experiments run on the DARPA 99 Intrusion detection set. The correlation achieved 87 percent data reduction through aggregation, producing nearly 21000 clusters in about 30 seconds.
翻訳日:2024-03-18 13:15:35 公開日:2023-12-09
# FLoW3 -- Web3を活用したフェデレーションラーニング

FLoW3 -- Web3 Empowered Federated Learning ( http://arxiv.org/abs/2312.05459v1 )

ライセンス: Link先を確認
Venkata Raghava Kurada, Pallava Kumar Baruah, (参考訳) フェデレートラーニングは、データポジショニング、モデルポジショニング、中間攻撃における人など、さまざまな種類の攻撃に影響を受けやすい。 我々は,フェデレート学習を階層構造,ノードとバリデータとのフェデレーションとして認識する。 バリデーションのプロセスは、Noverety DetectionとSnowballプロトコルを使用して、潜在的に悪意のある、あるいは無関係な更新をフィルタリングしながら、価値ある、関連するアップデートを識別することでコンセンサスによって行われる。 検証者の意見はブロックチェーンに記録され、信頼スコアが計算される。 コンセンサスがない場合、信頼スコアは、グローバルモデルに対するバリデータの影響を決定するために使用される。 ハイパーパラメータは、コンセンサスや信頼スコアに依存するモデル生成プロセスを導くために導入された。 このアプローチはアグリゲーションプロセスにおける透明性と信頼性を確保し、グローバルモデルが最も信頼されたノードの洞察から恩恵を受けられるようにする。 トレーニングフェーズでは、IPFS、PGP暗号化の組み合わせが提供される。 a) 安全で分散化された記憶装置 b)単一障害点の緩和により、このシステムは信頼性が高く、かつ c) 中間攻撃における人に対する弾力性 このシステムは、スマートコントラクト開発のためのpythonとFoundryの実装によって実現されている。 Global Modelは、ラベルを反転させ、悪意のあるノードを導入することによって、データ中毒に対してテストされる。 結果はフラワーと類似していることがわかった。

Federated Learning is susceptible to various kinds of attacks like Data Poisoning, Model Poisoning and Man in the Middle attack. We perceive Federated Learning as a hierarchical structure, a federation of nodes with validators as the head. The process of validation is done through consensus by employing Novelty Detection and Snowball protocol, to identify valuable and relevant updates while filtering out potentially malicious or irrelevant updates, thus preventing Model Poisoning attacks. The opinion of the validators is recorded in blockchain and trust score is calculated. In case of lack of consensus, trust score is used to determine the impact of validators on the global model. A hyperparameter is introduced to guide the model generation process, either to rely on consensus or on trust score. This approach ensures transparency and reliability in the aggregation process and allows the global model to benefit from insights of most trusted nodes. In the training phase, the combination of IPFS , PGP encryption provides : a) secure and decentralized storage b) mitigates single point of failure making this system reliable and c) resilient against man in the middle attack. The system is realized by implementing in python and Foundry for smart contract development. Global Model is tested against data poisoning by flipping the labels and by introducing malicious nodes. Results found to be similar to that of Flower.
翻訳日:2024-03-18 12:46:22 公開日:2023-12-09
# eBPF技術によるModbus TCPプロトコルセキュリティの強化

Enhancing Modbus TCP Protocol Security with eBPF Technology ( http://arxiv.org/abs/2312.05665v1 )

ライセンス: Link先を確認
Jia-Yi Jhan, Hung-Min Sun, (参考訳) インダストリアル・コントロール・システム(ICS)の中核となるコンポーネントは、様々なモジュールを組み合わせたプログラム可能なロジック・コントローラ(PLC)であることが多い。 このようなシステムでは、デバイス間の通信は主に、1979年にModicon(現在のSchneider Electric)によってアプリケーションレベルの通信プロトコルとして開発されたModbusプロトコルに基づいており、過去40年間ICSのデファクトスタンダードとなっている。 Modbus TCPはTCP/IPネットワーク上で通信するためのプロトコルの一種である。 しかし、Modbusプロトコルはセキュリティを念頭に設計されておらず、通信中に平文送信を使用することで攻撃者に情報を容易にアクセスできるようになる。 本研究では,eBPF技術を用いて,プロトコル変更のプロセスをオペレーティングシステムの下位レベルに移行し,既存のソフトウェアに透過的な変更を施し,既存のソフトウェアエコシステムに影響を与えることなく,Modbus TCPプロトコルのセキュリティを向上させる。

The core component of an Industrial Control System (ICS) is often a Programmable Logic Controller (PLC) combined with various modules. In such systems, the communication between devices is mainly based on the Modbus protocol, which was developed by Modicon (now Schneider Electric) in 1979 as an application-level communication protocol and has become a de facto standard for ICS for the past 40 years. Modbus TCP is a variant of this protocol for communications over the TCP/IP network. However, the Modbus protocol was not designed with security in mind, and the use of plaintext transmissions during communication makes information easily accessible to the attackers, while the lack of an authentication mechanism gives any protocol-compliant device the ability to take over control. In this study, we use the eBPF technology to shift the process of protocol change to the lower level of the operating system, making the change transparent to the existing software, and enhancing the security of the Modbus TCP protocol without affecting the existing software ecosystem as much as possible.
翻訳日:2024-03-18 12:46:22 公開日:2023-12-09
# サイバー攻撃シミュレーションにおける隠れ状態推定のためのグラフニューラルネットワークによるアプローチ

Towards a Graph Neural Network-Based Approach for Estimating Hidden States in Cyber Attack Simulations ( http://arxiv.org/abs/2312.05666v1 )

ライセンス: Link先を確認
Pontus Johnson, Mathias Ekstedt, (参考訳) このワーク・イン・プログレス・ペーパーでは、サイバー攻撃シミュレーションにおいて隠れた状態を推定するための新しいグラフニューラルネットワーク(GNN)ベースのアプローチのプロトタイプを紹介する。 本フレームワークは,リレーショナル動的決定言語(RDDL)と併用したメタ攻撃言語(MAL)を用いて,サイバー攻撃の複雑な複雑さをシミュレーションに多数のベクトルでマッピングすることを目的としている。 プロトタイプはまだ完成・検証されていないが,その基礎概念,アーキテクチャ,およびコンピュータセキュリティ分野への潜在的影響について論じる。

This work-in-progress paper introduces a prototype for a novel Graph Neural Network (GNN) based approach to estimate hidden states in cyber attack simulations. Utilizing the Meta Attack Language (MAL) in conjunction with Relational Dynamic Decision Language (RDDL) conformant simulations, our framework aims to map the intricate complexity of cyber attacks with a vast number of possible vectors in the simulations. While the prototype is yet to be completed and validated, we discuss its foundational concepts, the architecture, and the potential implications for the field of computer security.
翻訳日:2024-03-18 12:46:22 公開日:2023-12-09
# 大規模言語モデルを用いた臨床データ生成のための2つの方向--data-to-labelと label-to-data

Two Directions for Clinical Data Generation with Large Language Models: Data-to-Label and Label-to-Data ( http://arxiv.org/abs/2401.06774v1 )

ライセンス: Link先を確認
Rumeng Li, Xun Wang, Hong Yu(参考訳) 大規模言語モデル(LLM)は、様々なドメインやタスクのための自然言語テキストを生成することができるが、臨床テキストマイニングの可能性は乏しく、敏感で、不均衡な医療データを持つ領域である。 高度に専門知識を必要とする課題である電子健康記録(EHR)からアルツハイマー病関連徴候や症状を検出するための臨床データを増やすことができるかを検討する。 我々は,AD関連徴候と症状を付した文を生成する「data-to-label」と,そのラベル定義に基づいてAD関連徴候と症状を生成する「label-to-data」という,2つの異なる方向の合成データを生成するための専門知識に基づく,AD関連徴候と症状進行のための新しい実用的な分類法を作成する。 本研究は,ヒトの専門家がad患者の縦型eersにアノテートした金のデータセット,データ・ツー・ラベル法で作成した銀のデータセット,ラベル・ツー・データ法で作成した青銅のデータセットの3つのデータセットを用いて,eersから広告関連サインや症状を検出するシステムを訓練する。 銀と青銅のデータセットを使用することでシステム性能が向上し、金のデータセットのみを用いてシステムのパフォーマンスが向上することがわかった。 このことは,LSMが専門知識を取り入れた複雑なタスクのための合成臨床データを生成できることを示し,ラベル・トゥ・データ法は,機密情報のないデータセットを生成できると同時に,許容品質を維持していることを示す。

Large language models (LLMs) can generate natural language texts for various domains and tasks, but their potential for clinical text mining, a domain with scarce, sensitive, and imbalanced medical data, is underexplored. We investigate whether LLMs can augment clinical data for detecting Alzheimer's Disease (AD)-related signs and symptoms from electronic health records (EHRs), a challenging task that requires high expertise. We create a novel pragmatic taxonomy for AD sign and symptom progression based on expert knowledge, which guides LLMs to generate synthetic data following two different directions: "data-to-label", which labels sentences from a public EHR collection with AD-related signs and symptoms; and "label-to-data", which generates sentences with AD-related signs and symptoms based on the label definition. We train a system to detect AD-related signs and symptoms from EHRs, using three datasets: (1) a gold dataset annotated by human experts on longitudinal EHRs of AD patients; (2) a silver dataset created by the data-to-label method; and (3) a bronze dataset created by the label-to-data method. We find that using the silver and bronze datasets improves the system performance, outperforming the system using only the gold dataset. This shows that LLMs can generate synthetic clinical data for a complex task by incorporating expert knowledge, and our label-to-data method can produce datasets that are free of sensitive information, while maintaining acceptable quality.
翻訳日:2024-01-22 12:40:10 公開日:2023-12-09
# I-divergence-TVモデルに基づくSAR画像分割アルゴリズム

SAR image segmentation algorithms based on I-divergence-TV model ( http://arxiv.org/abs/2312.09365v1 )

ライセンス: Link先を確認
Guangming Liu, Quanying Sun, Qi iu(参考訳) 本稿では,I-divergence-TVモデルに基づく新しい変分能動輪郭モデルを提案し,領域ベースモデルとエッジベースモデルを組み合わせた乗法ガンマノイズを用いた合成開口レーダ(SAR)画像の分割を行う。 提案モデルでは,輪郭が弱あるいはぼやけたエッジで効率的に停止でき,画像の外部境界や内部境界を自動的に検出することができる。 本研究では,大域凸セグメンテーション法とbregman法をモデルに分割し,大域凸セグメンテーション問題を解くための高速不動点アルゴリズムを提案する[25]。 合成画像と実SAR画像の実験結果から,提案した高速固定点アルゴリズムは最先端手法と比較して頑健かつ効率的であることがわかった。

In this paper, we propose a novel variational active contour model based on I-divergence-TV model to segment Synthetic aperture radar (SAR) images with multiplicative gamma noise, which hybrides edge-based model with region-based model. The proposed model can efficiently stop the contours at weak or blurred edges, and can automatically detect the exterior and interior boundaries of images. We incorporate the global convex segmentation method and split Bregman technique into the proposed model, and propose a fast fixed point algorithm to solve the global convex segmentation question[25]. Experimental results for synthetic images and real SAR images show that the proposed fast fixed point algorithm is robust and efficient compared with the state-of-the-art approach.
翻訳日:2024-01-15 14:21:50 公開日:2023-12-09
# 社会科学における人工知能 : ビブリオメトリックス分析に基づく研究

Artificial intelligence in social science: A study based on bibliometrics analysis ( http://arxiv.org/abs/2312.10077v1 )

ライセンス: Link先を確認
Juan-Jose Prieto-Gutierrez, Francisco Segado-Boj, Fabiana Da Silva Fran\c{c}a(参考訳) 人工知能(AI)は徐々に惑星を変えつつある。 データデジタル化、コンピューティングインフラストラクチャ、機械学習は、AIツールが社会のあらゆる分野に広がるのを助けている。 本稿では,過去10年間(2013-2022年)の社会科学におけるAI関連出版物の文献分析結果を紹介する。 歴史出版物の多くは、この分野における研究の関連性と傾向を特定する目的で考慮されている。 その結果、2008年から2022年までの85%で19,408以上の論文が出版されており、この分野の研究が年々大幅に増加していることを示している。 社会科学におけるAIに関連する研究の明確な領域または規律は、法律や法的推論、教育、経済学、倫理などのサブ領域に分類することができる。 米国は最も多く発行する国(20%)であり、次いで中国(13%)である。 社会に対するAIの影響は避けられないものであり、進歩はイノベーションや新しい仕事の大きな機会を生み出すことができるが、中期的には、この移行に適切に対応し、規制を設定し、倫理と責任の課題をレビューする必要がある。

Artificial intelligence (AI) is gradually changing the planet. Data digitisation, computing infrastructure and machine learning are helping AI tools to spread across all sectors of society. This article presents the results of a bibliometric analysis of AI-related publications in the social sciences over the last ten years (2013-2022). Most of the historical publications are taken into consideration with the aim of identifying research relevance and trends in this field. The results indicate that more than 19,408 articles have been published, 85% from 2008 to 2022, showing that research in this field is increasing significantly year on year. Clear domains or disciplines of research related to AI within the social sciences can be grouped into sub-areas such as law and legal reasoning, education, economics, and ethics. The United States is the country that publishes the most (20%), followed by China (13%). The influence of AI on society is inevitable and the advances can generate great opportunities for innovation and new jobs, but in the medium term it is necessary to adequately face this transition, setting regulations and reviewing the challenges of ethics and responsibility.
翻訳日:2024-01-15 13:49:13 公開日:2023-12-09
# Labrador: 実験データのためのマスク言語モデリングの限界を探る

Labrador: Exploring the Limits of Masked Language Modeling for Laboratory Data ( http://arxiv.org/abs/2312.11502v1 )

ライセンス: Link先を確認
David R. Bellamy, Bhawesh Kumar, Cindy Wang, Andrew Beam(参考訳) 本稿では,実験室データのための事前学習トランスフォーマーであるlabradorを紹介する。 ラブラドールとBERTは、電子健康記録(EHR)から1億の検査結果のコーパスで事前訓練され、下流の様々な結果予測タスクで評価された。 どちらのモデルも事前学習タスクの熟達を示すが、下流の教師付きタスクではXGBoostを一貫して上回らない。 我々のアブレーション研究により、トランスファー学習はbertに限られた効果を示し、ラブラドールの限界的成功をもたらすことが明らかとなった。 転帰学習の失敗の原因を考察し,各患者に根底にあるデータ生成プロセスは,実験室のみでは十分な特徴付けができないことを示唆する。 我々は、今後、複数のEHRデータカテゴリの共同モデリングに注力し、その評価にツリーベースのベースラインを含めることを推奨する。

In this work we introduce Labrador, a pre-trained Transformer model for laboratory data. Labrador and BERT were pre-trained on a corpus of 100 million lab test results from electronic health records (EHRs) and evaluated on various downstream outcome prediction tasks. Both models demonstrate mastery of the pre-training task but neither consistently outperform XGBoost on downstream supervised tasks. Our ablation studies reveal that transfer learning shows limited effectiveness for BERT and achieves marginal success with Labrador. We explore the reasons for the failure of transfer learning and suggest that the data generating process underlying each patient cannot be characterized sufficiently using labs alone, among other factors. We encourage future work to focus on joint modeling of multiple EHR data categories and to include tree-based baselines in their evaluations.
翻訳日:2024-01-15 13:39:46 公開日:2023-12-09
# 外科的結び結びシミュレーションにおける学生成績評価のためのカスケードニューラルネットワークシステム

A Cascaded Neural Network System For Rating Student Performance In Surgical Knot Tying Simulation ( http://arxiv.org/abs/2312.14952v1 )

ライセンス: Link先を確認
Yunzhe Xue, Olanrewaju Eletta, Justin W. Ady, Nell M. Patel, Advaith Bongu, Usman Roshan(参考訳) 研修の一環として、すべての医学生や住民は結び目、針通し、縫合などの基本的な手術をパスしなければならない。 彼らの評価は典型的には手術室で行われ、学生のミスや失敗が手術時間とコストを増加させる。 この評価は定量的であり、誤差のマージンが低い。 シミュレーションはコスト効率のよい選択肢として登場したが、評価に欠けたり、さらに高価なハードウェアを必要とする。 外科的結び目試行のトレーニングビデオを提供するアプリは学生に提供されているが、評価はされていない。 そこで本研究では,手術用結び目係留タスクをシミュレートした映像から,生徒のパフォーマンスを評価するニューラルネットワークアーキテクチャを提案する。 提案モデルでは,ビデオフレーム画像を事前学習した深部畳み込みネットワークで特徴ベクトルに変換し,時間的ネットワークでフレームのシーケンスをモデル化する。 我々は、ロバート・ウッド・ジョンソン病院から、標準化されたシミュレーションキットで結び目を行う医学生と住民のビデオを得た。 手動で各ビデオに注釈を付け,5倍のクロスバリデーション調査を行った。 本モデルでは,結び目関連タスクの結び目と押圧レベルを決定するために,それぞれ0.71,0.66,0.65の正中精度,リコール,F1スコアを達成する。 異なる確率閾値で平均した平均精度スコアは0.8。 f1-scoreと平均精度スコアは、同じ問題に対する最近発表された研究よりも8%と30%高い。 モデルにより多くのトレーニングビデオを追加することで,モデルの精度がさらに向上し,学生が自身で評価できる実用的なソリューションになると期待しています。

As part of their training all medical students and residents have to pass basic surgical tasks such as knot tying, needle-passing, and suturing. Their assessment is typically performed in the operating room by surgical faculty where mistakes and failure by the student increases the operation time and cost. This evaluation is quantitative and has a low margin of error. Simulation has emerged as a cost effective option but it lacks assessment or requires additional expensive hardware for evaluation. Apps that provide training videos on surgical knot trying are available to students but none have evaluation. We propose a cascaded neural network architecture that evaluates a student's performance just from a video of themselves simulating a surgical knot tying task. Our model converts video frame images into feature vectors with a pre-trained deep convolutional network and then models the sequence of frames with a temporal network. We obtained videos of medical students and residents from the Robert Wood Johnson Hospital performing knot tying on a standardized simulation kit. We manually annotated each video and proceeded to do a five-fold cross-validation study on them. Our model achieves a median precision, recall, and F1-score of 0.71, 0.66, and 0.65 respectively in determining the level of knot related tasks of tying and pushing the knot. Our mean precision score averaged across different probability thresholds is 0.8. Both our F1-score and mean precision score are 8% and 30% higher than that of a recently published study for the same problem. We expect the accuracy of our model to further increase as we add more training videos to the model thus making it a practical solution that students can use to evaluate themselves.
翻訳日:2024-01-15 13:03:32 公開日:2023-12-09
# ALGNet:医療レコメンデーションシステムのための注意光グラフメモリネットワーク

ALGNet: Attention Light Graph Memory Network for Medical Recommendation System ( http://arxiv.org/abs/2312.08377v1 )

ライセンス: Link先を確認
Minh-Van Nguyen, Duy-Thinh Nguyen, Quoc-Huy Trinh, Bac-Hoai Le(参考訳) 治療勧告は、患者のケアを改善し、有害事象を減らすための重要な課題である。 しかし、既存の方法では、患者の医療記録、薬物の有効性と安全性、薬物と薬物の相互作用(DDI)の複雑な関係を捉えることができないことが多い。 本稿では,軽グラフ畳み込みネットワーク (LGCN) と拡張メモリネットワーク (AMN) を活用する新しいモデルであるALGNetを提案する。 LGCNは患者の記録とDDIグラフを低次元の埋め込みに効率的にエンコードすることができ、AMNはメモリモジュールからの外部知識で患者の表現を増強することができる。 mimic-iiiデータセット上でモデルを評価し,レコメンデーション精度とddi回避の観点から,複数のベースラインを上回っていることを示す。 また,モデルの異なる成分の影響を分析するためのアブレーション研究も行った。 この結果から, ALGNetは計算量が少なく, 解釈性も向上し, 優れた性能が得られることが示された。 本論文の実装は、https://github.com/huyquoctrinh/algnetで確認することができる。

Medication recommendation is a vital task for improving patient care and reducing adverse events. However, existing methods often fail to capture the complex and dynamic relationships among patient medical records, drug efficacy and safety, and drug-drug interactions (DDI). In this paper, we propose ALGNet, a novel model that leverages light graph convolutional networks (LGCN) and augmentation memory networks (AMN) to enhance medication recommendation. LGCN can efficiently encode the patient records and the DDI graph into low-dimensional embeddings, while AMN can augment the patient representation with external knowledge from a memory module. We evaluate our model on the MIMIC-III dataset and show that it outperforms several baselines in terms of recommendation accuracy and DDI avoidance. We also conduct an ablation study to analyze the effects of different components of our model. Our results demonstrate that ALGNet can achieve superior performance with less computation and more interpretability. The implementation of this paper can be found at: https://github.com/huyquoctrinh/ALGNet.
翻訳日:2023-12-17 12:12:18 公開日:2023-12-09
# 機械学習を用いた手首加速度計データによる小児の睡眠状態のアノテート

Annotating sleep states in children from wrist-worn accelerometer data using Machine Learning ( http://arxiv.org/abs/2312.07561v1 )

ライセンス: Link先を確認
Ashwin Ram, Sundar Sripada V. S., Shuvam Keshari, Zizhe Jiang(参考訳) 睡眠検出とアノテーションは、特に子どもの睡眠パターンを理解する上で重要である。 現代の腕時計は加速度計を内蔵しており、睡眠記録を収集することができる。 しかしながら、これらのログのアノテーションは、オンセットとウェイクアップという、異なる睡眠イベントに分解される。 これらのアノテーションは自動化され、正確で、スケーラブルでなければなりません。 本稿では,サポートベクトル,ブースティング,アンサンブル手法,LSTMやリージョンベースのCNNなど,さまざまな機械学習(ML)技術を用いて加速度センサデータをモデル化する。 その後,イベント検出平均精度(EDAP)スコア(IOU測定値と類似)を用いてこれらの手法を評価し,最終的に予測能力とモデル性能を比較することを目的とする。

Sleep detection and annotation are crucial for researchers to understand sleep patterns, especially in children. With modern wrist-worn watches comprising built-in accelerometers, sleep logs can be collected. However, the annotation of these logs into distinct sleep events: onset and wakeup, proves to be challenging. These annotations must be automated, precise, and scalable. We propose to model the accelerometer data using different machine learning (ML) techniques such as support vectors, boosting, ensemble methods, and more complex approaches involving LSTMs and Region-based CNNs. Later, we aim to evaluate these approaches using the Event Detection Average Precision (EDAP) score (similar to the IOU metric) to eventually compare the predictive power and model performance.
翻訳日:2023-12-14 18:17:59 公開日:2023-12-09
# 高ノイズデータセットにおけるアドバンテージフィルターによる行動クローニング

A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise Datasets ( http://arxiv.org/abs/2110.04698v2 )

ライセンス: Link先を確認
Jake Grigsby, Yanjun Qi(参考訳) 最近のオフライン強化学習手法は、経験の固定データセットからハイパフォーマンスなポリシーを学ぶことに成功している。 特に効果的なアプローチは、まず最適な意思決定戦略を識別し、模倣することを学ぶ。 本研究は,この手法が,ほぼすべてのサブ最適ノイズからなる巨大なデータセットにスケールする能力を評価する。 カスタムベンチマークに関する詳細な調査は、高ノイズデータセットからの学習に関わるいくつかの重要な課題を特定するのに役立つ。 私たちは、数百万の低パフォーマンスサンプルのエキスパートレベルのデモンストレーションを見つけるために、優先順位付けされた経験サンプルを再利用しました。 この修正により、オフラインエージェントは、専門家のアクションが65:1に近いデータセットを使用して、ベンチマークタスクで最先端のポリシーを学ぶことができる。

Recent Offline Reinforcement Learning methods have succeeded in learning high-performance policies from fixed datasets of experience. A particularly effective approach learns to first identify and then mimic optimal decision-making strategies. Our work evaluates this method's ability to scale to vast datasets consisting almost entirely of sub-optimal noise. A thorough investigation on a custom benchmark helps identify several key challenges involved in learning from high-noise datasets. We re-purpose prioritized experience sampling to locate expert-level demonstrations among millions of low-performance samples. This modification enables offline agents to learn state-of-the-art policies in benchmark tasks using datasets where expert actions are outnumbered nearly 65:1.
翻訳日:2023-12-13 21:16:09 公開日:2023-12-09
# 最善の決定は最善のアドバイスではない - 順守を意識した推奨を行う

The Best Decisions Are Not the Best Advice: Making Adherence-Aware Recommendations ( http://arxiv.org/abs/2209.01874v4 )

ライセンス: Link先を確認
Julien Grand-Cl\'ement and Jean Pauphilet(参考訳) 多くのhigh-stake decisionは、人間のオペレータがアルゴリズムからレコメンデーションを受けるが、究極の意思決定者であるという、expert-in-loop構造に従う。 したがって、アルゴリズムの推奨は、実際に実施されている実際の決定と異なるかもしれない。 しかし、ほとんどのアルゴリズムレコメンデーションは、レコメンデーションが完全に実装されると仮定する最適化問題を解くことで得られる。 提案手法は,提案したポリシーと実装したポリシーの二分法を捕捉し,部分的付着が最適勧告に与える影響を分析する。 提案手法では,現在の人体ベースライン性能と推奨アルゴリズムの双方と比較して,現在ほとんどのレコメンデーションエンジンが実施している部分付着現象を見越すことで,任意の性能劣化を招きかねないことが示されている。 また,本フレームワークは,このような人的逸脱に対して自然に免疫を持ち,基本方針の改善が保証される,構造を解析し,最適なレコメンデーションポリシーを算出するための有用なツールを提供する。

Many high-stake decisions follow an expert-in-loop structure in that a human operator receives recommendations from an algorithm but is the ultimate decision maker. Hence, the algorithm's recommendation may differ from the actual decision implemented in practice. However, most algorithmic recommendations are obtained by solving an optimization problem that assumes recommendations will be perfectly implemented. We propose an adherence-aware optimization framework to capture the dichotomy between the recommended and the implemented policy and analyze the impact of partial adherence on the optimal recommendation. We show that overlooking the partial adherence phenomenon, as is currently being done by most recommendation engines, can lead to arbitrarily severe performance deterioration, compared with both the current human baseline performance and what is expected by the recommendation algorithm. Our framework also provides useful tools to analyze the structure and to compute optimal recommendation policies that are naturally immune against such human deviations, and are guaranteed to improve upon the baseline policy.
翻訳日:2023-12-13 21:03:25 公開日:2023-12-09
# 教師なしおよび半教師なしの新インテント発見のためのクラスタリングフレームワーク

A Clustering Framework for Unsupervised and Semi-supervised New Intent Discovery ( http://arxiv.org/abs/2304.07699v2 )

ライセンス: Link先を確認
Hanlei Zhang, Hua Xu, Xin Wang, Fei Long, Kai Gao(参考訳) 新しい意図発見は自然言語処理にとって大きな価値があり、ユーザニーズをよりよく理解し、フレンドリーなサービスを提供する。 しかし、既存のほとんどの手法は、ラベル付きデータの事前知識が限られている場合、離散テキスト表現の複雑な意味を捉えるのに苦労している。 この問題に対処するために,3つの重要な技術を持つ非教師付き半教師付き新規意図発見のための新しいクラスタリングフレームワークUSNIDを提案する。 まず、教師なしまたは半教師なしのデータを完全に活用して、浅い意味的類似関係を発掘し、クラスタ化のための初期化表現を提供する。 第2に,クラスタ割り当ての不整合の問題に対処し,表現学習のための高品質な自己教師付き目標を提供するために,centroid-guided clustering機構を設計する。 第3に、クラスタレベルとインスタンスレベルの両方の目的を最適化することにより、教師なしまたは半教師付きデータのハイレベルなセマンティクスをキャプチャして、きめ細かい意図的クラスタを検出する。 また,新しいインテントの数を事前に知ることなく,オープンワールドシナリオにおけるクラスタ数を効果的に推定する方法を提案する。 usnidはいくつかのベンチマークインテントデータセットで非常によく機能し、教師なしで半教師なしの新しいインテント発見を行い、異なるクラスタ番号で堅牢なパフォーマンスを示す。

New intent discovery is of great value to natural language processing, allowing for a better understanding of user needs and providing friendly services. However, most existing methods struggle to capture the complicated semantics of discrete text representations when limited or no prior knowledge of labeled data is available. To tackle this problem, we propose a novel clustering framework, USNID, for unsupervised and semi-supervised new intent discovery, which has three key technologies. First, it fully utilizes unsupervised or semi-supervised data to mine shallow semantic similarity relations and provide well-initialized representations for clustering. Second, it designs a centroid-guided clustering mechanism to address the issue of cluster allocation inconsistency and provide high-quality self-supervised targets for representation learning. Third, it captures high-level semantics in unsupervised or semi-supervised data to discover fine-grained intent-wise clusters by optimizing both cluster-level and instance-level objectives. We also propose an effective method for estimating the cluster number in open-world scenarios without knowing the number of new intents beforehand. USNID performs exceptionally well on several benchmark intent datasets, achieving new state-of-the-art results in unsupervised and semi-supervised new intent discovery and demonstrating robust performance with different cluster numbers.
翻訳日:2023-12-13 20:28:01 公開日:2023-12-09
# 乱れた量子電池の局在効果

Localization effects in disordered quantum batteries ( http://arxiv.org/abs/2306.13164v2 )

ライセンス: Link先を確認
Mohammad B. Arjmandi, Hamidreza Mohammadi, Andreia Saguia, Marcelo S. Sarandy, Alan C. Santos(参考訳) 乱れたスピン系をモデルとした量子電池(QB)の局所電荷に及ぼす局在の影響について検討する。 逆場ランダムイジングモデルに基づく2つの異なるスキームが検討され、イジング結合はキメラグラフ上で定義され、隣り合う隣り合わせの相互作用を持つ線形鎖上で定義される。 局所場のみによって駆動される低エネルギー要求帯電プロセスを採用することで、単元過程(エルゴトロピー)による最大抽出可能エネルギーは多体局在(mbl)シナリオと比較してエルゴド相において高度に向上する。 イジングチェーンの次から次への隣同士の相互作用をオフにすると、アンダーソン局在化フェーズが始まる。 その結果,アンダーソン相は大きなエルゴトロピーと小さなエルゴトロピーの間を交互に補間するハイブリッド行動を示すことが示された。 また,全エルゴトロピーのコヒーレントかつ非コヒーレントな貢献への分割も検討する。 この非コヒーレントな部分は、デファスメントに対して完全にロバストな残留エルゴトロピーを暗示しており、これは実際のセットアップでバッテリの自己放出につながる典型的なプロセスである。 この結果は超伝導集積回路のようなスケーラブルなシステムで実験的に実現可能である。

We investigate the effect of localization on the local charging of quantum batteries (QBs) modeled by disordered spin systems. Two distinct schemes based on the transverse-field random Ising model are considered, with Ising couplings defined on a Chimera graph and on a linear chain with up to next-to-nearest neighbor interactions. By adopting a low-energy demanding charging process driven by local fields only, we obtain that the maximum extractable energy by unitary processes (ergotropy) is highly enhanced in the ergodic phase in comparison with the many-body localization (MBL) scenario. As we turn off the next-to-nearest neighbor interactions in the Ising chain, we have the onset of the Anderson localization phase. We then show that the Anderson phase exhibits a hybrid behavior, interpolating between large and small ergotropy as the disorder strength is increased. We also consider the splitting of total ergotropy into its coherent and incoherent contributions. This incoherent part implies in a residual ergotropy that is fully robust against dephasing, which is a typical process leading to the self-discharging of the battery in a real setup. Our results are experimentally feasible in scalable systems, such as in superconducting integrated circuits.
翻訳日:2023-12-13 20:05:39 公開日:2023-12-09
# Node-Adaptive Propagationによるスケーラブルグラフニューラルネットワークの高速化

Accelerating Scalable Graph Neural Network Inference with Node-Adaptive Propagation ( http://arxiv.org/abs/2310.10998v2 )

ライセンス: Link先を確認
Xinyi Gao, Wentao Zhang, Junliang Yu, Yingxia Shao, Quoc Viet Hung Nguyen, Bin Cui, Hongzhi Yin(参考訳) グラフニューラルネットワーク(GNN)は、様々なアプリケーションにおいて極めて有効である。 しかし、大規模グラフの重大化は、GNNによるリアルタイム推論に重大な課題をもたらす。 既存のScalable GNNは、機能前処理とトレーニングと推論手順の高速化に線形伝搬を利用するが、機能前処理ではグラフの認識と修正が必要であるため、未確認ノードで推論を行う際のスケーラビリティの問題に悩まされている。 この帰納的環境下でのスケーラブルなGNNの推論をさらに加速するため,各ノードに対して,そのトポロジ情報に基づいて最適な伝搬深さをカスタマイズし,冗長な特徴伝搬を回避できる,オンライン伝搬フレームワークと2つの新しいノード適応伝搬手法を提案する。 精度とレイテンシのトレードオフは、さまざまなレイテンシ制約に対応するために、単純なハイパーパラメータを通じて柔軟に管理できる。 さらに, 伝播の早期終了による推定精度の低下を補うため, グラフ内の多元的受容場情報を利用するためのインセプション蒸留法も提案する。 スケールや特性の異なる公開データセットに関する厳密で包括的な実験により,提案手法が既存のグラフ推論法よりも精度と効率の面で優れていることが示された。 特に、我々のアプローチの優位性は、大きなスケールのデータセットで顕著であり、最大のOgbn-productsデータセットで75倍の推論速度が得られる。

Graph neural networks (GNNs) have exhibited exceptional efficacy in a diverse array of applications. However, the sheer size of large-scale graphs presents a significant challenge to real-time inference with GNNs. Although existing Scalable GNNs leverage linear propagation to preprocess the features and accelerate the training and inference procedure, these methods still suffer from scalability issues when making inferences on unseen nodes, as the feature preprocessing requires the graph to be known and fixed. To further accelerate Scalable GNNs inference in this inductive setting, we propose an online propagation framework and two novel node-adaptive propagation methods that can customize the optimal propagation depth for each node based on its topological information and thereby avoid redundant feature propagation. The trade-off between accuracy and latency can be flexibly managed through simple hyper-parameters to accommodate various latency constraints. Moreover, to compensate for the inference accuracy loss caused by the potential early termination of propagation, we further propose Inception Distillation to exploit the multi-scale receptive field information within graphs. The rigorous and comprehensive experimental study on public datasets with varying scales and characteristics demonstrates that the proposed inference acceleration framework outperforms existing state-of-the-art graph inference acceleration methods in terms of accuracy and efficiency. Particularly, the superiority of our approach is notable on datasets with larger scales, yielding a 75x inference speedup on the largest Ogbn-products dataset.
翻訳日:2023-12-13 19:33:15 公開日:2023-12-09
# GPTモデルにおけるムスリム・ヴィオレンスバイアスパーシスト

Muslim-Violence Bias Persists in Debiased GPT Models ( http://arxiv.org/abs/2310.18368v2 )

ライセンス: Link先を確認
Babak Hemmatian, Razan Baltaji, Lav R. Varshney(参考訳) Abid et al. (2021)は、他の宗教と比較すると、イスラム教徒に対して暴力的な完成をもたらす傾向を示した。 事前登録された2つの複製の試みでは、より最近のInstructGPTでは暴力的な完了はほとんどなく、より弱い反イスラムバイアスしか見つからなかった。 しかし、より事前登録された実験では、宗教に関連する一般的な名前を使って暴力的な完成率を数倍に増やすことが示され、二階の反ムスリムバイアスが顕著であった。 chatgptはプロンプト形式によらず何倍も強いバイアスを示し,モデル開発の継続とともにデバイアスの効果が低下したことが示唆された。 内容分析の結果,あらゆる実験で攻撃的ステレオタイプを含む宗教固有のテーマが明らかにされた。 以上の結果から,明示的および高次な関係に対応するために,モデルの連続的脱バイアスの必要性が示唆された。

Abid et al. (2021) showed a tendency in GPT-3 to generate mostly violent completions when prompted about Muslims, compared with other religions. Two pre-registered replication attempts found few violent completions and only a weak anti-Muslim bias in the more recent InstructGPT, fine-tuned to eliminate biased and toxic outputs. However, more pre-registered experiments showed that using common names associated with the religions in prompts increases several-fold the rate of violent completions, revealing a significant second-order anti-Muslim bias. ChatGPT showed a bias many times stronger regardless of prompt format, suggesting that the effects of debiasing were reduced with continued model development. Our content analysis revealed religion-specific themes containing offensive stereotypes across all experiments. Our results show the need for continual de-biasing of models in ways that address both explicit and higher-order associations.
翻訳日:2023-12-13 19:18:54 公開日:2023-12-09
# OctreeOcc:Octreeクエリを用いた効率的なマルチグラニュラリティ実行予測

OctreeOcc: Efficient and Multi-Granularity Occupancy Prediction Using Octree Queries ( http://arxiv.org/abs/2312.03774v2 )

ライセンス: Link先を確認
Yuhang Lu, Xinge Zhu, Tai Wang, Yuexin Ma(参考訳) 近年,3Dシーンのきめ細かい理解のために,職業予測が注目を集めている。 伝統的なアプローチは一般に密度の高い正規の格子表現に依存しており、しばしば過剰な計算要求と小さな物体の空間的詳細が失われる。 本稿では,octree表現を利用して3dで有用な情報を適応的にキャプチャし,オブジェクト形状や大きさや複雑さの異なる意味領域に対応する可変粒度を提供する,革新的な3次元占有予測フレームワークであるocreeoccを紹介する。 特に,画像意味情報を組み込んで初期オクツリー構造の精度を向上させるとともに,オクツリー構造を反復的に洗練するための効果的な修正機構を設計する。 以上の結果から,OctreeOccは占有率予測において最先端の手法を上回るだけでなく,高密度グリッド法に比べて計算オーバーヘッドを15%-24%削減できることがわかった。

Occupancy prediction has increasingly garnered attention in recent years for its fine-grained understanding of 3D scenes. Traditional approaches typically rely on dense, regular grid representations, which often leads to excessive computational demands and a loss of spatial details for small objects. This paper introduces OctreeOcc, an innovative 3D occupancy prediction framework that leverages the octree representation to adaptively capture valuable information in 3D, offering variable granularity to accommodate object shapes and semantic regions of varying sizes and complexities. In particular, we incorporate image semantic information to improve the accuracy of initial octree structures and design an effective rectification mechanism to refine the octree structure iteratively. Our extensive evaluations show that OctreeOcc not only surpasses state-of-the-art methods in occupancy prediction, but also achieves a 15%-24% reduction in computational overhead compared to dense-grid-based methods.
翻訳日:2023-12-13 19:12:18 公開日:2023-12-09
# すべての分散オブジェクトをセグメンテーションする

Segment Every Out-of-Distribution Object ( http://arxiv.org/abs/2311.16516v2 )

ライセンス: Link先を確認
Wenjie Zhao, Jia Li, Xin Dong, Yu Xiang, Yunhui Guo(参考訳) セマンティクスセグメンテーションモデルは、分散内カテゴリに有効であるが、分散外(ood)オブジェクトに遭遇するため、現実のデプロイメントにおける課題に直面している。 これらのOoDオブジェクトの検出は、安全クリティカルなアプリケーションに不可欠である。 既存の方法は異常スコアに依存しているが、マスクの生成に適したしきい値を選択することは困難であり、断片化や不正確性につながる可能性がある。 本稿では,意味的セグメンテーションにおけるOoD検出の簡易かつ効果的なフレームワークであるS2Mと呼ばれる,異常な \underline{S}core \underline{T}o セグメンテーションを変換する手法を提案する。 異常スコアをピクセルに割り当てるのとは異なり、S2MはOoDオブジェクト全体を直接セグメントする。 anomalyスコアをプロンプトに変換することで、s2mはしきい値選択の必要性をなくす。 大規模な実験により、S2MはIoUで約10%、平均F1スコアで30%、フィッシュスケープ、Segment-Me-If-You-Can、RoadAnomalyデータセットなど、さまざまなベンチマークでパフォーマンスが向上した。

Semantic segmentation models, while effective for in-distribution categories, face challenges in real-world deployment due to encountering out-of-distribution (OoD) objects. Detecting these OoD objects is crucial for safety-critical applications. Existing methods rely on anomaly scores, but choosing a suitable threshold for generating masks presents difficulties and can lead to fragmentation and inaccuracy. This paper introduces a method to convert anomaly \underline{S}core \underline{T}o segmentation \underline{M}ask, called S2M, a simple and effective framework for OoD detection in semantic segmentation. Unlike assigning anomaly scores to pixels, S2M directly segments the entire OoD object. By transforming anomaly scores into prompts for a promptable segmentation model, S2M eliminates the need for threshold selection. Extensive experiments demonstrate that S2M outperforms the state-of-the-art by approximately 10% in IoU and 30% in mean F1 score, on average, across various benchmarks including Fishyscapes, Segment-Me-If-You-Can, and RoadAnomaly datasets.
翻訳日:2023-12-13 19:06:36 公開日:2023-12-09
# 女性乳癌の診断・分類・予後・治療成績予測のための病理組織像に基づく外部検証型機械学習モデルの性能 : 体系的検討

Performance of externally validated machine learning models based on histopathology images for the diagnosis, classification, prognosis, or treatment outcome prediction in female breast cancer: A systematic review ( http://arxiv.org/abs/2312.06697v1 )

ライセンス: Link先を確認
Ricardo Gonzalez, Peyman Nejat, Ashirbani Saha, Clinton J.V. Campbell, Andrew P. Norgan, Cynthia Lokker(参考訳) 様々な種類のデータを用いて乳がんに対する機械学習(ML)モデルが開発されている。 MLモデルの有効外部検証(EV)は、その一般化可能性の重要な証拠である。 本研究の目的は, 女性乳癌の診断, 分類, 予後, 治療成績予測のための病理組織像に基づいて, 外部検証MLモデルの性能を評価することである。 2010年1月から2022年2月にかけて、MEDLINE、EMBASE、CINAHL、IEEE、MICCAI、SPIE会議の体系的な検索が行われた。 バイアス評価ツール(PROBAST)の予測モデルリスクを採用し,その結果を物語的に説明した。 2011年の非重複引用のうち、8つのジャーナル記事と2つのカンファレンス手続きが包括的基準を満たした。 診断のための外部検証mlモデル、分類のための4、予後のための2、分類と予後のための1つの3つの研究。 ほとんどの研究では畳み込みニューラルネットワークとロジスティック回帰アルゴリズムが使用されている。 診断・分類モデルにおいて、evで報告される最も一般的なパフォーマンス指標は、病理学者の注釈を根拠として、それぞれ87%と90%以上の精度と面積であった。 予後MLモデルのEVの危険度は、遠方の疾患のない生存を予測するために1.7 (95% CI, 1.2-2.6) から1.8 (95% CI, 1.3-2.7) まで、再発を1.91 (95% CI, 1.11-3.29) から0.09 (95% CI, 0.01-0.70) から0.65 (95% CI, 0.43-0.98) までであった。 EVはMLモデルの臨床応用に先立って重要なステップであるにもかかわらず、日常的に実施されていない。 トレーニング/評価データセット、メソッド、パフォーマンスメトリクス、および報告された情報における大きな変動は、モデルの比較と結果の分析を制限する(...)。

Numerous machine learning (ML) models have been developed for breast cancer using various types of data. Successful external validation (EV) of ML models is important evidence of their generalizability. The aim of this systematic review was to assess the performance of externally validated ML models based on histopathology images for diagnosis, classification, prognosis, or treatment outcome prediction in female breast cancer. A systematic search of MEDLINE, EMBASE, CINAHL, IEEE, MICCAI, and SPIE conferences was performed for studies published between January 2010 and February 2022. The Prediction Model Risk of Bias Assessment Tool (PROBAST) was employed, and the results were narratively described. Of the 2011 non-duplicated citations, 8 journal articles and 2 conference proceedings met inclusion criteria. Three studies externally validated ML models for diagnosis, 4 for classification, 2 for prognosis, and 1 for both classification and prognosis. Most studies used Convolutional Neural Networks and one used logistic regression algorithms. For diagnostic/classification models, the most common performance metrics reported in the EV were accuracy and area under the curve, which were greater than 87% and 90%, respectively, using pathologists' annotations as ground truth. The hazard ratios in the EV of prognostic ML models were between 1.7 (95% CI, 1.2-2.6) and 1.8 (95% CI, 1.3-2.7) to predict distant disease-free survival; 1.91 (95% CI, 1.11-3.29) for recurrence, and between 0.09 (95% CI, 0.01-0.70) and 0.65 (95% CI, 0.43-0.98) for overall survival, using clinical data as ground truth. Despite EV being an important step before the clinical application of a ML model, it hasn't been performed routinely. The large variability in the training/validation datasets, methods, performance metrics, and reported information limited the comparison of the models and the analysis of their results (...)
翻訳日:2023-12-13 18:59:37 公開日:2023-12-09
# メタ強化学習のための貯水池の進化

Evolving Reservoirs for Meta Reinforcement Learning ( http://arxiv.org/abs/2312.06695v1 )

ライセンス: Link先を確認
Corentin L\'eger and Gautier Hamon and Eleni Nisioti and Xavier Hinaut and Cl\'ement Moulin-Frier(参考訳) 動物はしばしば生涯を通じて環境に適応する顕著な能力を示す。 部分的には形態学や神経構造の進化によるものである。 これらの構造は世代間で共有される環境の特徴を捉え、バイアスを与え、生涯学習をスピードアップさせる。 本研究では,そのようなプロセスを実現する機構を研究するための計算モデルを提案する。 我々は,進化と発展の相互作用のモデルとしてメタ強化学習に基づく計算フレームワークを採用する。 進化的スケールでは、アーキテクチャの重み値ではなくハイパーパラメータを最適化するという点で従来のネットワークとは異なる、リカレントニューラルネットワークのファミリーであるリザーバを進化させます。 開発規模では、これらの進化した貯水池を用いて強化学習(RL)を通して行動政策の学習を促進する。 RLエージェント内では、貯留層が環境状態を符号化し、アクションポリシーに付与する。 我々は,複数の2次元および3次元シミュレーション環境に対するアプローチを評価した。 その結果,貯水池の進化は多様な課題の学習を改善できることがわかった。 特に,リザーバと強化学習を組み合わせたアーキテクチャを用いることで,(1)部分的可観測性を伴うタスクの解決,(2)ロコモーションタスクの学習を容易にする振動力学の生成,(3)進化段階において未知の新しいタスクに対する学習行動の一般化を促進する,という3つの仮説を考察した。

Animals often demonstrate a remarkable ability to adapt to their environments during their lifetime. They do so partly due to the evolution of morphological and neural structures. These structures capture features of environments shared between generations to bias and speed up lifetime learning. In this work, we propose a computational model for studying a mechanism that can enable such a process. We adopt a computational framework based on meta reinforcement learning as a model of the interplay between evolution and development. At the evolutionary scale, we evolve reservoirs, a family of recurrent neural networks that differ from conventional networks in that one optimizes not the weight values but hyperparameters of the architecture: the later control macro-level properties, such as memory and dynamics. At the developmental scale, we employ these evolved reservoirs to facilitate the learning of a behavioral policy through Reinforcement Learning (RL). Within an RL agent, a reservoir encodes the environment state before providing it to an action policy. We evaluate our approach on several 2D and 3D simulated environments. Our results show that the evolution of reservoirs can improve the learning of diverse challenging tasks. We study in particular three hypotheses: the use of an architecture combining reservoirs and reinforcement learning could enable (1) solving tasks with partial observability, (2) generating oscillatory dynamics that facilitate the learning of locomotion tasks, and (3) facilitating the generalization of learned behaviors to new tasks unknown during the evolution phase.
翻訳日:2023-12-13 18:58:57 公開日:2023-12-09
# ブレッド・マヨラナ・フェルミオンのパラ統計学

The parastatistics of braided Majorana fermions ( http://arxiv.org/abs/2312.06693v1 )

ライセンス: Link先を確認
Francesco Toppan(参考訳) 本稿では,ブレッドテンソル積を持つ次数付きホップ代数の枠組みで得られるブレッド・マヨラナフェルミオンのパラ統計学について述べる。 ブレイディング特性はアレクサンドル・コンウェイ多項式に関連する$t$依存の$4\times 4$ブレイディング行列$B_t$に符号化される。 非有界複素パラメータ t は編曲された準統計量を定義する。 t = 1$ の通常のフェルミオンが回収される。 単位の根における$t$の値は、多粒子セクターにおけるブレイドマヨナフェルミオンの最大数を指定するレベルに分類される。 t$ のジェネリック値と unity の $t =-1$ のルートは、通常のボソンの振る舞いを模倣している。

This paper presents the parastatistics of braided Majorana fermions obtained in the framework of a graded Hopf algebra endowed with a braided tensor product. The braiding property is encoded in a $t$-dependent $4\times 4$ braiding matrix $B_t$ related to the Alexander-Conway polynomial. The nonvanishing complex parameter t defines the braided parastatistics. At $t = 1$ ordinary fermions are recovered. The values of $t$ at roots of unity are organized into levels which specify the maximal number of braided Majorana fermions in a multiparticle sector. Generic values of $t$ and the $t =-1$ root of unity mimick the behaviour of ordinary bosons.
翻訳日:2023-12-13 18:58:34 公開日:2023-12-09
# Robo360:3D一眼ロボットマニピュレーションデータセット

Robo360: A 3D Omnispective Multi-Material Robotic Manipulation Dataset ( http://arxiv.org/abs/2312.06686v1 )

ライセンス: Link先を確認
Litian Liang, Liuyu Bian, Caiwei Xiao, Jialin Zhang, Linghao Chen, Isabella Liu, Fanbo Xiang, Zhiao Huang, Hao Su(参考訳) 労働集約的なタスクを自動化できるロボットの構築は、コンピュータビジョンとロボティクスのコミュニティの進歩の中核的な動機だった。 近年の3Dアルゴリズム,特にニューラルフィールドの活用に対する関心は,ロボット認識の進歩と操作シナリオにおける物理的理解につながっている。 しかし、現実世界の複雑さは大きな課題をもたらす。 これらの課題に対処するために,高画質な3次元ニューラル表現学習が可能なロボット操作と,様々な物理的・光学的特性を持つ多種多様なオブジェクトの集合を備え,様々なオブジェクト操作や物理世界モデリングタスクの研究を容易にするRobo360を提案する。 我々は、既存の動的NeRFを用いてデータセットの有効性を確認し、マルチビューポリシーの学習におけるその可能性を評価する。 robo360は3dとロボット制御の物理的な世界を理解するための、新しい研究の道を開くことを願っている。

Building robots that can automate labor-intensive tasks has long been the core motivation behind the advancements in computer vision and the robotics community. Recent interest in leveraging 3D algorithms, particularly neural fields, has led to advancements in robot perception and physical understanding in manipulation scenarios. However, the real world's complexity poses significant challenges. To tackle these challenges, we present Robo360, a dataset that features robotic manipulation with a dense view coverage, which enables high-quality 3D neural representation learning, and a diverse set of objects with various physical and optical properties and facilitates research in various object manipulation and physical world modeling tasks. We confirm the effectiveness of our dataset using existing dynamic NeRF and evaluate its potential in learning multi-view policies. We hope that Robo360 can open new research directions yet to be explored at the intersection of understanding the physical world in 3D and robot control.
翻訳日:2023-12-13 18:58:23 公開日:2023-12-09
# Causal-CoG:マルチモーダル言語モデルの強化のためのコンテキスト生成の因果効果

Causal-CoG: A Causal-Effect Look at Context Generation for Boosting Multi-modal Language Models ( http://arxiv.org/abs/2312.06685v1 )

ライセンス: Link先を確認
Shitian Zhao, Zhuowan Li, Yadong Lu, Alan Yuille, Yan Wang(参考訳) マルチモーダル言語モデル(MLM)は印象的なマルチモーダル能力を示しているが、視覚的質問応答(VQA)のようなタスクに対して、現実的で正確な応答を提供することに苦慮している。 本稿では,文脈情報の観点から,この問題に対処する。 提案するCausal Context Generation, Causal-CoGは, 推論中に正確なVQAを高めるために, 文脈情報に係わるプロンプト戦略である。 具体的には、mlmsに画像のテキスト記述などのコンテキストを生成し、生成されたコンテキストに質問応答を関連付けるように促します。 さらに、因果性の観点からVQA上のコンテキストの利点を考察し、文脈情報が有用なサンプルを選択するために因果性フィルタリングを導入する。 Causal-CoGの有効性を示すため、10個のマルチモーダルベンチマークで広範な実験を行い、POPEでは+6.30%、Vizwizでは+13.69%、VQAv2では+6.43%といった一貫した改善を示した。 カジュアルコグはマルチモーダルモデルにおける文脈知識の探求を刺激し、mlmデコーディングのプラグ・アンド・プレイ戦略として役立つことを願っている。

While Multi-modal Language Models (MLMs) demonstrate impressive multimodal ability, they still struggle on providing factual and precise responses for tasks like visual question answering (VQA). In this paper, we address this challenge from the perspective of contextual information. We propose Causal Context Generation, Causal-CoG, which is a prompting strategy that engages contextual information to enhance precise VQA during inference. Specifically, we prompt MLMs to generate contexts, i.e, text description of an image, and engage the generated contexts for question answering. Moreover, we investigate the advantage of contexts on VQA from a causality perspective, introducing causality filtering to select samples for which contextual information is helpful. To show the effectiveness of Causal-CoG, we run extensive experiments on 10 multimodal benchmarks and show consistent improvements, e.g., +6.30% on POPE, +13.69% on Vizwiz and +6.43% on VQAv2 compared to direct decoding, surpassing existing methods. We hope Casual-CoG inspires explorations of context knowledge in multimodal models, and serves as a plug-and-play strategy for MLM decoding.
翻訳日:2023-12-13 18:58:09 公開日:2023-12-09
# 強化されたeコマース属性抽出:装飾関係補正とllama 2.0ベースのアノテーションによる革新

Enhanced E-Commerce Attribute Extraction: Innovating with Decorative Relation Correction and LLAMA 2.0-Based Annotation ( http://arxiv.org/abs/2312.06684v1 )

ライセンス: Link先を確認
Jianghong Zhou, Weizhi Du, Md Omar Faruk Rokon, Zhaodong Wang, Jiaxuan Xu, Isha Shah, Kuang-chih Lee, Musen Wen(参考訳) eコマースプラットフォームの急速な普及は、優れたユーザーエクスペリエンスを育むために高度な検索および検索システムの必要性を高める。 この取り組みの中心は、顧客の問い合わせから製品属性を正確に抽出し、洗練された検索、比較、その他の重要なeコマース機能を可能にすることである。 従来の名前付きエンティティ認識(NER)タスクとは異なり、製品タイプと属性の固有の装飾的関係のため、eコマースクエリにはユニークな課題がある。 本研究では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRFs)層,データアノテーションのための大規模言語モデル(LLMs)を統合した先駆的フレームワークを提案する。 提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。 本稿では,電子商取引データに内在する商品タイプと属性のニュアンス関係に基づいて,抽出プロセスをさらに洗練するための新しい装飾関係補正機構を提案する。 llmを使用して、モデルの把握とさまざまな属性のカバレッジを拡大するために追加データをアノテートします。 我々の手法は、Walmart、BestBuyのeコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されており、属性認識性能が大幅に改善されている。 特にこのモデルは、walmartのスポンサー製品検索における2ヶ月の展開で有望な結果を示し、実用性と有効性を強調した。

The rapid proliferation of e-commerce platforms accentuates the need for advanced search and retrieval systems to foster a superior user experience. Central to this endeavor is the precise extraction of product attributes from customer queries, enabling refined search, comparison, and other crucial e-commerce functionalities. Unlike traditional Named Entity Recognition (NER) tasks, e-commerce queries present a unique challenge owing to the intrinsic decorative relationship between product types and attributes. In this study, we propose a pioneering framework that integrates BERT for classification, a Conditional Random Fields (CRFs) layer for attribute value extraction, and Large Language Models (LLMs) for data annotation, significantly advancing attribute recognition from customer inquiries. Our approach capitalizes on the robust representation learning of BERT, synergized with the sequence decoding prowess of CRFs, to adeptly identify and extract attribute values. We introduce a novel decorative relation correction mechanism to further refine the extraction process based on the nuanced relationships between product types and attributes inherent in e-commerce data. Employing LLMs, we annotate additional data to expand the model's grasp and coverage of diverse attributes. Our methodology is rigorously validated on various datasets, including Walmart, BestBuy's e-commerce NER dataset, and the CoNLL dataset, demonstrating substantial improvements in attribute recognition performance. Particularly, the model showcased promising results during a two-month deployment in Walmart's Sponsor Product Search, underscoring its practical utility and effectiveness.
翻訳日:2023-12-13 18:57:43 公開日:2023-12-09
# バイオメディカル知識グラフを用いたリンク予測のための信頼できないインタラクションを識別する学習

Learning to Denoise Unreliable Interactions for Link Prediction on Biomedical Knowledge Graph ( http://arxiv.org/abs/2312.06682v1 )

ライセンス: Link先を確認
Tengfei Ma, Yujie Chen, Wen Tao, Dashun Zheng, Xuan Lin, Patrick Cheong-lao Pang, Yiping Liu, Yijun Wang, Bosheng Song, Xiangxiang Zeng(参考訳) バイオメディカルナレッジグラフ(kgs)におけるリンク予測は、薬物-標的相互作用(dti)と薬物-薬物相互作用(ddi)を含む未知の相互作用を予測することを目的としている。 従来の手法では、KGのリッチな意味的関係とトポロジカル構造を利用して、欠落したリンクを予測し、有望な結果をもたらす。 しかしながら、これらの研究はすべて、KGベースの計算方法の開発を制限するKGsに存在する避けられないノイズや信頼できない相互作用を考慮せずに、予測性能の改善にのみ焦点を当てている。 これらの制約に対処するために、DenoizedLPと呼ばれるDenoized Link Predictionフレームワークを提案する。 DenoizedLPは、ノイズの多いリンクを学習可能な方法で識別することで、局所的な部分グラフに基づく信頼性の高い相互作用を得る。 滑らかなセマンティック情報と協調するために、DenoizedLPは予測リンクの周りの競合関係を曖昧にすることでセマンティックサブグラフを導入する。 信頼構造とスムーズな意味関係の相互情報を最大化することにより、DenoizedLPは関係固有のリンクを予測するための情報的相互作用を強調する。 実世界のデータセットに対する実験結果から,DenoizedLPはDTIおよびDDI予測タスクにおいて最先端の手法より優れており,汚染されたKG上での信頼できない相互作用をデノナイズするの有効性と堅牢性を検証する。

Link prediction in biomedical knowledge graphs (KGs) aims at predicting unknown interactions between entities, including drug-target interaction (DTI) and drug-drug interaction (DDI), which is critical for drug discovery and therapeutics. Previous methods prefer to utilize the rich semantic relations and topological structure of the KG to predict missing links, yielding promising outcomes. However, all these works only focus on improving the predictive performance without considering the inevitable noise and unreliable interactions existing in the KGs, which limits the development of KG-based computational methods. To address these limitations, we propose a Denoised Link Prediction framework, called DenoisedLP. DenoisedLP obtains reliable interactions based on the local subgraph by denoising noisy links in a learnable way, providing a universal module for mining underlying task-relevant relations. To collaborate with the smoothed semantic information, DenoisedLP introduces the semantic subgraph by blurring conflict relations around the predicted link. By maximizing the mutual information between the reliable structure and smoothed semantic relations, DenoisedLP emphasizes the informative interactions for predicting relation-specific links. Experimental results on real-world datasets demonstrate that DenoisedLP outperforms state-of-the-art methods on DTI and DDI prediction tasks, and verify the effectiveness and robustness of denoising unreliable interactions on the contaminated KGs.
翻訳日:2023-12-13 18:57:17 公開日:2023-12-09
# コントラスト活性化付加による操舵ラマ2

Steering Llama 2 via Contrastive Activation Addition ( http://arxiv.org/abs/2312.06681v1 )

ライセンス: Link先を確認
Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner(参考訳) 本稿では,前方通過時のアクティベーションを変更することで,言語モデルを操る革新的な手法であるContrastive Activation Addition (CAA)を紹介する。 CAAは、事実と幻覚反応のような特定の行動の肯定的および否定的な例のペア間の残ストリームアクティベーションの差を平均化することにより、 `steering vectors'' を計算する。 推論中、これらのステアリングベクトルは、ユーザのプロンプト後のすべてのトークン位置に正あるいは負の係数で加算され、ターゲットの行動の度合いを正確に制御できる。 Llama 2 ChatにおけるCAAの有効性を,複数選択行動質問データセットとオープンエンド生成タスクを用いて評価した。 私たちはCAAがモデル動作を著しく変更し、微調整や数発のプロンプトといった従来の手法より優れ、最小限の機能を減らすことを示した。 さらに,様々なアクティベーション空間解釈手法を用いて,CAAのメカニズムについて深い知見を得る。 CAAは、モデル出力を正確に管理し、また、Large Language Models (LLMs) でどのようにハイレベルな概念が表現されるかを明らかにします。

We introduce Contrastive Activation Addition (CAA), an innovative method for steering language models by modifying activations during their forward passes. CAA computes ``steering vectors'' by averaging the difference in residual stream activations between pairs of positive and negative examples of a particular behavior such as factual versus hallucinatory responses. During inference, these steering vectors are added at all token positions after the user's prompt with either a positive or negative coefficient, allowing precise control over the degree of the targeted behavior. We evaluate CAA's effectiveness on Llama 2 Chat using both multiple-choice behavioral question datasets and open-ended generation tasks. We demonstrate that CAA significantly alters model behavior, outperforms traditional methods like finetuning and few-shot prompting, and minimally reduces capabilities. Moreover, by employing various activation space interpretation methods, we gain deeper insights into CAA's mechanisms. CAA both accurately steers model outputs and also sheds light on how high-level concepts are represented in Large Language Models (LLMs).
翻訳日:2023-12-13 18:56:48 公開日:2023-12-09
# 誘導拡散モデルを用いた実画像編集のための知覚類似性指導とテキスト指導最適化

Perceptual Similarity guidance and text guidance optimization for Editing Real Images using Guided Diffusion Models ( http://arxiv.org/abs/2312.06680v1 )

ライセンス: Link先を確認
Ruichen Zhang(参考訳) 画像編集に拡散モデルを用いる場合、修正された画像がソースと大きく異なる場合がある。 これに対処するために、変更されていない領域においてオリジナルに対して高い忠実性を維持するためにデュアルガイドアプローチを適用する。 まず,テキスト埋め込みを用いて遅延空間を指示し,分類器を含まない指導を行う。 第二に、知覚的類似性誘導を用いて、逆過程におけるTweedie式による後方サンプリングによる潜時ベクトルの最適化を行う。 この方法は、編集された要素の現実的なレンダリングと、原画像の未編集部分の保存を保証する。

When using a diffusion model for image editing, there are times when the modified image can differ greatly from the source. To address this, we apply a dual-guidance approach to maintain high fidelity to the original in areas that are not altered. First, we employ text-guided optimization, using text embeddings to direct latent space and classifier-free guidance. Second, we use perceptual similarity guidance, optimizing latent vectors with posterior sampling via Tweedie formula during the reverse process. This method ensures the realistic rendering of both the edited elements and the preservation of the unedited parts of the original image.
翻訳日:2023-12-13 18:56:31 公開日:2023-12-09
# 平均埋め込み上の分布ベルマン演算子

Distributional Bellman Operators over Mean Embeddings ( http://arxiv.org/abs/2312.07358v1 )

ライセンス: Link先を確認
Li Kevin Wenliang, Gr\'egoire D\'eletang, Matthew Aitchison, Marcus Hutter, Anian Ruoss, Arthur Gretton, Mark Rowland(参考訳) 本稿では,回帰分布の有限次元平均埋め込み学習に基づく分布強化学習のための新しいアルゴリズムフレームワークを提案する。 この枠組みに基づく動的プログラミングと時間微分学習のためのいくつかの新しいアルゴリズムを導出し、漸近収束理論を提供し、一連の表状タスクにおけるアルゴリズムの経験的性能を検証した。 さらに,本手法を深層強化学習と容易に組み合わせることができることを示し,アーケード学習環境におけるベースライン分散アプローチよりも優れた新しい深層rlエージェントを得る。

We propose a novel algorithmic framework for distributional reinforcement learning, based on learning finite-dimensional mean embeddings of return distributions. We derive several new algorithms for dynamic programming and temporal-difference learning based on this framework, provide asymptotic convergence theory, and examine the empirical performance of the algorithms on a suite of tabular tasks. Further, we show that this approach can be straightforwardly combined with deep reinforcement learning, and obtain a new deep RL agent that improves over baseline distributional approaches on the Arcade Learning Environment.
翻訳日:2023-12-13 15:39:06 公開日:2023-12-09
# POAR:オンライン抽象状態表現学習による効率的な政策最適化

POAR: Efficient Policy Optimization via Online Abstract State Representation Learning ( http://arxiv.org/abs/2109.08642v2 )

ライセンス: Link先を確認
Zhaorun Chen, Siqi Fan, Yuan Tan, Liang Gong, Binhao Chen, Te Sun, David Filliat, Natalia D\'iaz-Rodr\'iguez and Chengliang Liu(参考訳) ディープラーニングの急速な進歩は、エンドツーエンドの強化学習(RL)を助長するが、特にロボットシナリオのような高次元空間における直接的な応用は、サンプル効率の低下に悩まされている。 そのため、複雑な感覚データから低次元状態へのタスク関連特徴の符号化を特に学習するために、状態表現学習(SRL)を提案する。 しかし、SRLの広範な実装は通常、観測状態マッピングを別々に学習する分離戦略によって行われるため、過度に適合しがちである。 このような問題に対処するため,従来の作業におけるSRLサブタスクを要約し,SRLをポリシー最適化フェーズに統合した抽象表現によるポリシー最適化という新しいアルゴリズムを提案する。 まず、SRLモデルの更新を支援するためにRL損失に取り組み、RLの要求を満たすために状態が進化し、良好な物理的解釈を維持する。 次に,両モデルが互いに効率的に適応できるように,動的損失重み付け機構を導入する。 第3に、専門家によるSRL解釈を改善するために、ドメイン類似と呼ばれる新しいSRLを導入する。 最後に、学習過程を監視するために状態グラフのリアルタイムアクセスを提供する。 POARはサンプル効率と最終報酬の点でSOTA RLアルゴリズムとSRL戦略を著しく上回っている。 我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。

While the rapid progress of deep learning fuels end-to-end reinforcement learning (RL), direct application, especially in high-dimensional space like robotic scenarios still suffers from low sample efficiency. Therefore State Representation Learning (SRL) is proposed to specifically learn to encode task-relevant features from complex sensory data into low-dimensional states. However, the pervasive implementation of SRL is usually conducted by a decoupling strategy in which the observation-state mapping is learned separately, which is prone to over-fit. To handle such problem, we summarize the state-of-the-art (SOTA) SRL sub-tasks in previous works and present a new algorithm called Policy Optimization via Abstract Representation which integrates SRL into the policy optimization phase. Firstly, We engage RL loss to assist in updating SRL model so that the states can evolve to meet the demand of RL and maintain a good physical interpretation. Secondly, we introduce a dynamic loss weighting mechanism so that both models can efficiently adapt to each other. Thirdly, we introduce a new SRL prior called domain resemblance to leverage expert demonstration to improve SRL interpretations. Finally, we provide a real-time access of state graph to monitor the course of learning. Experiments indicate that POAR significantly outperforms SOTA RL algorithms and decoupling SRL strategies in terms of sample efficiency and final rewards. We empirically verify POAR to efficiently handle tasks in high dimensions and facilitate training real-life robots directly from scratch.
翻訳日:2023-12-13 03:56:35 公開日:2023-12-09
# Cylin-Painting: Seamless {360\textdegree} Panoramic Image Outpainting and Beyond

Cylin-Painting: Seamless {360\textdegree} Panoramic Image Outpainting and Beyond ( http://arxiv.org/abs/2204.08563v2 )

ライセンス: Link先を確認
Kang Liao, Xiangyu Xu, Chunyu Lin, Wenqi Ren, Yunchao Wei, Yao Zhao(参考訳) 部分的なビューから完全なシーンを生成することができるため、画像の画質が向上し、 {360\textdegree} パノラマ画像を構築する貴重なソリューションを提供する。 画像オーバーペイントは、一方向の完了フローの本質的な問題に苦しむため、以前の手法では、元の問題をインペインティングに変換し、双方向のフローを可能にする。 しかし, 塗布には限界があり, 特定の状況下での塗布に劣ることがわかった。 両者にとってどのように組み合わせられるのかという問題は、まだ未解決のままだ。 本稿では,異なる空間配置の未知領域に対して,光源画素がどのように寄与するかに本質的に依存する,インペインティングとアウトペインティングの違いについて深い分析を行う。 この分析によって得られたCylin-Paintingフレームワークは, 塗布と塗布の意義ある協調を伴い, 異なる配置を効果的に融合させ, シームレスなシリンダーに相補的な利点を活かす。 それでも、シリンダースタイルの畳み込みを直接適用すると、重要な位置情報を捨てると視覚的に不快な結果が生じることが多い。 この問題に対処するため,シリンダー畳み込みに位置符号化の欠落成分を組み込むための学習可能な位置埋め込み戦略を提案し,パノラマ結果を大幅に改善した。 画像の露光のために開発された一方で、提案アルゴリズムはオブジェクト検出、深さ推定、画像超解像などの他のパノラマ視覚タスクにも効果的に拡張できる。 コードは \url{https://github.com/KangLiao929/Cylin-Painting} で公開される。

Image outpainting gains increasing attention since it can generate the complete scene from a partial view, providing a valuable solution to construct {360\textdegree} panoramic images. As image outpainting suffers from the intrinsic issue of unidirectional completion flow, previous methods convert the original problem into inpainting, which allows a bidirectional flow. However, we find that inpainting has its own limitations and is inferior to outpainting in certain situations. The question of how they may be combined for the best of both has as yet remained under-explored. In this paper, we provide a deep analysis of the differences between inpainting and outpainting, which essentially depends on how the source pixels contribute to the unknown regions under different spatial arrangements. Motivated by this analysis, we present a Cylin-Painting framework that involves meaningful collaborations between inpainting and outpainting and efficiently fuses the different arrangements, with a view to leveraging their complementary benefits on a seamless cylinder. Nevertheless, straightforwardly applying the cylinder-style convolution often generates visually unpleasing results as it discards important positional information. To address this issue, we further present a learnable positional embedding strategy to incorporate the missing component of positional encoding into the cylinder convolution, which significantly improves the panoramic results. It is noted that while developed for image outpainting, the proposed algorithm can be effectively extended to other panoramic vision tasks, such as object detection, depth estimation, and image super-resolution. Code will be made available at \url{https://github.com/KangLiao929/Cylin-Painting}.
翻訳日:2023-12-13 03:46:15 公開日:2023-12-09
# 否定と述語発明による一般化

Generalisation Through Negation and Predicate Invention ( http://arxiv.org/abs/2301.07629v3 )

ライセンス: Link先を確認
David M. Cerna and Andrew Cropper(参考訳) 少数の例から一般化する能力は、機械学習における基本的な課題である。 この課題に対処するために、否定と述語的発明を組み合わせた帰納論理プログラミング(ILP)アプローチを導入する。 これら2つの特徴を組み合わせることで、ilpシステムは普遍的に定量化されたボディのみの変数でルールを学習することで、よりよい一般化が可能になる。 提案手法をNOPIで実装し, 正規論理プログラムを述語で学習し, 階層的否定を伴うデータログプログラムを含む。 複数のドメインで実験した結果,予測精度と学習時間を改善することができた。

The ability to generalise from a small number of examples is a fundamental challenge in machine learning. To tackle this challenge, we introduce an inductive logic programming (ILP) approach that combines negation and predicate invention. Combining these two features allows an ILP system to generalise better by learning rules with universally quantified body-only variables. We implement our idea in NOPI, which can learn normal logic programs with predicate invention, including Datalog programs with stratified negation. Our experimental results on multiple domains show that our approach can improve predictive accuracies and learning times.
翻訳日:2023-12-13 03:23:34 公開日:2023-12-09
# ラベル雑音下での自信のある分類器の学習

Learning Confident Classifiers in the Presence of Label Noise ( http://arxiv.org/abs/2301.00524v2 )

ライセンス: Link先を確認
Asma Ahmed Hashmi, Aigerim Zhumabayeva, Nikita Kotelevskii, Artem Agafonov, Mohammad Yaqub, Maxim Panov and Martin Tak\'a\v{c}(参考訳) deep neural network (dnn)モデルの成功は、提供されたアノテーションの品質に大きく依存する。 例えば、医療画像のセグメンテーションでは、各データポイントに複数の専門家アノテーションがある場合、主観的アノテーションバイアスを最小限に抑えるのが一般的である。 次に、推定の目的は、ラベルノイズをフィルタリングして、明示的に与えられていない接地マスクを回収することである。 本稿では,騒音観測のための確率モデルを提案し,自信のある分類モデルとセグメンテーションモデルの構築を可能にする。 これを実現するために,ラベルノイズを明示的にモデル化し,新たな情報ベース正規化を導入する。 さらにセグメンテーションタスクでは,すべてのアノテータがラベル付けに同意する高信頼領域での学習を優先することで損失関数を調整する。 提案手法は,MNIST, CIFAR-10, Fashion-MNIST データセット, CIFAR-10N といった,ノイズの多い人間のアノテーションを付加した実世界のデータセットに対して評価する。 また,セグメンテーションタスクでは,複数のアノテータ間の実世界の相互変動を反映するLIDCやRIGAなどの医療画像データセットについても検討する。 提案手法は,分類問題やセグメンテーション問題に対して最先端の解を上回っていることを示す。

The success of Deep Neural Network (DNN) models significantly depends on the quality of provided annotations. In medical image segmentation, for example, having multiple expert annotations for each data point is common to minimize subjective annotation bias. Then, the goal of estimation is to filter out the label noise and recover the ground-truth masks, which are not explicitly given. This paper proposes a probabilistic model for noisy observations that allows us to build a confident classification and segmentation models. To accomplish it, we explicitly model label noise and introduce a new information-based regularization that pushes the network to recover the ground-truth labels. In addition, for segmentation task we adjust the loss function by prioritizing learning in high-confidence regions where all the annotators agree on labeling. We evaluate the proposed method on a series of classification tasks such as noisy versions of MNIST, CIFAR-10, Fashion-MNIST datasets as well as CIFAR-10N, which is real-world dataset with noisy human annotations. Additionally, for segmentation task, we consider several medical imaging datasets, such as, LIDC and RIGA that reflect real-world inter-variability among multiple annotators. Our experiments show that our algorithm outperforms state-of-the-art solutions for the considered classification and segmentation problems.
翻訳日:2023-12-13 03:23:07 公開日:2023-12-09
# 超伝導非線形非対称誘導素子を有する移動波パラメトリック増幅器におけるアナログブラックホールソリトン

Analogue black-white hole solitons in travelling wave parametric amplifiers with superconducting nonlinear asymmetric inductive elements ( http://arxiv.org/abs/2212.12234v3 )

ライセンス: Link先を確認
Haruna Katayama, Noriyuki Hatakenaka, Toshiyuki Fujii, Miles P. Blencowe(参考訳) 非線形非対称インダクティブ素子 (snails) を用いた既存の進行波パラメトリック増幅器 (twpa) は, 類似事象の地平線として作用するソリトン溶液を許容する。 SNAIL-TWPA回路力学は、外部磁束バイアスに依存する連続体場近似におけるKdV(Krteweg-de Vries)あるいは修正KdV(Krteweg-de Vries)方程式によって記述され、数値的に検証される。 ソリトンは弱いプローブの速度を空間的に変調し、アナログブラックホールとホワイトホール事象の地平線対を効果的に実現する。 SNAIL外部磁束バイアス調整性は3波混合プロセスを促進し、ホーキング光子放射を観測する可能性を高める。

We show that existing travelling wave parametric amplifier (TWPA) setups, using superconducting nonlinear asymmetric inductive elements (SNAILs), admit soliton solutions that act as analogue event horizons. The SNAIL-TWPA circuit dynamics are described by the Korteweg-de Vries (KdV) or modified Korteweg-de Vries (mKdV) equations in the continuum field approximation, depending on the external magnetic flux bias, and validated numerically. The soliton spatially modulates the velocity for weak probes, resulting in the effective realization of analogue black hole and white hole event horizon pairs. The SNAIL external magnetic flux bias tunability facilitates a three-wave mixing process, which enhances the prospects for observing Hawking photon radiation.
翻訳日:2023-12-13 03:22:16 公開日:2023-12-09
# ECM-OPCC:Octree-based Point Cloud Compressionのための効率的なコンテキストモデル

ECM-OPCC: Efficient Context Model for Octree-based Point Cloud Compression ( http://arxiv.org/abs/2211.10916v4 )

ライセンス: Link先を確認
Yiqi Jin and Ziyu Zhu and Tongda Xu and Yuhuan Lin and Yan Wang(参考訳) 近年,ディープラーニング手法がポイントクラウド圧縮に有望な結果をもたらしている。 octreeベースのポイントクラウド圧縮では、前回の研究では、祖先ノードと兄弟ノードの情報も現在のノードを予測するのに等しく重要であることが示されている。 しかし、これらの作業は、不十分な文脈を採用するか、耐え難いデコード複雑性をもたらす(例:600s)。 この問題に対処するため,我々は十分かつ効率的なコンテキストモデルを提案し,ポイントクラウドのための効率的なディープラーニングコーデックを設計する。 具体的には,まず,デコード効率を維持しつつ自己回帰的コンテキストを利用するためのウィンドウ制約付きマルチグループ符号化戦略を提案する。 そこで本研究では,現在のノードを祖先と兄弟に依存させる2重変圧器アーキテクチャを提案する。 また,モデル強化のためのランダムマスキングプリトレイン法を提案する。 実験結果から, 損失点圧縮と損失点圧縮の両面において, 最先端の性能を実現することができた。 さらに, 従来のオクツリー圧縮法と比較して, 符号化時間を98%削減した。

Recently, deep learning methods have shown promising results in point cloud compression. For octree-based point cloud compression, previous works show that the information of ancestor nodes and sibling nodes are equally important for predicting current node. However, those works either adopt insufficient context or bring intolerable decoding complexity (e.g. >600s). To address this problem, we propose a sufficient yet efficient context model and design an efficient deep learning codec for point clouds. Specifically, we first propose a window-constrained multi-group coding strategy to exploit the autoregressive context while maintaining decoding efficiency. Then, we propose a dual transformer architecture to utilize the dependency of current node on its ancestors and siblings. We also propose a random-masking pre-train method to enhance our model. Experimental results show that our approach achieves state-of-the-art performance for both lossy and lossless point cloud compression. Moreover, our multi-group coding strategy saves 98% decoding time compared with previous octree-based compression method.
翻訳日:2023-12-13 03:19:38 公開日:2023-12-09
# すべてを支配する1つのプロトコル? 相互運用可能なメッセージングのセキュリティについて

One Protocol to Rule Them All? On Securing Interoperable Messaging ( http://arxiv.org/abs/2303.14178v3 )

ライセンス: Link先を確認
Jenny Blessing and Ross Anderson(参考訳) 欧州の議員は、異なるプラットフォーム上のユーザーが互いにメッセージを交換できるべきだと裁定した。 しかし、メッセージングの相互運用性は、Pandoraのセキュリティとプライバシの課題の箱を開く。 反トラスト対策としてだけでなく、エンドユーザにより良いエクスペリエンスを提供する手段としても支持されているが、相互運用性は、貧弱な実行時にユーザエクスペリエンスを悪化させるリスクを負う。 実際のメッセージ交換を有効にする方法と、あるサービスプロバイダから別のサービスプロバイダに渡される暗号化メッセージから生じる多数の残余の課題にどのように対処するか – コンテンツモデレーション、ユーザ認証、キー管理、プロバイダ間のメタデータ共有など – という2つの基本的な疑問がある。 本研究では、エンドツーエンドの暗号化メッセージにおける相互運用可能な通信に関する特定のオープンな質問と課題を特定し、これらの課題に取り組むためのハイレベルな提案を示す。

European lawmakers have ruled that users on different platforms should be able to exchange messages with each other. Yet messaging interoperability opens up a Pandora's box of security and privacy challenges. While championed not just as an anti-trust measure but as a means of providing a better experience for the end user, interoperability runs the risk of making the user experience worse if poorly executed. There are two fundamental questions: how to enable the actual message exchange, and how to handle the numerous residual challenges arising from encrypted messages passing from one service provider to another -- including but certainly not limited to content moderation, user authentication, key management, and metadata sharing between providers. In this work, we identify specific open questions and challenges around interoperable communication in end-to-end encrypted messaging, and present high-level suggestions for tackling these challenges.
翻訳日:2023-12-13 03:12:33 公開日:2023-12-09
# ノイズ型ディジタル量子シミュレータにおける ising meson spectroscopy

Ising Meson Spectroscopy on a Noisy Digital Quantum Simulator ( http://arxiv.org/abs/2303.03311v3 )

ライセンス: Link先を確認
Christopher Lamb, Yicheng Tang, Robert Davis and Ananda Roy(参考訳) 量子シミュレーションは、強相互作用量子場理論(QFT)における非摂動現象の研究に必須の手法である可能性がある。 現代の量子時代には、ノイズの中間スケール量子〜(NISQ)シミュレータが広く利用可能であり、地平線上により大きな量子マシンがあるため、どのような非摂動QFT問題は既存の量子ハードウェアで解決できるのか? 既存の雑音量子マシンは、強い相互作用を持つ1+1D QFTの大きいファミリーのエネルギースペクトルを分析するのに利用できることを示す。 後者は、通常、素粒子の高次元QFTと関連する「クォーク閉じ込め」や「偽真空崩壊」のような幅広い非摂動効果を示す。 ibmのibmq_mumbai量子シミュレータでクエンチ実験を行い、1+1次元量子イジングモデルのエネルギースペクトルを長手場で計算した。 後者のモデルが特に興味深いのは、2次元量子色力学のt'Hooftモデルに類似したイジング領域壁の凝縮ポテンシャルから生じるメソニック境界状態の形成である。 その結果,nisq時代のディジタル量子シミュレーションは,密度行列再正規化群やqft解析のための切断共形空間法といった数値手法の代替となる可能性が示唆された。

Quantum simulation has the potential to be an indispensable technique for the investigation of non-perturbative phenomena in strongly-interacting quantum field theories (QFTs). In the modern quantum era, with Noisy Intermediate Scale Quantum~(NISQ) simulators widely available and larger-scale quantum machines on the horizon, it is natural to ask: what non-perturbative QFT problems can be solved with the existing quantum hardware? We show that existing noisy quantum machines can be used to analyze the energy spectrum of a large family of strongly-interacting 1+1D QFTs. The latter exhibit a wide-range of non-perturbative effects like `quark confinement' and `false vacuum decay' which are typically associated with higher-dimensional QFTs of elementary particles. We perform quench experiments on IBM's ibmq_mumbai quantum simulator to compute the energy spectrum of 1+1D quantum Ising model with a longitudinal field. The latter model is particularly interesting due to the formation of mesonic bound states arising from a confining potential for the Ising domain-walls, reminiscent of t'Hooft's model of two-dimensional quantum chromodynamics. Our results demonstrate that digital quantum simulation in the NISQ era has the potential to be a viable alternative to numerical techniques such as density matrix renormalization group or the truncated conformal space methods for analyzing QFTs.
翻訳日:2023-12-13 03:09:56 公開日:2023-12-09
# k$-core攻撃問題に対する階層的サイクルツリーパッキングモデル

Hierarchical cycle-tree packing model for $K$-core attack problem ( http://arxiv.org/abs/2303.01007v2 )

ライセンス: Link先を確認
Jianwen Zhou, Hai-Jun Zhou(参考訳) グラフの$k$-coreは、各頂点が$k$またはそれ以上の頂点に接続する唯一の最大部分グラフである。 最適な$K$-core攻撃問題は、その完全な崩壊を引き起こすために$K$-coreから最小の頂点数を削除するよう要求する。 この難解な組合せ最適化問題に対して階層的サイクルツリーパッキングモデルが導入された。 時間的長距離相関を持つk$-core pruningダイナミクスを局所木状静的パターンに変換し,統計物理学のレプリカ対称キャビティ法を用いて解析する。 粗い信念伝播方程式の集合を導出し、単一の頂点境界確率を効率的に予測する。 関連する階層的サイクルツリー誘導攻撃({\tt hctga})アルゴリズムは、正則ランダムグラフとerd\"os-r\'enyiランダムグラフのほぼ最適な攻撃ソリューションを構築することができる。 我々のサイクルツリーパッキングモデルは、スパースランダムグラフ上の他の可逆的動的プロセスに対する最適初期条件を構築するのにも役立ちます。

The $K$-core of a graph is the unique maximum subgraph within which each vertex connects to $K$ or more other vertices. The optimal $K$-core attack problem asks to delete the minimum number of vertices from the $K$-core to induce its complete collapse. A hierarchical cycle-tree packing model is introduced here for this challenging combinatorial optimization problem. We convert the temporally long-range correlated $K$-core pruning dynamics into locally tree-like static patterns and analyze this model through the replica-symmetric cavity method of statistical physics. A set of coarse-grained belief propagation equations are derived to predict single vertex marginal probabilities efficiently. The associated hierarchical cycle-tree guided attack ({\tt hCTGA}) algorithm is able to construct nearly optimal attack solutions for regular random graphs and Erd\"os-R\'enyi random graphs. Our cycle-tree packing model may also be helpful for constructing optimal initial conditions for other irreversible dynamical processes on sparse random graphs.
翻訳日:2023-12-13 03:09:30 公開日:2023-12-09
# 2kビットのクロス共振ゲートを実現するCryogenic CMOSコントロールエレクトロニクス

Using Cryogenic CMOS Control Electronics To Enable A Two-Qubit Cross-Resonance Gate ( http://arxiv.org/abs/2302.11538v3 )

ライセンス: Link先を確認
Devin L. Underwood, Joseph A. Glick, Ken Inoue, David J. Frank, John Timmerwilke, Emily Pritchett, Sudipto Chakraborty, Kevin Tien, Mark Yeck, John F. Bulzacchelli, Chris Baks, Pat Rosno, Raphael Robertazzi, Matthew Beck, Rajiv V. Joshi, Dorothy Wisnieff, Daniel Ramirez, Jeff Ruedinger, Scott Lekuch, Brian P. Gaucher and Daniel J. Friedman(参考訳) CMOS回路からなる量子制御エレクトロニクスは、次世代の量子コンピューティングシステムにとって重要な関心事である。 14nm FinFETで作製したCMOSベースのアプリケーション専用集積回路(ASIC)を用いて、量子ビット制御波形の生成とシーケンスを行い、固定周波数トランスモン間の2ビットクロス共鳴ゲートを実証した。 制御器は希釈冷凍機のT=4K段に熱的に固定され、測定電力は23mW/qubitであった。 出力周波数は4.5から5.5GHzで最大出力は-18dBmである。 RB (Randomized benchmarking) 実験により、シングルキュービットゲートではクリフォード (IPC) あたりの平均命令数は 1.71 であり、2キュービットゲートでは 17.51 IPC であった。 1ゲート当たり$\epsilon_{\text{1q}}$=8e-4、ゲート当たり$\epsilon_\text{2q}$=1.4e-2の1キュービット誤差を示す。 駆動誘起Z回転は回転エコー実験により観測され、この観測はCMOSチップから測定された過剰局所発振器(LO)リークに対する期待量子ビット挙動と一致している。 2ビットモデルハミルトニアンを用いて、スプリアス駆動によるZエラーの影響を数値的に評価し、測定されたRBデータと良好な一致を示した。 モデル化の結果,z誤差はパルス振幅と線形に変化することが示唆された。

Qubit control electronics composed of CMOS circuits are of critical interest for next generation quantum computing systems. A CMOS-based application specific integrated circuit (ASIC) fabricated in 14nm FinFET technology was used to generate and sequence qubit control waveforms and demonstrate a two-qubit cross resonance gate between fixed frequency transmons. The controller was thermally anchored to the T = 4K stage of a dilution refrigerator and the measured power was 23 mW per qubit under active control. The chip generated single--side banded output frequencies between 4.5 and 5.5 GHz with a maximum power output of -18 dBm. Randomized benchmarking (RB) experiments revealed an average number of 1.71 instructions per Clifford (IPC) for single-qubit gates, and 17.51 IPC for two-qubit gates. A single-qubit error per gate of $\epsilon_{\text{1Q}}$=8e-4 and two-qubit error per gate of $\epsilon_\text{2Q}$=1.4e-2 is shown. A drive-induced Z-rotation is observed by way of a rotary echo experiment; this observation is consistent with expected qubit behavior given measured excess local oscillator (LO) leakage from the CMOS chip. The effect of spurious drive induced Z-errors is numerically evaluated with a two-qubit model Hamiltonian, and shown to be in good agreement with measured RB data. The modeling results suggest the Z-error varies linearly with pulse amplitude.
翻訳日:2023-12-13 03:09:12 公開日:2023-12-09
# FedAVO:アフリカの変数最適化によるフェデレーション学習におけるコミュニケーション効率の向上

FedAVO: Improving Communication Efficiency in Federated Learning with African Vultures Optimizer ( http://arxiv.org/abs/2305.01154v3 )

ライセンス: Link先を確認
Md Zarif Hossain, Ahmed Imteaj(参考訳) 分散機械学習技術であるfederated learning(fl)は最近、ユーザデータのプライバシを重視した人気が高まっている。 しかし、FLの分散計算は制約のある通信と引き抜き学習プロセスをもたらし、クライアント・サーバ間の通信コストの最適化を必要とする。 選択したクライアントの比率とローカルトレーニングパスの量は、FL性能に大きな影響を及ぼす2つのハイパーパラメータである。 様々なアプリケーションで異なるトレーニング好みを持つため、fl実践者がそのようなハイパーパラメータを手動で選択することは困難である。 本稿では,アフリカ・ヴァルチャー・オプティマイザ(AVO)を利用した最適なハイパーパラメータを選択することで,通信効率を向上させる新しいFLアルゴリズムであるFedAVOを紹介する。 本研究は,FL の過パラメータ調整に AVO を採用することにより,FL 操作に関連する通信コストを大幅に削減できることを実証する。 ベンチマークデータセット上でのFedAVOの広範な評価を通じて、FedAVOはモデル精度と通信ラウンドにおいて、特に非IIDデータセットの現実的なケースにおいて、大幅な改善を実現していることを示す。 FedAVOアルゴリズムの広範な評価により、ベンチマークデータセットに適切に適合する最適なハイパーパラメータを特定し、最終的には最先端のFLアルゴリズム(FedAvg、FedProx、FedPSOなど)と比較して、グローバルモデルの精度を6%向上する。

Federated Learning (FL), a distributed machine learning technique has recently experienced tremendous growth in popularity due to its emphasis on user data privacy. However, the distributed computations of FL can result in constrained communication and drawn-out learning processes, necessitating the client-server communication cost optimization. The ratio of chosen clients and the quantity of local training passes are two hyperparameters that have a significant impact on FL performance. Due to different training preferences across various applications, it can be difficult for FL practitioners to manually select such hyperparameters. In our research paper, we introduce FedAVO, a novel FL algorithm that enhances communication effectiveness by selecting the best hyperparameters leveraging the African Vulture Optimizer (AVO). Our research demonstrates that the communication costs associated with FL operations can be substantially reduced by adopting AVO for FL hyperparameter adjustment. Through extensive evaluations of FedAVO on benchmark datasets, we show that FedAVO achieves significant improvement in terms of model accuracy and communication round, particularly with realistic cases of Non-IID datasets. Our extensive evaluation of the FedAVO algorithm identifies the optimal hyperparameters that are appropriately fitted for the benchmark datasets, eventually increasing global model accuracy by 6% in comparison to the state-of-the-art FL algorithms (such as FedAvg, FedProx, FedPSO, etc.).
翻訳日:2023-12-13 03:00:27 公開日:2023-12-09
# 新型コロナウイルスパンデミックによる中国の労働市場動態の大規模評価

Large-Scale Assessment of Labour Market Dynamics in China during the COVID-19 Pandemic ( http://arxiv.org/abs/2305.00199v2 )

ライセンス: Link先を確認
Ying Sun, Hengshu Zhu, Hui Xiong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが中国の労働市場に前例のない影響を与え、さまざまな地域での労働供給と需要の構造を大きく変えた。 政策立案者は、ポストパンデミック労働市場の新たなダイナミクスを理解し、地域経済の持続可能な発展を支援する適切な政策を提供することが重要となる。 そこで本稿では,大規模オンライン求人情報検索と求人情報投稿による地域労働市場の変動動態の評価と理解を目的とした,データ駆動型アプローチを提案する。 特に、地域労働市場の魅力を反映した、労働の流れと労働需要の空間的・時間的パターンをモデル化する。 分析の結果,地域労働市場は劇的な変化に悩まされ,パンデミック時の回復の兆候がみられた。 具体的には、大都市から小都市へ、南北地方へ移住する傾向から、労働フローの意図が急速に回復した。 一方、パンデミックにより、ブルーカラー労働者の需要はホワイトカラー労働者に比べて大幅に減少した。 また、青カラー雇用の需要構造も製造業からサービス産業へと変化した。 以上の結果から,パンデミックは労働需要の異なる地域や規制政策に様々な影響を及ぼす可能性が示唆された。 この分析は、パンデミックのような極端なイベント中の雇用市場の変化に直面する個人と組織の両方にタイムリーな情報を提供する。 また、地方経済の持続的な発展を促進する上で、雇用市場に対する適切な政策の提供を政府も支援できる。

The outbreak of the COVID-19 pandemic has had an unprecedented impact on China's labour market, and has largely changed the structure of labour supply and demand in different regions. It becomes critical for policy makers to understand the emerging dynamics of the post-pandemic labour market and provide the right policies for supporting the sustainable development of regional economies. To this end, in this paper, we provide a data-driven approach to assess and understand the evolving dynamics in regions' labour markets with large-scale online job search queries and job postings. In particular, we model the spatial-temporal patterns of labour flow and labour demand which reflect the attractiveness of regional labour markets. Our analysis shows that regional labour markets suffered from dramatic changes and demonstrated unusual signs of recovery during the pandemic. Specifically, the intention of labour flow quickly recovered with a trend of migrating from large to small cities and from northern to southern regions, respectively. Meanwhile, due to the pandemic, the demand of blue-collar workers has been substantially reduced compared to that of white-collar workers. In addition, the demand structure of blue-collar jobs also changed from manufacturing to service industries. Our findings reveal that the pandemic can cause varied impacts on regions with different structures of labour demand and control policies. This analysis provides timely information for both individuals and organizations in confronting the dynamic change in job markets during the extreme events, such as pandemics. Also, the governments can be better assisted for providing the right policies on job markets in facilitating the sustainable development of regions' economies.
翻訳日:2023-12-13 03:00:02 公開日:2023-12-09
# 固有プライバシーを用いた無線フェデレーション学習のコミュニケーションとエネルギー効率

Communication and Energy Efficient Wireless Federated Learning with Intrinsic Privacy ( http://arxiv.org/abs/2304.07460v2 )

ライセンス: Link先を確認
Zhenxiao Zhang and Yuanxiong Guo and Yuguang Fang and Yanmin Gong(参考訳) Federated Learning(FL)は、エッジデバイスが生データをローカルに保持しながら、グローバルモデルを共同で学習することを可能にする、協調学習フレームワークである。 flはローカルデータセットから直接情報を漏洩するのを避けるが、機密情報は共有モデルから推測できる。 FLのプライバシー問題に対処するために、差分プライバシー(DP)機構を利用して正式なプライバシー保証を提供する。 しかし、無線エッジにFLをオーバー・ザ・エア計算でデプロイする場合、クライアントレベルのDPが大きな課題に直面している。 本稿では,PFELS(Private Federated Edge Learning with Sparsification)と呼ばれる新しい無線FL方式を提案する。 PFELSの鍵となる考え方は、各デバイスがまずモデル更新を圧縮し、その後、無線チャネルの状態に応じて圧縮されたモデル更新の送信電力を、人工的なノイズを付加せずに適応的に設計することである。 PFELSのプライバシー分析を行い、一般の非凸および非IID設定下でのPFELSの収束を実証する。 実験の結果,PFELSは従来の作業と比較してDP保証と同じ精度で精度を向上し,通信コストとエネルギーコストを同時に節約できることがわかった。

Federated Learning (FL) is a collaborative learning framework that enables edge devices to collaboratively learn a global model while keeping raw data locally. Although FL avoids leaking direct information from local datasets, sensitive information can still be inferred from the shared models. To address the privacy issue in FL, differential privacy (DP) mechanisms are leveraged to provide formal privacy guarantee. However, when deploying FL at the wireless edge with over-the-air computation, ensuring client-level DP faces significant challenges. In this paper, we propose a novel wireless FL scheme called private federated edge learning with sparsification (PFELS) to provide client-level DP guarantee with intrinsic channel noise while reducing communication and energy overhead and improving model accuracy. The key idea of PFELS is for each device to first compress its model update and then adaptively design the transmit power of the compressed model update according to the wireless channel status without any artificial noise addition. We provide a privacy analysis for PFELS and prove the convergence of PFELS under general non-convex and non-IID settings. Experimental results show that compared with prior work, PFELS can improve the accuracy with the same DP guarantee and save communication and energy costs simultaneously.
翻訳日:2023-12-13 02:57:40 公開日:2023-12-09
# GEMINI:抽象テキスト要約のための文レベル記述スタイルの制御

GEMINI: Controlling the Sentence-level Writing Style for Abstractive Text Summarization ( http://arxiv.org/abs/2304.03548v3 )

ライセンス: Link先を確認
Guangsheng Bao, Zebin Ou, and Yue Zhang(参考訳) 人間の専門家は、文書から文章を抽出して書き直したり、文書から様々な情報を融合して抽象化するなど、異なる手法で要約を書く。 これらの技法は柔軟であり、単一の手法で模倣することは困難である。 そこで本稿では,文の書き換えと抽象化を模倣するリライトとジェネレータを統合した適応モデルであるgeminiを提案する。 GEMINIは、特定の文書文を書き直したり、スクラッチから要約文を生成することを適応的に選択する。 実験により、我々の適応アプローチは、3つのベンチマークデータセットの純粋抽象および書き換えベースラインよりも優れており、wikihowで最高の結果を得た。 興味深いことに、経験的な結果から、要約文の人間の要約スタイルは、文脈から常に予測可能であることが示される。 コードとモデルは \url{https://github.com/baoguangsheng/gemini} でリリースします。

Human experts write summaries using different techniques, including extracting a sentence from the document and rewriting it, or fusing various information from the document to abstract it. These techniques are flexible and thus difficult to be imitated by any single method. To address this issue, we propose an adaptive model, GEMINI, that integrates a rewriter and a generator to mimic the sentence rewriting and abstracting techniques, respectively. GEMINI adaptively chooses to rewrite a specific document sentence or generate a summary sentence from scratch. Experiments demonstrate that our adaptive approach outperforms the pure abstractive and rewriting baselines on three benchmark datasets, achieving the best results on WikiHow. Interestingly, empirical results show that the human summary styles of summary sentences are consistently predictable given their context. We release our code and model at \url{https://github.com/baoguangsheng/gemini}.
翻訳日:2023-12-13 02:56:48 公開日:2023-12-09
# PINNスロープ:物理情報ニューラルネットワークによる地震データ補間と局所斜面推定

PINNslope: seismic data interpolation and local slope estimation with physics informed neural networks ( http://arxiv.org/abs/2305.15990v2 )

ライセンス: Link先を確認
Francesco Brandolin, Matteo Ravasi and Tariq Alkhalifah(参考訳) aliased seismic dataの補間は、地震処理ワークフローにおける重要なステップであり、高品質の速度モデルと地震画像を得る。 地表面波の重ね合わせとして地震波場を記述するアイデアに基づいて,物理情報ニューラルネットワーク(PINN)を用いて地震データを補間する手法を提案する。 提案フレームワークでは,2つのフィードフォワードニューラルネットワークを,局所平面波動微分方程式と使用可能なデータを目的関数の2つの項として,共同でトレーニングする。 合成データとフィールドデータの結果は, 粗いサンプルデータと大きなギャップを持つデータを扱う上で, 提案手法の有効性を検証した。 本手法は,局所平面波方程式によって正規化された古典的最小二乗逆解析手法と,単一ネットワークと事前計算された局所勾配を用いたピンベースアプローチとを好適に比較する。 第2のネットワークを導入して局所斜面を推定し,同時にエイリアスデータを補間することで,一次ネットワーク全体の復元能力と収束挙動が向上することがわかった。 さらに、ウェーブフィールドネットワークの第1層として埋め込まれた付加的な位置符号化層は、データ項の精度をより速く収束させる能力をネットワークに与える。

Interpolation of aliased seismic data constitutes a key step in a seismic processing workflow to obtain high quality velocity models and seismic images. Building on the idea of describing seismic wavefields as a superposition of local plane waves, we propose to interpolate seismic data by utilizing a physics informed neural network (PINN). In the proposed framework, two feed-forward neural networks are jointly trained using the local plane wave differential equation as well as the available data as two terms in the objective function: a primary network assisted by positional encoding is tasked with reconstructing the seismic data, whilst an auxiliary, smaller network estimates the associated local slopes. Results on synthetic and field data validate the effectiveness of the proposed method in handling aliased (coarsely sampled) data and data with large gaps. Our method compares favorably against a classic least-squares inversion approach regularized by the local plane-wave equation as well as a PINN-based approach with a single network and pre-computed local slopes. We find that introducing a second network to estimate the local slopes whilst at the same time interpolating the aliased data enhances the overall reconstruction capabilities and convergence behavior of the primary network. Moreover, an additional positional encoding layer embedded as the first layer of the wavefield network confers to the network the ability to converge faster improving the accuracy of the data term.
翻訳日:2023-12-13 02:47:34 公開日:2023-12-09
# 非自己回帰型文書レベル機械翻訳

Non-Autoregressive Document-Level Machine Translation ( http://arxiv.org/abs/2305.12878v3 )

ライセンス: Link先を確認
Guangsheng Bao, Zhiyang Teng, Hao Zhou, Jianhao Yan, Yue Zhang(参考訳) 非自己回帰翻訳(nat)モデルは、文レベルの機械翻訳(mt)の文脈における自己回帰翻訳(at)モデルと同等の性能と優れた速度を達成する。 しかし、それらの能力は文書レベルのMTでは探索されず、実際のシナリオでの使用を妨げる。 本稿では,文書レベルMTの文脈における典型的なNATモデルを包括的に検証し,ソースとターゲット間の文アライメントの簡易かつ効果的な設計を提案する。 実験により、NATモデルは文書上で高い加速度を達成し、文のアライメントによりその性能が著しく向上することが示された。 しかし、現在のNATモデルではATモデルと比べて大きな性能差がある。 さらに,NATモデルは文書レベルのMTの文脈において,多相性や誤配の問題に悩まされ,現在のNATモデルは文書コンテキストの活用や談話現象の処理に苦慮していることが明らかとなった。 私たちはこれらの課題を精査し、コードを \url{https://github.com/baoguangsheng/nat-on-doc}で提供する。

Non-autoregressive translation (NAT) models achieve comparable performance and superior speed compared to auto-regressive translation (AT) models in the context of sentence-level machine translation (MT). However, their abilities are unexplored in document-level MT, hindering their usage in real scenarios. In this paper, we conduct a comprehensive examination of typical NAT models in the context of document-level MT and further propose a simple but effective design of sentence alignment between source and target. Experiments show that NAT models achieve high acceleration on documents, and sentence alignment significantly enhances their performance. However, current NAT models still have a significant performance gap compared to their AT counterparts. Further investigation reveals that NAT models suffer more from the multi-modality and misalignment issues in the context of document-level MT, and current NAT models struggle with exploiting document context and handling discourse phenomena. We delve into these challenges and provide our code at \url{https://github.com/baoguangsheng/nat-on-doc}.
翻訳日:2023-12-13 02:46:45 公開日:2023-12-09
# GPT-RE:大規模言語モデルを用いた関係抽出のための文脈内学習

GPT-RE: In-context Learning for Relation Extraction using Large Language Models ( http://arxiv.org/abs/2305.02105v3 )

ライセンス: Link先を確認
Zhen Wan, Fei Cheng, Zhuoyuan Mao, Qianying Liu, Haiyue Song, Jiwei Li, Sadao Kurohashi(参考訳) 大規模な言語モデル(例えばGPT-3)によって提供される画期的な成果の可能性があるにもかかわらず、関係抽出(RE)において完全に教師されたベースライン(例えば細調整されたBERT)を大きく遅れている。 これは、reにおけるllmの2つの大きな欠点が原因である: (1) 文脈内学習のための検索されたデモンストレーションにおけるエンティティと関係に関する関連性が低い、(2) ヌル例を他の事前定義されたラベルに誤って分類する強い傾向。 本稿では,LPMと完全教師付きベースラインのギャップを埋めるためのGPT-REを提案する。 gpt-reは,(1)実演検索におけるタスク固有実体表現の導入,(2)ゴールドラベル推論論理による実演の充実により,上記の課題にうまく対処した。 広範に使用されている4つのREデータセット上でGPT-REを評価し、GPT-REが既存のGPT-3ベースラインだけでなく、完全に教師されたベースラインよりも改善されていることを観察した。 具体的には、GPT-REはSemevalデータセットとSciERCデータセットのSOTAパフォーマンス、TACREDデータセットとACE05データセットの競合パフォーマンスを実現している。

In spite of the potential for ground-breaking achievements offered by large language models (LLMs) (e.g., GPT-3), they still lag significantly behind fully-supervised baselines (e.g., fine-tuned BERT) in relation extraction (RE). This is due to the two major shortcomings of LLMs in RE: (1) low relevance regarding entity and relation in retrieved demonstrations for in-context learning; and (2) the strong inclination to wrongly classify NULL examples into other pre-defined labels. In this paper, we propose GPT-RE to bridge the gap between LLMs and fully-supervised baselines. GPT-RE successfully addresses the aforementioned issues by (1) incorporating task-specific entity representations in demonstration retrieval; and (2) enriching the demonstrations with gold label-induced reasoning logic. We evaluate GPT-RE on four widely-used RE datasets, and observe that GPT-RE achieves improvements over not only existing GPT-3 baselines, but also fully-supervised baselines. Specifically, GPT-RE achieves SOTA performances on the Semeval and SciERC datasets, and competitive performances on the TACRED and ACE05 datasets.
翻訳日:2023-12-13 02:43:47 公開日:2023-12-09
# Mind2Web: Webのジェネラリストエージェントを目指して

Mind2Web: Towards a Generalist Agent for the Web ( http://arxiv.org/abs/2306.06070v3 )

ライセンス: Link先を確認
Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang, Huan Sun, Yu Su(参考訳) mind2webは、webサイト上で複雑なタスクを完了するために、言語命令に従うweb用のジェネラリストエージェントを開発し、評価するための最初のデータセットである。 既存のWebエージェントのデータセットは、シミュレートされたWebサイトを使用するか、限られたWebサイトやタスクのみをカバーする。 31のドメインにまたがる137のWebサイトから2,000以上のオープンエンドタスクが収集され、タスクのためのクラウドソースされたアクションシーケンスによって、Mind2WebはジェネラリストWebエージェントを構築するのに必要な3つの材料を提供します。 1)多様なドメイン、webサイト、タスク。 2)シミュレーションや簡略化ではなく現実世界のウェブサイトの利用, 3) ユーザインタラクションパターンの幅広いスペクトル。 mind2webを基盤として,大規模言語モデル(llms)を用いた汎用webエージェント構築の初期調査を行った。 実世界のWebサイトの生のHTMLはLLMに供給するには大きすぎることが多いが、まず小さなLMでフィルタリングすることでLLMの有効性と効率が著しく向上することを示す。 私たちのソリューションは、モデルがこれまで見たことのないウェブサイトやドメイン全体であっても、十分なレベルのパフォーマンスを示していますが、真に一般化可能なエージェントに改善の余地は依然としてあります。 我々は、データセット、モデル実装、トレーニングされたモデル(https://osu-nlp-group.github.io/Mind2Web)をオープンソース化し、Webのためのジェネラリストエージェントの構築に関するさらなる研究を促進する。

We introduce Mind2Web, the first dataset for developing and evaluating generalist agents for the web that can follow language instructions to complete complex tasks on any website. Existing datasets for web agents either use simulated websites or only cover a limited set of websites and tasks, thus not suitable for generalist web agents. With over 2,000 open-ended tasks collected from 137 websites spanning 31 domains and crowdsourced action sequences for the tasks, Mind2Web provides three necessary ingredients for building generalist web agents: 1) diverse domains, websites, and tasks, 2) use of real-world websites instead of simulated and simplified ones, and 3) a broad spectrum of user interaction patterns. Based on Mind2Web, we conduct an initial exploration of using large language models (LLMs) for building generalist web agents. While the raw HTML of real-world websites are often too large to be fed to LLMs, we show that first filtering it with a small LM significantly improves the effectiveness and efficiency of LLMs. Our solution demonstrates a decent level of performance, even on websites or entire domains the model has never seen before, but there is still a substantial room to improve towards truly generalizable agents. We open-source our dataset, model implementation, and trained models (https://osu-nlp-group.github.io/Mind2Web) to facilitate further research on building a generalist agent for the web.
翻訳日:2023-12-13 02:37:00 公開日:2023-12-09
# スカースとノイズデータに基づく量子サロゲートモデルのベンチマーク

Benchmarking Quantum Surrogate Models on Scarce and Noisy Data ( http://arxiv.org/abs/2306.05042v3 )

ライセンス: Link先を確認
Jonas Stein, Michael Poppel, Philip Adamczyk, Ramona Fabry, Zixin Wu, Michael K\"olle, Jonas N\"u{\ss}lein, Dani\"elle Schuman, Philipp Altmann, Thomas Ehmer, Vijay Narasimhan, Claudia Linnhoff-Popien(参考訳) サロゲートモデルは、与えられたブラックボックス関数を効率的に近似するために、産業や学界でユビキタスに使われている。 古典的機械学習の最先端の手法は、実用的応用においてしばしば希少でノイズの多いデータセットのために、この問題を解決するのにしばしば苦労しているため、新しいアプローチを調査することは非常に興味深い。 量子ニューラルネットワーク (QNN) が, 希少かつノイズの多いデータの存在下で, 古典的アナログよりも優れる可能性を示唆する最近の理論的結果により, このシナリオの質的性能を実証的に評価した。 我々のコントリビューションは、QNNを高次元の実世界データ上の代理モデルとして使う最初のアプリケーション中心のアプローチを示す。 類似したパラメータを持つ古典的人工ニューラルネットワークと比較すると、我々のQNNはノイズや不足データに対してはるかに優れた結果を示しており、代理モデリングにおけるこの潜在的な量子優位性を探究する動機となっている。 最後に,現在のNISQハードウェアの性能を実験的に実証し,シミュレーション結果の再現に必要なゲート特性を推定する。

Surrogate models are ubiquitously used in industry and academia to efficiently approximate given black box functions. As state-of-the-art methods from classical machine learning frequently struggle to solve this problem accurately for the often scarce and noisy data sets in practical applications, investigating novel approaches is of great interest. Motivated by recent theoretical results indicating that quantum neural networks (QNNs) have the potential to outperform their classical analogs in the presence of scarce and noisy data, we benchmark their qualitative performance for this scenario empirically. Our contribution displays the first application-centered approach of using QNNs as surrogate models on higher dimensional, real world data. When compared to a classical artificial neural network with a similar number of parameters, our QNN demonstrates significantly better results for noisy and scarce data, and thus motivates future work to explore this potential quantum advantage in surrogate modelling. Finally, we demonstrate the performance of current NISQ hardware experimentally and estimate the gate fidelities necessary to replicate our simulation results.
翻訳日:2023-12-13 02:36:16 公開日:2023-12-09
# フラッド検出における量子ボルツマンマシンによる教師なし異常検出の探索

Exploring Unsupervised Anomaly Detection with Quantum Boltzmann Machines in Fraud Detection ( http://arxiv.org/abs/2306.04998v2 )

ライセンス: Link先を確認
Jonas Stein, Dani\"elle Schuman, Magdalena Benkard, Thomas Holger, Wanja Sajko, Michael K\"olle, Jonas N\"u{\ss}lein, Leo S\"unkel, Olivier Salomon, Claudia Linnhoff-Popien(参考訳) エンドポイント検出・応答における異常検出(EDR)は,大企業のサイバーセキュリティプログラムにおいて重要な課題である。 データが急速に増加し、ゼロデイ攻撃が全滅する中、手動およびルールベースの検出技術は現実には適用できない。 この問題に対する古典的な機械学習アプローチは存在するが、悪質な異常と悪質な異常を区別する際の不満足なパフォーマンスをしばしば示す。 現在使われている機械学習技術よりも優れた一般化を実現するための有望なアプローチは量子生成モデルである。 利用可能な量子ハードウェア上で最大のデータ表現を実現するため,量子アニーリングに基づく量子ボルツマンマシン(QBM)について検討する。 本研究は,QBMを用いた異常検出問題に対する最初の教師なしアプローチであり,EDRによる合成データセットの性能評価を行う。 以上の結果から,qbmは,特殊ケースにおける結果品質やトレーニングステップにおいて,古典的アナログ(すなわち制限ボルツマン機械)を上回ることができることが示唆された。 D-Wave SystemsのQuantum Annealersを利用する場合、シミュレーション結果を量子ハードウェア上で再現するために必要となるハイパーパラメータ最適化を行うために、より正確な古典的シミュレータかQPU時間が必要であると結論付ける。

Anomaly detection in Endpoint Detection and Response (EDR) is a critical task in cybersecurity programs of large companies. With rapidly growing amounts of data and the omnipresence of zero-day attacks, manual and rule-based detection techniques are no longer eligible in practice. While classical machine learning approaches to this problem exist, they frequently show unsatisfactory performance in differentiating malicious from benign anomalies. A promising approach to attain superior generalization than currently employed machine learning techniques are quantum generative models. Allowing for the largest representation of data on available quantum hardware, we investigate Quantum Annealing based Quantum Boltzmann Machines (QBMs) for the given problem. We contribute the first fully unsupervised approach for the problem of anomaly detection using QBMs and evaluate its performance on an EDR inspired synthetic dataset. Our results indicate that QBMs can outperform their classical analog (i.e., Restricted Boltzmann Machines) in terms of result quality and training steps in special cases. When employing Quantum Annealers from D-Wave Systems, we conclude that either more accurate classical simulators or substantially more QPU time is needed to conduct the necessary hyperparameter optimization allowing to replicate our simulation results on quantum hardware.
翻訳日:2023-12-13 02:35:55 公開日:2023-12-09
# スマートフォンセンシングとコミュニティモデルパーソナライゼーションによる気分判断

Inferring Mood-While-Eating with Smartphone Sensing and Community-Based Model Personalization ( http://arxiv.org/abs/2306.00723v2 )

ライセンス: Link先を確認
Wageesha Bangamuarachchi and Anju Chamantha and Lakmal Meegahapola and Haeeun Kim and Salvador Ruiz-Correa and Indika Perera and Daniel Gatica-Perez(参考訳) 気分と食事の相互作用は、栄養学と行動科学の分野における広範な研究の対象であり、両者の強い関係を示している。 さらに,携帯電話のセンサデータを用いて,食行動と気分の両方を,移動食日記やモバイル健康アプリケーションという文脈で独立に特徴付けてきた。 ただし、現在の文献には以下の制限がある。 一 日常の生活状況から食事等の特定の状況に至るまでの受動的センサデータを用いて訓練された気分推定モデルの一般化に関する調査の欠如 二 気分と食事の交点を研究するためのセンサデータを用いる先行研究 三 気分推論においてよく経験するような、限定的なラベル設定におけるモデルパーソナライズ技術の不十分な検証 本研究では,メキシコの大学生(n_mex = 84, 1843)と8か国(n_mul = 678, 329k mood reports incl. 24k mood-while-eating reports)の2つのデータセットを用いて,受動的スマートフォンセンシングと自己報告データの両方を含む日常食行動と気分について検討した。 以上の結果から,一般的な気分推定モデルでは,食事時など特定の文脈でのパフォーマンスが低下することが示唆された。 さらに, 集団レベル(非個人化)とハイブリッド(部分パーソナライズ)のモデリング技術は, 一般的に使用されている3段階の感情推論タスク(正, 中立, 負)には不十分であることがわかった。 さらに,ユーザレベルのモデリングは,負のクラスからの十分なラベルやデータがないため,ほとんどの参加者にとって困難であった。 これらの制約に対処するために,類似ユーザから対象ユーザへのデータを用いたモデルを構築することにより,新たなコミュニティベースのパーソナライズ手法を採用した。

The interplay between mood and eating has been the subject of extensive research within the fields of nutrition and behavioral science, indicating a strong connection between the two. Further, phone sensor data have been used to characterize both eating behavior and mood, independently, in the context of mobile food diaries and mobile health applications. However, limitations within the current body of literature include: i) the lack of investigation around the generalization of mood inference models trained with passive sensor data from a range of everyday life situations, to specific contexts such as eating, ii) no prior studies that use sensor data to study the intersection of mood and eating, and iii) the inadequate examination of model personalization techniques within limited label settings, as we commonly experience in mood inference. In this study, we sought to examine everyday eating behavior and mood using two datasets of college students in Mexico (N_mex = 84, 1843 mood-while-eating reports) and eight countries (N_mul = 678, 329K mood reports incl. 24K mood-while-eating reports), containing both passive smartphone sensing and self-report data. Our results indicate that generic mood inference models decline in performance in certain contexts, such as when eating. Additionally, we found that population-level (non-personalized) and hybrid (partially personalized) modeling techniques were inadequate for the commonly used three-class mood inference task (positive, neutral, negative). Furthermore, we found that user-level modeling was challenging for the majority of participants due to a lack of sufficient labels and data from the negative class. To address these limitations, we employed a novel community-based approach for personalization by building models with data from a set of similar users to a target user.
翻訳日:2023-12-13 02:33:30 公開日:2023-12-09
# ドメイン一般化都市-シーンセグメンテーションのための学習コンテンツエンハンスドマスクトランス

Learning Content-enhanced Mask Transformer for Domain Generalized Urban-Scene Segmentation ( http://arxiv.org/abs/2307.00371v4 )

ライセンス: Link先を確認
Qi Bi, Shaodi You, Theo Gevers(参考訳) ドメイン一般化都市シーンセマンティックセマンティックセグメンテーション (USSS) は,様々な都市シーンスタイルの汎用セマンティックセマンティックセグメンテーションを学習することを目的としている。 ドメインギャップの課題とは異なり、usssは、意味的なカテゴリが異なる都市シーンでよく似ているのに対して、都市景観の変化、気象条件、照明、その他の要因によりスタイルが著しく異なる点が特徴である。 既存のアプローチは通常、都市シーンの内容を学ぶために畳み込みニューラルネットワーク(CNN)に依存している。 本稿では、ドメイン一般化USSSのためのコンテンツ強化Mask TransFormer(CMFormer)を提案する。 主な考え方は、コンテンツ情報に対するトランスフォーマーセグメンテーションモデルにおける基本的なコンポーネントであるマスアテンション機構の焦点を強化することである。 そこで本研究では,新しいマスキング機構を提案する。 低解像度の画像機能は、通常より堅牢なコンテンツ情報を含み、スタイルのバリエーションに敏感でないため、イメージ機能とダウンサンプルの両方からマスククエリを学習する。 これらの機能はTransformerデコーダに融合され、マルチ解像度のコンテンツ強調学習スキームに統合される。 様々な領域一般化都市・シーンセグメンテーションデータセットを用いて行った大規模な実験により、提案したCMFormerは、ドメイン一般化セグメンテーションの既存のCNN手法を著しく上回っており、mIoUの点において最大14.00\%の改善が達成されている。 ソースコードは \url{https://github.com/BiQiWHU/CMFormer} で公開されている。

Domain-generalized urban-scene semantic segmentation (USSS) aims to learn generalized semantic predictions across diverse urban-scene styles. Unlike domain gap challenges, USSS is unique in that the semantic categories are often similar in different urban scenes, while the styles can vary significantly due to changes in urban landscapes, weather conditions, lighting, and other factors. Existing approaches typically rely on convolutional neural networks (CNNs) to learn the content of urban scenes. In this paper, we propose a Content-enhanced Mask TransFormer (CMFormer) for domain-generalized USSS. The main idea is to enhance the focus of the fundamental component, the mask attention mechanism, in Transformer segmentation models on content information. To achieve this, we introduce a novel content-enhanced mask attention mechanism. It learns mask queries from both the image feature and its down-sampled counterpart, as lower-resolution image features usually contain more robust content information and are less sensitive to style variations. These features are fused into a Transformer decoder and integrated into a multi-resolution content-enhanced mask attention learning scheme. Extensive experiments conducted on various domain-generalized urban-scene segmentation datasets demonstrate that the proposed CMFormer significantly outperforms existing CNN-based methods for domain-generalized semantic segmentation, achieving improvements of up to 14.00\% in terms of mIoU (mean intersection over union). The source code is publicly available at \url{https://github.com/BiQiWHU/CMFormer}.
翻訳日:2023-12-13 02:25:18 公開日:2023-12-09
# 非局所量子計算と情報理論暗号

Relating non-local quantum computation to information theoretic cryptography ( http://arxiv.org/abs/2306.16462v2 )

ライセンス: Link先を確認
Rene Allerstorfer, Harry Buhrman, Alex May, Florian Speelman, Philip Verduyn Lunel(参考訳) 非局所量子計算(NLQC)は位置検証スキームの不正な方法であり、AdS/CFT対応の文脈に現れている。 ここでは、nlqcを情報理論的な暗号のより広い文脈に結びつけ、他の多くの暗号プリミティブに関連付ける。 f$-routingとして知られるnlqcの特別な場合の一つは、cdsプリミティブの条件付き開示の量子アナログ(英語版)(quantum analogue of the conditional disclosure of secrets)に相当する。 さらに,コヒーレント関数評価(CFE)と呼ばれる位置検証の特殊な事例についても検討し,CFEプロトコルがプライベート同時メッセージパッシング(PSM)シナリオに対して同様の効率的なプロトコルを誘導することを示す。 これらの暗号プリミティブに位置検証を関連付けることで、暗号文学における多くの結果はNLQCに新しい意味を与え、その逆も与える。 これには、最悪の場合のコストが$f$-routing of $2^{O(\sqrt{n\log n})}$ entanglement(英語版)の最初の部分指数上界、外部にあると思われる問題に対する効率的な$f$-routing(英語版)戦略の最初の例、量子設定におけるCDSの絡み合いの線形下界、CFEの通信コストの線形下界、低T$の量子回路で計算できる関数の量子設定におけるCDSの効率的なプロトコルが含まれる。

Non-local quantum computation (NLQC) is a cheating strategy for position-verification schemes, and has appeared in the context of the AdS/CFT correspondence. Here, we connect NLQC to the wider context of information theoretic cryptography by relating it to a number of other cryptographic primitives. We show one special case of NLQC, known as $f$-routing, is equivalent to the quantum analogue of the conditional disclosure of secrets (CDS) primitive, where by equivalent we mean that a protocol for one task gives a protocol for the other with only small overhead in resource costs. We further consider another special case of position verification, which we call coherent function evaluation (CFE), and show CFE protocols induce similarly efficient protocols for the private simultaneous message passing (PSM) scenario. By relating position-verification to these cryptographic primitives, a number of results in the cryptography literature give new implications for NLQC, and vice versa. These include the first sub-exponential upper bounds on the worst case cost of $f$-routing of $2^{O(\sqrt{n\log n})}$ entanglement, the first example of an efficient $f$-routing strategy for a problem believed to be outside $P/poly$, linear lower bounds on entanglement for CDS in the quantum setting, linear lower bounds on communication cost of CFE, and efficient protocols for CDS in the quantum setting for functions that can be computed with quantum circuits of low $T$ depth.
翻訳日:2023-12-13 02:24:50 公開日:2023-12-09
# 算術演算を用いたパラメータ有効モジュールの構成

Composing Parameter-Efficient Modules with Arithmetic Operations ( http://arxiv.org/abs/2306.14870v2 )

ライセンス: Link先を確認
Jinghan Zhang, Shiqi Chen, Junteng Liu, Junxian He(参考訳) 従来の完全微調整の代替として、パラメータ効率のよい微調整(PEFT)が、事前訓練された言語モデルに適応するための一般的な方法になりつつある。 peftでは、基礎となる事前学習された言語モデルが変わらず、軽量モジュールが各データセットで学習され、さまざまなドメインやタスクに適用されると、さまざまなスキルを表す複数のコンパクトモジュールが生成される。 本稿では,重み空間における線形算術演算により,これらのパラメータ効率のよいモジュールを構成することを提案する。 具体的には、まず加法演算子と否定演算子を定義し、さらに2つの基本演算子を構成してフレキシブル演算を行う。 我々のアプローチでは 'emph{no additional training} を必要とし、高度に柔軟なモジュール構成を可能にします。 1) 分散一般化, (2) マルチタスク, (3) 未学習, (4) ドメイン転送のためのパラメータ効率のよいモジュールを構成するために, 異なる算術演算を適用する。 さらに、LLaMAに基づく最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。 実験により,本手法は,既存のモジュールを全設定で大幅に上回る,新しい,効果的なパラメータ効率のモジュールを生成することを示す。

As an efficient alternative to conventional full finetuning, parameter-efficient finetuning (PEFT) is becoming the prevailing method to adapt pretrained language models. In PEFT, a lightweight module is learned on each dataset while the underlying pretrained language model remains unchanged, resulting in multiple compact modules representing diverse skills when applied to various domains and tasks. In this paper, we propose to compose these parameter-efficient modules through linear arithmetic operations in the weight space, thereby integrating different module capabilities. Specifically, we first define addition and negation operators for the module, and then further compose these two basic operators to perform flexible arithmetic. Our approach requires \emph{no additional training} and enables highly flexible module composition. We apply different arithmetic operations to compose the parameter-efficient modules for (1) distribution generalization, (2) multi-tasking, (3) unlearning, and (4) domain transfer. Additionally, we extend our approach to detoxify Alpaca-LoRA, the latest instruction-tuned large language model based on LLaMA. Empirical results demonstrate that our approach produces new and effective parameter-efficient modules that significantly outperform existing ones across all settings.
翻訳日:2023-12-13 02:23:52 公開日:2023-12-09
# labelbench:適応ラベル効率学習をベンチマークするための包括的なフレームワーク

LabelBench: A Comprehensive Framework for Benchmarking Adaptive Label-Efficient Learning ( http://arxiv.org/abs/2306.09910v2 )

ライセンス: Link先を確認
Jifan Zhang, Yifang Chen, Gregory Canal, Stephen Mussmann, Arnav M. Das, Gantavya Bhatt, Yinglun Zhu, Simon Shaolei Du, Kevin Jamieson, Robert D Nowak(参考訳) ラベル付きデータは現代の機械学習アプリケーションには不可欠だが、ラベルの取得には費用がかかる。 このコストを軽減するために、転送学習、半教師付き学習、アクティブラーニングなどの機械学習手法はラベル効率を目標とし、比較的少数のラベル付き例から高い予測性能を達成する。 実際に最高のラベル効率を得るには、これらのテクニックの組み合わせを必要とすることが多いが、既存のベンチマークと評価フレームワークは、これらすべてのテクニックの併用を捉えていない。 本稿では,複数のラベル効率学習手法を共同評価するための新しい計算効率の高いフレームワークである labelbench を導入することで,この不足に対処する。 LabelBench の応用として,手動学習と半教師あり学習を組み合わせた最新の能動学習手法のベンチマークを導入する。 我々のベンチマークでは, これまでに報告されたアクティブラーニングよりも優れたラベル効率を示す。 labelbenchのモジュラーコードベースは、より広いコミュニティがラベル効率のよい学習方法とベンチマークを提供するためにオープンソースである。 リポジトリは、https://github.com/EfficientTraining/LabelBench.comで見ることができる。

Labeled data are critical to modern machine learning applications, but obtaining labels can be expensive. To mitigate this cost, machine learning methods, such as transfer learning, semi-supervised learning and active learning, aim to be label-efficient: achieving high predictive performance from relatively few labeled examples. While obtaining the best label-efficiency in practice often requires combinations of these techniques, existing benchmark and evaluation frameworks do not capture a concerted combination of all such techniques. This paper addresses this deficiency by introducing LabelBench, a new computationally-efficient framework for joint evaluation of multiple label-efficient learning techniques. As an application of LabelBench, we introduce a novel benchmark of state-of-the-art active learning methods in combination with semi-supervised learning for fine-tuning pretrained vision transformers. Our benchmark demonstrates better label-efficiencies than previously reported in active learning. LabelBench's modular codebase is open-sourced for the broader community to contribute label-efficient learning methods and benchmarks. The repository can be found at: https://github.com/EfficientTraining/LabelBench.
翻訳日:2023-12-13 02:21:21 公開日:2023-12-09
# 移動目標防衛による分散学習におけるコミュニケーションの脅威の軽減

Mitigating Communications Threats in Decentralized Federated Learning through Moving Target Defense ( http://arxiv.org/abs/2307.11730v2 )

ライセンス: Link先を確認
Enrique Tom\'as Mart\'inez Beltr\'an and Pedro Miguel S\'anchez S\'anchez and Sergio L\'opez Bernal and G\'er\^ome Bovet and Manuel Gil P\'erez and Gregorio Mart\'inez P\'erez and Alberto Huertas Celdr\'an(参考訳) 分散フェデレーション学習(DFL)の台頭は、フェデレーションされた参加者間で機械学習モデルのトレーニングを可能にし、分散モデルの集約を促進し、サーバへの依存を減らす。 しかし,本手法では,本論文では未解決の独特な通信セキュリティ上の課題が提起されている。 これらの課題は、主に集約プロセスの分散的な性質、参加者の役割と責任の多様性、脅威を監督し緩和する中央機関の欠如に由来する。 これらの課題に対して,本稿ではまず,dfl通信に着目した包括的脅威モデルについて述べる。 これらのリスクに応えて、DFLプラットフォームに対する通信ベースの攻撃に対抗するセキュリティモジュールを導入する。 このモジュールは、対称暗号や非対称暗号のようなセキュリティ技術と、ランダムな隣人選択やIP/ポート切替を含む移動目標防衛(MTD)技術を組み合わせる。 セキュリティモジュールはDFLプラットフォームであるFedstellarで実装されており、フェデレーションのデプロイと監視を可能にする。 物理および仮想デプロイメントを備えたDFLシナリオが3つのセキュリティ設定を含む実行された。 (i)セキュリティのないベースライン (ii)暗号化された構成、及び (iii)暗号化とMTD技術を統合した構成。 セキュリティモジュールの有効性は、MNISTデータセットと日食攻撃の実験を通じて検証される。 その結果、cpu使用率が最大で68%(+-9%)、ネットワークトラフィックは480.8mb(+-18mb)に達し、盗聴やeclipse攻撃に関連するリスクを効果的に軽減した。

The rise of Decentralized Federated Learning (DFL) has enabled the training of machine learning models across federated participants, fostering decentralized model aggregation and reducing dependence on a server. However, this approach introduces unique communication security challenges that have yet to be thoroughly addressed in the literature. These challenges primarily originate from the decentralized nature of the aggregation process, the varied roles and responsibilities of the participants, and the absence of a central authority to oversee and mitigate threats. Addressing these challenges, this paper first delineates a comprehensive threat model focused on DFL communications. In response to these identified risks, this work introduces a security module to counter communication-based attacks for DFL platforms. The module combines security techniques such as symmetric and asymmetric encryption with Moving Target Defense (MTD) techniques, including random neighbor selection and IP/port switching. The security module is implemented in a DFL platform, Fedstellar, allowing the deployment and monitoring of the federation. A DFL scenario with physical and virtual deployments have been executed, encompassing three security configurations: (i) a baseline without security, (ii) an encrypted configuration, and (iii) a configuration integrating both encryption and MTD techniques. The effectiveness of the security module is validated through experiments with the MNIST dataset and eclipse attacks. The results showed an average F1 score of 95%, with the most secure configuration resulting in CPU usage peaking at 68% (+-9%) in virtual deployments and network traffic reaching 480.8 MB (+-18 MB), effectively mitigating risks associated with eavesdropping or eclipse attacks.
翻訳日:2023-12-13 02:13:14 公開日:2023-12-09
# 多視点自己監督学習におけるエントロピーと再構成の役割

The Role of Entropy and Reconstruction in Multi-View Self-Supervised Learning ( http://arxiv.org/abs/2307.10907v2 )

ライセンス: Link先を確認
Borja Rodr\'iguez-G\'alvez, Arno Blaas, Pau Rodr\'iguez, Adam Goli\'nski, Xavier Suau, Jason Ramapuram, Dan Busbridge, Luca Zappella(参考訳) 多視点自己教師学習(MVSSL)の成功のメカニズムはまだ完全には理解されていない。 対照的にMVSSL法は相互情報(MI)の下位境界であるInfoNCEのレンズを用いて研究されている。 しかし、他のMVSSLメソッドとMIとの関係は未だ不明である。 我々は、エントロピーと再構成項(ER)からなるMI上の異なる下界を考察し、そのレンズを通して主MVSSLファミリーを分析する。 このER境界を通して、DeepClusterやSwaVといったクラスタリングベースの手法がMIを最大化することを示す。 また,BYOLやDINOといった蒸留法に基づく手法のメカニズムを再解釈し,再現期間を明示的に最大化し,安定エントロピーを暗黙的に促進することを示した。 本研究では, 一般的なMVSSL法をER境界に置き換えることで, より小さいバッチサイズあるいはより小さい指数移動平均(EMA)係数でトレーニングした場合に, 安定した性能が得られることを示す。 Github repo: https://github.com/apple/ml-entropy-reconstruction.com

The mechanisms behind the success of multi-view self-supervised learning (MVSSL) are not yet fully understood. Contrastive MVSSL methods have been studied through the lens of InfoNCE, a lower bound of the Mutual Information (MI). However, the relation between other MVSSL methods and MI remains unclear. We consider a different lower bound on the MI consisting of an entropy and a reconstruction term (ER), and analyze the main MVSSL families through its lens. Through this ER bound, we show that clustering-based methods such as DeepCluster and SwAV maximize the MI. We also re-interpret the mechanisms of distillation-based approaches such as BYOL and DINO, showing that they explicitly maximize the reconstruction term and implicitly encourage a stable entropy, and we confirm this empirically. We show that replacing the objectives of common MVSSL methods with this ER bound achieves competitive performance, while making them stable when training with smaller batch sizes or smaller exponential moving average (EMA) coefficients. Github repo: https://github.com/apple/ml-entropy-reconstruction.
翻訳日:2023-12-13 02:12:46 公開日:2023-12-09
# 高忠実性仮想2量子ゲートの実証実験

Experimental demonstration of a high-fidelity virtual two-qubit gate ( http://arxiv.org/abs/2307.03232v2 )

ライセンス: Link先を確認
Akhil Pratap Singh, Kosuke Mitarai, Yasunari Suzuki, Kentaro Heya, Yutaka Tabuchi, Keisuke Fujii, Yasunobu Nakamura(参考訳) 仮想2量子ビットゲートを量子プロセストモグラフィー(qpt)を用いて実験的に検証した。 仮想2量子ゲートは、期待値推定のために、実際の2量子ゲートを量子回路内の1量子ユニタリゲートと投射ゲートに分解する。 中間回路計測により投影ゲートを実装した。 決定論的サンプリング方式は仮想二ビットゲートの分解に必要な回路評価の回数を減らす。 また、測定誤差の影響を抑制し、仮想制御されたZ$(CZ)ゲートの平均ゲート忠実度を$f_{\rm av} = 0.9938 \pm 0.0002$に改善する。 提案手法は,量子回路のシミュレーションに有用であり,量子ビットの少ない量子ビットを用いた仮想2量子ゲートの実装や,遠隔の2量子ゲートの実装に有用である。

We experimentally demonstrate a virtual two-qubit gate and characterize it using quantum process tomography~(QPT). The virtual two-qubit gate decomposes an actual two-qubit gate into single-qubit unitary gates and projection gates in quantum circuits for expectation-value estimation. We implement projection gates via mid-circuit measurements. The deterministic sampling scheme reduces the number of experimental circuit evaluations required for decomposing a virtual two-qubit gate. We also apply quantum error mitigation to suppress the effect of measurement errors and improve the average gate fidelity of a virtual controlled-$Z$ (CZ) gate to $f_{\rm av} = 0.9938 \pm 0.0002$. Our results highlight a practical approach to implement virtual two-qubit gates with high fidelities, which are useful for simulating quantum circuits using fewer qubits and implementing two-qubit gates on a distant pair of qubits.
翻訳日:2023-12-13 02:09:20 公開日:2023-12-09
# 弱教師付き時間的行動定位におけるあいまいさ低減のためのクロスビデオ文脈知識探索と活用

Cross-Video Contextual Knowledge Exploration and Exploitation for Ambiguity Reduction in Weakly Supervised Temporal Action Localization ( http://arxiv.org/abs/2308.12609v2 )

ライセンス: Link先を確認
Songchun Zhang, and Chunhui Zhao(参考訳) weakly supervised temporal action localization(wstal)は、ビデオレベルのラベルを使用して、未トリミングビデオ内のアクションをローカライズすることを目的としている。 最近の進歩にもかかわらず、既存のアプローチは主にローカライズ・バイ・クラス化パイプラインに従っており、一般に各セグメントを個別に処理し、限られた文脈情報のみを活用する。 その結果、モデルには様々な行動パターンの包括的理解(例:外観と時間構造)が欠如しており、分類学習と時間的局所化の曖昧さに繋がる。 本研究は,データセット内のクロスビデオ文脈知識を探索し,弱いラベルのみによるアクションインスタンスのデータセットレベルのセマンティクス構造を復元することにより,きめ細かいアクションパターンの総合的な理解を間接的に改善し,前述の曖昧さを緩和することで,新たな視点からこの問題に対処した。 具体的には、Robust Memory-Guided Contrastive Learning (RMGCL)モジュールとGlobal Knowledge Summarization and Aggregation (GKSA)モジュールを含むエンドツーエンドフレームワークを提案する。 まず、RMGCLモジュールは、ビデオ間のアクション機能のコントラストと一貫性を探求し、より構造化されコンパクトな埋め込み空間の学習を支援し、分類学習における曖昧さを低減する。 さらに、gksaモジュールは、クロスビデオ代表行動知識を学習可能な方法で効率的に要約し、総合的な行動パターン理解を促進し、その結果、自己学習のための自信の高い擬似ラベルの生成を可能にし、時間的局在の曖昧さを緩和する。 THUMOS14, ActivityNet1.3, FineAction に関する大規模な実験により,本手法が最先端の手法よりも優れており,他の WSTAL 手法に簡単に接続可能であることが示された。

Weakly supervised temporal action localization (WSTAL) aims to localize actions in untrimmed videos using video-level labels. Despite recent advances, existing approaches mainly follow a localization-by-classification pipeline, generally processing each segment individually, thereby exploiting only limited contextual information. As a result, the model will lack a comprehensive understanding (e.g. appearance and temporal structure) of various action patterns, leading to ambiguity in classification learning and temporal localization. Our work addresses this from a novel perspective, by exploring and exploiting the cross-video contextual knowledge within the dataset to recover the dataset-level semantic structure of action instances via weak labels only, thereby indirectly improving the holistic understanding of fine-grained action patterns and alleviating the aforementioned ambiguities. Specifically, an end-to-end framework is proposed, including a Robust Memory-Guided Contrastive Learning (RMGCL) module and a Global Knowledge Summarization and Aggregation (GKSA) module. First, the RMGCL module explores the contrast and consistency of cross-video action features, assisting in learning more structured and compact embedding space, thus reducing ambiguity in classification learning. Further, the GKSA module is used to efficiently summarize and propagate the cross-video representative action knowledge in a learnable manner to promote holistic action patterns understanding, which in turn allows the generation of high-confidence pseudo-labels for self-learning, thus alleviating ambiguity in temporal localization. Extensive experiments on THUMOS14, ActivityNet1.3, and FineAction demonstrate that our method outperforms the state-of-the-art methods, and can be easily plugged into other WSTAL methods.
翻訳日:2023-12-13 02:03:29 公開日:2023-12-09
# 映像に基づく行動認識に対する時間分布バックドア攻撃

Temporal-Distributed Backdoor Attack Against Video Based Action Recognition ( http://arxiv.org/abs/2308.11070v3 )

ライセンス: Link先を確認
Xi Li, Songhe Wang, Ruiquan Huang, Mahanth Gowda, George Kesidis(参考訳) ディープニューラルネットワーク(DNN)は、ビデオアクション認識を含む様々なアプリケーションで大きな成功を収めているが、バックドア攻撃(トロイの木馬)には弱いままである。 backdoor-compromizedモデルでは,テストインスタンス(非ターゲットクラス)に特定のトリガを組み込んだ場合,アタックフリーインスタンスの精度を維持しながら,攻撃者が選択したターゲットクラスを誤って分類する。 画像データに対するバックドア攻撃については広範な研究があるが、バックドア攻撃による映像ベースシステムの受容性は未解明のままである。 現在の研究は、画像データに対して提案されたアプローチの直接的な拡張である。例えば、トリガーはフレーム内に独立に埋め込まれており、既存の防御によって検出される傾向がある。 本稿では,ビデオデータに対する簡易かつ効果的なバックドア攻撃を提案する。 提案する攻撃は,トランスフォーメーション領域に摂動を付加し,映像フレーム全体にわたって知覚不能で時間分散したトリガーを植え込み,既存の防御戦略に弾力性があることが示されている。 提案手法の有効性は,ビデオ認識ベンチマーク ucf101 と hmdb51 と手話認識ベンチマーク greek sign language (gsl) データセットを用いて,様々な既知のモデルを用いた広範囲な実験により実証された。 提案する攻撃に対するいくつかの要因の影響を考察し、広範囲な研究を通じて「集団的損傷」と呼ばれる興味深い効果を見いだした。

Deep neural networks (DNNs) have achieved tremendous success in various applications including video action recognition, yet remain vulnerable to backdoor attacks (Trojans). The backdoor-compromised model will mis-classify to the target class chosen by the attacker when a test instance (from a non-target class) is embedded with a specific trigger, while maintaining high accuracy on attack-free instances. Although there are extensive studies on backdoor attacks against image data, the susceptibility of video-based systems under backdoor attacks remains largely unexplored. Current studies are direct extensions of approaches proposed for image data, e.g., the triggers are independently embedded within the frames, which tend to be detectable by existing defenses. In this paper, we introduce a simple yet effective backdoor attack against video data. Our proposed attack, adding perturbations in a transformed domain, plants an imperceptible, temporally distributed trigger across the video frames, and is shown to be resilient to existing defensive strategies. The effectiveness of the proposed attack is demonstrated by extensive experiments with various well-known models on two video recognition benchmarks, UCF101 and HMDB51, and a sign language recognition benchmark, Greek Sign Language (GSL) dataset. We delve into the impact of several influential factors on our proposed attack and identify an intriguing effect termed "collateral damage" through extensive studies.
翻訳日:2023-12-13 02:02:53 公開日:2023-12-09
# コードLLMのための高リソースから低リソースプログラミング言語への知識伝達

Knowledge Transfer from High-Resource to Low-Resource Programming Languages for Code LLMs ( http://arxiv.org/abs/2308.09895v3 )

ライセンス: Link先を確認
Federico Cassano, John Gouwar, Francesca Lucchetti, Claire Schlesinger, Carolyn Jane Anderson, Michael Greenberg, Abhinav Jangda, Arjun Guha(参考訳) ここ数年、Large Language Models of Code (Code LLM) はプログラミングの実践に大きな影響を与え始めています。 プログラミング言語やソフトウェア工学の研究のためのビルディングブロックとして、コードLLMが登場している。 しかし、Code LLMはトレーニングデータ(例えば、Java、Python、JavaScript)でよく表現されているが、トレーニングデータに制限のある低リソースの言語では苦労しているプログラミング言語に対して印象的な結果をもたらす。 低リソース言語にはOCaml、Racket、その他いくつかのものがある。 本稿では,半合成データを用いた低リソース言語におけるコードLLMの性能向上に有効な手法を提案する。 我々のアプローチであるMultiPL-Tは、ハイソース言語からのトレーニングデータを、以下の方法で低リソース言語のトレーニングデータに変換する。 1) Code LLMを使用して、高ソース言語からのコメント付きコードのテストを合成し、テストカバレッジの低い欠陥テストとコードをフィルタリングします。 2) コードLLMを使用してPythonコードをターゲットとする低リソース言語に翻訳し,テストを使用して翻訳を検証する。 このアプローチを適用して,Julia,Lua,OCaml,R,Racketの各トレーニング項目を数万個生成する。 さらに、オープンモデル(starcoderbase)とオープントレーニングデータ(スタック)を使用して、ベンチマークを廃止し、ライセンスに違反することなくモデルをトレーニングし、さもなければできない実験を実行します。 MultiPL-T 生成データを用いて,Julia,Lua,OCaml,R,Racket 用の StarCoderBase と Code Llama の微調整版を提示する。 確立されたベンチマーク(MultiPL-E)では、これらのモデルは他のオープンコードLLMよりも優れている。 MultiPL-Tアプローチは、新しい言語に簡単に適用でき、トレーニングのような代替手段よりもはるかに効率的で効果的である。

Over the past few years, Large Language Models of Code (Code LLMs) have started to have a significant impact on programming practice. Code LLMs are also emerging as building blocks for research in programming languages and software engineering. However, Code LLMs produce impressive results on programming languages that are well represented in their training data (e.g., Java, Python, or JavaScript), but struggle with low-resource languages that have limited training data available. Low resource languages include OCaml, Racket, and several others. This paper presents an effective approach for boosting the performance of Code LLMs on low-resource languages using semi-synthetic data. Our approach, MultiPL-T, translates training data from high-resource languages into training data for low-resource languages in the following way. 1) We use a Code LLM to synthesize tests for commented code from a high-resource language, filtering out faulty tests and code with low test coverage. 2) We use a Code LLM to translate Python code to a target low-resource language, and use tests to validate the translation. We apply this approach to generate tens of thousands of validated training items for Julia, Lua, OCaml, R, and Racket. Furthermore, we use an open model (StarCoderBase) with open training data (The Stack), which allows us to decontaminate benchmarks, train models without violating licenses, and run experiments that could not otherwise be done. With MultiPL-T generated data, we present fine-tuned versions of StarCoderBase and Code Llama for Julia, Lua, OCaml, R, and Racket. On established benchmarks (MultiPL-E), these models outperform other open Code LLMs. The MultiPL-T approach is easy to apply to new languages, and is significantly more efficient and effective than alternatives such as training longer.
翻訳日:2023-12-13 02:02:26 公開日:2023-12-09
# パラメトリック臨界におけるマイクロ波光子検出

Microwave photon detection at parametric criticality ( http://arxiv.org/abs/2308.07084v2 )

ライセンス: Link先を確認
Kirill Petrovnin, Jiaming Wang, Michael Perelshtein, Pertti Hakonen, Gheorghe Sorin Paraoanu(参考訳) 単一光子レベルにおけるマイクロ波の検知は、ナノエレクトロニクスと量子情報科学の実践的な応用により、ずっと求められている技術である。 本稿では,1次量子相転移近傍で磁場可変kerr josephsonパラメトリック増幅器を動作させることにより,簡易かつ強力なマイクロ波光子検出法を示す。 我々は、73%の効率と167 kHzの暗カウントレートを得るが、これは1.3 \times 10^{17}~\mathrm{W}^{-1}$と3.28 zW/$\sqrt{\rm Hz}$の雑音等価パワーに対応する。 我々は、コヒーレントプローブ信号のポアソン統計を抽出し、単光子演算を検証する。

The detection of microwave fields at single-photon power levels is a much sought-after technology, with practical applications in nanoelectronics and quantum information science. Here we demonstrate a simple yet powerful criticality-enhanced method of microwave photon detection by operating a magnetic-field tunable Kerr Josephson parametric amplifier near a first-order quantum phase transition. We obtain a 73% efficiency and a dark-count rate of 167 kHz, corresponding to a responsivity of $1.3 \times 10^{17}~\mathrm{W}^{-1}$ and noise-equivalent power of 3.28 zW/$\sqrt{\rm Hz}$. We verify the single-photon operation by extracting the Poissonian statistics of a coherent probe signal.
翻訳日:2023-12-13 02:00:43 公開日:2023-12-09
# WeisfeilerとLehman Go Paths:パスコンプレックスによるトポロジ的特徴の学習

Weisfeiler and Lehman Go Paths: Learning Topological Features via Path Complexes ( http://arxiv.org/abs/2308.06838v5 )

ライセンス: Link先を確認
Quang Truong and Peter Chin(参考訳) グラフニューラルネットワーク(GNN)は、異なるタスクにまたがる顕著な性能を達成しているが、理論上は1-Weisfeiler-Lehmanテストによって拘束され、グラフ表現性の限界が生じる。 トポロジカル高次GNNに関する以前の研究はその境界を克服したが、これらのモデルはグラフのサブ構造に関する仮定に依存することが多い。 具体的には、トポロジカルGNNは、クリフ、サイクル、リングの頻度を利用してメッセージパッシング手順を強化する。 本研究は,トポロジカルメッセージパッシング過程におけるグラフ内の単純な経路に着目し,制約的帰納的バイアスからモデルを解放することで,新たな視点を示す。 グラフをパス複体に持ち上げることで、我々のモデルは、単純複体および正規セル複体に関するいくつかの理論的結果を継承しながら、トポロジーに関する既存の研究を一般化することができる。 グラフのサブ構造に関する事前の仮定を使わずに、この手法は他のトポロジ分野の先行研究より優れ、様々なベンチマークで最先端の結果が得られる。

Graph Neural Networks (GNNs), despite achieving remarkable performance across different tasks, are theoretically bounded by the 1-Weisfeiler-Lehman test, resulting in limitations in terms of graph expressivity. Even though prior works on topological higher-order GNNs overcome that boundary, these models often depend on assumptions about sub-structures of graphs. Specifically, topological GNNs leverage the prevalence of cliques, cycles, and rings to enhance the message-passing procedure. Our study presents a novel perspective by focusing on simple paths within graphs during the topological message-passing process, thus liberating the model from restrictive inductive biases. We prove that by lifting graphs to path complexes, our model can generalize the existing works on topology while inheriting several theoretical results on simplicial complexes and regular cell complexes. Without making prior assumptions about graph sub-structures, our method outperforms earlier works in other topological domains and achieves state-of-the-art results on various benchmarks.
翻訳日:2023-12-13 02:00:26 公開日:2023-12-09
# 混合効果モデルと階層クラスタリングによる異種農業データセットを用いたベイズネットワークの学習

Learning Bayesian Networks with Heterogeneous Agronomic Data Sets via Mixed-Effect Models and Hierarchical Clustering ( http://arxiv.org/abs/2308.06399v4 )

ライセンス: Link先を確認
Lorenzo Valleggi and Marco Scutari and Federico Mattia Stefanini(参考訳) 特にサハラ以南のアフリカ、アジア、ラテンアメリカで栽培されているトウモロコシは、2021年時点で1億9700万ヘクタールを占めている。 混合効果モデル、ランダム係数モデル、ランダムフォレスト、ディープラーニングアーキテクチャを含む様々な統計的および機械学習モデルが、トウモロコシ収量を予測するために考案された。 これらのモデルは、ジェノタイプ、環境、ジェノタイプ-環境相互作用、およびフィールド管理などの要因を考察する。 しかし、既存のモデルは、これらの要因と農業データに固有の階層構造の間の因果関係の複雑なネットワークを完全に活用できないことが多い。 本研究では,無作為効果をベイズネットワーク(bns)に統合し,有向非巡回グラフによる因果関係と確率的関係をモデル化する手法を提案する。 線形混合影響モデルフレームワークで回転し、階層データ用に調整されたこの新しいアプローチは、BN学習の強化を示す。 実世界の農業試験への応用は、解釈性を改善し、新しい因果関係を明らかにするモデルを生み出す。 提案手法は,トウモロコシ収量予測における誤差率を28%から17%に大幅に低減する。 これらの結果は、階層的農業データのための実用的な意思決定支援ツールの構築においてBNを優先し、因果推論を促進することを主張する。

Maize, a crucial crop globally cultivated across vast regions, especially in sub-Saharan Africa, Asia, and Latin America, occupies 197 million hectares as of 2021. Various statistical and machine learning models, including mixed-effect models, random coefficients models, random forests, and deep learning architectures, have been devised to predict maize yield. These models consider factors such as genotype, environment, genotype-environment interaction, and field management. However, the existing models often fall short of fully exploiting the complex network of causal relationships among these factors and the hierarchical structure inherent in agronomic data. This study introduces an innovative approach integrating random effects into Bayesian networks (BNs), leveraging their capacity to model causal and probabilistic relationships through directed acyclic graphs. Rooted in the linear mixed-effects models framework and tailored for hierarchical data, this novel approach demonstrates enhanced BN learning. Application to a real-world agronomic trial produces a model with improved interpretability, unveiling new causal connections. Notably, the proposed method significantly reduces the error rate in maize yield prediction from 28% to 17%. These results advocate for the preference of BNs in constructing practical decision support tools for hierarchical agronomic data, facilitating causal inference.
翻訳日:2023-12-13 02:00:04 公開日:2023-12-09
# 準粒子と位相量子秩序の最低ランダウ準位における融合機構

Fusion mechanism for quasiparticles and topological quantum order in the lowest Landau level ( http://arxiv.org/abs/2308.03548v2 )

ライセンス: Link先を確認
Arkadiusz Bochniak and Gerardo Ortiz(参考訳) ハルペリン多層系から始め, ボソニックおよびフェルミニックな単層量子ホール状態(あるいは空隙)を任意の充填係数で生成する階層的スキームを開発した。 この方法では、アベリアまたは非アベリア統計と元の真空の性質に依存する量子数に準粒子励起を挿入することができる。 最も重要なことは、A. Bochniak, Z. Nussinov, A. Seidel, G. Ortiz, Communで導入された粒子分数化に関するアイデアを一般化する準電子と磁気エクシノンの融合機構を明らかにすることである。 Phys 5,171 (2022) であった。 さらに、第2の量子化表現において、これらの空孔を特徴づける固有の位相量子秩序を明らかにする。 特に、Abelian Pfaffian と Hafnian の量子流体状態に対する一般化された合成(一般化された読み取り)演算子を構築して方法論を説明する。

Starting from Halperin multilayer systems we develop a hierarchical scheme that generates, bosonic and fermionic, single-layer quantum Hall states (or vacua) of arbitrary filling factor. Our scheme allows for the insertion of quasiparticle excitations with either Abelian or non-Abelian statistics and quantum numbers that depend on the nature of the original vacuum. Most importantly, it reveals a fusion mechanism for quasielectrons and magnetoexcitons that generalizes ideas about particle fractionalization introduced in A. Bochniak, Z. Nussinov, A. Seidel, and G. Ortiz, Commun. Phys. 5, 171 (2022) for the case of Laughlin fluids. In addition, in the second quantization representation, we uncover the inherent topological quantum order characterizing these vacua. In particular, we illustrate the methodology by constructing generalized composite (generalized Read) operators for the non-Abelian Pfaffian and Hafnian quantum fluid states.
翻訳日:2023-12-13 01:59:42 公開日:2023-12-09
# ニューラルネットワーク制御系の前方不変性

Forward Invariance in Neural Network Controlled Systems ( http://arxiv.org/abs/2309.09043v2 )

ライセンス: Link先を確認
Akash Harapanahalli, Saber Jafarpour, Samuel Coogan(参考訳) 本稿では,ニューラルネットワークコントローラを用いた非線形システムにおける前方不変集合の証明と探索を行うための,区間解析と単調システム理論に基づくフレームワークを提案する。 枠組み i)ジャコビアン境界と既存のニューラルネットワーク検証ツールを用いて閉ループシステムに対する局所化一階包含関数を構築する。 (二)単一の軌道に沿った評価が、元のシステムの魅力的な集合に確実に収束するネストされた超矩形族と直接対応する動的埋め込みシステムを構築する。 (iii) 線形変換を利用して、同じ性質を持つネストした平行対の族を構築する。 このフレームワークは、インターバル解析ツールボックス$\texttt{npinterval}$とシンボリック算術ツールボックス$\texttt{sympy}$を使って、Pythonで自動化されています。

We present a framework based on interval analysis and monotone systems theory to certify and search for forward invariant sets in nonlinear systems with neural network controllers. The framework (i) constructs localized first-order inclusion functions for the closed-loop system using Jacobian bounds and existing neural network verification tools; (ii) builds a dynamical embedding system where its evaluation along a single trajectory directly corresponds with a nested family of hyper-rectangles provably converging to an attractive set of the original system; (iii) utilizes linear transformations to build families of nested paralleletopes with the same properties. The framework is automated in Python using our interval analysis toolbox $\texttt{npinterval}$, in conjunction with the symbolic arithmetic toolbox $\texttt{sympy}$, demonstrated on an $8$-dimensional leader-follower system.
翻訳日:2023-12-13 01:50:33 公開日:2023-12-09
# 代数的関係論の部分的防御

A partial defense of algebraic relationalism ( http://arxiv.org/abs/2309.03622v2 )

ライセンス: Link先を確認
Lu Chen(参考訳) 私は代数主義を擁護し、時空多様体に言及せずに、それらの構造的関係において物理的場が理解されるようにし、時空が本質的に存在する時空に等しいという従来の知恵に対する真のリレーショナル主義的見解である。 私は、準安定主義と同等の代数主義の標準版を批判します。 さらに,サブステファンティヴァリズムやその標準的な代数的対応よりも概念的な優位性を持つ関係論をよりよく実装する代数主義の別の例を示す。

I defend algebraicism, according to which physical fields can be understood in terms of their structural relations without reference to a spacetime manifold, as a genuine relationalist view against the conventional wisdom that it is equivalent to substantivalism, according to which spacetime exists fundamentally. I criticize the standard version of algebraicism that is considered equivalent to substantivalism. Furthermore, I present alternative examples of algebraicism that better implement relationalism with their conceptual advantages over substantivalism or its standard algebraic counterpart.
翻訳日:2023-12-13 01:49:38 公開日:2023-12-09
# ディープラーニングモデルにおけるCPUとGPUプロファイリングの比較解析

Comparative Analysis of CPU and GPU Profiling for Deep Learning Models ( http://arxiv.org/abs/2309.02521v3 )

ライセンス: Link先を確認
Dipesh Gyawali(参考訳) 近年,ディープラーニング(DL)と機械学習(ML)アプリケーションが急速に増加している。 インターネット上で大量のデータが生成されており、MLとDLアルゴリズムを使用することで意味のある結果が得られる。 ハードウェアリソースとオープンソースライブラリにより、これらのアルゴリズムの実装が容易になった。 TensorflowとPytorchはMLプロジェクトを実装する主要なフレームワークの1つだ。 これらのフレームワークを使用することで、gpuとcpuの両方で実行される操作をトレースし、リソースの割り当てと消費を分析することができる。 本稿では、Pytorchを用いて深層ニューラルネットワークをトレーニングしながら、CPUとGPUの時間とメモリ割り当てを示す。 本稿では,深層ニューラルネットワークのCPUと比較してGPUの実行時間が低いことを示す。 単純なネットワークでは、CPUよりもGPUが大幅に改善されることはない。

Deep Learning(DL) and Machine Learning(ML) applications are rapidly increasing in recent days. Massive amounts of data are being generated over the internet which can derive meaningful results by the use of ML and DL algorithms. Hardware resources and open-source libraries have made it easy to implement these algorithms. Tensorflow and Pytorch are one of the leading frameworks for implementing ML projects. By using those frameworks, we can trace the operations executed on both GPU and CPU to analyze the resource allocations and consumption. This paper presents the time and memory allocation of CPU and GPU while training deep neural networks using Pytorch. This paper analysis shows that GPU has a lower running time as compared to CPU for deep neural networks. For a simpler network, there are not many significant improvements in GPU over the CPU.
翻訳日:2023-12-13 01:48:46 公開日:2023-12-09
# 分数化スピンのトポロジカル量子同期

Topological quantum synchronization of fractionalized spins ( http://arxiv.org/abs/2309.01960v2 )

ライセンス: Link先を確認
Christopher W. W\"achtler, Joel E. Moore(参考訳) Affleck-Kennedy-Lieb-Tasaki (AKLT)モデルのギャップ対称相は開鎖の端で分数化されたスピンを示す。 本論文では,su(2)対称性の破断と大域的なスピン降下散逸子の適用により,反転対称性が保存されていなくても保護される分数化スピンs\rev{ の同期が達成されることを示す。 追加の局所散逸子は基底状態多様体への収束を保証する。 この同期のどの側面がhaldane-gap位相全体においてロバストであるかを理解するために、外部フィールドの必要性をなくしながら同期を不安定にする二次項を減少させる。 基底状態部分空間内では、グローバル降下散逸器のみを用いて安定性が回復する。 これらの結果は、分数化自由度が、トポロジカルな保護から生じるかなりの堅牢性を持つ拡張系で同期可能であることを示す。

The gapped symmetric phase of the Affleck-Kennedy-Lieb-Tasaki (AKLT) model exhibits fractionalized spins at the ends of an open chain. We show that breaking SU(2) symmetry and applying a global spin-lowering dissipator achieves synchronization of these fractionalized spins\rev{, which remains protected even if the inversion symmetry is not preserved}. Additional local dissipators ensure convergence to the ground state manifold. In order to understand which aspects of this synchronization are robust within the entire Haldane-gap phase, we reduce the biquadratic term which eliminates the need for an external field but destabilizes synchronization. Within the ground state subspace, stability is regained using only the global lowering dissipator. These results demonstrate that fractionalized degrees of freedom can be synchronized in extended systems with a significant degree of robustness arising from topological protection.
翻訳日:2023-12-13 01:47:58 公開日:2023-12-09
# 限定サンプルを用いたニューラル表現における形状距離の推定

Estimating Shape Distances on Neural Representations with Limited Samples ( http://arxiv.org/abs/2310.05742v2 )

ライセンス: Link先を確認
Dean A. Pospisil, Brett W. Larsen, Sarah E. Harvey, Alex H. Williams(参考訳) 高次元ネットワーク表現間の幾何学的類似性の測定は、神経科学とディープラーニングに対する長年の関心のトピックである。 多くの手法が提案されているが、データ制限体制における統計的効率や定量化された推定器の不確かさを厳格に分析する研究はごくわずかである。 ここでは、williams et al. (2021) によって提唱された表現的異質性の尺度$\unicode{x2014}$a の形状距離の標準推定器の最悪のケース収束の上限と下限を導出する。 これらの境界は、高次元の特徴空間における問題の挑戦的性質を明らかにする。 これらの課題を克服するために、可変バイアス分散トレードオフを持つ新しいモーメント推定器を導入する。 この推定器は、シミュレーションやニューラルデータ、特に高次元の設定において、標準推定器よりもかなり低いバイアスが得られる。 そこで我々は,高次元形状解析のための厳密な統計理論の基礎を定め,実用的な科学的設定に適した新しい推定法を提案する。

Measuring geometric similarity between high-dimensional network representations is a topic of longstanding interest to neuroscience and deep learning. Although many methods have been proposed, only a few works have rigorously analyzed their statistical efficiency or quantified estimator uncertainty in data-limited regimes. Here, we derive upper and lower bounds on the worst-case convergence of standard estimators of shape distance$\unicode{x2014}$a measure of representational dissimilarity proposed by Williams et al. (2021).These bounds reveal the challenging nature of the problem in high-dimensional feature spaces. To overcome these challenges, we introduce a new method-of-moments estimator with a tunable bias-variance tradeoff. We show that this estimator achieves substantially lower bias than standard estimators in simulation and on neural data, particularly in high-dimensional settings. Thus, we lay the foundation for a rigorous statistical theory for high-dimensional shape analysis, and we contribute a new estimation method that is well-suited to practical scientific settings.
翻訳日:2023-12-13 01:39:37 公開日:2023-12-09
# 平面ソフト成長ロボットマニピュレータの設計最適化

Design Optimizer for Planar Soft-Growing Robot Manipulators ( http://arxiv.org/abs/2310.03374v2 )

ライセンス: Link先を確認
Fabio Stroppa(参考訳) ソフト成長ロボットは、植物にインスパイアされた環境をナビゲートする革新的なデバイスである。 彼らの環境に適応する具体化された知性と、アクチュエーションと製造における最新の革新のおかげで、特定の操作タスクにそれらを利用することができる。 これらの機器の応用には、繊細で危険な環境の探索、アイテムの操作、あるいは国内環境における支援が含まれる。 この研究は、ソフト成長ロボットの設計最適化のための新しいアプローチを提示している。これは、特定のタスクを解決するために構築されるロボットの最適な寸法であるエンジニア(あるいはロボットデザイナーの愛好家)を、製造前に使用する。 設計過程を多目的最適化問題としてモデル化し,ソフトマニピュレータのキネマティックチェーンを最適化して目標に到達し,材料や資源の過剰使用を回避する。 この手法は人口ベースの最適化アルゴリズム、特に進化アルゴリズムの利点を利用して、効率的な数学的定式化、新しいランク分割アルゴリズム、およびオプティマイザ演算子に統合された障害物回避性により、問題を多目的から単一目的に変換する。 提案手法を最適性にアクセスするために, 提案手法を検証したところ, 解法の性能は著しく向上した。 最後に,提案手法は文献上に存在するものよりも精度,資源消費,実行時間の点で優れていることを示した。

Soft-growing robots are innovative devices that feature plant-inspired growth to navigate environments. Thanks to their embodied intelligence of adapting to their surroundings and the latest innovation in actuation and manufacturing, it is possible to employ them for specific manipulation tasks. The applications of these devices include exploration of delicate/dangerous environments, manipulation of items, or assistance in domestic environments. This work presents a novel approach for design optimization of soft-growing robots, which will be used prior to manufacturing to suggest engineers -- or robot designer enthusiasts -- the optimal dimension of the robot to be built for solving a specific task. I modeled the design process as a multi-objective optimization problem, in which I optimize the kinematic chain of a soft manipulator to reach targets and avoid unnecessary overuse of material and resources. The method exploits the advantages of population-based optimization algorithms, in particular evolutionary algorithms, to transform the problem from multi-objective into a single-objective thanks to an efficient mathematical formulation, the novel rank-partitioning algorithm, and obstacle avoidance integrated within the optimizer operators. I tested the proposed method on different tasks to access its optimality, which showed significant performance in solving the problem. Finally, comparative experiments showed that the proposed method works better than the one existing in the literature in terms of precision, resource consumption, and run time.
翻訳日:2023-12-13 01:38:25 公開日:2023-12-09
# パーコレーションによるpt対称性の破断

Percolation-induced PT symmetry breaking ( http://arxiv.org/abs/2309.15008v2 )

ライセンス: Link先を確認
Mengjie Yang and Ching Hua Lee(参考訳) 臨界相転移と密接に関連したパーコレーションにより,pt対称性を破ることで非エルミート系の漸近ダイナミクスを決定できる新しい方法を提案する。 中心となるのは、新たに設計されたトポロジカル誘導利得のメカニズムであり、トポロジカルシステムにおけるカイラルエッジウェーブパケットは、トポロジカルステアリングの仕方に基づいて、非エルミート利得または損失を経験する。 十分に広いトポロジカルな島々にとって、これは層間トンネルからの正のフィードバックによって不可逆的な成長をもたらす。 このように、小さなトポロジカルな島を大きな島にマージするパーコレーション遷移は、実から複雑な遷移を通してエッジスペクトルを駆動する。 以上の知見は,キラルトポロジーのトリプル・インタープレイ,有向ゲイン,層間トンネルによる動的帰結を示唆し,フィードバックシステムの制御においてトポロジーを利用する新たな経路を提案する。

We propose a new avenue in which percolation, which has been much associated with critical phase transitions, can also dictate the asymptotic dynamics of non-Hermitian systems by breaking PT symmetry. Central to it is our newly-designed mechanism of topologically guided gain, where chiral edge wavepackets in a topological system experience non-Hermitian gain or loss based on how they are topologically steered. For sufficiently wide topological islands, this leads to irreversible growth due to positive feedback from interlayer tunneling. As such, a percolation transition that merges small topological islands into larger ones also drives the edge spectrum across a real to complex transition. Our discovery showcases intriguing dynamical consequences from the triple interplay of chiral topology, directed gain and interlayer tunneling, and suggests new routes for the topology to be harnessed in the control of feedback systems.
翻訳日:2023-12-13 01:36:40 公開日:2023-12-09
# イメージベース仮想トライオン:調査

Image-Based Virtual Try-On: A Survey ( http://arxiv.org/abs/2311.04811v2 )

ライセンス: Link先を確認
Dan Song, Xuanpu Zhang, Juan Zhou, Weizhi Nie, Ruofeng Tong, Mohan Kankanhalli and An-An Liu(参考訳) 画像ベースの仮想試着は、自然に着飾った人物画像を衣服画像で合成することを目的としており、これはオンラインショッピングに革命をもたらし、画像生成に関連トピックを刺激し、研究の意義と商業的可能性の両方を示す。 しかし、現在の研究進展と商用アプリケーションの間には大きなギャップがあり、開発を加速するためにこの分野の包括的な概要が欠落している。 本研究では,パイプラインアーキテクチャ,人的表現,トライオン表示,衣服の反り,トライオンステージといったキーモジュールの側面において,最先端の技術と方法論を包括的に分析する。 CLIPを用いた新しいセマンティックな基準を提案し、同じデータセット上で一様に実装された評価指標を用いて代表的手法を評価する。 現状のオープンソース手法の定量的,定性的な評価に加えて,最近の大規模画像生成モデル(PBE)を微調整し,画像ベース仮想試行課題における大規模モデルの可能性を示す。 最後に、未解決の課題が強調され、今後の研究の方向性が重要なトレンドを特定し、さらなる探索を促すだろう。 均一に実装された評価メトリクス、データセット、収集されたメソッドはhttps://github.com/little-misfit/Survey-Of-Virtual-Try-Onで公開される。

Image-based virtual try-on aims to synthesize a naturally dressed person image with a clothing image, which revolutionizes online shopping and inspires related topics within image generation, showing both research significance and commercial potential. However, there is a big gap between current research progress and commercial applications and an absence of comprehensive overview of this field to accelerate the development. In this survey, we provide a comprehensive analysis of the state-of-the-art techniques and methodologies in aspects of pipeline architecture, person representation and key modules such as try-on indication, clothing warping and try-on stage. We propose a new semantic criteria with CLIP, and evaluate representative methods with uniformly implemented evaluation metrics on the same dataset. In addition to quantitative and qualitative evaluation of current open-source methods, we also utilize ControlNet to fine-tune a recent large image generation model (PBE) to show future potential of large-scale models on image-based virtual try-on task. Finally, unresolved issues are highlighted and future research directions are prospected to identify key trends and inspire further exploration. The uniformly implemented evaluation metrics, dataset and collected methods will be made public available at https://github.com/little-misfit/Survey-Of-Virtual-Try-On.
翻訳日:2023-12-13 01:27:48 公開日:2023-12-09
# 視覚豊かな文書エンティティ検索のためのタスクパーソナライズされたマルチモーダルFew-shot学習について

On Task-personalized Multimodal Few-shot Learning for Visually-rich Document Entity Retrieval ( http://arxiv.org/abs/2311.00693v2 )

ライセンス: Link先を確認
Jiayi Chen, Hanjun Dai, Bo Dai, Aidong Zhang, Wei Wei(参考訳) 請求書やレシートなどの文書画像からキー情報(例えば日付、住所)を抽出する視覚リッチ文書エンティティ検索(vder)は、産業nlpアプリケーションにおいて重要なトピックとなっている。 ユニークなエンティティタイプを持つ新しいドキュメントタイプが一定のペースで出現することは、ユニークな課題を示している。 この課題に対処するには、モデルが数秒でエンティティを学習する能力を持つ必要がある。 しかし、Few-shot VDERの以前の研究は、主に文書レベルでの問題を、定義済みのグローバルエンティティ空間で解決しており、これはエンティティレベルの少数ショットシナリオを考慮していない:ターゲットエンティティタイプは、各タスクによって局所的にパーソナライズされ、エンティティの発生は文書間で大きく異なる。 本稿では、この未探索シナリオに対処するために、エンティティレベルの新規なVDERタスクについて検討する。 課題は、各タスクのラベル空間のユニークさと、配布外コンテンツ(OOD)の複雑さの増加にある。 本稿では,タスク内分布とタスク外分布を区別する効果的なタスクパーソナライズを実現することを中心に,タスク対応型メタ学習フレームワークを提案する。 具体的には、階層型デコーダ(HC)を採用し、コントラスト学習(ContrastProtoNet)を用いてこの目標を達成する。 さらに,新たなデータセットであるFewVEXを導入し,エンティティレベルの小ショットVDERの分野における今後の研究を促進する。 実験の結果,一般的なメタラーニングベースラインのロバスト性が大幅に向上した。

Visually-rich document entity retrieval (VDER), which extracts key information (e.g. date, address) from document images like invoices and receipts, has become an important topic in industrial NLP applications. The emergence of new document types at a constant pace, each with its unique entity types, presents a unique challenge: many documents contain unseen entity types that occur only a couple of times. Addressing this challenge requires models to have the ability of learning entities in a few-shot manner. However, prior works for Few-shot VDER mainly address the problem at the document level with a predefined global entity space, which doesn't account for the entity-level few-shot scenario: target entity types are locally personalized by each task and entity occurrences vary significantly among documents. To address this unexplored scenario, this paper studies a novel entity-level few-shot VDER task. The challenges lie in the uniqueness of the label space for each task and the increased complexity of out-of-distribution (OOD) contents. To tackle this novel task, we present a task-aware meta-learning based framework, with a central focus on achieving effective task personalization that distinguishes between in-task and out-of-task distribution. Specifically, we adopt a hierarchical decoder (HC) and employ contrastive learning (ContrastProtoNet) to achieve this goal. Furthermore, we introduce a new dataset, FewVEX, to boost future research in the field of entity-level few-shot VDER. Experimental results demonstrate our approaches significantly improve the robustness of popular meta-learning baselines.
翻訳日:2023-12-13 01:27:26 公開日:2023-12-09
# 衝突自由運動計画のための絶縁体による伝熱拡散

Denoising Heat-inspired Diffusion with Insulators for Collision Free Motion Planning ( http://arxiv.org/abs/2310.12609v3 )

ライセンス: Link先を確認
Junwoo Chang, Hyunwoo Ryu, Jiwoo Kim, Soochul Yoo, Jongeun Choi, Joohwan Seo, Nikhil Prakash, Roberto Horowitz(参考訳) 拡散モデルは、柔軟性と多モード性のためにロボット工学の強力なツールとして台頭している。 これらの手法のいくつかは複雑な問題に効果的に対処するが、しばしば推論時の障害物検出に大きく依存し、追加の機器を必要とする。 これらの課題に対処し,推論時間中に,単一の視覚入力から,到達可能な目標と障害を回避する計画動作のみを同時に生成する手法を提案する。 我々のアプローチの中心は、衝突回避拡散カーネルをトレーニングに利用することである。 ビヘイビアクローニングモデルや古典拡散モデルに対する評価を通じて,その頑健性が証明された。 マルチモーダル環境では特に効果的で、目標に向かって移動し、障害物によってブロックされた到達不能なものを避けながら、衝突回避を確保する。

Diffusion models have risen as a powerful tool in robotics due to their flexibility and multi-modality. While some of these methods effectively address complex problems, they often depend heavily on inference-time obstacle detection and require additional equipment. Addressing these challenges, we present a method that, during inference time, simultaneously generates only reachable goals and plans motions that avoid obstacles, all from a single visual input. Central to our approach is the novel use of a collision-avoiding diffusion kernel for training. Through evaluations against behavior-cloning and classical diffusion models, our framework has proven its robustness. It is particularly effective in multi-modal environments, navigating toward goals and avoiding unreachable ones blocked by obstacles, while ensuring collision avoidance.
翻訳日:2023-12-13 01:25:51 公開日:2023-12-09
# クエリ集約を用いたインストラクティブ対話要約

Instructive Dialogue Summarization with Query Aggregations ( http://arxiv.org/abs/2310.10981v2 )

ライセンス: Link先を確認
Bin Wang, Zhengyuan Liu, Nancy F. Chen(参考訳) 従来の対話要約手法は要約を直接生成し、ユーザの特定の興味を考慮しない。 これは、ユーザが特定のトピックや側面にもっと集中している場合の課題となる。 命令精細言語モデルの進歩に伴い、対話モデルの性能セットを拡張するために、インストラクションチューニングを対話に導入する。 本稿では,対話要約データの不足を克服するために,高品質な問合せベース要約トリプルを合成する3段階アプローチを提案する。 このプロセスには、要約型クエリ生成、クエリフィルタリング、クエリベースのサマリ生成が含まれる。 Instructive Dialogue Summarization(Instructive Dialogue Summarization)と呼ばれる統合モデルを,多目的のインストラクティブトリプルを用いた3つの要約データセット上で訓練することにより,対話要約モデルの能力を拡張する。 本手法は,対話要約と対話読解を含む4つのデータセットを用いて評価する。 実験結果から,本手法は最先端モデルや大型モデルよりも優れていることがわかった。 また,本モデルでは,人間の主観的評価によって高い一般化性と忠実性を示す。

Conventional dialogue summarization methods directly generate summaries and do not consider user's specific interests. This poses challenges in cases where the users are more focused on particular topics or aspects. With the advancement of instruction-finetuned language models, we introduce instruction-tuning to dialogues to expand the capability set of dialogue summarization models. To overcome the scarcity of instructive dialogue summarization data, we propose a three-step approach to synthesize high-quality query-based summarization triples. This process involves summary-anchored query generation, query filtering, and query-based summary generation. By training a unified model called InstructDS (Instructive Dialogue Summarization) on three summarization datasets with multi-purpose instructive triples, we expand the capability of dialogue summarization models. We evaluate our method on four datasets, including dialogue summarization and dialogue reading comprehension. Experimental results show that our approach outperforms the state-of-the-art models and even models with larger sizes. Additionally, our model exhibits higher generalizability and faithfulness, as confirmed by human subjective evaluations.
翻訳日:2023-12-13 01:25:38 公開日:2023-12-09
# 大規模意思決定のための大規模言語モデルベースエージェントの制御:アクタ・クリティカルアプローチ

Controlling Large Language Model-based Agents for Large-Scale Decision-Making: An Actor-Critic Approach ( http://arxiv.org/abs/2311.13884v2 )

ライセンス: Link先を確認
Bin Zhang, Hangyu Mao, Jingqing Ruan, Ying Wen, Yang Li, Shao Zhang, Zhiwei Xu, Dapeng Li, Ziyue Li, Rui Zhao, Lijuan Li, Guoliang Fan(参考訳) 大規模言語モデル(LLM)の大幅な進歩は、マルチエージェントシステムにおける計画と意思決定に対処する新たな機会をもたらした。 しかし, エージェントの数が増加するにつれて, LLMの幻覚化やマルチエージェントシステム(MAS)のコーディネーションの問題がますます顕著になっている。 さらに、多数のエージェントの相互作用を促進するためにLLMを使用する場合、トークンの効率的な利用が重要な考慮事項となる。 本稿では,大規模マルチエージェント環境におけるLCMのコーディネーションと意思決定能力の向上を目的とした新しいフレームワークを提案する。 提案手法は,マルチエージェント強化学習におけるアクタ批判的枠組みからインスピレーションを得て,LLMやMASが提示する課題に効果的に対処する,モジュール的でトークン効率のよいソリューションを開発した。 システム資源割当とロボットグリッド輸送に関する実験で実施した評価を通じて,提案手法が有するかなりの利点を実証する。

The significant advancements in large language models (LLMs) have presented novel opportunities for tackling planning and decision-making within multi-agent systems. However, as the number of agents increases, the issues of hallucination in LLMs and coordination in multi-agent systems (MAS) have become increasingly pronounced. Additionally, the efficient utilization of tokens becomes a critical consideration when employing LLMs to facilitate the interactions of large numbers of agents. In this paper, we present a novel framework aimed at enhancing coordination and decision-making capabilities of LLMs within large-scale multi-agent environments. Our approach draws inspiration from the actor-critic framework employed in multi-agent reinforcement learning, and we develop a modular and token-efficient solution that effectively addresses challenges presented by LLMs and MAS. Through evaluations conducted in experiments involving system resource allocation and robot grid transportation, we demonstrate the considerable advantages afforded by our proposed approach.
翻訳日:2023-12-13 01:15:30 公開日:2023-12-09
# データストリームにおけるコンセプトドリフト局所性の包括的解析

A comprehensive analysis of concept drift locality in data streams ( http://arxiv.org/abs/2311.06396v2 )

ライセンス: Link先を確認
Gabriel J. Aguiar and Alberto Cano(参考訳) 漂流するデータストリームへの適応は、オンライン学習の大きな課題である。 進化するデータプロパティへの効果的なモデル適応のために、概念ドリフトを検出する必要がある。 コンセプトドリフトは完全にまたは部分的にデータ分布に影響を与える可能性があるため、ドリフト検出器がコンセプトドリフトを正確に識別することは困難である。 文献における多くのコンセプトドリフト検出器にもかかわらず、ドリフトの局所性を考慮した包括的な評価のための標準化された手順とベンチマークは欠落している。 本稿では,概念ドリフトの局所性とスケールに基づく新しい分類法を提案する。 体系的なアプローチでは,2,760個のベンチマーク問題が発生し,提案する分類の難易度レベルを反映している。 我々は,様々な困難にまたがる9種類のドリフト検出器の比較評価を行い,今後の研究における強みと弱みについて考察した。 ドリフト局所性が分類器の性能にどのように影響するかを検証し,回復時間を最小化するためのドリフトカテゴリの戦略を提案する。 最後に,将来のドリフト研究の教訓と推奨について述べる。 ベンチマークデータストリームと実験はhttps://github.com/gabrieljaguiar/locality-concept-driftで公開しています。

Adapting to drifting data streams is a significant challenge in online learning. Concept drift must be detected for effective model adaptation to evolving data properties. Concept drift can impact the data distribution entirely or partially, which makes it difficult for drift detectors to accurately identify the concept drift. Despite the numerous concept drift detectors in the literature, standardized procedures and benchmarks for comprehensive evaluation considering the locality of the drift are lacking. We present a novel categorization of concept drift based on its locality and scale. A systematic approach leads to a set of 2,760 benchmark problems, reflecting various difficulty levels following our proposed categorization. We conduct a comparative assessment of 9 state-of-the-art drift detectors across diverse difficulties, highlighting their strengths and weaknesses for future research. We examine how drift locality influences the classifier performance and propose strategies for different drift categories to minimize the recovery time. Lastly, we provide lessons learned and recommendations for future concept drift research. Our benchmark data streams and experiments are publicly available at https://github.com/gabrieljaguiar/locality-concept-drift.
翻訳日:2023-12-13 01:12:08 公開日:2023-12-09
# 群衆カウントのためのレグレッサー・セグメンタ相互学習

Regressor-Segmenter Mutual Prompt Learning for Crowd Counting ( http://arxiv.org/abs/2312.01711v2 )

ライセンス: Link先を確認
Mingyue Guo, Li Yuan, Zhaoyi Yan, Binghui Chen, Yaowei Wang, Qixiang Ye(参考訳) 群衆のカウントは、レグレッサーを訓練してインスタンスの位置を予測することで大きな進歩を遂げた。 しかし、密集したシナリオでは、回帰器は制御不能なアノテーションのばらつきに悩まされ、密度マップバイアスや文脈情報の不正確さを引き起こす。 本研究では,前景と背景を区別しながら,アノテーションの差によるバイアスや不正確さを解消し,レグレシタとセグメンタを相互に指導する相互プロンプト学習(mPrompt)を提案する。 具体的には、mPromptはポイントアノテーションを利用してセグメンタをチューニングし、ポイントプロンプト学習の方法で擬似ヘッドマスクを予測する。 予測されたセグメンテーションマスクを空間的制約として使用し、バイアスのある点アノテーションを文脈即興学習として修正する。 mPromptは、素早い学習から相互情報の最大化を定義し、モデル精度を改善しながらアノテーションの分散の影響を緩和する。 実験によれば、mpromptは平均平均エラー(mae)を大幅に削減し、ダウンストリームビジョンタスクの汎用フレームワークとなる可能性を示している。

Crowd counting has achieved significant progress by training regressors to predict instance positions. In heavily crowded scenarios, however, regressors are challenged by uncontrollable annotation variance, which causes density map bias and context information inaccuracy. In this study, we propose mutual prompt learning (mPrompt), which leverages a regressor and a segmenter as guidance for each other, solving bias and inaccuracy caused by annotation variance while distinguishing foreground from background. In specific, mPrompt leverages point annotations to tune the segmenter and predict pseudo head masks in a way of point prompt learning. It then uses the predicted segmentation masks, which serve as spatial constraint, to rectify biased point annotations as context prompt learning. mPrompt defines a way of mutual information maximization from prompt learning, mitigating the impact of annotation variance while improving model accuracy. Experiments show that mPrompt significantly reduces the Mean Average Error (MAE), demonstrating the potential to be general framework for down-stream vision tasks.
翻訳日:2023-12-13 01:05:38 公開日:2023-12-09
# 良い質問はゼロショット画像推論に役立つ

Good Questions Help Zero-Shot Image Reasoning ( http://arxiv.org/abs/2312.01598v2 )

ライセンス: Link先を確認
Kaiwen Yang, Tao Shen, Xinmei Tian, Xiubo Geng, Chongyang Tao, Dacheng Tao, Tianyi Zhou(参考訳) コンピュータビジョンモデルを用いた最近の大規模言語モデル(LLM)の調整は、ゼロショット画像推論タスクの道を開いた大型視覚言語モデル(LVLM)につながる。 しかしながら、LVLMは通常、画像内のスパースフォーカス領域のみを参照して、短い高レベルのキャプションで訓練される。 このような‘トンネルビジョン’は、複雑なシーンで他の関連するコンテキストを探索するLVLMを制限する。 この課題に対処するために、ゼロショット推論タスクにおけるLVLMの探索能力を高める新しいプロンプト戦略であるQVix(Q-Driven Visual Exploration)を導入する。 QVixは、入力探索的な質問を生成する前にLLMの強い言語を活用し、LVLMに視覚的コンテンツをより包括的に探索させ、微妙で周辺的な詳細を明らかにする。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善する。 我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,複雑な視覚データとLVLMの探索能力のギャップを埋める上でのQVixの有効性を強調した。

Aligning the recent large language models (LLMs) with computer vision models leads to large vision-language models (LVLMs), which have paved the way for zero-shot image reasoning tasks. However, LVLMs are usually trained on short high-level captions only referring to sparse focus regions in images. Such a ``tunnel vision'' limits LVLMs to exploring other relevant contexts in complex scenes. To address this challenge, we introduce Question-Driven Visual Exploration (QVix), a novel prompting strategy that enhances the exploratory capabilities of LVLMs in zero-shot reasoning tasks. QVix leverages LLMs' strong language prior to generate input-exploratory questions with more details than the original query, guiding LVLMs to explore visual content more comprehensively and uncover subtle or peripheral details. QVix enables a wider exploration of visual scenes, improving the LVLMs' reasoning accuracy and depth in tasks such as visual question answering and visual entailment. Our evaluations on various challenging zero-shot vision-language benchmarks, including ScienceQA and fine-grained visual classification, demonstrate that QVix significantly outperforms existing methods, highlighting its effectiveness in bridging the gap between complex visual data and LVLMs' exploratory abilities.
翻訳日:2023-12-13 01:05:18 公開日:2023-12-09
# 時空間分離マスク事前学習:交通予測に基づくベンチマーク

Spatio-Temporal-Decoupled Masked Pre-training: Benchmarked on Traffic Forecasting ( http://arxiv.org/abs/2312.00516v2 )

ライセンス: Link先を確認
Haotian Gao, Renhe Jiang, Zheng Dong, Jinliang Deng, Yuxin Ma, Xuan Song(参考訳) 多変量トラヒックフロー時系列の正確な予測は、時空間的不均一性と複雑な長距離相関パターンのため、依然として困難である。 そこで,本稿では,仮学習による複雑な時空間依存性の学習とエンコードを行うための,マスク付きオートエンコーダを用いた新しいフレームワークであるstd-maeを提案する。 具体的には,2つの分離マスクオートエンコーダを用いて,自己教師付き事前学習手法を用いて,空間的および時間的軸に沿ったトラヒックデータを再構成する。 これらのマスク再構成機構は、空間と時間の長距離相関を別々に捉える。 学習した隠れ表現は、下流の時空間トラフィック予測器を強化するために使用される。 広範に使用されている4つの交通ベンチマーク (PEMS03, PEMS04, PEMS07, PEMS08) の定量的, 定性的な評価を行い, STD-MAE は長時間の空間的および時間的パターンを捕捉する下流時空間モデルの性能を明示的に向上させる。 コードはhttps://github.com/jimmy-7664/std_maeで入手できる。

Accurate forecasting of multivariate traffic flow time series remains challenging due to substantial spatio-temporal heterogeneity and complex long-range correlative patterns. To address this, we propose Spatio-Temporal-Decoupled Masked Pre-training (STD-MAE), a novel framework that employs masked autoencoders to learn and encode complex spatio-temporal dependencies via pre-training. Specifically, we use two decoupled masked autoencoders to reconstruct the traffic data along spatial and temporal axes using a self-supervised pre-training approach. These mask reconstruction mechanisms capture the long-range correlations in space and time separately. The learned hidden representations are then used to augment the downstream spatio-temporal traffic predictor. A series of quantitative and qualitative evaluations on four widely-used traffic benchmarks (PEMS03, PEMS04, PEMS07, and PEMS08) are conducted to verify the state-of-the-art performance, with STD-MAE explicitly enhancing the downstream spatio-temporal models' ability to capture long-range intricate spatial and temporal patterns. Codes are available at https://github.com/Jimmy-7664/STD_MAE.
翻訳日:2023-12-13 01:03:02 公開日:2023-12-09
# 平モデルにおける非許容暗号

Unclonable Cryptography in the Plain Model ( http://arxiv.org/abs/2311.16663v2 )

ライセンス: Link先を確認
C\'eline Chevalier and Paul Hermouet and Quoc-Huy Vu(参考訳) 量子力学の非閉鎖原理を利用することで、古典的に不可能な新しい暗号プロトコルを実現することができる。 unclonable cryptographyの最も有名な例は、量子コピー保護とunclonable encryptionである。 近年、多くの注目を集めているにもかかわらず、まだ2つの重要な疑問が残っている:プレーンモデルにおけるポイント関数のコピー保護(通常、実現可能性の実証と見なされる)と、プレーンモデルにおける不可解な識別不能なセキュリティを持つ、不可解な暗号化である。 本研究では、Cladangelo, Liu, Liu, Zhandry (Crypto'21) と Culf and Vidick (Quantum'22) の以前の研究を頼りに、サブスペースコセット状態に対する新しいモノガミー・オブ・エンタングルメント特性を確立し、以下の新しい結果を得ることができる。 -我々は、初めて、不可解な識別不能なセキュリティを持つ不可解な暗号化が、プレーンモデルに存在していることを示します。

By leveraging the no-cloning principle of quantum mechanics, unclonable cryptography enables us to achieve novel cryptographic protocols that are otherwise impossible classically. Two most notable examples of unclonable cryptography are quantum copy-protection and unclonable encryption. Despite receiving a lot of attention in recent years, two important open questions still remain: copy-protection for point functions in the plain model, which is usually considered as feasibility demonstration, and unclonable encryption with unclonable indistinguishability security in the plain model. In this work, by relying on previous works of Coladangelo, Liu, Liu, and Zhandry (Crypto'21) and Culf and Vidick (Quantum'22), we establish a new monogamy-of-entanglement property for subspace coset states, which allows us to obtain the following new results: - We show that copy-protection of point functions exists in the plain model, with different challenge distributions (including arguably the most natural ones). - We show, for the first time, that unclonable encryption with unclonable indistinguishability security exists in the plain model.
翻訳日:2023-12-13 01:01:47 公開日:2023-12-09
# ascle: 医学テキスト生成のためのpython自然言語処理ツールキット

Ascle: A Python Natural Language Processing Toolkit for Medical Text Generation ( http://arxiv.org/abs/2311.16588v2 )

ライセンス: Link先を確認
Rui Yang, Qingcheng Zeng, Keen You, Yujie Qiao, Lucas Huang, Chia-Chun Hsieh, Benjamin Rosand, Jeremy Goldwasser, Amisha D Dave, Tiarnan D.L. Keenan, Emily Y Chew, Dragomir Radev, Zhiyong Lu, Hua Xu, Qingyu Chen, Irene Li(参考訳) 本研究では,医療用テキスト生成のための自然言語処理(NLP)ツールキットAscleを紹介する。 Ascleは、最小限のプログラミング専門知識を必要とする、使いやすくオールインワンのソリューションを持つバイオメディカル研究者や医療専門家向けにカスタマイズされている。 ascleは初めて、最新の事前学習された言語モデルのインターフェイスを評価し、提供し、4つの先進的で挑戦的な生成関数(質問応答、テキスト要約、テキスト単純化、機械翻訳)を包含する。 さらに、Ascleは12の重要なNLP機能と、臨床データベースのクエリと検索機能を統合している。 ツールキット、そのモデル、および関連するデータはhttps://github.com/Yale-LILY/MedGenから公開されている。

This study introduces Ascle, a pioneering natural language processing (NLP) toolkit designed for medical text generation. Ascle is tailored for biomedical researchers and healthcare professionals with an easy-to-use, all-in-one solution that requires minimal programming expertise. For the first time, Ascle evaluates and provides interfaces for the latest pre-trained language models, encompassing four advanced and challenging generative functions: question-answering, text summarization, text simplification, and machine translation. In addition, Ascle integrates 12 essential NLP functions, along with query and search capabilities for clinical databases. The toolkit, its models, and associated data are publicly available via https://github.com/Yale-LILY/MedGen.
翻訳日:2023-12-13 01:01:24 公開日:2023-12-09
# zerops: ゼロショット3d部分セグメンテーションのための高品質クロスモーダル知識転送

ZeroPS: High-quality Cross-modal Knowledge Transfer for Zero-Shot 3D Part Segmentation ( http://arxiv.org/abs/2311.14262v2 )

ライセンス: Link先を確認
Yuheng Xue, Nenglun Chen, Jun Liu, Wenyun Sun(参考訳) 近年、多くの2次元事前訓練された基礎モデルが印象的なゼロショット予測能力を示している。 本研究ではZeroPSと呼ばれるゼロショット3次元部分分割のための新しいパイプラインを設計する。 2D事前訓練された基礎モデルから3Dポイントクラウドに知識を伝達する。 提案手法の主な考え方は,多視点対応と基礎モデルと構築ブリッジの迅速な機構の自然な関係を探ることである。 私たちのパイプラインは2つのコンポーネントで構成されています。 1) 単一視点から空間的グローバルレベル3Dグループまで2Dグループを拡張する自己拡張成分 2)各2d予測バウンダリングボックスを最良マッチング3d部に投票するための2次元チェック機構を導入するマルチモーダルラベリングコンポーネントと、投票行列を洗練するためのクラス非最高投票ペナルティ関数とを備える。 さらに、部分レベル3Dグループをマージするためにマージアルゴリズムが組み込まれている。 PartnetEデータセット上の3つのゼロショットセグメンテーションタスクの広範囲な評価により、既存の手法よりも大幅に改善された(+19.6%、+5.2%、+4.9%)。 提案手法では,トレーニングや微調整,学習可能なパラメータは不要である。 ドメインシフトの影響はほとんどない。 コードはリリースされます。

Recently, many 2D pretrained foundational models have demonstrated impressive zero-shot prediction capabilities. In this work, we design a novel pipeline for zero-shot 3D part segmentation, called ZeroPS. It high-quality transfers knowledge from 2D pretrained foundational models to 3D point clouds. The main idea of our approach is to explore the natural relationship between multi-view correspondences and the prompt mechanism of foundational models and build bridges on it. Our pipeline consists of two components: 1) a self-extension component that extends 2D groups from a single viewpoint to spatial global-level 3D groups; 2) a multi-modal labeling component that introduces a two-dimensional checking mechanism to vote each 2D predicted bounding box to the best matching 3D part, and a Class Non-highest Vote Penalty function to refine the Vote Matrix. Additionally, a merging algorithm is included to merge part-level 3D groups. Extensive evaluation of three zero-shot segmentation tasks on PartnetE datasets, achieving state-of-the-art results with significant improvements (+19.6%, +5.2% and +4.9%, respectively) over existing methods. Our proposed approach does not need any training, fine-tuning or learnable parameters. It is hardly affected by domain shift. The code will be released.
翻訳日:2023-12-13 01:00:37 公開日:2023-12-09
# 騒音下における次元低減ハイパーパラメータの校正

Calibrating dimension reduction hyperparameters in the presence of noise ( http://arxiv.org/abs/2312.02946v2 )

ライセンス: Link先を確認
Justin Lin and Julia Fukuyama(参考訳) 次元削減ツールの目的は、高次元データの低次元表現を構築することである。 これらのツールは、ノイズ低減、可視化、計算コストの削減など、様々な理由で使用されている。 しかし、他のモデリング問題でよく議論されている基本的な問題があるが、次元減少の文献ではほとんど完全に無視されている。 信号とノイズの組み合わせとしてデータを解釈する場合、先行研究は、データ全体、すなわち信号とノイズの両方をキャプチャする能力について、次元の縮小テクニックを判断する。 他のモデリング問題の文脈では、オーバーフィッティングと戦うために特徴選択、クロスバリデーション、正規化といった手法が用いられるが、次元縮小を行う際にはそのような予防措置は取らない。 本稿では,ノイズの存在下での次元減少問題をモデル化し,t-SNE と UMAP を適用した場合,近隣住民の役割の複雑度と多様さを探索する枠組みを提案する。 より具体的には、以前推奨されたパープレキシティの値を示し、隣人の数は小さすぎ、ノイズに過度に適合する傾向がある。 また、ノイズの存在下での難易度や隣人の数を調整するためのワークフローも提示する。

The goal of dimension reduction tools is to construct a low-dimensional representation of high-dimensional data. These tools are employed for a variety of reasons such as noise reduction, visualization, and to lower computational costs. However, there is a fundamental issue that is highly discussed in other modeling problems, but almost entirely ignored in the dimension reduction literature: overfitting. If we interpret data as a combination of signal and noise, prior works judge dimension reduction techniques on their ability to capture the entirety of the data, i.e. both the signal and the noise. In the context of other modeling problems, techniques such as feature-selection, cross-validation, and regularization are employed to combat overfitting, but no such precautions are taken when performing dimension reduction. In this paper, we present a framework that models dimension reduction problems in the presence of noise and use this framework to explore the role perplexity and number of neighbors play in overfitting data when applying t-SNE and UMAP. More specifically, we show previously recommended values for perplexity and number of neighbors are too small and tend to overfit the noise. We also present a workflow others may use to calibrate perplexity or number of neighbors in the presence of noise.
翻訳日:2023-12-13 00:50:49 公開日:2023-12-09
# R3D-SWIN:シングルビュー3D再構成のための移動ウィンドウアテンション

R3D-SWIN:Use Shifted Window Attention for Single-View 3D Reconstruction ( http://arxiv.org/abs/2312.02725v2 )

ライセンス: Link先を確認
Chenhuan Li, Meihua Xiao, zehuan li and Fangping Chen, Shanshan Qiao, Dingli Wang, Mengxi Gao, Siyi Zhang(参考訳) 近年、視覚トランスフォーマーはvoxel 3dリコンストラクションを含む様々なコンピュータビジョンタスクでうまく機能している。 しかし、視覚変換器の窓はマルチスケールではなく、窓の間には接続がなく、ボクセル3D再構成の精度が制限されている。 そこで我々は,移動窓の注目度に基づくボクセル3D再構成ネットワークを提案する。 私たちの知る限りでは、これはvoxel 3dリコンストラクションにシフトウインドウを応用した最初の作品です。 ShapeNetによる実験結果から, 単視点再構成におけるSOTA精度が得られた。

Recently, vision transformers have performed well in various computer vision tasks, including voxel 3D reconstruction. However, the windows of the vision transformer are not multi-scale, and there is no connection between the windows, which limits the accuracy of voxel 3D reconstruction. Therefore, we propose a voxel 3D reconstruction network based on shifted window attention. To the best of our knowledge, this is the first work to apply shifted window attention to voxel 3D reconstruction. Experimental results on ShapeNet verify our method achieves SOTA accuracy in single-view reconstruction.
翻訳日:2023-12-13 00:50:11 公開日:2023-12-09
# 深部因果モデルとその産業応用に関する調査研究

A Survey of Deep Causal Models and Their Industrial Applications ( http://arxiv.org/abs/2209.08860v5 )

ライセンス: Link先を確認
Zongyu Li, Xiaobo Guo and Siwei Qiang(参考訳) 因果性の概念は、人間の認知の領域における最重要位置を仮定する。 過去数十年間、コンピュータ科学、医学、経済学、産業応用に限らず、様々な分野において因果効果の推定分野が著しく進歩してきた。 深層学習手法の進歩が続いていることを踏まえると, 因果効果の推定に反事実データを用いた利用が顕著に急増している。 典型的には、深い因果モデルは共変量の特性を表現空間にマッピングし、様々な客観的関数を設計して反事実データを不偏に推定する。 機械学習における因果モデルに関する既存の調査と異なり、このレビューは主に深層因果モデルの概要に焦点を当てており、その中核となる貢献は以下のとおりである。 1)開発スケジュールと方法分類の両視点から,深い因果モデルの包括的概要を考察した。 2) 産業への因果効果推定の典型的な応用について概説する。 3) 関連するデータセット,ソースコード,実験について,詳細な分類と分析を行う。

The notion of causality assumes a paramount position within the realm of human cognition. Over the past few decades, there has been significant advancement in the domain of causal effect estimation across various disciplines, including but not limited to computer science, medicine, economics, and industrial applications. Given the continued advancements in deep learning methodologies, there has been a notable surge in its utilization for the estimation of causal effects using counterfactual data. Typically, deep causal models map the characteristics of covariates to a representation space and then design various objective functions to estimate counterfactual data unbiasedly. Different from the existing surveys on causal models in machine learning, this review mainly focuses on the overview of the deep causal models, and its core contributions are as follows: 1) we cast insight on a comprehensive overview of deep causal models from both timeline of development and method classification perspectives; 2) we outline some typical applications of causal effect estimation to industry; 3) we also endeavor to present a detailed categorization and analysis on relevant datasets, source codes and experiments.
翻訳日:2023-12-12 23:05:57 公開日:2023-12-09
# 量子マシンにおけるクロストーク処理のための相乗的コンパイルワークフロー

A Synergistic Compilation Workflow for Tackling Crosstalk in Quantum Machines ( http://arxiv.org/abs/2207.05751v3 )

ライセンス: Link先を確認
Fei Hua, Yuwei Jin, Ang Li, Chenxu Liu, Meng Wang, Yanhao Chen, Chi Zhang, Ari Hayes, Samuel Stein, Minghao Guo, Yipeng Huang, Eddy Z. Zhang(参考訳) 短期量子系はノイズが多い傾向がある。 クロストークノイズは、超伝導中規模量子(nisq)デバイスにおける主要なノイズの1つとして認識されている。 Crosstalkは、近辺のqubit(例えば \texttt{CX} など)上の2ビットゲートの同時実行から生じる。 個別に実行するよりも、ゲートのエラー率を著しく上昇させる可能性がある。 Crosstalkはスケジューリングやハードウェアマシンチューニングによって緩和することができる。 しかし、以前の科学的研究では、ハードウェアマッピングが完了した後、コンパイルプロセスの本当に遅い段階でクロストークを管理する。 アルゴリズムロジック、ルーティング、クロストークを同時に最適化する大きな機会を逃すかもしれません。 本稿では,初期コンパイル段階で,これらすべての要因を同時に考慮し,エンベロープを押下する。 本稿では,cqcと呼ばれるクロストーク対応量子プログラムコンパイルフレームワークを提案する。 さらに,アプリケーション固有のクロストーク緩和のための中間表現から回路への変換の機会,例えば変分量子固有解法 (vqe) における \texttt{cx} ラダー構成を同定する。 シミュレーションと実際のIBM-Qデバイスによる評価から、我々のフレームワークは、最先端のゲートスケジューリング手法と比較して、回路深さが60倍の6$\times$で、エラー率を大幅に削減できることがわかった。 特に, VQEでは, IBMQ Guadalupe を用いた H4 分子の先行技術よりも 9.6 % の忠実度向上で 49 % の回路深さ減少を示す。 私たちのCQCフレームワークはGitHubでリリースされます。

Near-term quantum systems tend to be noisy. Crosstalk noise has been recognized as one of several major types of noises in superconducting Noisy Intermediate-Scale Quantum (NISQ) devices. Crosstalk arises from the concurrent execution of two-qubit gates on nearby qubits, such as \texttt{CX}. It might significantly raise the error rate of gates in comparison to running them individually. Crosstalk can be mitigated through scheduling or hardware machine tuning. Prior scientific studies, however, manage crosstalk at a really late phase in the compilation process, usually after hardware mapping is done. It may miss great opportunities of optimizing algorithm logic, routing, and crosstalk at the same time. In this paper, we push the envelope by considering all these factors simultaneously at the very early compilation stage. We propose a crosstalk-aware quantum program compilation framework called CQC that can enhance crosstalk mitigation while achieving satisfactory circuit depth. Moreover, we identify opportunities for translation from intermediate representation to the circuit for application-specific crosstalk mitigation, for instance, the \texttt{CX} ladder construction in variational quantum eigensolvers (VQE). Evaluations through simulation and on real IBM-Q devices show that our framework can significantly reduce the error rate by up to 6$\times$, with only $\sim$60\% circuit depth compared to state-of-the-art gate scheduling approaches. In particular, for VQE, we demonstrate 49\% circuit depth reduction with 9.6\% fidelity improvement over prior art on the H4 molecule using IBMQ Guadalupe. Our CQC framework will be released on GitHub.
翻訳日:2023-12-12 23:05:20 公開日:2023-12-09
# オンライン進化戦略におけるノイズ・リユースによる変動誘発勾配推定

Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution Strategies ( http://arxiv.org/abs/2304.12180v2 )

ライセンス: Link先を確認
Oscar Li, James Harrison, Jascha Sohl-Dickstein, Virginia Smith, Luke Metz(参考訳) 未ロール計算グラフは機械学習全体に普及しているが、損失関数が極端に局所的な感性、不連続性、ブラックボックス特性を示す場合、自動微分(ad)勾配推定法に挑戦する。 このようなシナリオでは、オンライン進化戦略手法はより有能な方法であり、部分的なアンロールと勾配の更新をインターリーブすることによって、バニラ進化戦略(ES)よりも並列化可能である。 本研究では,非バイアスのオンライン進化戦略手法の一般クラスを提案する。 我々は,この種類の勾配推定器の分散を解析的,実証的に特徴付け,ノイズリユース進化戦略 (nres) と呼ぶ最小分散を持つものを同定する。 実験により,nresは,動的システムの学習,学習オプティマイザのメタトレーニング,強化学習など,さまざまなアプリケーションにわたる壁時計時間とアンロールステップ数の観点から,既存のadおよびesメソッドよりも高速に収束することを示す。

Unrolled computation graphs are prevalent throughout machine learning but present challenges to automatic differentiation (AD) gradient estimation methods when their loss functions exhibit extreme local sensitivtiy, discontinuity, or blackbox characteristics. In such scenarios, online evolution strategies methods are a more capable alternative, while being more parallelizable than vanilla evolution strategies (ES) by interleaving partial unrolls and gradient updates. In this work, we propose a general class of unbiased online evolution strategies methods. We analytically and empirically characterize the variance of this class of gradient estimators and identify the one with the least variance, which we term Noise-Reuse Evolution Strategies (NRES). Experimentally, we show NRES results in faster convergence than existing AD and ES methods in terms of wall-clock time and number of unroll steps across a variety of applications, including learning dynamical systems, meta-training learned optimizers, and reinforcement learning.
翻訳日:2023-12-12 22:57:24 公開日:2023-12-09
# 交通渋滞シミュレーションと最適化のためのNeo4jとディープラーニングの活用

Leveraging Neo4j and deep learning for traffic congestion simulation & optimization ( http://arxiv.org/abs/2304.00192v2 )

ライセンス: Link先を確認
Shyam Pratap Singh, Arshad Ali Khan, Riad Souissi and Syed Adnan Yusuf(参考訳) 多くの都市道路網では交通渋滞が大きな課題となっている。 交通渋滞を強調し、データ駆動アプローチを用いてこの問題に対処するために、広範な研究が行われている。 現在、ほとんどの交通渋滞解析は、様々な交通渋滞のシナリオを作成するために使用されるツールやユーティリティの制限のために、限られた洞察を提供するシミュレーションソフトウェアを使用して行われる。 これらすべてが、地域や国によって異なるカスタムビジネス問題の定式化に影響を与えます。 知識グラフのパワーを利用して、トラフィックの混雑問題をNeo4jグラフにモデル化し、負荷分散、最適化アルゴリズムを用いて渋滞のない道路網を同定する。 また,渋滞や事故が発生した場合の交通の後方伝播や,道路の他の区間への全体的な影響も示す。 また,リアルタイムトラヒックデータを用いた逐次的rnn-lstm(long short-term memory)ディープラーニングモデルを訓練し,道路交通渋滞によるシミュレーション結果の精度評価を行った。 その結果,ai mlによる交通予測を補完するグラフに基づく交通シミュレーションが,道路網の混雑レベルの推定に有効であることがわかった。

Traffic congestion has been a major challenge in many urban road networks. Extensive research studies have been conducted to highlight traffic-related congestion and address the issue using data-driven approaches. Currently, most traffic congestion analyses are done using simulation software that offers limited insight due to the limitations in the tools and utilities being used to render various traffic congestion scenarios. All that impacts the formulation of custom business problems which vary from place to place and country to country. By exploiting the power of the knowledge graph, we model a traffic congestion problem into the Neo4j graph and then use the load balancing, optimization algorithm to identify congestion-free road networks. We also show how traffic propagates backward in case of congestion or accident scenarios and its overall impact on other segments of the roads. We also train a sequential RNN-LSTM (Long Short-Term Memory) deep learning model on the real-time traffic data to assess the accuracy of simulation results based on a road-specific congestion. Our results show that graph-based traffic simulation, supplemented by AI ML-based traffic prediction can be more effective in estimating the congestion level in a road network.
翻訳日:2023-12-12 22:56:38 公開日:2023-12-09
# メタ強化学習タスクの手続き生成

Procedural generation of meta-reinforcement learning tasks ( http://arxiv.org/abs/2302.05583v2 )

ライセンス: Link先を確認
Thomas Miconi(参考訳) オープン拡張性は、無限に多様な挑戦的な環境を作り出す能力から恩恵を受ける。 特に興味深い課題の1つは、知的行動の指標であるメタラーニング("learning-to-learn")である。 しかし,文学におけるメタ学習環境は限られている。 本稿では,任意の刺激を伴うメタ強化学習(meta-RL)タスクのパラメータ化空間について述べる。 パラメータ化により、任意の数の新しいメタ学習タスクをランダムに生成できる。 パラメトリゼーションは、バンディット問題、ハーロータスク、T迷路、ドー2ステップタスクなど、よく知られたメタRLタスクを含むのに十分な表現である。 単純な拡張により、全迷路やスポット領域のような2次元位相空間に基づくタスクをキャプチャできる。 本稿では,様々な複雑さのメタRLドメインをランダムに生成し,ランダム生成による潜在的な問題について議論する。

Open-endedness stands to benefit from the ability to generate an infinite variety of diverse, challenging environments. One particularly interesting type of challenge is meta-learning ("learning-to-learn"), a hallmark of intelligent behavior. However, the number of meta-learning environments in the literature is limited. Here we describe a parametrized space for simple meta-reinforcement learning (meta-RL) tasks with arbitrary stimuli. The parametrization allows us to randomly generate an arbitrary number of novel simple meta-learning tasks. The parametrization is expressive enough to include many well-known meta-RL tasks, such as bandit problems, the Harlow task, T-mazes, the Daw two-step task and others. Simple extensions allow it to capture tasks based on two-dimensional topological spaces, such as full mazes or find-the-spot domains. We describe a number of randomly generated meta-RL domains of varying complexity and discuss potential issues arising from random generation.
翻訳日:2023-12-12 22:53:05 公開日:2023-12-09
# バイオメディカル知識グラフ構築のための大規模言語モデル:EMRノートからの情報抽出

Large Language Models for Biomedical Knowledge Graph Construction: Information extraction from EMR notes ( http://arxiv.org/abs/2301.12473v2 )

ライセンス: Link先を確認
Vahan Arsenyan, Spartak Bughdaryan, Fadi Shaya, Kent Small, Davit Shahnazaryan(参考訳) 知識グラフの自動構築(KGs)は医学における重要な研究領域であり、薬物発見と臨床試験設計にまたがる広範囲の応用がある。 これらの応用は、医学的および生物学的実体間の相互作用の正確な識別にかかっている。 本研究では、電子カルテノートを用いてKGを構築する大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。 KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。 医療応用における高品質な性能の重要要件を踏まえ, 各種アーキテクチャの12 LLMを総合的に評価し, その性能と安全性の評価を行う。 マキュラ・網膜研究所が提供するデータセットを手動でアノテートし,精度とリコールの双方を評価することで,アプローチの定量的有効性を評価する。 また、構造化出力を生成する能力や幻覚の傾向など、LCMの質的性能を評価する。 その結果、エンコーダのみとエンコーダのみとは対照的に、デコーダのみのLLMにはさらなる調査が必要であることが示された。 さらに、そのようなLCMを利用するためのガイド付きプロンプト設計を提供する。 提案手法の応用は加齢に伴う黄斑変性に対して実証される。

The automatic construction of knowledge graphs (KGs) is an important research area in medicine, with far-reaching applications spanning drug discovery and clinical trial design. These applications hinge on the accurate identification of interactions among medical and biological entities. In this study, we propose an end-to-end machine learning solution based on large language models (LLMs) that utilize electronic medical record notes to construct KGs. The entities used in the KG construction process are diseases, factors, treatments, as well as manifestations that coexist with the patient while experiencing the disease. Given the critical need for high-quality performance in medical applications, we embark on a comprehensive assessment of 12 LLMs of various architectures, evaluating their performance and safety attributes. To gauge the quantitative efficacy of our approach by assessing both precision and recall, we manually annotate a dataset provided by the Macula and Retina Institute. We also assess the qualitative performance of LLMs, such as the ability to generate structured outputs or the tendency to hallucinate. The results illustrate that in contrast to encoder-only and encoder-decoder, decoder-only LLMs require further investigation. Additionally, we provide guided prompt design to utilize such LLMs. The application of the proposed methodology is demonstrated on age-related macular degeneration.
翻訳日:2023-12-12 22:52:23 公開日:2023-12-09
# climax: 気象と気候の基礎モデル

ClimaX: A foundation model for weather and climate ( http://arxiv.org/abs/2301.10343v4 )

ライセンス: Link先を確認
Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K. Gupta, Aditya Grover(参考訳) 天気と気候のモデリングに対する最先端のアプローチのほとんどは、物理に則った大気の数値モデルに基づいている。 これらのアプローチは、近似が難しい複数の変数間の非線形ダイナミクスと複雑な相互作用をモデル化することを目的としている。 さらに、このような数値モデルの多くは、特に大気現象を微粒な空間分解能と時間分解能でモデル化する場合、計算集約的である。 機械学習に基づく最近のデータ駆動アプローチは、ディープニューラルネットワークを使用してデータ駆動機能マッピングを学習することで、下流の予測や投影タスクを直接解決することを目指している。 しかしながら、これらのネットワークは、特定の時空間的タスクのために、キュレートされた均質な気候データセットを使用して訓練されるため、数値モデルの一般化が欠如している。 さまざまな変数、時空間カバレッジ、物理的接地にまたがる不均質なデータセットを使用してトレーニング可能な、気象と気候科学のための柔軟で汎用的なディープラーニングモデルであるclimaxを開発し、実証する。 ClimaXはTransformerアーキテクチャを拡張し、汎用性を維持しながら利用可能な計算を効果的に利用できる新しいエンコーディングと集約ブロックを提供する。 ClimaXはCMIP6から派生した気候データセットの自己教師型学習目標で事前訓練されている。 事前訓練されたクライマックスは、予訓練中に大気変数や時空間スケールを含む、様々な気候や気象タスクに対処するために微調整することができる。 既存のデータ駆動ベースラインと比較して,ClimaXのこの一般化は,低解像度や計算予算で事前訓練した場合でも,天気予報や気象予報のベンチマークにおいて優れた性能を示すことを示す。 ソースコードはhttps://github.com/microsoft/ClimaXで入手できる。

Most state-of-the-art approaches for weather and climate modeling are based on physics-informed numerical models of the atmosphere. These approaches aim to model the non-linear dynamics and complex interactions between multiple variables, which are challenging to approximate. Additionally, many such numerical models are computationally intensive, especially when modeling the atmospheric phenomenon at a fine-grained spatial and temporal resolution. Recent data-driven approaches based on machine learning instead aim to directly solve a downstream forecasting or projection task by learning a data-driven functional mapping using deep neural networks. However, these networks are trained using curated and homogeneous climate datasets for specific spatiotemporal tasks, and thus lack the generality of numerical models. We develop and demonstrate ClimaX, a flexible and generalizable deep learning model for weather and climate science that can be trained using heterogeneous datasets spanning different variables, spatio-temporal coverage, and physical groundings. ClimaX extends the Transformer architecture with novel encoding and aggregation blocks that allow effective use of available compute while maintaining general utility. ClimaX is pre-trained with a self-supervised learning objective on climate datasets derived from CMIP6. The pre-trained ClimaX can then be fine-tuned to address a breadth of climate and weather tasks, including those that involve atmospheric variables and spatio-temporal scales unseen during pretraining. Compared to existing data-driven baselines, we show that this generality in ClimaX results in superior performance on benchmarks for weather forecasting and climate projections, even when pretrained at lower resolutions and compute budgets. The source code is available at https://github.com/microsoft/ClimaX.
翻訳日:2023-12-12 22:52:01 公開日:2023-12-09
# 形状変換器:無限深さおよび幅限界における注意モデル

The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit ( http://arxiv.org/abs/2306.17759v2 )

ライセンス: Link先を確認
Lorenzo Noci, Chuning Li, Mufan Bill Li, Bobby He, Thomas Hofmann, Chris Maddison, Daniel M. Roy(参考訳) 深層学習理論において、表現の共分散行列は、ネットワークのトレーニング可能性を調べるためのプロキシとして機能する。 変圧器の成功に動機づけられ,無限奥行きと幅の比例限界におけるスキップ接続を持つソフトマックス型注意モデルの共分散行列について検討した。 初期化の際には, 確率微分方程式 (SDE) を用いて, 深さ-幅比で表すことができることを示す。 厳密な確率的限界を達成するために、Transformerの注意機構は、Softmax出力をアイデンティティに集中させ、Softmaxロジットを幅依存温度パラメータでスケーリングすることで変更される。 本研究では,SDEによるネットワークの安定性を検証し,残留接続の助けを借りてドリフトと拡散のスケールをエレガントに制御できることを示す。 安定なsdeの存在は、非常に大きな深さと幅であっても共分散構造が十分に機能していることを示し、深層注意モデルにおける階数縮退の悪名高い問題を防ぐ。 最後に、シミュレーションを通して、SDEが対応する有限サイズモデルの驚くほど良い記述を提供することを示す。 我々は、これらのアーキテクチャ変更のために、名前の字形トランスフォーマーを造る。

In deep learning theory, the covariance matrix of the representations serves as a proxy to examine the network's trainability. Motivated by the success of Transformers, we study the covariance matrix of a modified Softmax-based attention model with skip connections in the proportional limit of infinite-depth-and-width. We show that at initialization the limiting distribution can be described by a stochastic differential equation (SDE) indexed by the depth-to-width ratio. To achieve a well-defined stochastic limit, the Transformer's attention mechanism is modified by centering the Softmax output at identity, and scaling the Softmax logits by a width-dependent temperature parameter. We examine the stability of the network through the corresponding SDE, showing how the scale of both the drift and diffusion can be elegantly controlled with the aid of residual connections. The existence of a stable SDE implies that the covariance structure is well-behaved, even for very large depth and width, thus preventing the notorious issues of rank degeneracy in deep attention models. Finally, we show, through simulations, that the SDE provides a surprisingly good description of the corresponding finite-size model. We coin the name shaped Transformer for these architectural modifications.
翻訳日:2023-12-12 22:46:30 公開日:2023-12-09
# 再現可能な機械学習レンズによる大規模量子分離性

Large-Scale Quantum Separability Through a Reproducible Machine Learning Lens ( http://arxiv.org/abs/2306.09444v2 )

ライセンス: Link先を確認
Balthazar Casal\'e, Giuseppe Di Molfetta, Sandrine Anthoine, Hachem Kadri(参考訳) 量子分離性問題は、二部密度行列が絡み合っているか分離可能であるかを決定することである。 本研究では,大規模シナリオにおけるNP-hard問題の近似解を求めるための機械学習パイプラインを提案する。 最寄りの分離可能密度行列を近似し、分離可能あるいは絡み合う密度行列を体系的にラベル付けする方法を導出し、量子分離可能性を分類問題として扱うことができる効率的なフランクウルフアルゴリズムを提供する。 我々の方法は任意の2量子混合状態に適用できる。 3次元および7次元キューディットの量子状態による数値実験は提案手法の効率を検証し、高い量子エンタングルメント検出精度で数千の密度行列にスケールすることを示した。 これにより、より強力な絡み合い検出技術の開発を支援するために、量子分離可能性のベンチマークを行う。

The quantum separability problem consists in deciding whether a bipartite density matrix is entangled or separable. In this work, we propose a machine learning pipeline for finding approximate solutions for this NP-hard problem in large-scale scenarios. We provide an efficient Frank-Wolfe-based algorithm to approximately seek the nearest separable density matrix and derive a systematic way for labeling density matrices as separable or entangled, allowing us to treat quantum separability as a classification problem. Our method is applicable to any two-qudit mixed states. Numerical experiments with quantum states of 3- and 7-dimensional qudits validate the efficiency of the proposed procedure, and demonstrate that it scales up to thousands of density matrices with a high quantum entanglement detection accuracy. This takes a step towards benchmarking quantum separability to support the development of more powerful entanglement detection techniques.
翻訳日:2023-12-12 22:45:36 公開日:2023-12-09
# 拡散モデルから報酬関数を抽出する

Extracting Reward Functions from Diffusion Models ( http://arxiv.org/abs/2306.01804v2 )

ライセンス: Link先を確認
Felipe Nuti, Tim Franzmeyer, Jo\~ao F. Henriques(参考訳) 拡散モデルは画像生成において顕著な結果をもたらしており、連続的な意思決定タスクでハイパフォーマンスなポリシーを学ぶためにも同様に使われている。 意思決定拡散モデルは、低品質のデータに基づいて訓練し、報酬関数で操り、準最適軌道を生成する。 報酬関数の抽出は,低逆の振る舞いをモデル化した意思決定拡散モデルと高逆の振る舞いをモデル化したモデル,逆強化学習に関連する設定を比較して行う。 まず、2つの拡散モデルの相対報酬関数の概念を定義し、それが存在して一意である条件を示す。 次に、ニューラルネットワークによってパラメータ化される報酬関数の勾配を両拡散モデルの出力の差に合わせることにより、それを抽出するための実用的な学習アルゴリズムを考案する。 本手法はナビゲーション環境において正しい報酬関数を探索し,学習した報酬関数でベースモデルを操ることで,標準ロコモーションベンチマークの性能が著しく向上することを示す。 最後に,2つの大規模画像生成拡散モデルから報酬様関数を学習することにより,逐次決定を超越した一般化を実証する。 抽出された報酬関数は、有害な画像に対して低い報酬をうまく割り当てる。

Diffusion models have achieved remarkable results in image generation, and have similarly been used to learn high-performing policies in sequential decision-making tasks. Decision-making diffusion models can be trained on lower-quality data, and then be steered with a reward function to generate near-optimal trajectories. We consider the problem of extracting a reward function by comparing a decision-making diffusion model that models low-reward behavior and one that models high-reward behavior; a setting related to inverse reinforcement learning. We first define the notion of a relative reward function of two diffusion models and show conditions under which it exists and is unique. We then devise a practical learning algorithm for extracting it by aligning the gradients of a reward function -- parametrized by a neural network -- to the difference in outputs of both diffusion models. Our method finds correct reward functions in navigation environments, and we demonstrate that steering the base model with the learned reward functions results in significantly increased performance in standard locomotion benchmarks. Finally, we demonstrate that our approach generalizes beyond sequential decision-making by learning a reward-like function from two large-scale image generation diffusion models. The extracted reward function successfully assigns lower rewards to harmful images.
翻訳日:2023-12-12 22:43:58 公開日:2023-12-09
# 言語モデルのメモリ効率適応のための全カラムサンプリング

Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model ( http://arxiv.org/abs/2305.15265v2 )

ライセンス: Link先を確認
Zirui Liu, Guanchu Wang, Shaochen Zhong, Zhaozhuo Xu, Daochen Zha, Ruixiang Tang, Zhimeng Jiang, Kaixiong Zhou, Vipin Chaudhary, Shuai Xu, Xia Hu(参考訳) モデルサイズの急激な増加に伴い,大規模な事前学習型言語モデルの微調整は,メモリ使用量の増加によりますます困難になっている。 以前の作業は通常、ネットワーク内のトレーニング可能なパラメータの数を減らすことに重点を置いていた。 モデルパラメータはメモリ使用量に寄与するが、トレーニング中の主なメモリボトルネックは、勾配計算に不可欠な機能マップ(アクティベーションとも呼ばれる)を保存することにある。 特に、ニューラルネットワークは通常、確率勾配降下を用いて訓練される。 確率的最適化では、勾配推定器が合理的な分散で偏りがない限り、モデルはノイズの勾配を扱うことができる。 このモチベーションの後に、分散を低減した行列生成のための WTA-CRS と呼ばれる新しい非偏り推定器群を提案する。 我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。 線形演算を変換器の近似演算に置き換えることで、最大2.7$\times$ピークメモリ削減をほぼ精度低下なく達成でき、最大6.4\times$より大きなバッチサイズを実現することができる。 同じハードウェアで、WTA-CRSはより大きなモデルやより高速なトレーニング速度をバッチサイズで適用することで、ダウンストリームタスクのパフォーマンスを向上させることができる。

With the rapid growth in model size, fine-tuning the large pre-trained language model has become increasingly difficult due to its extensive memory usage. Previous works usually focus on reducing the number of trainable parameters in the network. While the model parameters do contribute to memory usage, the primary memory bottleneck during training arises from storing feature maps, also known as activations, as they are crucial for gradient calculation. Notably, neural networks are usually trained using stochastic gradient descent. We argue that in stochastic optimization, models can handle noisy gradients as long as the gradient estimator is unbiased with reasonable variance. Following this motivation, we propose a new family of unbiased estimators called WTA-CRS, for matrix production with reduced variance, which only requires storing the sub-sampled activations for calculating the gradient. Our work provides both theoretical and experimental evidence that, in the context of tuning transformers, our proposed estimators exhibit lower variance compared to existing ones. By replacing the linear operation with our approximated one in transformers, we can achieve up to 2.7$\times$ peak memory reduction with almost no accuracy drop and enables up to $6.4\times$ larger batch size. Under the same hardware, WTA-CRS enables better down-streaming task performance by applying larger models and/or faster training speed with larger batch sizes.
翻訳日:2023-12-12 22:42:47 公開日:2023-12-09
# BertRLFuzzer: BERTと強化学習ベースのファザ

BertRLFuzzer: A BERT and Reinforcement Learning Based Fuzzer ( http://arxiv.org/abs/2305.12534v4 )

ライセンス: Link先を確認
Piyush Jha, Joseph Scott, Jaya Sriram Ganeshna, Mudit Singh, Vijay Ganesh(参考訳) 本稿では,BERT と Reinforcement Learning (RL) ベースのファジィザである BertRLFuzzer を提案する。 bertrlfuzzerは次のように機能する: シード入力のセットが与えられたとき、fuzzerは文法的および攻撃的変異操作を実行し、候補攻撃ベクターを生成する。 BertRLFuzzerの重要な洞察は、ファザーを誘導するエージェントとしてBERTモデルを用いたRLを使用して、文法順守と攻撃誘発突然変異演算子を効率的に学習することである。 BertRLFuzzerの有効性を確立するために、合計で13個のブラックボックスとホワイトボックスのファザを、9つの犠牲者ウェブサイトと16KLOCのベンチマークで比較した。 攻撃開始までの時間(54%未満)、新たに発見された17の新しい脆弱性、攻撃速度(攻撃ベクトルが4.4%増加した)といった点で、最も近い競合ツールと比較して大きな改善が見られた。

We present a novel tool BertRLFuzzer, a BERT and Reinforcement Learning (RL) based fuzzer aimed at finding security vulnerabilities for Web applications. BertRLFuzzer works as follows: given a set of seed inputs, the fuzzer performs grammar-adhering and attack-provoking mutation operations on them to generate candidate attack vectors. The key insight of BertRLFuzzer is the use of RL with a BERT model as an agent to guide the fuzzer to efficiently learn grammar-adhering and attack-provoking mutation operators. In order to establish the efficacy of BertRLFuzzer we compare it against a total of 13 black box and white box fuzzers over a benchmark of 9 victim websites with over 16K LOC. We observed a significant improvement relative to the nearest competing tool in terms of time to first attack (54% less), new vulnerabilities found (17 new vulnerabilities), and attack rate (4.4% more attack vectors generated).
翻訳日:2023-12-12 22:42:00 公開日:2023-12-09
# 言語モデルは、いつも何を考えているのかを言わない: チェーン・オブ・サート・プロンプティングにおける不誠実な説明

Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting ( http://arxiv.org/abs/2305.04388v2 )

ライセンス: Link先を確認
Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman(参考訳) 大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。 これらの CoT の説明を LLM のタスク解決プロセスとして解釈する傾向があります。 LLMの予測に対するこのレベルの透明性は、大きな安全性の恩恵をもたらすだろう。 しかし、CoTの説明はモデルが予測する真の理由を体系的に誤って表すことができる。 モデル入力にバイアス機能を加えることで、CoTの説明に大きく影響することを示す。例えば、複数選択オプションを数ショットのプロンプトで並べ替えて、その答えを常に"(A)"にする。 モデルが不正確な答えに偏ると、彼らはしばしばその答えを合理化するcot説明を生成します。 これにより、OpenAIの GPT-3.5 と Anthropic の Claude 1.0 でテストすると、BIG-Bench Hard の 13 タスクスイートで最大 36% の精度が低下する。 社会的バイアスのタスクでは、モデル説明は、これらの社会的バイアスの影響を言及せずに、ステレオタイプに則った回答を正当化する。 以上の結果から,cotの説明は誤解を招く可能性があり,安全性を保証せずにllmへの信頼が高まるリスクがあることが示唆された。 より透明で説明可能なシステムを構築するには、目標とする取り組みを通じてCoTの忠実性を改善するか、代替手法に賛成してCoTを捨てるかが必要になる。

Large Language Models (LLMs) can achieve strong performance on many tasks by producing step-by-step reasoning before giving a final output, often referred to as chain-of-thought reasoning (CoT). It is tempting to interpret these CoT explanations as the LLM's process for solving a task. This level of transparency into LLMs' predictions would yield significant safety benefits. However, we find that CoT explanations can systematically misrepresent the true reason for a model's prediction. We demonstrate that CoT explanations can be heavily influenced by adding biasing features to model inputs--e.g., by reordering the multiple-choice options in a few-shot prompt to make the answer always "(A)"--which models systematically fail to mention in their explanations. When we bias models toward incorrect answers, they frequently generate CoT explanations rationalizing those answers. This causes accuracy to drop by as much as 36% on a suite of 13 tasks from BIG-Bench Hard, when testing with GPT-3.5 from OpenAI and Claude 1.0 from Anthropic. On a social-bias task, model explanations justify giving answers in line with stereotypes without mentioning the influence of these social biases. Our findings indicate that CoT explanations can be plausible yet misleading, which risks increasing our trust in LLMs without guaranteeing their safety. Building more transparent and explainable systems will require either improving CoT faithfulness through targeted efforts or abandoning CoT in favor of alternative methods.
翻訳日:2023-12-12 22:40:41 公開日:2023-12-09
# FlexKBQA:Few-Shotナレッジベース質問応答のためのフレキシブルLLMベースのフレームワーク

FlexKBQA: A Flexible LLM-Powered Framework for Few-Shot Knowledge Base Question Answering ( http://arxiv.org/abs/2308.12060v2 )

ライセンス: Link先を確認
Zhenyu Li, Sunqi Fan, Yu Gu, Xiuxing Li, Zhichao Duan, Bowen Dong, Ning Liu, Jianyong Wang(参考訳) 知識ベース質問応答(KBQA)は,知識ベース内の多数のエンティティと,ユーザによる自然言語質問の多様性のため,重要かつ困難な課題である。 残念ながら、ほとんどのKBQAモデルの性能は、高品質な注釈付きデータが不十分な実世界のシナリオでは著しく低下する傾向にある。 手動のアノテーションに関連する負担を軽減するため,数発のKBQAタスクに固有の課題に対処するプログラムトランスレータとしてLarge Language Models (LLM)を活用することでFlexKBQAを導入する。 具体的には、FlexKBQAは自動化アルゴリズムを利用して、知識ベースからSPARQLクエリなどの多様なプログラムをサンプリングし、その後LLM経由で自然言語に変換する。 この合成データセットはKB専用の軽量モデルのトレーニングを容易にする。 さらに、合成データと実際のユーザ質問間の分散シフトの障壁を軽減するため、FlexKBQAはラベルなしユーザ質問を反復的に活用するための実行誘導型自己学習手法を導入している。 さらに,LLMの本質的推論能力を活用し,フレームワーク全体の拡張について検討する。 その結果、FlexKBQAは、データアノテーション、デプロイメント、ドメインに依存しない、かなりの柔軟性を提供します。 GrailQA、WebQSP、KQA Proに関する広範な実験を通して、より難易度の高いゼロショットシナリオでさえも、FlexKBQAは、いくつかのアノテーションで印象的な結果を達成し、以前のベースラインをすべて越え、教師付きモデルのパフォーマンスにアプローチし、完全に教師されたモデルと比較して93%のパフォーマンスを達成しています。 FlexKBQAは、大規模で軽量なモデルのより良い統合を探求するための大きな進歩であると考えています。 コードはオープンソースである。

Knowledge base question answering (KBQA) is a critical yet challenging task due to the vast number of entities within knowledge bases and the diversity of natural language questions posed by users. Unfortunately, the performance of most KBQA models tends to decline significantly in real-world scenarios where high-quality annotated data is insufficient. To mitigate the burden associated with manual annotation, we introduce FlexKBQA by utilizing Large Language Models (LLMs) as program translators for addressing the challenges inherent in the few-shot KBQA task. Specifically, FlexKBQA leverages automated algorithms to sample diverse programs, such as SPARQL queries, from the knowledge base, which are subsequently converted into natural language questions via LLMs. This synthetic dataset facilitates training a specialized lightweight model for the KB. Additionally, to reduce the barriers of distribution shift between synthetic data and real user questions, FlexKBQA introduces an executionguided self-training method to iterative leverage unlabeled user questions. Furthermore, we explore harnessing the inherent reasoning capability of LLMs to enhance the entire framework. Consequently, FlexKBQA delivers substantial flexibility, encompassing data annotation, deployment, and being domain agnostic. Through extensive experiments on GrailQA, WebQSP, and KQA Pro, we observe that under the few-shot even the more challenging zero-shot scenarios, FlexKBQA achieves impressive results with a few annotations, surpassing all previous baselines and even approaching the performance of supervised models, achieving a remarkable 93% performance relative to the fully-supervised models. We posit that FlexKBQA represents a significant advancement towards exploring better integration of large and lightweight models. The code is open-sourced.
翻訳日:2023-12-12 22:33:22 公開日:2023-12-09
# 生徒の知識状態は十分に理解できますか。 知識追跡における回答バイアスの同定と軽減

Do We Fully Understand Students' Knowledge States? Identifying and Mitigating Answer Bias in Knowledge Tracing ( http://arxiv.org/abs/2308.07779v2 )

ライセンス: Link先を確認
Chaoran Cui, Hebo Ma, Chen Zhang, Chunyun Zhang, Yumo Yao, Meng Chen, Yuling Ma(参考訳) 知識追跡(KT)は,概念関連質問との学習相互作用を通じて,学生の進化する知識状態を監視することを目的としており,将来の質問に対する学生の行動予測によって間接的に評価することができる。 本稿では,解答バイアスの共通する現象,すなわち,各問に対して正解と誤解の高度に不均衡な分布が存在することを観察する。 既存のモデルは、KTにおける高い予測性能を達成するためのショートカットとして解答バイアスを記憶する傾向があり、それによって学生の知識状態を完全に理解できない。 この問題に対処するため、我々は因果性の観点からKTタスクにアプローチする。 KTの因果グラフが最初に確立され,回答バイアスの影響が学生の反応に対する質問の直接的な因果効果に関係していることを確認する。 さらに,kt に対する新たな反事実推論(core)フレームワークも提案されており,トレーニング中の因果効果と直接因果効果を分離して捉え,テストにおいて前者から後者を差し引いて回答バイアスを軽減している。 COREフレームワークは様々な既存のKTモデルに適用可能であり、DKT、DKVMN、AKTモデルに基づいて実装する。 3つのベンチマークデータセットに対する大規模な実験は、COREがKTの偏りのある推論に有効であることを示した。 私たちはコードをhttps://github.com/lucky7-code/coreでリリースした。

Knowledge tracing (KT) aims to monitor students' evolving knowledge states through their learning interactions with concept-related questions, and can be indirectly evaluated by predicting how students will perform on future questions. In this paper, we observe that there is a common phenomenon of answer bias, i.e., a highly unbalanced distribution of correct and incorrect answers for each question. Existing models tend to memorize the answer bias as a shortcut for achieving high prediction performance in KT, thereby failing to fully understand students' knowledge states. To address this issue, we approach the KT task from a causality perspective. A causal graph of KT is first established, from which we identify that the impact of answer bias lies in the direct causal effect of questions on students' responses. A novel COunterfactual REasoning (CORE) framework for KT is further proposed, which separately captures the total causal effect and direct causal effect during training, and mitigates answer bias by subtracting the latter from the former in testing. The CORE framework is applicable to various existing KT models, and we implement it based on the prevailing DKT, DKVMN, and AKT models, respectively. Extensive experiments on three benchmark datasets demonstrate the effectiveness of CORE in making the debiased inference for KT. We have released our code at https://github.com/lucky7-code/CORE.
翻訳日:2023-12-12 22:32:28 公開日:2023-12-09
# 帰納的ノード表現学習のためのグラフ凝縮

Graph Condensation for Inductive Node Representation Learning ( http://arxiv.org/abs/2307.15967v2 )

ライセンス: Link先を確認
Xinyi Gao, Tong Chen, Yilong Zang, Wentao Zhang, Quoc Viet Hung Nguyen, Kai Zheng, Hongzhi Yin(参考訳) グラフニューラルネットワーク(GNN)は、大規模グラフを扱う際に重大な計算上の問題に直面する。 この制限に対処するために、グラフ凝縮は、性能を維持しながら効率よくGNNを訓練する小さな合成グラフを構築する、有望な手法として登場した。 しかし、ノード間のトポロジ構造のため、グラフの凝縮は観測されたトレーニングノードとその対応する構造のみを凝縮することに制限され、不明瞭なデータを効果的に処理する能力に欠ける。 したがって、元の大きなグラフは推論段階でも帰納的ノードへのメッセージ転送を実行するために必要であり、結果としてかなりの計算量が必要となる。 そこで本研究では,従来のノードから合成ノードへの一対多のノードマッピングを明示的に学習し,新しいノードを合成グラフにシームレスに統合して帰納的表現学習を行う。 これにより、元の大きなグラフよりもずっと効率的である合成グラフ上での直接情報伝達が可能になる。 具体的には、mcondはトランスダクティブとインダクティブの観点から革新的な損失項を持つ交互最適化スキームを採用し、グラフ凝縮とノードマッピング学習の相互促進を促進する。 インダクティブ推論におけるアプローチの有効性を実証した。 redditデータセットでは、mcondは最大121.5倍の推論スピードアップと55.9倍のストレージ要件の削減を実現している。

Graph neural networks (GNNs) encounter significant computational challenges when handling large-scale graphs, which severely restricts their efficacy across diverse applications. To address this limitation, graph condensation has emerged as a promising technique, which constructs a small synthetic graph for efficiently training GNNs while retaining performance. However, due to the topology structure among nodes, graph condensation is limited to condensing only the observed training nodes and their corresponding structure, thus lacking the ability to effectively handle the unseen data. Consequently, the original large graph is still required in the inference stage to perform message passing to inductive nodes, resulting in substantial computational demands. To overcome this issue, we propose mapping-aware graph condensation (MCond), explicitly learning the one-to-many node mapping from original nodes to synthetic nodes to seamlessly integrate new nodes into the synthetic graph for inductive representation learning. This enables direct information propagation on the synthetic graph, which is much more efficient than on the original large graph. Specifically, MCond employs an alternating optimization scheme with innovative loss terms from transductive and inductive perspectives, facilitating the mutual promotion between graph condensation and node mapping learning. Extensive experiments demonstrate the efficacy of our approach in inductive inference. On the Reddit dataset, MCond achieves up to 121.5x inference speedup and 55.9x reduction in storage requirements compared with counterparts based on the original graph.
翻訳日:2023-12-12 22:31:09 公開日:2023-12-09
# MGAS:マルチグラニュラリティアーキテクチャによるモデルの有効性と効率のトレードオフ

MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model Effectiveness and Efficiency ( http://arxiv.org/abs/2310.15074v3 )

ライセンス: Link先を確認
Xiaoyun Liu, Divya Saxena, Jiannong Cao, Yuqing Zhao, Penghui Ruan(参考訳) ニューラルアーキテクチャサーチ(NAS)は、ニューラルネットワークの設計を自動化する上で大きな牽引力を得ている。 時間コストを削減するため、DASは離散的な候補サンプリングと評価の伝統的なパラダイムを、微分可能なスーパーネット最適化と離散化のパラダイムに変換する。 しかし、既存のDASメソッドは、モデルパフォーマンスとモデルサイズの間のトレードオフに失敗する。 彼らは粗粒度操作レベル探索のみを行い、結果として冗長なモデルパラメータが生じるか、あるいは事前定義された残比を持つ細粒度フィルタレベルおよび重量レベル単位を限定的に探索し、過剰なプルーニング問題に悩まされる。 さらに、これらの方法は検索プロセス中にメモリを節約するために検索品質を損なう。 これらの課題に対処するために,我々は,多粒度検索空間を包括的かつメモリ効率よく探索することにより,効率的かつ効率的なニューラルネットワークを見つけることを目的とした,統合されたフレームワークである多粒度アーキテクチャサーチ(MGAS)を導入する。 具体的には,既存のDAS手法を2つの面で改善する。 まず、モデルの単位数を異なる粒度レベルでアダプティブプルーニングとバランスをとる。 各粒度レベルに特有の離散化関数を学習し、進化するアーキテクチャに応じて単位残差比を適応的に決定する。 第2に,多段階探索による検索品質の劣化を伴わずにメモリ消費を削減する。 我々は、スーパーネット最適化と離散化を複数のサブネットステージに分割し、進行的再評価を行い、その後の段階において、潜在的なバイアスを補償し、以前のユニットを再培養および再成長を可能にする。 CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。

Neural architecture search (NAS) has gained significant traction in automating the design of neural networks. To reduce the time cost, differentiable architecture search (DAS) transforms the traditional paradigm of discrete candidate sampling and evaluation into that of differentiable super-net optimization and discretization. However, existing DAS methods fail to trade off between model performance and model size. They either only conduct coarse-grained operation-level search, which results in redundant model parameters, or restrictively explore fine-grained filter-level and weight-level units with pre-defined remaining ratios, suffering from excessive pruning problem. Additionally, these methods compromise search quality to save memory during the search process. To tackle these issues, we introduce multi-granularity architecture search (MGAS), a unified framework which aims to discover both effective and efficient neural networks by comprehensively yet memory-efficiently exploring the multi-granularity search space. Specifically, we improve the existing DAS methods in two aspects. First, we balance the model unit numbers at different granularity levels with adaptive pruning. We learn discretization functions specific to each granularity level to adaptively determine the unit remaining ratio according to the evolving architecture. Second, we reduce the memory consumption without degrading the search quality using multi-stage search. We break down the super-net optimization and discretization into multiple sub-net stages, and perform progressive re-evaluation to allow for re-pruning and regrowing of previous units during subsequent stages, compensating for potential bias. Extensive experiments on CIFAR-10, CIFAR-100 and ImageNet demonstrate that MGAS outperforms other state-of-the-art methods in achieving a better trade-off between model performance and model size.
翻訳日:2023-12-12 22:22:34 公開日:2023-12-09
# トランスフォーマによる強化学習による分子デノボ設計

Molecular De Novo Design through Transformer-based Reinforcement Learning ( http://arxiv.org/abs/2310.05365v3 )

ライセンス: Link先を確認
Tao Feng, Pengcheng Xu, Tianfan Fu, Siddhartha Laghuvarapu, Jimeng Sun(参考訳) 本稿では,分子ドノボ設計のためのトランスベース生成モデルを微調整する手法を提案する。 リカレントニューラルネットワーク(rnn)上でのトランスフォーマの優れたシーケンス学習能力を活用することで,望ましい特性を持つ分子構造を効果的に生成することができる。 従来のrnnモデルとは対照的に, 分子構造配列の長期依存性を捉えることにより, 種々の生物標的に対する活性が予測される化合物の生成において優れた性能を示す。 モデルの有効性は、クエリ構造に類似点を生成し、特定の属性を持つ化合物を生成し、ベースラインのRNNベースの手法より優れるなど、数多くのタスクで実証されている。 本手法は, 足場ホッピング, 単一分子からのライブラリ拡張, 生物標的に対する高い活性を有する化合物の生成に利用できる。

In this work, we introduce a method to fine-tune a Transformer-based generative model for molecular de novo design. Leveraging the superior sequence learning capacity of Transformers over Recurrent Neural Networks (RNNs), our model can generate molecular structures with desired properties effectively. In contrast to the traditional RNN-based models, our proposed method exhibits superior performance in generating compounds predicted to be active against various biological targets, capturing long-term dependencies in the molecular structure sequence. The model's efficacy is demonstrated across numerous tasks, including generating analogues to a query structure and producing compounds with particular attributes, outperforming the baseline RNN-based methods. Our approach can be used for scaffold hopping, library expansion starting from a single molecule, and generating compounds with high predicted activity against biological targets.
翻訳日:2023-12-12 22:20:54 公開日:2023-12-09
# ニューラルネットワークにおける損失平坦性から圧縮表現への単純な接続

A simple connection from loss flatness to compressed representations in neural networks ( http://arxiv.org/abs/2310.01770v2 )

ライセンス: Link先を確認
Shirui Chen, Stefano Recanatesi, Eric Shea-Brown(参考訳) ディープニューラルネットワークの一般化能力は、パラメータ空間における損失ランドスケープの形状に基づくものと、特徴空間における表現多様体の構造に基づくもの(つまり、単位活動の空間における)という、少なくとも2つの異なるアプローチのカテゴリを含む様々な方法で研究されてきた。 これら2つのアプローチは関連しているが、明示的な接続で一緒に研究されることは滅多にない。 ここでは、そのような接続を行う簡単な解析について述べる。 ディープニューラルネットワークの学習の最終段階において、ニューラルネットワークの多様体の圧縮は、SGDが探索したミニマ周辺の損失の平坦さと相関していることを示す。 これは比較的単純な数学的関係によって予測される: フラットな損失は、神経表現の圧縮においてより低い上限に対応する。 この結果は,損失ヘッセンの小さな固有値によって特徴付けられる平坦性が,後期学習段階に発展し,ネットワーク入力の摂動に対する頑健性に寄与することを示すMaとYingの先行研究に基づいている。 さらに, 局所次元と鋭さの類似した直接的な関係が欠如していることから, この特性は体積と異なる機構によって制御され, 神経表現において相補的な役割を果たす可能性が示唆された。 全体として、パラメータと特徴空間の両方におけるニューラルネットワークの一般化に関する双対視点を推し進める。

The generalization capacity of deep neural networks has been studied in a variety of ways, including at least two distinct categories of approach: one based on the shape of the loss landscape in parameter space, and the other based on the structure of the representation manifold in feature space (that is, in the space of unit activities). Although these two approaches are related, they are rarely studied together in an explicit connection. Here, we present a simple analysis that makes such a connection. We show that, in the last phase of learning of deep neural networks, compression of the manifold of neural representations correlates with the flatness of the loss around the minima explored by SGD. We show that this is predicted by a relatively simple mathematical relationship: a flatter loss corresponds to a lower upper-bound on the compression of neural representations. Our results closely build on the prior work of Ma and Ying, who demonstrated how flatness, characterized by small eigenvalues of the loss Hessian, develops in late learning phases and contributes to robustness against perturbations in network inputs. Moreover, we show a lack of a similarly direct connection between local dimensionality and sharpness, suggesting that this property may be controlled by different mechanisms than volume and hence may play a complementary role in neural representations. Overall, we advance a dual perspective on generalization in neural networks in both parameter and feature space.
翻訳日:2023-12-12 22:19:24 公開日:2023-12-09
# TIGERScore:すべてのテキスト生成タスクのための説明可能なメトリクスの構築を目指して

TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks ( http://arxiv.org/abs/2310.00752v3 )

ライセンス: Link先を確認
Dongfu Jiang, Yishan Li, Ge Zhang, Wenhao Huang, Bill Yuchen Lin, Wenhu Chen(参考訳) 本稿では,テキスト生成タスクの幅広い範囲において,textbf{I}nstruction \textbf{G}uidance を用いて,textbf{E}xplainable および \textbf{R}eference-free 評価を行う。 アークーンスコアのみを提供する他の自動評価方法とは異なり、TIGERScoreは自然言語命令によって誘導され、生成されたテキストの誤りをピンポイントするエラー解析を提供する。 LLaMA-2は6つのテキスト生成タスクと23のテキスト生成データセットをカバーする命令チューニングデータセットである。 データセットは42K四重項からなる(命令、入力、システム出力$\rightarrow$エラー解析)。 さまざまなタイプのエラーをカバーするために,多種多様なモデルから‘システム出力’を収集した。 評価基準を定量的に評価するため、5つのホールドインデータセット、2つのホールドアウトデータセットの人格評価との相関を評価し、TIGERScoreがこれらのデータセットの人格評価とオープンソースSoTA相関を達成でき、GPT-4評価にほぼ近づいたことを示す。 基準のない計量として、その相関は既存の基準ベースの最高の指標を超えうる。 さらに,本測定で得られた理論的根拠を定性的に評価するために,生成された説明について人間による評価を行い,その説明が70.8\%正確であることを見出した。 これらの実験結果を通じて、TIGERScoreは、任意のテキスト生成タスクを評価する普遍的な説明可能なメトリクスを構築する可能性を実証している。

We present TIGERScore, a \textbf{T}rained metric that follows \textbf{I}nstruction \textbf{G}uidance to perform \textbf{E}xplainable, and \textbf{R}eference-free evaluation over a wide spectrum of text generation tasks. Different from other automatic evaluation methods that only provide arcane scores, TIGERScore is guided by natural language instruction to provide error analysis to pinpoint the mistakes in the generated text. Our metric is based on LLaMA-2, trained on our meticulously curated instruction-tuning dataset MetricInstruct which covers 6 text generation tasks and 23 text generation datasets. The dataset consists of 42K quadruple in the form of (instruction, input, system output $\rightarrow$ error analysis). We collected the `system outputs' through from a large variety of models to cover different types of errors. To quantitatively assess our metric, we evaluate its correlation with human ratings on 5 held-in datasets, 2 held-out datasets and show that TIGERScore can achieve the open-source SoTA correlation with human ratings across these datasets and almost approaches GPT-4 evaluator. As a reference-free metric, its correlation can even surpass the best existing reference-based metrics. To further qualitatively assess the rationale generated by our metric, we conduct human evaluation on the generated explanations and found that the explanations are 70.8\% accurate. Through these experimental results, we believe TIGERScore demonstrates the possibility of building universal explainable metrics to evaluate any text generation task.
翻訳日:2023-12-12 22:18:59 公開日:2023-12-09
# I-AI:正確なCXR診断のための放射線科医のインセンスフォーカスを復号するための制御可能・解釈可能なAIシステム

I-AI: A Controllable & Interpretable AI System for Decoding Radiologists' Intense Focus for Accurate CXR Diagnoses ( http://arxiv.org/abs/2309.13550v4 )

ライセンス: Link先を確認
Trong Thang Pham, Jacob Brecheisen, Anh Nguyen, Hien Nguyen, Ngan Le(参考訳) 胸部X線診断(CXR)の分野では、既存の研究は、放射線技師がどこに見えるか、通常、検出、セグメンテーション、分類などのタスクによって決定することのみに焦点を当てることが多い。 しかしながら、これらのアプローチはしばしばブラックボックスモデルとして設計され、解釈性に欠ける。 本稿では,cxr診断における放射線科医の集中力をデコードするための新しい統一的な制御可能なパイプラインであるi-aiを提案する。 我々のI-AIは、放射線科医がどこに見えるか、特定の領域にどのくらい焦点を合わせるか、どの所見を診断するか、という3つの重要な疑問に対処しています。 放射線科医の視線の強さを捉えることで、放射線学的な解釈の基礎となる認知過程についての洞察を提供する統一的なソリューションを提供する。 診断処理中に入力画像全体から誤情報を抽出する傾向にあるブラックボックス機械学習モデルに依存する現在の手法とは異なり、無関係な情報を効果的にマスキングすることでこの問題に対処する。 提案するi-aiは視覚言語モデルを利用して解釈過程を正確に制御し,無関係な特徴を排除できる。 I-AIモデルをトレーニングするために、眼球データセットを用いて解剖学的視線情報を抽出し、地上の真理熱マップを生成する。 実験により,本手法の有効性を実証した。 放射線学者の焦点を真似た注意熱マップが十分な情報をエンコードし,CXRの一部のみを用いて正確な分類作業を可能にすることを示す。 コード、チェックポイント、データはhttps://github.com/UARK-AICV/IAIにある。

In the field of chest X-ray (CXR) diagnosis, existing works often focus solely on determining where a radiologist looks, typically through tasks such as detection, segmentation, or classification. However, these approaches are often designed as black-box models, lacking interpretability. In this paper, we introduce Interpretable Artificial Intelligence (I-AI) a novel and unified controllable interpretable pipeline for decoding the intense focus of radiologists in CXR diagnosis. Our I-AI addresses three key questions: where a radiologist looks, how long they focus on specific areas, and what findings they diagnose. By capturing the intensity of the radiologist's gaze, we provide a unified solution that offers insights into the cognitive process underlying radiological interpretation. Unlike current methods that rely on black-box machine learning models, which can be prone to extracting erroneous information from the entire input image during the diagnosis process, we tackle this issue by effectively masking out irrelevant information. Our proposed I-AI leverages a vision-language model, allowing for precise control over the interpretation process while ensuring the exclusion of irrelevant features. To train our I-AI model, we utilize an eye gaze dataset to extract anatomical gaze information and generate ground truth heatmaps. Through extensive experimentation, we demonstrate the efficacy of our method. We showcase that the attention heatmaps, designed to mimic radiologists' focus, encode sufficient and relevant information, enabling accurate classification tasks using only a portion of CXR. The code, checkpoints, and data are at https://github.com/UARK-AICV/IAI
翻訳日:2023-12-12 22:17:53 公開日:2023-12-09
# TaskBench:タスク自動化のための大規模言語モデルのベンチマーク

TaskBench: Benchmarking Large Language Models for Task Automation ( http://arxiv.org/abs/2311.18760v2 )

ライセンス: Link先を確認
Yongliang Shen, Kaitao Song, Xu Tan, Wenqi Zhang, Kan Ren, Siyu Yuan, Weiming Lu, Dongsheng Li, Yueting Zhuang(参考訳) 近年,大規模言語モデル(LLM)の驚くべき進歩がタスク自動化の火花を火付け,ユーザ命令によって記述された複雑なタスクをサブタスクに分解し,外部ツールを起動して実行し,自律エージェントにおいて中心的な役割を担っている。 しかし、タスク自動化におけるllmの開発を促進するための体系的で標準化されたベンチマークが欠けている。 この目的のために,タスク自動化における LLM の機能を評価するために TaskBench を導入する。 具体的には、タスクの自動化はタスクの分解、ツールの実行、パラメータの予測という3つの重要な段階にまとめることができる。 この複雑さにより、一般的なNLPタスクと比較してデータ収集と評価が困難になる。 高品質な評価データセットを生成するために,ユーザ意図の分解タスクを表現するツールグラフの概念を導入し,ユーザ指示やアノテーションをシミュレートするバックインストラクション手法を採用した。 さらに,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。 実験の結果、タスクベンチはタスク自動化におけるLLMの能力を効果的に反映できることが示された。 自動データ構築とヒューマン検証の混合により、taskbenchは人間評価と比較して高い一貫性を実現し、llmベースの自律エージェントの総合的かつ忠実なベンチマークとして利用できる。

Recently, the incredible progress of large language models (LLMs) has ignited the spark of task automation, which decomposes the complex tasks described by user instructions into sub-tasks, and invokes external tools to execute them, and plays a central role in autonomous agents. However, there lacks a systematic and standardized benchmark to foster the development of LLMs in task automation. To this end, we introduce TaskBench to evaluate the capability of LLMs in task automation. Specifically, task automation can be formulated into three critical stages: task decomposition, tool invocation, and parameter prediction to fulfill user intent. This complexity makes data collection and evaluation more challenging compared to common NLP tasks. To generate high-quality evaluation datasets, we introduce the concept of Tool Graph to represent the decomposed tasks in user intent, and adopt a back-instruct method to simulate user instruction and annotations. Furthermore, we propose TaskEval to evaluate the capability of LLMs from different aspects, including task decomposition, tool invocation, and parameter prediction. Experimental results demonstrate that TaskBench can effectively reflects the capability of LLMs in task automation. Benefiting from the mixture of automated data construction and human verification, TaskBench achieves a high consistency compared to the human evaluation, which can be utilized as a comprehensive and faithful benchmark for LLM-based autonomous agents.
翻訳日:2023-12-12 22:09:14 公開日:2023-12-09
# 支援・反感:文脈外ミスと偽情報を検出するための証拠のスタンスの分析

Support or Refute: Analyzing the Stance of Evidence to Detect Out-of-Context Mis- and Disinformation ( http://arxiv.org/abs/2311.01766v4 )

ライセンス: Link先を確認
Xin Yuan, Jie Guo, Weidong Qiu, Zheng Huang, Shujun Li(参考訳) オンライン上の誤報や誤報は、様々な種類のオンライン被害の主な源泉として社会問題となっている。 ooc(out-of-context)情報とは、例えば、偽のテキストキャプションや誤解を招くテキスト記述と組み合わされた実際の画像など、異なる情報の断片が誤って関連付けられる情報である。 過去の研究では、外部の証拠を通じてoocの誤報や偽情報に対する防御を試みたが、異なる立場で異なる証拠の役割を無視する傾向がある。 異なる検出結果に対するバイアスを証拠のスタンスが表しているという直観性に動機づけられ,様々なマルチモーダル証拠のスタンスを統一的な枠組みで抽出できるスタンス抽出ネットワーク(sen)を提案する。 さらに,名前付きエンティティの共起関係に基づいて算出したサポート・リフテーションスコアをテキストセンに導入し,提案手法が最先端のベースラインを上回り,最適なモデルが3.2%の精度で性能向上を達成することを実証した。

Mis- and disinformation online have become a major societal problem as major sources of online harms of different kinds. One common form of mis- and disinformation is out-of-context (OOC) information, where different pieces of information are falsely associated, e.g., a real image combined with a false textual caption or a misleading textual description. Although some past studies have attempted to defend against OOC mis- and disinformation through external evidence, they tend to disregard the role of different pieces of evidence with different stances. Motivated by the intuition that the stance of evidence represents a bias towards different detection results, we propose a stance extraction network (SEN) that can extract the stances of different pieces of multi-modal evidence in a unified framework. Moreover, we introduce a support-refutation score calculated based on the co-occurrence relations of named entities into the textual SEN. Extensive experiments on a public large-scale dataset demonstrated that our proposed method outperformed the state-of-the-art baselines, with the best model achieving a performance gain of 3.2% in accuracy.
翻訳日:2023-12-12 22:06:43 公開日:2023-12-09
# osとしてのllm,アプリとしてのエージェント: aios,エージェント,aios-agentエコシステムを想像する

LLM as OS, Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem ( http://arxiv.org/abs/2312.03815v2 )

ライセンス: Link先を確認
Yingqiang Ge, Yujie Ren, Wenyue Hua, Shuyuan Xu, Juntao Tan, Yongfeng Zhang(参考訳) 本稿では,Large Language Model(LLM)が(人工)インテリジェントオペレーティングシステム(IOS,AIOS)として機能する,革命的なAIOS-Agentエコシステムを構想する。 この基盤のもと、多様なLLMベースのAIエージェントアプリケーション(Agents、AAPs)が開発され、AIOS-Agentエコシステムを豊かにし、従来のOS-APPエコシステムからパラダイムシフトを示す。 llmは、os(システムレベル)、アプリケーション(アプリケーションレベル)、エージェント(アプリケーションレベル)、自然言語(ユーザーレベル)、デバイス/ライブラリ(ハードウェア/ミドルウェアレベル)といった主要な概念によって、コンピュータシステム、アーキテクチャ、ソフトウェア、プログラミング言語の設計と実装に革命をもたらすだろうと考えています。 従来のOSのアーキテクチャの導入から始めます。 LLMはOSカーネル、メモリへのコンテクストウィンドウ、ファイルシステムへの外部ストレージ、周辺機器へのハードウェアツール、ライブラリへのソフトウェアツール、ユーザコマンドへのユーザプロンプトに類似しています。 次に、AIOS-Agentエコシステムを導入し、ユーザーが自然言語を使ってエージェントアプリケーション(AAP)を簡単にプログラムでき、従来のOS-APPエコシステムとは異なるソフトウェアの開発を民主化します。 次に,エージェントアプリケーションの多様な範囲について検討する。 単エージェントシステムとマルチエージェントシステムの両方、そして人間とエージェントのインタラクションを掘り下げます。 最後に、従来のOS-APPエコシステムからの洞察をもとに、AIOS-Agentエコシステムの進化のロードマップを提案します。 このロードマップは将来の研究と開発を導くために設計されており、aiosとそのエージェントアプリケーションの体系的な進歩を示唆している。

This paper envisions a revolutionary AIOS-Agent ecosystem, where Large Language Model (LLM) serves as the (Artificial) Intelligent Operating System (IOS, or AIOS)--an operating system "with soul". Upon this foundation, a diverse range of LLM-based AI Agent Applications (Agents, or AAPs) are developed, enriching the AIOS-Agent ecosystem and signaling a paradigm shift from the traditional OS-APP ecosystem. We envision that LLM's impact will not be limited to the AI application level, instead, it will in turn revolutionize the design and implementation of computer system, architecture, software, and programming language, featured by several main concepts: LLM as OS (system-level), Agents as Applications (application-level), Natural Language as Programming Interface (user-level), and Tools as Devices/Libraries (hardware/middleware-level). We begin by introducing the architecture of traditional OS. Then we formalize a conceptual framework for AIOS through "LLM as OS (LLMOS)", drawing analogies between AIOS and traditional OS: LLM is likened to OS kernel, context window to memory, external storage to file system, hardware tools to peripheral devices, software tools to programming libraries, and user prompts to user commands. Subsequently, we introduce the new AIOS-Agent Ecosystem, where users can easily program Agent Applications (AAPs) using natural language, democratizing the development of software, which is different from the traditional OS-APP ecosystem. Following this, we explore the diverse scope of Agent Applications. We delve into both single-agent and multi-agent systems, as well as human-agent interaction. Lastly, drawing on the insights from traditional OS-APP ecosystem, we propose a roadmap for the evolution of the AIOS-Agent ecosystem. This roadmap is designed to guide the future research and development, suggesting systematic progresses of AIOS and its Agent applications.
翻訳日:2023-12-12 21:55:41 公開日:2023-12-09
# 言語モデル事前学習のための効率的なオンラインデータ混合

Efficient Online Data Mixing For Language Model Pre-Training ( http://arxiv.org/abs/2312.02406v2 )

ライセンス: Link先を確認
Alon Albalak and Liangming Pan and Colin Raffel and William Yang Wang(参考訳) 大規模言語モデルの事前トレーニングに使用されるデータは、モデル下流のパフォーマンスに決定的な影響を与え、事前トレーニングに使用する最も適切なデータを自動的に決定することを目的とした、データ選択方法に関する膨大な作業につながった。 既存のデータ選択手法は、モデルのサイズの増加とデータセットの事前トレーニングによって増幅される、低速で計算コストの高いプロセスに苦しむ。 一方、データ混合はデータポイントをグループ化し、グループ全体のサンプリング確率を決定することで、データ選択の複雑さを低減している。 しかしながら、データ混合比率はトレーニング前に固定されるため、トレーニングダイナミクスの変化に対応できない。 これらの制約に対処するために,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。 マルチアームバンディットアルゴリズムに基づくオンラインアプローチでは,トレーニング中のデータ混合比率を最適化する。 また,本手法では,1.9%の精度で5ショットMMLUベンチマークの性能を向上し,事前トレーニング中に壁面時間を追加することで,次のベストメソッドの難易度に達するモデルを訓練する。

The data used to pretrain large language models has a decisive impact on a model's downstream performance, which has led to a large body of work on data selection methods that aim to automatically determine the most suitable data to use for pretraining. Existing data selection methods suffer from slow and computationally expensive processes, a problem amplified by the increasing size of models and of pretraining datasets. Data mixing, on the other hand, reduces the complexity of data selection by grouping data points together and determining sampling probabilities across entire groups. However, data mixing proportions are typically fixed before training and therefore cannot adapt to changing training dynamics. To address these limitations, we develop an efficient algorithm for Online Data Mixing (ODM) that combines elements from both data selection and data mixing. Based on multi-armed bandit algorithms, our online approach optimizes the data mixing proportions during training. Remarkably, our method trains a model that reaches the final perplexity of the next best method with 19\% fewer training iterations, and improves performance on the 5-shot MMLU benchmark by 1.9% relative accuracy, while adding negligible wall-clock time during pretraining.
翻訳日:2023-12-12 21:54:10 公開日:2023-12-09
# state of the art text-to-sql modelのドメイン適応 - 学んだ教訓と課題

Domain Adaptation of a State of the Art Text-to-SQL Model: Lessons Learned and Challenges Found ( http://arxiv.org/abs/2312.05448v1 )

ライセンス: Link先を確認
Irene Manotas, Octavian Popescu, Ngoc Phuoc An Vo, Vadim Sheinin(参考訳) 最近のText-to-SQLタスクでは、スパイダーデータセットコンペティションで測定された最高パフォーマンスモデルの1つであるPicardモデルが開発されている。 しかし、ドメイン適応による現実的なユースケースにText-to-SQLシステムを導入することは難しい課題です。 ベースt5言語モデルとpicardがspiderデータセットとは異なるクエリ構造でいかにうまく機能するかを分析し,spiderデータと独立データベース(db)のベースモデルを微調整した。 推論中にDBコンテンツにアクセスするのを避けるために、入力質問のセマンティックな概念の中間表現に依存するルールベースのアプローチを用いて、入力質問における値を曖昧にする方法を提案する。 結果では、T5とPicardが優れたパフォーマンスを提供できる場合、学んだ教訓を共有し、現在のドメイン適応課題について議論する。

There are many recent advanced developments for the Text-to-SQL task, where the Picard model is one of the the top performing models as measured by the Spider dataset competition. However, bringing Text-to-SQL systems to realistic use-cases through domain adaptation remains a tough challenge. We analyze how well the base T5 Language Model and Picard perform on query structures different from the Spider dataset, we fine-tuned the base model on the Spider data and on independent databases (DB). To avoid accessing the DB content online during inference, we also present an alternative way to disambiguate the values in an input question using a rule-based approach that relies on an intermediate representation of the semantic concepts of an input question. In our results we show in what cases T5 and Picard can deliver good performance, we share the lessons learned, and discuss current domain adaptation challenges.
翻訳日:2023-12-12 21:01:03 公開日:2023-12-09
# ヘテロジニアスオンライン学習における複数アルゴリズムの活用

Fusing Multiple Algorithms for Heterogeneous Online Learning ( http://arxiv.org/abs/2312.05432v1 )

ライセンス: Link先を確認
Darshan Gadginmath, Shivanshu Tripathi, Fabio Pasqualetti(参考訳) 本研究では,エージェントが異質なデータを蓄積し,リソース制約に直面し,異なる局所アルゴリズムを使用するコンテキストにおける,オンライン学習の課題に対処する。 本稿では,多種多様なエージェントからの更新を,それぞれのパフォーマンスと利用可能なリソースに基づいて動的に切り替える機構を通じて集約することで,異種オンライン学習問題を解決するために設計されたスイッチドオンライン学習アルゴリズム(SOLA)を紹介する。 理論的には、SOLAの後悔が束縛されることを保証するため、選択機構の設計を解析する。 この結果から,各局所アルゴリズムの性能に依存するパラメータによって,選択の回数を限定する必要があることがわかった。 さらに、オンライン線形回帰問題とMNISTデータセットを用いたオンライン分類問題でSOLAの有効性を強調するために、2つのテストケースが提示される。

This study addresses the challenge of online learning in contexts where agents accumulate disparate data, face resource constraints, and use different local algorithms. This paper introduces the Switched Online Learning Algorithm (SOLA), designed to solve the heterogeneous online learning problem by amalgamating updates from diverse agents through a dynamic switching mechanism contingent upon their respective performance and available resources. We theoretically analyze the design of the selecting mechanism to ensure that the regret of SOLA is bounded. Our findings show that the number of changes in selection needs to be bounded by a parameter dependent on the performance of the different local algorithms. Additionally, two test cases are presented to emphasize the effectiveness of SOLA, first on an online linear regression problem and then on an online classification problem with the MNIST dataset.
翻訳日:2023-12-12 21:00:46 公開日:2023-12-09
# 潜在拡散モデルの効率的な量子化戦略

Efficient Quantization Strategies for Latent Diffusion Models ( http://arxiv.org/abs/2312.05431v1 )

ライセンス: Link先を確認
Yuewei Yang, Xiaoliang Dai, Jialiang Wang, Peizhao Zhang, Hongbo Zhang(参考訳) 潜在拡散モデル(LDMs)は、時間とともに潜伏変数の動的進化を捉え、生成系におけるパターンと多モード性をブレンドする。 堅牢なテキストエンコーダと変分オートエンコーダによって促進されるテキスト・ツー・イメージ生成などの様々なアプリケーションにおけるLCMの習熟度にもかかわらず、エッジデバイスに大規模な生成モデルをデプロイする重要な必要性は、よりコンパクトで効果的な代替手段の探索を補完する。 深層学習モデルの操作サイズを圧縮するPTQ(Post Training Quantization)は,時間的・構造的複雑さからLDMに適用した場合,課題に遭遇する。 本研究では、SQNR(Signal-to-Quantization-Noise Ratio)を指標として、LDMを効率的に定量化する量子化戦略を提案する。 量子化誤差を相対雑音として扱い、モデルの感度部分を特定することにより、グローバル戦略とローカル戦略の両方を包含する効率的な量子化アプローチを提案する。 グローバル量子化プロセスは、高精度なブロックの量子化を開始することで相対量子化ノイズを軽減し、局所的な処理は量子化に敏感で時間に敏感なモジュールの特定の課題に対処する。 実験の結果, グローバル・ローカル両処理の実装は, LDMの高効率かつ効果的なポストトレーニング量子化(PTQ)をもたらすことが明らかとなった。

Latent Diffusion Models (LDMs) capture the dynamic evolution of latent variables over time, blending patterns and multimodality in a generative system. Despite the proficiency of LDM in various applications, such as text-to-image generation, facilitated by robust text encoders and a variational autoencoder, the critical need to deploy large generative models on edge devices compels a search for more compact yet effective alternatives. Post Training Quantization (PTQ), a method to compress the operational size of deep learning models, encounters challenges when applied to LDM due to temporal and structural complexities. This study proposes a quantization strategy that efficiently quantize LDMs, leveraging Signal-to-Quantization-Noise Ratio (SQNR) as a pivotal metric for evaluation. By treating the quantization discrepancy as relative noise and identifying sensitive part(s) of a model, we propose an efficient quantization approach encompassing both global and local strategies. The global quantization process mitigates relative quantization noise by initiating higher-precision quantization on sensitive blocks, while local treatments address specific challenges in quantization-sensitive and time-sensitive modules. The outcomes of our experiments reveal that the implementation of both global and local treatments yields a highly efficient and effective Post Training Quantization (PTQ) of LDMs.
翻訳日:2023-12-12 21:00:15 公開日:2023-12-09
# FT2TF:個人初のテキスト対会話顔生成

FT2TF: First-Person Statement Text-To-Talking Face Generation ( http://arxiv.org/abs/2312.05430v1 )

ライセンス: Link先を確認
Xingjian Diao, Ming Cheng, Wayner Barrios, SouYoung Jin(参考訳) コンピュータビジョンのコミュニティでは、AR/VR、テレカンファレンス、デジタルアシスタント、アバターなど様々な応用によって、顔生成が広く普及している。 従来の手法は主にオーディオ駆動方式であり、オーディオストレージと処理の必然的なリソース集約性に対処しなければならない。 このような課題に対処するために、一対一の文文で駆動される一対一の対面生成のための新しいエンドツーエンドパイプラインであるFT2TF - First-Person Statement Text-To-Talking Face Generationを提案する。 さらにft2tfは、対応する入力テキストを変更して表情を正確に操作する。 従来の研究と異なり、我々のモデルは推論中に他のソース(例えばオーディオ/ランドマーク/目的)を使わずに、視覚情報とテキスト情報のみを利用する。 LRS2 と LRS3 のデータセットに対して大規模な実験を行い、多次元評価指標の結果を報告する。 定量的および定性的な結果は、FT2TFが既存の関連手法より優れ、最先端に到達していることを示している。 この成果は、ファーストパーソンステートメントと動的顔生成を橋渡しするモデル能力を強調し、将来の作業に対する洞察に富んだガイダンスを提供します。

Talking face generation has gained immense popularity in the computer vision community, with various applications including AR/VR, teleconferencing, digital assistants, and avatars. Traditional methods are mainly audio-driven ones which have to deal with the inevitable resource-intensive nature of audio storage and processing. To address such a challenge, we propose FT2TF - First-Person Statement Text-To-Talking Face Generation, a novel one-stage end-to-end pipeline for talking face generation driven by first-person statement text. Moreover, FT2TF implements accurate manipulation of the facial expressions by altering the corresponding input text. Different from previous work, our model only leverages visual and textual information without any other sources (e.g. audio/landmark/pose) during inference. Extensive experiments are conducted on LRS2 and LRS3 datasets, and results on multi-dimensional evaluation metrics are reported. Both quantitative and qualitative results showcase that FT2TF outperforms existing relevant methods and reaches the state-of-the-art. This achievement highlights our model capability to bridge first-person statements and dynamic face generation, providing insightful guidance for future work.
翻訳日:2023-12-12 20:59:49 公開日:2023-12-09
# 二元分類における非線形アルゴリズムバイアスの緩和

Mitigating Nonlinear Algorithmic Bias in Binary Classification ( http://arxiv.org/abs/2312.05429v1 )

ライセンス: Link先を確認
Wendy Hui, Wai Kwong Lau(参考訳) 本稿では,保護属性の非線形なアルゴリズムバイアスの検出と軽減に因果モデルを用いることを提案する。 当社のアプローチの概要を概観する。 我々は,UCアーバイン機械学習リポジトリからダウンロード可能なドイツ信用データセットを用いて,(1)ブラックボックスとして扱われる予測モデル,(2)バイアス軽減のための因果モデルを開発する。 本稿では,年齢バイアスと二分分類の問題に焦点をあてる。 若年者では「低リスク」と正しく分類される可能性が低いことを示す。 確率は非線形に増加する。 因果モデルに非線形性を導入するために、高次多項式項を導入する。 適合因果モデルに基づいて、非偏り確率推定を計算し、全体の分類精度にはほとんど影響せず、公平性の向上を示す。 因果モデリングは直感的であり、その使用は説明可能性を高め、AIの異なる利害関係者間の信頼を促進する。

This paper proposes the use of causal modeling to detect and mitigate algorithmic bias that is nonlinear in the protected attribute. We provide a general overview of our approach. We use the German Credit data set, which is available for download from the UC Irvine Machine Learning Repository, to develop (1) a prediction model, which is treated as a black box, and (2) a causal model for bias mitigation. In this paper, we focus on age bias and the problem of binary classification. We show that the probability of getting correctly classified as "low risk" is lowest among young people. The probability increases with age nonlinearly. To incorporate the nonlinearity into the causal model, we introduce a higher order polynomial term. Based on the fitted causal model, the de-biased probability estimates are computed, showing improved fairness with little impact on overall classification accuracy. Causal modeling is intuitive and, hence, its use can enhance explicability and promotes trust among different stakeholders of AI.
翻訳日:2023-12-12 20:59:25 公開日:2023-12-09
# トラップ型イオン量子コンピュータにおける電子対近似の計測による強化

Enhancing the Electron Pair Approximation with Measurements on Trapped Ion Quantum Computers ( http://arxiv.org/abs/2312.05426v1 )

ライセンス: Link先を確認
Luning Zhao, Joshua Goings, Qingfeng Wang, Kyujin Shin, Woomin Kyoung, Seunghyo Noh, Young Min Rhee, Kyungmin Kim(参考訳) 電子対近似は、量子コンピュータ上の量子化学シミュレーションのための資源効率の良い変分量子固有解法(VQE)アプローチを提供する。 オービタル最適化されたユニタリペア結合クラスタダブル(oo-upccd)のアンサッツは、システムサイズと一定のエネルギー測定オーバーヘッドで二次的にスケールするゲートの数と、今日の量子コンピュータの精度と効率のバランスをとる。 しかし、電子対近似により、定量的に正確なエネルギー予測を生成できない。 回路の深さを増加させずに精度を向上させるため,電子対近似に対するエネルギー補正として,密度行列(rdm)に基づく第2次摂動理論(pt2)を考案した。 新たなアプローチでは、ペア相関電子シミュレーションに欠けている破断対エネルギー寄与を考慮に入れつつ、oo-upccd ansatzの計算上の利点を維持している。 n$_2$、li$_2$o、およびch$_2$oh$^+$の一分子分解やch$_3$i$+$br$^-$の2次反応のような化学反応の解離において、この方法はエネルギー予測の精度を大幅に向上させる。 イオンQの捕捉されたイオン量子コンピュータAriaとForteの2世代で、VQEエネルギーとは異なり、PT2エネルギー補正はノイズ耐性が高いことが判明した。 VQEエネルギーのみに基づく単純な誤差緩和手法を適用することで、反応剤、遷移状態、製品間の予測されたVQE-PT2エネルギー差は、ノイズフリーシミュレーターと良好に一致している。

The electron pair approximation offers a resource efficient variational quantum eigensolver (VQE) approach for quantum chemistry simulations on quantum computers. With the number of entangling gates scaling quadratically with system size and a constant energy measurement overhead, the orbital optimized unitary pair coupled cluster double (oo-upCCD) ansatz strikes a balance between accuracy and efficiency on today's quantum computers. However, the electron pair approximation makes the method incapable of producing quantitatively accurate energy predictions. In order to improve the accuracy without increasing the circuit depth, we explore the idea of reduced density matrix (RDM) based second order perturbation theory (PT2) as an energetic correction to electron pair approximation. The new approach takes into account of the broken-pair energy contribution that is missing in pair-correlated electron simulations, while maintaining the computational advantages of oo-upCCD ansatz. In dissociations of N$_2$, Li$_2$O, and chemical reactions such as the unimolecular decomposition of CH$_2$OH$^+$ and the \snTwo reaction of CH$_3$I $+$ Br$^-$, the method significantly improves the accuracy of energy prediction. On two generations of the IonQ's trapped ion quantum computers, Aria and Forte, we find that unlike the VQE energy, the PT2 energy correction is highly noise-resilient. By applying a simple error mitigation approach based on post-selection solely on the VQE energies, the predicted VQE-PT2 energy differences between reactants, transition state, and products are in excellent agreement with noise-free simulators.
翻訳日:2023-12-12 20:59:11 公開日:2023-12-09
# 量子ソフトウェアシステムにおけるアーキテクチャ決定 - Stack ExchangeとGitHubに関する実証的研究

Architecture Decisions in Quantum Software Systems: An Empirical Study on Stack Exchange and GitHub ( http://arxiv.org/abs/2312.05421v1 )

ライセンス: Link先を確認
Mst Shamima Aktar, Peng Liang, Muhammad Waseem, Amjed Tahir, Aakash Ahmad, Beiqi Zhang, Zengyang Li(参考訳) 量子コンピューティングは計算の新たな次元を提供し、量子力学の原理を利用して、現在古典的コンピュータでは難解な複雑な問題を解く。 しかし、量子ソフトウェア開発におけるアーキテクチャ決定についての研究はほとんど行われておらず、これらのシステムの機能、性能、スケーラビリティ、信頼性に大きな影響を与えている。 この研究の目的は、量子ソフトウェアシステムの開発中に行われたアーキテクチャ決定を実証的に調査し、stack exchangeやgithubのポストやイシューを使用することで、一般的な課題や制限を特定することである。 Stack Exchange SitesとGitHubプロジェクトから得られたデータを質的なアプローチで分析しました。 具体的には、量子ソフトウェア開発におけるアーキテクチャ決定に関連する151の課題(47のgithubプロジェクトから)と43の投稿(3つのスタック交換サイトから)からデータを収集しました。 The results show that in quantum software development (1) architecture decisions are articulated in six linguistic patterns, the most common of which are Solution Proposal and Information Giving, (2) the two major categories of architectural decisions are Implementation Decision and Technology Decision, (3) Quantum Programming Framework is the most common application domain among the sixteen application domains identified, (4) Maintainability is the most frequently considered quality attribute, and (5) Design Issue and Performance Issue are the major limitations and challenges that practitioners face when making architecture decisions in quantum software development. その結果,量子ソフトウェアシステムの開発におけるアーキテクチャ決定における限界と課題は,それらのシステムの特定の特徴(量子エンタングルメント,重ね合わせ,デコヒーレンスなど)と強く関連していることがわかった。

Quantum computing provides a new dimension in computation, utilizing the principles of quantum mechanics to potentially solve complex problems that are currently intractable for classical computers. However, little research has been conducted about the architecture decisions made in quantum software development, which have a significant influence on the functionality, performance, scalability, and reliability of these systems. The study aims to empirically investigate and analyze architecture decisions made during the development of quantum software systems, identifying prevalent challenges and limitations by using the posts and issues from Stack Exchange and GitHub. We used a qualitative approach to analyze the obtained data from Stack Exchange Sites and GitHub projects. Specifically, we collected data from 151 issues (from 47 GitHub projects) and 43 posts (from three Stack Exchange sites) related to architecture decisions in quantum software development. The results show that in quantum software development (1) architecture decisions are articulated in six linguistic patterns, the most common of which are Solution Proposal and Information Giving, (2) the two major categories of architectural decisions are Implementation Decision and Technology Decision, (3) Quantum Programming Framework is the most common application domain among the sixteen application domains identified, (4) Maintainability is the most frequently considered quality attribute, and (5) Design Issue and Performance Issue are the major limitations and challenges that practitioners face when making architecture decisions in quantum software development. Our results show that the limitations and challenges encountered in architecture decision-making during the development of quantum software systems are strongly linked to the particular features (e.g., quantum entanglement, superposition, and decoherence) of those systems.
翻訳日:2023-12-12 20:58:37 公開日:2023-12-09
# バウアーの低次マルチウェーブレットフィルタ設計のためのスペクトル分解法

Bauer's Spectral Factorization Method for Low Order Multiwavelet Filter Design ( http://arxiv.org/abs/2312.05418v1 )

ライセンス: Link先を確認
Vasil Kolev, Todor Cooklev, Fritz Keinert(参考訳) 行列スペクトル分解によって得られるパラエルミート多項式行列は、制御理論系、数値法における基底関数、信号処理で使われる多重スケーリング関数に有用な関数をもたらす。 本稿では,bauer$'$s法に基づく行列スペクトル分解のための高速アルゴリズムを提案する。 バウアー$'$法を非線形行列方程式(NME)に変換する。 nme は近似スカラー係数や行列係数を生成する2つの異なる数値アルゴリズム (fixed point iteration と newton$'$s method) と、いくつかの低次スカラーあるいは行列多項式行列に対して閉じた形で正確な因子を生成するシンボリックアルゴリズムによって解かれる。 2つの数値アルゴリズムの収束速度を,異なる領域から取られた特異スカラーおよび非特異スカラーおよび行列多項式に対して検討した。 特に、特異な例の1つは、新しい直交マルチスケーリングとマルチウェーブレットフィルタをもたらす。 NMEはGDARE(Generalized Discrete Time Algebraic Riccati Equation)としても解けるため、Maple 17.0 と 6 Matlab の組込みルーチンを用いた数値結果が提示される。

Para-Hermitian polynomial matrices obtained by matrix spectral factorization lead to functions useful in control theory systems, basis functions in numerical methods or multiscaling functions used in signal processing. We introduce a fast algorithm for matrix spectral factorization based on Bauer$'$s method. We convert Bauer$'$ method into a nonlinear matrix equation (NME). The NME is solved by two different numerical algorithms (Fixed Point Iteration and Newton$'$s Method) which produce approximate scalar or matrix factors, as well as a symbolic algorithm which produces exact factors in closed form for some low-order scalar or matrix polynomial matrices, respectively. Convergence rates of the two numerical algorithms are investigated for a number of singular and nonsingular scalar and matrix polynomials taken from different areas. In particular, one of the singular examples leads to new orthogonal multiscaling and multiwavelet filters. Since the NME can also be solved as a Generalized Discrete Time Algebraic Riccati Equation (GDARE), numerical results using built-in routines in Maple 17.0 and 6 Matlab versions are presented.
翻訳日:2023-12-12 20:58:12 公開日:2023-12-09
# ESPN: メモリ効率の良いマルチベクトル情報検索

ESPN: Memory-Efficient Multi-Vector Information Retrieval ( http://arxiv.org/abs/2312.05417v1 )

ライセンス: Link先を確認
Susav Shrestha, Narasimha Reddy, Zongwang Li(参考訳) 大規模言語モデルにおける最近の進歩は、情報検索(IR)タスクにおいて顕著な効果を示している。 多くのニューラルIRシステムはクエリやドキュメントを単一ベクトル表現にエンコードするが、マルチベクトルモデルは、複数のベクトル表現を生成し、個々のトークンの粒度を類似性検索しやすくすることで、検索品質を高める。 しかし、これらのモデルは検索インデックスを桁違いに増幅するメモリとストレージの要求を大幅に増幅する。 このインデックスサイズのエスカレーションにより、大量のメモリ要求により、マルチベクトルirモデルのスケーラビリティが徐々に困難になる。 ストレージパイプラインネットワーク(ESPN)からEmbeddingを導入し、再ランクの埋め込みテーブル全体をSSDにオフロードし、メモリ要求を5~16倍削減します。 我々は,ヒット率が90%を超えるソフトウェアプリフェッチャーを設計し,ssdベースの検索を6.4倍まで改善し,大規模なクエリバッチサイズであっても,ほぼメモリレベルのクエリレイテンシを維持できることを実証した。

Recent advances in large language models have demonstrated remarkable effectiveness in information retrieval (IR) tasks. While many neural IR systems encode queries and documents into single-vector representations, multi-vector models elevate the retrieval quality by producing multi-vector representations and facilitating similarity searches at the granularity of individual tokens. However, these models significantly amplify memory and storage requirements for retrieval indices by an order of magnitude. This escalation in index size renders the scalability of multi-vector IR models progressively challenging due to their substantial memory demands. We introduce Embedding from Storage Pipelined Network (ESPN) where we offload the entire re-ranking embedding tables to SSDs and reduce the memory requirements by 5-16x. We design a software prefetcher with hit rates exceeding 90%, improving SSD based retrieval up to 6.4x, and demonstrate that we can maintain near memory levels of query latency even for large query batch sizes.
翻訳日:2023-12-12 20:57:51 公開日:2023-12-09
# HumanReg:Human Point Cloudの自己管理型非厳格登録

HumanReg: Self-supervised Non-rigid Registration of Human Point Cloud ( http://arxiv.org/abs/2312.05462v1 )

ライセンス: Link先を確認
Yifan Chen, Zhiyu Pan, Zhicheng Zhong, Wenxuan Guo, Jianjiang Feng, Jie Zhou(参考訳) 本稿では、2つの人点雲間の非剛性変換をエンドツーエンドに学習する新しい登録フレームワークであるHumanRegを提案する。 このタイプのポイントクラウドを効率的に扱うために、登録プロセスにボディを導入します。 高価なポイント単位のフローアノテーションを必要とする既存の管理された登録技術とは異なり、HumanRegは、新しい損失関数の集合から恩恵を受ける自己管理的な方法で訓練することができる。 実世界のデータにモデルをよりよく収束させるため、事前学習戦略を提案し、動的で疎い人点雲と自動生成された地底真理アノテーションからなる合成データセット(HumanSyn4D)を提案する。 我々の実験では、humanreg は cape-512 データセットで最先端のパフォーマンスを達成し、また別の挑戦的な実世界のデータセットで定性的な結果が得られることを示した。 さらに,本研究は合成データセットと新しい損失関数の有効性を示す。 私たちのコードと合成データセットはhttps://github.com/chenyifanthu/humanregで利用可能です。

In this paper, we present a novel registration framework, HumanReg, that learns a non-rigid transformation between two human point clouds end-to-end. We introduce body prior into the registration process to efficiently handle this type of point cloud. Unlike most exsisting supervised registration techniques that require expensive point-wise flow annotations, HumanReg can be trained in a self-supervised manner benefiting from a set of novel loss functions. To make our model better converge on real-world data, we also propose a pretraining strategy, and a synthetic dataset (HumanSyn4D) consists of dynamic, sparse human point clouds and their auto-generated ground truth annotations. Our experiments shows that HumanReg achieves state-of-the-art performance on CAPE-512 dataset and gains a qualitative result on another more challenging real-world dataset. Furthermore, our ablation studies demonstrate the effectiveness of our synthetic dataset and novel loss functions. Our code and synthetic dataset is available at https://github.com/chenyifanthu/HumanReg.
翻訳日:2023-12-12 20:49:14 公開日:2023-12-09
# STREAMLINE: バイオメディシンのための自動機械学習パイプラインで、国際睡眠センター全体でのOSA予測のための写真ベースフェノタイプの有用性を検査する

STREAMLINE: An Automated Machine Learning Pipeline for Biomedicine Applied to Examine the Utility of Photography-Based Phenotypes for OSA Prediction Across International Sleep Centers ( http://arxiv.org/abs/2312.05461v1 )

ライセンス: Link先を確認
Ryan J. Urbanowicz, Harsh Bandhey, Brendan T. Keenan, Greg Maislin, Sy Hwang, Danielle L. Mowery, Shannon M. Lynch, Diego R. Mazzotti, Fang Han, Qing Yun Li, Thomas Penzel, Sergio Tufik, Lia Bittencourt, Thorarinn Gislason, Philip de Chazal, Bhajan Singh, Nigel McArdle, Ning-Hung Chen, Allan Pack, Richard J. Schwab, Peter A. Cistulli, Ulysses J. Magalang(参考訳) 機械学習(ML)には、バイオメディカルデータを分析するための貴重なツール群が含まれているが、効果的で厳格で偏りのないパイプラインを組み立てるためには、かなりの時間と専門知識が必要である。 自動ML(Automated ML)ツールは、分析パイプライン要素のサブセットを自動化することで、MLアプリケーションを容易にする。 本研究では、簡易で透明でエンドツーエンドの機械学習パイプライン(STREAMLINE)を開発し、それを応用して、様々な健康、経済、安全にかかわる一般的な診断条件である閉塞性睡眠時無呼吸(OSA)を予測するための写真ベースの表現型の追加の有用性について検討する。 STREAMLINEは、ベストプラクティスを守り、複雑さ、スケーラビリティ、再現性、カスタマイズ、モデルの解釈を調節しながら、生物医学的なバイナリ分類タスクに取り組むように設計されている。 ベンチマーク分析により,データシミュレーションにおけるSTREAMLINEの有効性が検証された。 次に,STREAMLINEを用いて,睡眠時無呼吸グローバル・インターディシプリナ・コンソーシアム(SAGIC)の3,111名の参加者を用いて,人口動態(DEM),自己報告性複合(DX),症状(SYM),写真に基づく頭蓋顔面(CF),口腔内(IO)の解剖学的評価を行った。 OSA分析では、中等度/重度OSAを予測するためにCFをDEM+DX+SYMに加えると、ROC-AUCの顕著な増加が確認された。 PRC-AUCの連続的かつ非重要な増加は、どのOSAも予測するための各機能セットの追加によって観測され、CFとIOは最小限の改善をもたらす。 osaデータへの合理性の適用は、cf特徴が中等度/持続的なosa予測に付加的な価値をもたらすことを示唆しているが、cf特徴もio特徴も確立された人口動態、同義性、症状特性を超えた任意のosa予測を有意義に改善することはない。

While machine learning (ML) includes a valuable array of tools for analyzing biomedical data, significant time and expertise is required to assemble effective, rigorous, and unbiased pipelines. Automated ML (AutoML) tools seek to facilitate ML application by automating a subset of analysis pipeline elements. In this study we develop and validate a Simple, Transparent, End-to-end Automated Machine Learning Pipeline (STREAMLINE) and apply it to investigate the added utility of photography-based phenotypes for predicting obstructive sleep apnea (OSA); a common and underdiagnosed condition associated with a variety of health, economic, and safety consequences. STREAMLINE is designed to tackle biomedical binary classification tasks while adhering to best practices and accommodating complexity, scalability, reproducibility, customization, and model interpretation. Benchmarking analyses validated the efficacy of STREAMLINE across data simulations with increasingly complex patterns of association. Then we applied STREAMLINE to evaluate the utility of demographics (DEM), self-reported comorbidities (DX), symptoms (SYM), and photography-based craniofacial (CF) and intraoral (IO) anatomy measures in predicting any OSA or moderate/severe OSA using 3,111 participants from Sleep Apnea Global Interdisciplinary Consortium (SAGIC). OSA analyses identified a significant increase in ROC-AUC when adding CF to DEM+DX+SYM to predict moderate/severe OSA. A consistent but non-significant increase in PRC-AUC was observed with the addition of each subsequent feature set to predict any OSA, with CF and IO yielding minimal improvements. Application of STREAMLINE to OSA data suggests that CF features provide additional value in predicting moderate/severe OSA, but neither CF nor IO features meaningfully improved the prediction of any OSA beyond established demographics, comorbidity and symptom characteristics.
翻訳日:2023-12-12 20:48:49 公開日:2023-12-09
# 回帰のためのマルチソースドメイン適応

Multi-source domain adaptation for regression ( http://arxiv.org/abs/2312.05460v1 )

ライセンス: Link先を確認
Yujie Wu, Giovanni Parmigiani and Boyu Ren(参考訳) マルチソースドメイン適応(DA)は、複数のソースドメインからの情報を活用して、異なるドメインが異なるデータ分散を持つ可能性のあるターゲットドメインで予測することを目的としている。 既存のマルチソースDAの手法のほとんどは分類問題に焦点を合わせているが、回帰設定では限定的な調査しか行われていない。 本稿では,このギャップを2段階の手順で埋める。 まず,適応性のある単一ソースdaアルゴリズムを拡張し,結果相関化を行い,回帰問題に適用する。 次に、アンサンブル学習による回帰のための単一ソースDAアルゴリズムを拡張し、マルチソースDAを実現する。 対象に適応した学習者を各ソースドメインにリニアに結合したアンサンブルアルゴリズムにおける3つの学習パラダイムについて考察する。 (i)アンサンブル重みを得るための多元重み付けアルゴリズム (二 目標適応学習者のDAの質を反映した類似度に基づく重み付け (iii)積み重ねと類似度重みの組み合わせ。 シミュレーションによるアルゴリズムの性能と,高比重リポ蛋白(hdl)コレステロール値の予測を目的として,腸内マイクロバイオームを用いたデータ解析を行った。 これらすべてのシナリオで日常的に使用される手法に対して,マルチソースDAアルゴリズムの予測性能が一貫した改善を観察する。

Multi-source domain adaptation (DA) aims at leveraging information from more than one source domain to make predictions in a target domain, where different domains may have different data distributions. Most existing methods for multi-source DA focus on classification problems while there is only limited investigation in the regression settings. In this paper, we fill in this gap through a two-step procedure. First, we extend a flexible single-source DA algorithm for classification through outcome-coarsening to enable its application to regression problems. We then augment our single-source DA algorithm for regression with ensemble learning to achieve multi-source DA. We consider three learning paradigms in the ensemble algorithm, which combines linearly the target-adapted learners trained with each source domain: (i) a multi-source stacking algorithm to obtain the ensemble weights; (ii) a similarity-based weighting where the weights reflect the quality of DA of each target-adapted learner; and (iii) a combination of the stacking and similarity weights. We illustrate the performance of our algorithms with simulations and a data application where the goal is to predict High-density lipoprotein (HDL) cholesterol levels using gut microbiome. We observe a consistent improvement in prediction performance of our multi-source DA algorithm over the routinely used methods in all these scenarios.
翻訳日:2023-12-12 20:48:03 公開日:2023-12-09
# 分節疫学モデルの校正について

On the calibration of compartmental epidemiological models ( http://arxiv.org/abs/2312.05456v1 )

ライセンス: Link先を確認
Nikunj Gupta, Anh Mai, Azza Abouzied and Dennis Shasha(参考訳) 疫学的区分モデルは、伝染病の伝播を理解し、公衆衛生政策決定を指示するのに有用である。 これらのモデルのキャリブレーションは、疾患のダイナミクスと介入の有効性を正確に予測するための重要なステップである。 本研究では,いくつかの最適化手法と強化学習(RL)を含む,適用可能な校正戦略の概要について述べる。 提案手法の利点と欠点を考察し,本実験の実践的結論を明らかにする。 最適化手法はモデル出力が利用可能なデータと一致するまでモデルのパラメータを反復的に調整するが、RLは試行錯誤を用いて報酬信号の最大化によってパラメータの最適セットを学習する。 最後に,疫学的区画モデルのパラメータの校正が,疾患モデリングと公衆衛生意思決定の精度を向上させる可能性を持つ新興分野である可能性について論じる。 異なる疫学的文脈におけるこれらのアプローチの有効性と拡張性を検証するためには、さらなる研究が必要である。 すべてのコードとリソースは \url{https://github.com/Nikunj-Gupta/On-the-Calibration-of-compartmental-Epidemiological-Models} で利用可能である。 この研究が関連研究を促進できることを願っています。

Epidemiological compartmental models are useful for understanding infectious disease propagation and directing public health policy decisions. Calibration of these models is an important step in offering accurate forecasts of disease dynamics and the effectiveness of interventions. In this study, we present an overview of calibrating strategies that can be employed, including several optimization methods and reinforcement learning (RL). We discuss the benefits and drawbacks of these methods and highlight relevant practical conclusions from our experiments. Optimization methods iteratively adjust the parameters of the model until the model output matches the available data, whereas RL uses trial and error to learn the optimal set of parameters by maximizing a reward signal. Finally, we discuss how the calibration of parameters of epidemiological compartmental models is an emerging field that has the potential to improve the accuracy of disease modeling and public health decision-making. Further research is needed to validate the effectiveness and scalability of these approaches in different epidemiological contexts. All codes and resources are available on \url{https://github.com/Nikunj-Gupta/On-the-Calibration-of-Compartmental-Epidemiological-Models}. We hope this work can facilitate related research.
翻訳日:2023-12-12 20:47:44 公開日:2023-12-09
# オープンワールド認識における未知クラスのドメイン識別のためのモデル評価:提案

Model Evaluation for Domain Identification of Unknown Classes in Open-World Recognition: A Proposal ( http://arxiv.org/abs/2312.05454v1 )

ライセンス: Link先を確認
Gusti Ahmad Fanshuri Alfarisy, Owais Ahmed Malik, Ong Wee Hong(参考訳) Open-World Recognition(OWR)は、未知を拒絶し、それらを管理し、基礎知識に新しいサンプルを漸進的に追加する機械学習モデルに有能な新興分野である。 しかし、この幅広い目的は特定のタスクに取り組むエージェントにとって実用的ではない。 将来的にはすべてのサンプルが継続的な学習に使用されるわけではない。 オープン環境におけるいくつかの新しいイメージは、関心領域に属さないかもしれない。 したがって、関心領域における未知の同定は、機械学習モデルが単に重要なサンプルを学ぶために不可欠である。 本研究では,未知のドメイン(ID)と未知のドメイン(OOD)を分離するモデルの性能を評価するための評価プロトコルを提案する。 未知ドメインを持つ3つのアプローチを用いて評価を行い,従来の転送学習,自動機械学習(automl),最寄りクラス平均(ncm)分類器による第1整数隣接クラスタリング階層(finch)による事前学習パラメータを用いた興味領域同定の可能性を示した。 私たちは、ゴミ、食べ物、犬、植物、鳥の5つの異なるドメインを実験しました。 その結果,全てのアプローチを初期ベースラインとして用いることができ,精度がよいことがわかった。 さらに、事前訓練されたモデルから得られたバランスド精度(BACCU)スコアは、1つ以上の関心領域で優れている傾向を示す。 その結果,mobilenetv3はガベージドメインにおいて最も高いbaccuスコアを示し,トランスフォーマーネットワークのような複雑なモデルを超えた。 一方,本研究では,事前学習モデルの強い表現が同一ドメイン内の未知のクラスを特定する上で重要であることを示唆する。 この研究は、未知のクラスの関連性が不可欠であるドメイン固有のタスクにおいて、オープンワールド認識への橋渡しとなるかもしれない。

Open-World Recognition (OWR) is an emerging field that makes a machine learning model competent in rejecting the unknowns, managing them, and incrementally adding novel samples to the base knowledge. However, this broad objective is not practical for an agent that works on a specific task. Not all rejected samples will be used for learning continually in the future. Some novel images in the open environment may not belong to the domain of interest. Hence, identifying the unknown in the domain of interest is essential for a machine learning model to learn merely the important samples. In this study, we propose an evaluation protocol for estimating a model's capability in separating unknown in-domain (ID) and unknown out-of-domain (OOD). We evaluated using three approaches with an unknown domain and demonstrated the possibility of identifying the domain of interest using the pre-trained parameters through traditional transfer learning, Automated Machine Learning (AutoML), and Nearest Class Mean (NCM) classifier with First Integer Neighbor Clustering Hierarchy (FINCH). We experimented with five different domains: garbage, food, dogs, plants, and birds. The results show that all approaches can be used as an initial baseline yielding a good accuracy. In addition, a Balanced Accuracy (BACCU) score from a pre-trained model indicates a tendency to excel in one or more domains of interest. We observed that MobileNetV3 yielded the highest BACCU score for the garbage domain and surpassed complex models such as the transformer network. Meanwhile, our results also suggest that a strong representation in the pre-trained model is important for identifying unknown classes in the same domain. This study could open the bridge toward open-world recognition in domain-specific tasks where the relevancy of the unknown classes is vital.
翻訳日:2023-12-12 20:47:25 公開日:2023-12-09
# 空間量子ビットの電磁相互作用による強調

Dephasing due to electromagnetic interactions in spatial qubits ( http://arxiv.org/abs/2312.05452v1 )

ライセンス: Link先を確認
Martine Schut, Herre Bosma, MengZhi Wu, Marko Toro\v{s}, Sougato Bose and Anupam Mazumdar(参考訳) 微小粒子を持つ物質波干渉計は、古典的な検出器ではできない微小な量子位相情報に敏感であるため、優れた量子センサーである。 干渉計に隣接する2つの微小粒子は、量子重力誘起質量の絡み合い(QGEM)として知られる重力の量子的性質によってのみ絡み合うことができる。 マイクロ粒子はEM相互作用によって絡み合うこともできる。 したがって、そのような干渉計のデコヒーレンス・ノイズ・デファスレートを推定することが不可欠である。 本稿では、電磁相互作用の特定の源泉に焦点を当てる。 私たちはこの相互作用を、嫌悪につながるノイズとして扱います。 物質波干渉計は、アンビエンス中の隣接するイオン(例えば実験カプセル内)と相互作用できる残留電荷を持つと仮定する。 これは、クーロンと外部電荷との相互作用と外部誘電体や双極子との電荷-双極子相互作用による物質-波干渉計の劣化をもたらす。 同様に、誘導双極子電荷、永久双極子電荷、双極子-双極子相互作用を介して、荷電粒子や中性粒子と相互作用できる中性微粒子についても検討する。 これらの相互作用は1つの干渉計と2つの干渉計に電磁駆動による位相差を構成する。 我々は,QGEM実験の関連性について論じ,C-NOTゲートに影響を及ぼす荷電マイクロ粒子の絡み合った状態のノイズについて考察する。

Matter-wave interferometers with micro-particles are excellent quantum sensors as they can be sensitive to a minute quantum phase information, which a classical detector cannot. Two such adjacent micro-particles in the interferometers can be entangled solely via the quantum nature of gravity known as the quantum gravity-induced entanglement of masses (QGEM) protocol. The micro-particles can also be entangled via EM interactions. Therefore, it is essential to estimate the decoherence, noise/dephasing rate for such interferometers. In this paper, we will focus on a particular source of an electromagnetic interaction. We will treat this interaction as a noise which will lead to dephasing. We assume that our matter-wave interferometer has a residual charge which can interact with a neighbouring ion in the ambience, e.g., inside the experimental capsule. This will provide dephasing of the matter-wave interferometer due to the Coulomb interaction with external charges and the charge-dipole interaction with external dielectrics or dipoles. Similarly, we will consider neutral micro-particles, which can interact with charged and/or neutral particles in the ambience via induced dipole-charge, permanent dipole-charge, and dipole-dipole interactions. All these interactions constitute electromagnetically driven dephasing to a single and a twin interferometer. We will discuss their relevance for the QGEM experiment and provide insight into the noise of an entangled state for charged micro-particles kept adjacently with an implication for the C-NOT gate.
翻訳日:2023-12-12 20:46:52 公開日:2023-12-09
# TALDS-Net:Few-shot画像分類のためのタスク対応ローカル記述子の選択

TALDS-Net: Task-Aware Adaptive Local Descriptors Selection for Few-shot Image Classification ( http://arxiv.org/abs/2312.05449v1 )

ライセンス: Link先を確認
Qian Qiao, Yu Xie, Ziyin Zeng, Fanzhang Li(参考訳) 少ない画像分類は、見知らぬ新しいクラスを少数のサンプルで分類することを目的としている。 最近の研究では、ディープローカルディスクリプタは画像レベルの機能に比べて表現能力が強化されていることが示されている。 しかし、既存のほとんどのメソッドは、すべてのローカルディスクリプタを採用するか、あるいは部分ディスクリプタを直接利用するかにのみ依存しているため、重要な情報が失われる可能性がある。 さらに、これらのメソッドは主に、サポート記述子を見下ろしながらクエリ記述子の選択を強調する。 本稿では,タスクアウェアサポート記述子とクエリ記述子を適応的に選択する能力を示す,新しいタスクアウェア対応ローカル記述子選択ネットワーク(talds-net)を提案する。 具体的には、各ローカルサポート記述子と他のローカルサポート記述子との類似性を比較し、最適なサポート記述子サブセットを取得し、その後、クエリ記述子と最適なサポートサブセットを比較して判別クエリ記述子を得る。 我々のTALDS-Netは、一般的なデータセットときめ細かいデータセットの両方で最先端の手法より優れています。

Few-shot image classification aims to classify images from unseen novel classes with few samples. Recent works demonstrate that deep local descriptors exhibit enhanced representational capabilities compared to image-level features. However, most existing methods solely rely on either employing all local descriptors or directly utilizing partial descriptors, potentially resulting in the loss of crucial information. Moreover, these methods primarily emphasize the selection of query descriptors while overlooking support descriptors. In this paper, we propose a novel Task-Aware Adaptive Local Descriptors Selection Network (TALDS-Net), which exhibits the capacity for adaptive selection of task-aware support descriptors and query descriptors. Specifically, we compare the similarity of each local support descriptor with other local support descriptors to obtain the optimal support descriptor subset and then compare the query descriptors with the optimal support subset to obtain discriminative query descriptors. Extensive experiments demonstrate that our TALDS-Net outperforms state-of-the-art methods on both general and fine-grained datasets.
翻訳日:2023-12-12 20:46:30 公開日:2023-12-09
# 静的から動的へ:映像における表情認識のためのランドマーク対応画像モデル

From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos ( http://arxiv.org/abs/2312.05447v1 )

ライセンス: Link先を確認
Yin Chen, Jia Li, Shiguang Shan, Meng Wang and Richang Hong(参考訳) 野生における動的表情認識(DFER)は、例えば、ポーズの量や多様性、隠蔽、照明の不足、および表情の本来のあいまいさなど、データ制限によって依然として妨げられている。 対照的に、静的表情認識(SFER)は、現在、はるかに高いパフォーマンスを示し、より豊富な高品質のトレーニングデータから恩恵を受けることができる。 さらに、DFERの外観の特徴と動的依存関係は、まだほとんど解明されていない。 これらの課題に対処するために,既存のSFER知識と,抽出した顔のランドマーク認識機能に暗黙的に符号化された動的情報を活用し,DFER性能を大幅に向上する新しい静的・動的モデル(S2D)を提案する。 まず、標準ビジョントランスフォーマ(ViT)とマルチビュー補完プロンプタ(MCP)のみを組み込んだSFERの画像モデルを構築し、訓練する。 そして,画像モデルに時間モデル適応器(TMA)を挿入することにより,DFERのためのビデオモデル(S2D)を得る。 MCPは、市販の顔ランドマーク検出器によって推測されるランドマークを意識した表情特徴を増強する。 そして、TMAは表情の動的変化の関係を捉え、モデル化し、ビデオの事前学習画像モデルを効果的に拡張する。 特に、MPPとTMAは、トレーニング可能なパラメータのごく一部(+10\%未満)を元の画像モデルにのみ増加させる。 さらに,不明瞭な感情ラベルの有害影響を低減し,s2dをさらに高めるために,自己蒸留損失に基づく新しい感情アンカー(各感情カテゴリの参照サンプル)を提案する。 人気のあるsferデータセットとdferデータセットで行った実験は、我々は芸術の状態を成し遂げたことを示している。

Dynamic facial expression recognition (DFER) in the wild is still hindered by data limitations, e.g., insufficient quantity and diversity of pose, occlusion and illumination, as well as the inherent ambiguity of facial expressions. In contrast, static facial expression recognition (SFER) currently shows much higher performance and can benefit from more abundant high-quality training data. Moreover, the appearance features and dynamic dependencies of DFER remain largely unexplored. To tackle these challenges, we introduce a novel Static-to-Dynamic model (S2D) that leverages existing SFER knowledge and dynamic information implicitly encoded in extracted facial landmark-aware features, thereby significantly improving DFER performance. Firstly, we build and train an image model for SFER, which incorporates a standard Vision Transformer (ViT) and Multi-View Complementary Prompters (MCPs) only. Then, we obtain our video model (i.e., S2D), for DFER, by inserting Temporal-Modeling Adapters (TMAs) into the image model. MCPs enhance facial expression features with landmark-aware features inferred by an off-the-shelf facial landmark detector. And the TMAs capture and model the relationships of dynamic changes in facial expressions, effectively extending the pre-trained image model for videos. Notably, MCPs and TMAs only increase a fraction of trainable parameters (less than +10\%) to the original image model. Moreover, we present a novel Emotion-Anchors (i.e., reference samples for each emotion category) based Self-Distillation Loss to reduce the detrimental influence of ambiguous emotion labels, further enhancing our S2D. Experiments conducted on popular SFER and DFER datasets show that we achieve the state of the art.
翻訳日:2023-12-12 20:46:13 公開日:2023-12-09
# スケーラブルで高速なシミュレーションベース推論のための一貫性モデル

Consistency Models for Scalable and Fast Simulation-Based Inference ( http://arxiv.org/abs/2312.05440v1 )

ライセンス: Link先を確認
Marvin Schmitt, Valentin Pratz, Ullrich K\"othe, Paul-Christian B\"urkner, Stefan T Radev(参考訳) シミュレーションベース推論(sbi)は、ノイズデータから複雑なモデルのパラメータを正確に推測するために、より表現力のあるアルゴリズムを常に探している。 本稿では,ニューラルリテラル推定(CMPE)のための一貫性モデルを提案する。 cmpeは、フローとフローマッチングメソッドを単一の生成アーキテクチャに正規化することの利点を組み合わせる: 本質的には、連続的な確率フローを蒸留し、推定問題の構造に合わせた制約のないアーキテクチャで、短時間の少数ショット推論を可能にする。 実験結果から,cmpeは3つの難易度低次元問題に対する最先端アルゴリズムよりも優れるだけでなく,高次元ベイズ分断実験や多次元腫瘍スフェロイド増殖モデルにおける競合性能も向上することが示された。

Simulation-based inference (SBI) is constantly in search of more expressive algorithms for accurately inferring the parameters of complex models from noisy data. We present consistency models for neural posterior estimation (CMPE), a new free-form conditional sampler for scalable, fast, and amortized SBI with generative neural networks. CMPE combines the advantages of normalizing flows and flow matching methods into a single generative architecture: It essentially distills a continuous probability flow and enables rapid few-shot inference with an unconstrained architecture that can be tailored to the structure of the estimation problem. Our empirical evaluation demonstrates that CMPE not only outperforms current state-of-the-art algorithms on three hard low-dimensional problems, but also achieves competitive performance in a high-dimensional Bayesian denoising experiment and in estimating a computationally demanding multi-scale model of tumor spheroid growth.
翻訳日:2023-12-12 20:45:41 公開日:2023-12-09
# 意味コミュニケーションのためのレートゆらぎ知覚理論

Rate-Distortion-Perception Theory for Semantic Communication ( http://arxiv.org/abs/2312.05437v1 )

ライセンス: Link先を確認
Jingxuan Chai, Yong Xiao, Guangming Shi, and Walid Saad(参考訳) 近年、ホログラフィー通信、eXtended Reality(XR)、人間と機械の相互作用といった、ユーザ定義および人間指向のコミュニケーションサービスに対する急速な需要を満たす能力によって、セマンティックコミュニケーションは大きな関心を集めている。 残念ながら、近年の研究では、従来のシャノン情報理論は、主に意味不明なシンボルを提供することに焦点を当てており、受信側で回収されたメッセージのセマンティックレベルの知覚品質を調べるには不十分であると示唆されている。 本稿では,シンボル歪みおよび意味知覚制約下でのセマンティックコミュニケーションの達成可能なデータレートについて検討する。 意味情報には通常エンコーダが直接観察することができない豊かな内在的知識が関与しているという事実に動機づけられ、エンコーダによって間接的にしか知覚できない意味的情報源を考える。 エンコーダとデコーダの両方が、ユーザの通信嗜好と密接に関連している可能性のある様々なサイド情報にアクセスすることができる。 データレート、シンボル歪み、意味知覚の間のトレードオフを特徴付ける達成可能領域を導出し、確率的符号化方式によって理論的に達成可能であることが証明される。 任意の歪みや知覚の制約の下で二項意味情報ソースに対して、クローズドフォーム実現率を導出する。 我々は,送信者からのデータ通信を必要とせずに,特定の歪みや知覚制約を満たす意味情報ソースを直接推測できるケースが存在することを観察した。 画像意味源信号に基づく実験結果は、我々の理論的観察を検証するために提示された。

Semantic communication has attracted significant interest recently due to its capability to meet the fast growing demand on user-defined and human-oriented communication services such as holographic communications, eXtended reality (XR), and human-to-machine interactions. Unfortunately, recent study suggests that the traditional Shannon information theory, focusing mainly on delivering semantic-agnostic symbols, will not be sufficient to investigate the semantic-level perceptual quality of the recovered messages at the receiver. In this paper, we study the achievable data rate of semantic communication under the symbol distortion and semantic perception constraints. Motivated by the fact that the semantic information generally involves rich intrinsic knowledge that cannot always be directly observed by the encoder, we consider a semantic information source that can only be indirectly sensed by the encoder. Both encoder and decoder can access to various types of side information that may be closely related to the user's communication preference. We derive the achievable region that characterizes the tradeoff among the data rate, symbol distortion, and semantic perception, which is then theoretically proved to be achievable by a stochastic coding scheme. We derive a closed-form achievable rate for binary semantic information source under any given distortion and perception constraints. We observe that there exists cases that the receiver can directly infer the semantic information source satisfying certain distortion and perception constraints without requiring any data communication from the transmitter. Experimental results based on the image semantic source signal have been presented to verify our theoretical observations.
翻訳日:2023-12-12 20:45:19 公開日:2023-12-09
# データ合成におけるスケーラビリティ、プライバシ、パフォーマンスのトレードオフ

Trading Off Scalability, Privacy, and Performance in Data Synthesis ( http://arxiv.org/abs/2312.05436v1 )

ライセンス: Link先を確認
Xiao Ling, Tim Menzies, Christopher Hazard, Jack Shu, Jacob Beel(参考訳) 合成データは近年,現実世界に広く応用されている。 典型的な例として、プライバシーに関するデータセットのための合成データの作成がある。 このシナリオでは、合成データは、プライバシ情報を含む実際のデータを置換し、機械学習モデルの公開テストに使用される。 もうひとつの典型的な例は、機械学習モデルをトレーニングする際の正と負の比率のバランスをとるために、少数サンプルの領域で合成データが生成されるアンバランスデータオーバーサンプリングである。 本研究では,最初の例に集中して紹介する。 (a)ハウソーエンジン、及び b) ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。 これら2つのアルゴリズムを,プライバシの保存と正確性の観点から評価し,最新のデータ生成アルゴリズムであるdatasynthesizerとsynthecture data vaultと比較した。 howsoエンジンが生成する合成データは、プライバシーと正確性が良好であり、総合スコアが最高であることを示す。 一方,提案するランダム投影ベースフレームワークは,最高精度スコアの合成データを生成することができ,スケーラビリティが最速である。

Synthetic data has been widely applied in the real world recently. One typical example is the creation of synthetic data for privacy concerned datasets. In this scenario, synthetic data substitute the real data which contains the privacy information, and is used to public testing for machine learning models. Another typical example is the unbalance data over-sampling which the synthetic data is generated in the region of minority samples to balance the positive and negative ratio when training the machine learning models. In this study, we concentrate on the first example, and introduce (a) the Howso engine, and (b) our proposed random projection based synthetic data generation framework. We evaluate these two algorithms on the aspects of privacy preservation and accuracy, and compare them to the two state-of-the-art synthetic data generation algorithms DataSynthesizer and Synthetic Data Vault. We show that the synthetic data generated by Howso engine has good privacy and accuracy, which results the best overall score. On the other hand, our proposed random projection based framework can generate synthetic data with highest accuracy score, and has the fastest scalability.
翻訳日:2023-12-12 20:44:54 公開日:2023-12-09
# プロヴァンス関連分布シフト下における基礎モデル表現のロバスト性向上

Enhancing Robustness of Foundation Model Representations under Provenance-related Distribution Shifts ( http://arxiv.org/abs/2312.05435v1 )

ライセンス: Link先を確認
Xiruo Ding, Zhecheng Sheng, Brian Hur, Feng Chen, Serguei V. S. Pakhomov, Trevor Cohen(参考訳) 基礎モデルは現在、産業と学界の両方で注目されている。 彼らは様々なタスクでその能力を示したが、教師付き機械学習の基礎として使用する場合、分散シフトに対する堅牢性を決定するために詳細な研究が必要である。 これは臨床データの文脈において特に重要であり、特にデータアクセシビリティ、事前学習素材の欠如、高品質なアノテーションの可用性に制限がある。 本研究では,分布シフト下における基礎モデルからの表現に基づくモデルの安定性について検討する。 我々は,ソース固有の言語使用とクラス分布の違いがある場合,複数機関のデータセットの文脈に現れる分布シフトの形式であるprofanceによるコンバウンディングに焦点をあてる。 分布変化の程度を合成的に誘導するサンプリング戦略を用いて,基礎モデルからの表現が生成物による結合に本質的に頑健な予測を生じさせる程度を評価する。 さらに,Pearlのバックドア調整の概念にインスパイアされた簡易なコンファウンディング調整手法の有効性について検討した。 以上の結果から, 基盤モデルでは, 供給単位の分散シフトに対する頑健性が示されたが, 調整により大幅に改善される可能性が示唆された。 これらの結果から,ソース固有分布差の文脈における基礎モデルからの表現を用いた予測モデルの意図的な調整の必要性が示唆された。

Foundation models are a current focus of attention in both industry and academia. While they have shown their capabilities in a variety of tasks, in-depth research is required to determine their robustness to distribution shift when used as a basis for supervised machine learning. This is especially important in the context of clinical data, with particular limitations related to data accessibility, lack of pretraining materials, and limited availability of high-quality annotations. In this work, we examine the stability of models based on representations from foundation models under distribution shift. We focus on confounding by provenance, a form of distribution shift that emerges in the context of multi-institutional datasets when there are differences in source-specific language use and class distributions. Using a sampling strategy that synthetically induces varying degrees of distribution shift, we evaluate the extent to which representations from foundation models result in predictions that are inherently robust to confounding by provenance. Additionally, we examine the effectiveness of a straightforward confounding adjustment method inspired by Pearl's conception of backdoor adjustment. Results indicate that while foundation models do show some out-of-the-box robustness to confounding-by-provenance related distribution shifts, this can be considerably improved through adjustment. These findings suggest a need for deliberate adjustment of predictive models using representations from foundation models in the context of source-specific distributional differences.
翻訳日:2023-12-12 20:44:37 公開日:2023-12-09
# 表面下: 大きな言語モデルから蒸留したマルチモーダル推論による有害なミームの公開

Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning Distilled from Large Language Models ( http://arxiv.org/abs/2312.05434v1 )

ライセンス: Link先を確認
Hongzhan Lin, Ziyang Luo, Jing Ma and Long Chen(参考訳) ソーシャルメディアの時代はミームで溢れている。 有害なミームの理解と検出は、表面のテキストや画像を通して明示的に伝達されない暗黙の意味のため、大きな課題となる。 しかし, 既存の有害ミーム検出手法は, 端から端までの分類において, 表面的有害信号のみを認識するが, ミームテキストや画像の深い認識を無視する。 本稿では,マルチモーダル情報の相互作用に関する高度な推論に基づいて,有害ミームの検出を試みる。 複雑な推論におけるLarge Language Models (LLMs) の成功に触発されて, まず LLM を用いて帰納的推論を行う。 次に,LLMから適切な思考を学習し,より優れたマルチモーダル融合と軽量微調整を実現するための新しい生成フレームワークを提案する。 1)LLMからの多モーダル推論知識の希薄化,及び 2) 有害性を推測するための生成枠組みを微調整する。 3つのミームデータセットを用いた実験により,提案手法は有害ミーム検出タスクの最先端手法よりも優れた性能を示すことが示された。

The age of social media is rife with memes. Understanding and detecting harmful memes pose a significant challenge due to their implicit meaning that is not explicitly conveyed through the surface text and image. However, existing harmful meme detection approaches only recognize superficial harm-indicative signals in an end-to-end classification manner but ignore in-depth cognition of the meme text and image. In this paper, we attempt to detect harmful memes based on advanced reasoning over the interplay of multimodal information in memes. Inspired by the success of Large Language Models (LLMs) on complex reasoning, we first conduct abductive reasoning with LLMs. Then we propose a novel generative framework to learn reasonable thoughts from LLMs for better multimodal fusion and lightweight fine-tuning, which consists of two training stages: 1) Distill multimodal reasoning knowledge from LLMs; and 2) Fine-tune the generative framework to infer harmfulness. Extensive experiments conducted on three meme datasets demonstrate that our proposed approach achieves superior performance than state-of-the-art methods on the harmful meme detection task.
翻訳日:2023-12-12 20:44:08 公開日:2023-12-09
# 文法推論を用いた確率的直接追従プロセス探索

Stochastic Directly-Follows Process Discovery Using Grammatical Inference ( http://arxiv.org/abs/2312.05433v1 )

ライセンス: Link先を確認
Hanan Alkhammash and Artem Polyvyanyy and Alistair Moffat(参考訳) プロセスの実行によって生成されるトレースのコレクションから始めると、プロセス発見はプロセスを記述するシンプルなモデルを構築するタスクである。 プロセス発見の課題は、プロセスが未知であり、入力トレースがプロセス実行の肯定的な例を構成するが、否定的な例は存在しないことである。 多くの商用ツールが直接フォローグラフを発見し、ノードがプロセスのオブザーバブルなアクションを表し、有向アークがアクションの実行順序を示す。 本稿では,入力トレースに対する文法的推論を基礎とした直接追従グラフの探索手法を提案する。 プロセスを正確に記述する小さなグラフの発見を促進するために, 推論パラメータの収束を支援する遺伝的アルゴリズムを, 興味深いモデルの発見につながる領域に設計し, 評価する。 実世界のデータセットに対する実験により、我々の新しいアプローチは入力トレースとその周波数を最先端技術よりも正確に表現できる小さなモデルを構築することができることを確認した。 符号化されたトレースの周波数に対する推論は、我々が提案するアクショングラフの確率的意味論により可能となり、これが初めて、アクショントレースの確率的言語を記述するモデルとして解釈される。

Starting with a collection of traces generated by process executions, process discovery is the task of constructing a simple model that describes the process, where simplicity is often measured in terms of model size. The challenge of process discovery is that the process of interest is unknown, and that while the input traces constitute positive examples of process executions, no negative examples are available. Many commercial tools discover Directly-Follows Graphs, in which nodes represent the observable actions of the process, and directed arcs indicate execution order possibilities over the actions. We propose a new approach for discovering sound Directly-Follows Graphs that is grounded in grammatical inference over the input traces. To promote the discovery of small graphs that also describe the process accurately we design and evaluate a genetic algorithm that supports the convergence of the inference parameters to the areas that lead to the discovery of interesting models. Experiments over real-world datasets confirm that our new approach can construct smaller models that represent the input traces and their frequencies more accurately than the state-of-the-art technique. Reasoning over the frequencies of encoded traces also becomes possible, due to the stochastic semantics of the action graphs we propose, which, for the first time, are interpreted as models that describe the stochastic languages of action traces.
翻訳日:2023-12-12 20:43:49 公開日:2023-12-09
# 全スライド画像分類のためのシェープ値対応プログレッシブプログレッシブPseudo Bag Augmentation

Shapley Values-enabled Progressive Pseudo Bag Augmentation for Whole Slide Image Classification ( http://arxiv.org/abs/2312.05490v1 )

ライセンス: Link先を確認
Renao Yan, Qiehe Sun, Cheng Jin, Yiqing Liu, Yonghong He, Tian Guan, Hao Chen(参考訳) 計算病理学において、全スライド画像(WSI)分類は、そのギガピクセル解像度と制限された細かいアノテーションのため、非常に難しい課題である。 多重インスタンス学習(MIL)は、弱教師付きソリューションを提供するが、バッグレベルのラベルからインスタンスレベルの情報を精製することは複雑である。 従来のMIL手法のほとんどは、スライディングラベルの予測に寄与するインスタンス重要度スコア(IIS)を推定するために注意スコアを使用するが、これらは重要なインスタンスを特定する際に注意分布や不正確な結果をもたらすことが多い。 そこで本研究では,協調ゲーム理論に着想を得た新たなアプローチを提案する。シャプレー値を用いて各インスタンスの寄与度を評価し,iis推定を改善する。 次に、Shapley値の計算を注意して高速化し、強化されたインスタンス識別と優先順位付けを保持する。 さらに、推定IISに基づく疑似バッグのプログレッシブ割り当てのためのフレームワークを導入し、MILモデルにおけるよりバランスのとれた注意分布を奨励する。 CAMELYON-16, BRACS, TCGA-LUNGデータセットに関する広範な実験は、既存の最先端アプローチよりもメソッドが優れていることを示す。 受け入れ次第、コードをリリースします。

In computational pathology, whole slide image (WSI) classification presents a formidable challenge due to its gigapixel resolution and limited fine-grained annotations. Multiple instance learning (MIL) offers a weakly supervised solution, yet refining instance-level information from bag-level labels remains complex. While most of the conventional MIL methods use attention scores to estimate instance importance scores (IIS) which contribute to the prediction of the slide labels, these often lead to skewed attention distributions and inaccuracies in identifying crucial instances. To address these issues, we propose a new approach inspired by cooperative game theory: employing Shapley values to assess each instance's contribution, thereby improving IIS estimation. The computation of the Shapley value is then accelerated using attention, meanwhile retaining the enhanced instance identification and prioritization. We further introduce a framework for the progressive assignment of pseudo bags based on estimated IIS, encouraging more balanced attention distributions in MIL models. Our extensive experiments on CAMELYON-16, BRACS, and TCGA-LUNG datasets show our method's superiority over existing state-of-the-art approaches, offering enhanced interpretability and class-wise insights. We will release the code upon acceptance.
翻訳日:2023-12-12 20:37:34 公開日:2023-12-09
# 大規模言語モデルはゲーム理論において合理的プレイヤーとして生き残るか? 系統解析

Can Large Language Models Serve as Rational Players in Game Theory? A Systematic Analysis ( http://arxiv.org/abs/2312.05488v1 )

ライセンス: Link先を確認
Caoyun Fan, Jindou Chen, Yaohui Jin, Hao He(参考訳) 分析ツールとしてのゲーム理論は、社会科学研究において人間の行動を分析するために頻繁に用いられる。 LLM(Large Language Models)と人間(Human)の行動の整合性が高いことから,ゲーム実験における人間の代用としてLLMを採用することが期待できる。 しかし、LLMとゲーム理論の組み合わせに関する多くの実証的研究にもかかわらず、ゲーム理論におけるLLMの能力境界は未だ不明である。 本研究では,ゲーム理論の文脈でLLMを体系的に解析する。 具体的には、合理性はゲーム理論の基本原理として、プレイヤーの行動を評価する指標として機能し、明確な欲求を構築し、不確実性に対する信念を洗練し、最適な行動を取る。 そこで,従来の3つのゲーム(ディクターゲーム,ロックペーパーシッサ,リングネットワークゲーム)を選択し,これら3つの側面においてllmがどの程度合理性を達成できるかを分析する。 実験結果から,現在最先端のLDM (GPT-4) でさえ,ゲーム理論における人間とはかなり異なることが示唆された。 例えば、llmは一般的でない好みに基づいて欲望を構築するのに苦労し、多くの単純なパターンからの信条の洗練に失敗し、アクションを取るときに洗練された信条を見落としたり修正したりする。 したがって,社会科学の分野でのゲーム実験にLSMを導入するには,より注意が必要である。

Game theory, as an analytical tool, is frequently utilized to analyze human behavior in social science research. With the high alignment between the behavior of Large Language Models (LLMs) and humans, a promising research direction is to employ LLMs as substitutes for humans in game experiments, enabling social science research. However, despite numerous empirical researches on the combination of LLMs and game theory, the capability boundaries of LLMs in game theory remain unclear. In this research, we endeavor to systematically analyze LLMs in the context of game theory. Specifically, rationality, as the fundamental principle of game theory, serves as the metric for evaluating players' behavior -- building a clear desire, refining belief about uncertainty, and taking optimal actions. Accordingly, we select three classical games (dictator game, Rock-Paper-Scissors, and ring-network game) to analyze to what extent LLMs can achieve rationality in these three aspects. The experimental results indicate that even the current state-of-the-art LLM (GPT-4) exhibits substantial disparities compared to humans in game theory. For instance, LLMs struggle to build desires based on uncommon preferences, fail to refine belief from many simple patterns, and may overlook or modify refined belief when taking actions. Therefore, we consider that introducing LLMs into game experiments in the field of social science should be approached with greater caution.
翻訳日:2023-12-12 20:37:09 公開日:2023-12-09
# グラフェンナノリボンのキラル対称性の破れとトポロジカル電荷

Chiral symmetry breaking and topological charge of graphene nanoribbons ( http://arxiv.org/abs/2312.05487v1 )

ライセンス: Link先を確認
Hyun Cheol Lee and S.-R. Eric Yang(参考訳) 2つのジグザグ縁と2つのアームチェア縁を有する長方形グラフェンナノリボンのエッジ特性について検討した。 自己整合Hartree-Fock場はキラル対称性を破るが、グラフェンナノリボンは短距離交絡対称性保護型トポロジカル絶縁体としての地位を維持していることを示す。 関連する対称性は、ミラーと時間反転演算を組み合わせたものである。 エッジ強磁性を示す非ドープリボンでは、バンドギャップエッジはジグザグエッジ上に位相電荷形式で状態する。 異常連続性方程式の解析により、このトポロジカル電荷はギャップ項によって誘導される。 基底状態がエッジスピン密度波を示す低ドープジグザグリボンでは、このトポロジカル電荷はほぼゼロエネルギーエッジモードとして現れる。

We explore the edge properties of rectangular graphene nanoribbons featuring two zigzag edges and two armchair edges. Although the self-consistent Hartree-Fock fields break chiral symmetry, our work demonstrates that graphene nanoribbons maintain their status as short-range entangled symmetry-protected topological insulators. The relevant symmetry involves combined mirror and time-reversal operations. In undoped ribbons displaying edge ferromagnetism, the band gap edge states with a topological charge form on the zigzag edges. An analysis of the anomalous continuity equation elucidates that this topological charge is induced by the gap term. In low-doped zigzag ribbons, where the ground state exhibits edge spin density waves, this topological charge appears as a nearly zero-energy edge mode.
翻訳日:2023-12-12 20:36:44 公開日:2023-12-09
# freeflow:最適輸送による拡散確率モデルに関する包括的理解

FreeFlow: A Comprehensive Understanding on Diffusion Probabilistic Models via Optimal Transport ( http://arxiv.org/abs/2312.05486v1 )

ライセンス: Link先を確認
Bowen Sun, Shibao Zheng(参考訳) blooming diffusion probabilistic models (dpms) は、その印象的な性能と物理学からの優雅な着想によって、大きな関心を集めている。 初期のDPMはマルコフの仮定に依存していたが、微分方程式に基づく最近の手法はこれらのモデルの効率性と能力を高めるために急速に適用されてきた。 しかし、これらの多様なアルゴリズムをカプセル化する理論的解釈は、DPMのさらなる発展を導くには不十分である。 このニーズに対応するために、我々は拡散公式を時間依存最適輸送として詳細に説明するフレームワークであるfreeflow を提示し、そこで確率密度の進化パターンは、ワッサーシュタイン空間で定義される関数の勾配フローによって与えられる。 重要なことは、我々のフレームワークは、DPMの微妙なメカニズムを解明するだけでなく、確率フローの進化を理解するためにラグランジアンとユーレリアの視点の創造的な関与を通して、いくつかの欠陥の根源を示す統一的な記述を必要とする。 特に,自由流のコア方程式がすべての確率的かつ決定論的dpmを1つのケースに凝縮することを示し,本手法の拡張性を示す。 さらに、本研究で採用されているリーマン幾何学は、数学におけるより広い主題を橋渡しする可能性を持ち、将来より卓越的で一般化されたモデルを確立するためのより深いツールの関与を可能にする。

The blooming diffusion probabilistic models (DPMs) have garnered significant interest due to their impressive performance and the elegant inspiration they draw from physics. While earlier DPMs relied upon the Markovian assumption, recent methods based on differential equations have been rapidly applied to enhance the efficiency and capabilities of these models. However, a theoretical interpretation encapsulating these diverse algorithms is insufficient yet pressingly required to guide further development of DPMs. In response to this need, we present FreeFlow, a framework that provides a thorough explanation of the diffusion formula as time-dependent optimal transport, where the evolutionary pattern of probability density is given by the gradient flows of a functional defined in Wasserstein space. Crucially, our framework necessitates a unified description that not only clarifies the subtle mechanism of DPMs but also indicates the roots of some defects through creative involvement of Lagrangian and Eulerian views to understand the evolution of probability flow. We particularly demonstrate that the core equation of FreeFlow condenses all stochastic and deterministic DPMs into a single case, showcasing the expansibility of our method. Furthermore, the Riemannian geometry employed in our work has the potential to bridge broader subjects in mathematics, which enable the involvement of more profound tools for the establishment of more outstanding and generalized models in the future.
翻訳日:2023-12-12 20:36:29 公開日:2023-12-09
# BERTを用いたチームワーク次元分類

Teamwork Dimensions Classification Using BERT ( http://arxiv.org/abs/2312.05483v1 )

ライセンス: Link先を確認
Junyoung Lee and Elizabeth Koh(参考訳) チームワークは、しばしば不適切な評価を受ける学生にとって必要な能力である。 学生チームワークの形式的評価の提供を目的として、学生のオンラインチームチャットのチームワーク次元を特定するために、自然言語処理の自動化アプローチが開発された。 自然言語処理と人工知能の分野の発展は、テキストの文脈をより深く理解することを可能にするトランスフォーマー(bert)モデルからの双方向エンコーダ表現という、高度なディープラーニングアプローチを生み出した。 従来の機械学習アルゴリズムは、チャットメッセージを異なるチームワーク次元に自動分類するために用いられてきたが、我々の研究結果は、事前訓練された言語モデルに基づいた分類器が、様々なチームチャットコンテキストやチームメンバーの言語使用における一般化可能性だけでなく、より優れた分類性能を提供することを示した。 このモデルは、チームワークの評価とフィードバックのための強化された学習分析ツールに貢献する。

Teamwork is a necessary competency for students that is often inadequately assessed. Towards providing a formative assessment of student teamwork, an automated natural language processing approach was developed to identify teamwork dimensions of students' online team chat. Developments in the field of natural language processing and artificial intelligence have resulted in advanced deep transfer learning approaches namely the Bidirectional Encoder Representations from Transformers (BERT) model that allow for more in-depth understanding of the context of the text. While traditional machine learning algorithms were used in the previous work for the automatic classification of chat messages into the different teamwork dimensions, our findings have shown that classifiers based on the pre-trained language model BERT provides improved classification performance, as well as much potential for generalizability in the language use of varying team chat contexts and team member demographics. This model will contribute towards an enhanced learning analytics tool for teamwork assessment and feedback.
翻訳日:2023-12-12 20:36:03 公開日:2023-12-09
# BARET : 目標テキストインバージョンによる平衡注意に基づく実画像編集

BARET : Balanced Attention based Real image Editing driven by Target-text Inversion ( http://arxiv.org/abs/2312.05482v1 )

ライセンス: Link先を確認
Yuming Qiao, Fanyi Wang, Jingwen Su, Yanhao Zhang, Yunjie Yu, Siyu Wu, Guo-Jun Qi(参考訳) 拡散モデルを用いた画像編集手法は急速に開発されているが、その適用性は特定の編集タイプ(前景や背景オブジェクトの編集、スタイル転送など)、複数の条件(マスク、スケッチ、キャプションなど)、拡散モデルの微調整時間といった要件に満ちている。 これらの制限を緩和し、効率的な実画像編集を実現するため、細分化拡散モデルを用いず、非剛性編集を含む様々な編集タイプの入力画像と対象テキストのみを必要とする新しい編集手法を提案する。 i) 目標テキスト反転スケジュール (ttis) は, 画像キャプションや収束の促進を伴わない高速画像再構成を実現するために, 入力対象テキスト埋め込みを微調整するように設計されている。 (II) プログレッシブ・トランジション・スキームは、ターゲットテキストの埋め込みと微調整されたバージョンの間の進行線形補間を適用し、非厳密な編集能力を維持するための遷移埋め込みを生成する。 (III) テキスト記述と画像セマンティクスのトレードオフをバランスさせ, 変換プロセスからの自己認識マップと遷移プロセスからの相互認識マップを組み合わせることで, 拡散プロセスにおける目標テキスト埋め込みのガイダンスを最適化し, 提案したBARETの編集能力, 有効性, 有効性を示すために, 広範囲な定性的, 定量的実験を行った。 また,ユーザ研究とアブレーション研究の結果から,他の方法よりも優れていることが証明された。

Image editing approaches with diffusion models have been rapidly developed, yet their applicability are subject to requirements such as specific editing types (e.g., foreground or background object editing, style transfer), multiple conditions (e.g., mask, sketch, caption), and time consuming fine-tuning of diffusion models. For alleviating these limitations and realizing efficient real image editing, we propose a novel editing technique that only requires an input image and target text for various editing types including non-rigid edits without fine-tuning diffusion model. Our method contains three novelties:(I) Target-text Inversion Schedule (TTIS) is designed to fine-tune the input target text embedding to achieve fast image reconstruction without image caption and acceleration of convergence.(II) Progressive Transition Scheme applies progressive linear interpolation between target text embedding and its fine-tuned version to generate transition embedding for maintaining non-rigid editing capability.(III) Balanced Attention Module (BAM) balances the tradeoff between textual description and image semantics.By the means of combining self-attention map from reconstruction process and cross-attention map from transition process, the guidance of target text embeddings in diffusion process is optimized.In order to demonstrate editing capability, effectiveness and efficiency of the proposed BARET, we have conducted extensive qualitative and quantitative experiments. Moreover, results derived from user study and ablation study further prove the superiority over other methods.
翻訳日:2023-12-12 20:35:45 公開日:2023-12-09
# グラフトランスフォーマーにおけるスパーシティの探求

Exploring Sparsity in Graph Transformers ( http://arxiv.org/abs/2312.05479v1 )

ライセンス: Link先を確認
Chuang Liu, Yibing Zhan, Xueqi Ma, Liang Ding, Dapeng Tao, Jia Wu, Wenbin Hu, Bo Du(参考訳) グラフ変換器(GT)は、様々なグラフ関連タスクにおいて印象的な結果を得た。 しかし、GTsの膨大な計算コストは、特に資源制約のある環境でのデプロイメントと応用を妨げる。 そこで,本稿では,未探索の重要トピックであるスパーシフィケーションGTの実現可能性について検討する。 まず、既存のGTモデルの特徴に基づいてGTの冗長性を議論し、入力グラフデータ、アテンションヘッド、モデルレイヤー、モデルウェイトといったGTの計算複雑性を4次元から低減するのに役立つ包括的 \textbf{G}raph \textbf{T}ransformer \textbf{SP}arsification (GTSP) フレームワークを提案する。 具体的には、GTSPは各圧縮可能なコンポーネントごとに異なるマスクを設計し、効率的なエンドツーエンドのプルーニングを可能にする。 我々はGTSPについて,GraphTrans,Graphormer,GraphGPSなどの著名なGTの広範な実験を通して検討する。 実験の結果、GTSPは計算コストを効果的に削減し、精度が限界に低下したり、場合によっては改善される。 例えば、GTSPは浮動小数点演算において30\%の削減を達成し、OGBG-HIVデータセット上の曲線精度の下での面積の1.8\%の増加に貢献している。 さらに,この領域における今後の研究を刺激する大きな可能性を秘めている,注意頭の特徴と注意機構の挙動について,いくつかの知見を提供する。

Graph Transformers (GTs) have achieved impressive results on various graph-related tasks. However, the huge computational cost of GTs hinders their deployment and application, especially in resource-constrained environments. Therefore, in this paper, we explore the feasibility of sparsifying GTs, a significant yet under-explored topic. We first discuss the redundancy of GTs based on the characteristics of existing GT models, and then propose a comprehensive \textbf{G}raph \textbf{T}ransformer \textbf{SP}arsification (GTSP) framework that helps to reduce the computational complexity of GTs from four dimensions: the input graph data, attention heads, model layers, and model weights. Specifically, GTSP designs differentiable masks for each individual compressible component, enabling effective end-to-end pruning. We examine our GTSP through extensive experiments on prominent GTs, including GraphTrans, Graphormer, and GraphGPS. The experimental results substantiate that GTSP effectively cuts computational costs, accompanied by only marginal decreases in accuracy or, in some cases, even improvements. For instance, GTSP yields a reduction of 30\% in Floating Point Operations while contributing to a 1.8\% increase in Area Under the Curve accuracy on OGBG-HIV dataset. Furthermore, we provide several insights on the characteristics of attention heads and the behavior of attention mechanisms, all of which have immense potential to inspire future research endeavors in this domain.
翻訳日:2023-12-12 20:35:10 公開日:2023-12-09
# AI生成画像の自然性を探る

Exploring the Naturalness of AI-Generated Images ( http://arxiv.org/abs/2312.05476v1 )

ライセンス: Link先を確認
Zijian Chen, Wei Sun, Haoning Wu, Zicheng Zhang, Jun Jia, Xiongkuo Min, Guangtao Zhai, Wenjun Zhang(参考訳) 人工知能生成画像(AGI)の拡散は、画像自然度評価(INA)問題を大幅に拡大した。 限られた歪み(例えば、露光、コントラスト、色再現)を持つトーンマップ画像に主にフォーカスする初期の定義とは異なり、AI生成画像上のINAは、より多様な内容を持ち、低レベルの技術的歪みや高レベルの合理性歪みを含む複数の視点からの影響を受け得るため、特に困難である。 本稿では,AI生成画像の視覚的自然性をベンチマークし,評価する第一歩を踏み出す。 まず,AI生成画像自然性(AGIN)データベースを構築し,技術・合理性の観点からの認識だけでなく,全体自然性に関する人間の意見を収集する大規模主観的研究を行った。 aginは、自然性は技術的および合理性の歪みの両方によって普遍的かつ異様に影響を受けることを検証する。 第2に、人間の評価を整列するAGIの自然性を自動的に学習するJoint Objective Image Naturalness EvaluaTor(JOINT)を提案する。 具体的には、技術と合理性の両方の視点を共同で学習することで、自然性評価における人間の推論を模倣する。 実験の結果,本研究は,自然性評価において主観的に一貫性のある結果を与えるため,ベースラインを大幅に上回っていることがわかった。 データベースとコードはhttps://github.com/zijianchen98/aginでリリースします。

The proliferation of Artificial Intelligence-Generated Images (AGIs) has greatly expanded the Image Naturalness Assessment (INA) problem. Different from early definitions that mainly focus on tone-mapped images with limited distortions (e.g., exposure, contrast, and color reproduction), INA on AI-generated images is especially challenging as it has more diverse contents and could be affected by factors from multiple perspectives, including low-level technical distortions and high-level rationality distortions. In this paper, we take the first step to benchmark and assess the visual naturalness of AI-generated images. First, we construct the AI-Generated Image Naturalness (AGIN) database by conducting a large-scale subjective study to collect human opinions on the overall naturalness as well as perceptions from technical and rationality perspectives. AGIN verifies that naturalness is universally and disparately affected by both technical and rationality distortions. Second, we propose the Joint Objective Image Naturalness evaluaTor (JOINT), to automatically learn the naturalness of AGIs that aligns human ratings. Specifically, JOINT imitates human reasoning in naturalness evaluation by jointly learning both technical and rationality perspectives. Experimental results show our proposed JOINT significantly surpasses baselines for providing more subjectively consistent results on naturalness assessment. Our database and code will be released in https://github.com/zijianchen98/AGIN.
翻訳日:2023-12-12 20:34:39 公開日:2023-12-09
# 身体知能のための自己モデル:人体筋骨格系のモデリングと階層的低次元表現による歩行制御

Self Model for Embodied Intelligence: Modeling Full-Body Human Musculoskeletal System and Locomotion Control with Hierarchical Low-Dimensional Representation ( http://arxiv.org/abs/2312.05473v1 )

ライセンス: Link先を確認
Kaibo He, Chenhui Zuo, Jing Shao, Yanan Sui(参考訳) ヒトの筋骨格系のモデリングと制御は、人間の動きを理解し、身体的な知性を開発し、人間とロボットの相互作用システムを最適化するために重要である。 しかし、現在のオープンソースモデルは限られた身体部位に限られており、しばしば筋肉の数が減少している。 また、合理的な人間の動きを生成するために600以上の筋肉を制御できるアルゴリズムが欠けている。 このギャップを埋めるために,90個の体節,206個の関節,700個の筋腱ユニットからなる包括的筋骨格モデルを構築し,全身動態のシミュレーションと各種デバイスとのインタラクションを可能にした。 低次元表現と階層的深層強化学習を用いて,最先端の全身制御を実現する新しいアルゴリズムを開発した。 シミュレーションおよび実際の人間の移動データにおけるモデルとアルゴリズムの有効性を検証する。 筋骨格モデルは、その制御アルゴリズムとともに、人間のモーションコントロールのより深い理解と対話型ロボットの設計を促進するために研究コミュニティに提供される。

Modeling and control of the human musculoskeletal system is important for understanding human motion, developing embodied intelligence, and optimizing human-robot interaction systems. However, current open-source models are restricted to a limited range of body parts and often with a reduced number of muscles. There is also a lack of algorithms capable of controlling over 600 muscles to generate reasonable human movements. To fill this gap, we build a comprehensive musculoskeletal model with 90 body segments, 206 joints, and 700 muscle-tendon units, allowing simulation of full-body dynamics and interaction with various devices. We develop a new algorithm using low-dimensional representation and hierarchical deep reinforcement learning to achieve state-of-the-art full-body control. We validate the effectiveness of our model and algorithm in simulations and on real human locomotion data. The musculoskeletal model, along with its control algorithm, will be made available to the research community to promote a deeper understanding of human motion control and better design of interactive robots.
翻訳日:2023-12-12 20:34:16 公開日:2023-12-09
# 拡散モデルを用いた不規則物質の3次元構造の発見

Spectroscopy-Guided Discovery of Three-Dimensional Structures of Disordered Materials with Diffusion Models ( http://arxiv.org/abs/2312.05472v1 )

ライセンス: Link先を確認
Hyuna Kwon, Tim Hsu, Wenyu Sun, Wonseok Jeong, Fikret Aydin, James Chapman, Xiao Chen, Matthew R. Carbone, Deyu Lu, Fei Zhou, and Tuan Anh Pham(参考訳) 所望の特性を持つ材料を迅速に開発する能力は、幅広い新興技術に変革をもたらす。 本研究では,拡散モデルに基づく新しいフレームワークを導入し,対象特性から乱れた材料の3次元構造を予測するための新しい生成機械学習手法を提案する。 実演のために, アモルファス炭素(a$-c)の原子構造を対象のx線吸収近縁構造(xanes)スペクトルから代表する物質系として同定するモデルを適用した。 XANESスペクトルで導かれる条件生成は,対象構造の重要な特徴を再現することを示す。 さらに, 本モデルは, 生成過程を制御し, 特定のxanesスペクトルの原子配置を調整できることを示した。 最後に,本生成モデルは,小規模データセット(すなわち,小単位セル)から学習することで,現実的な大規模構造を生成できる,顕著なスケール非依存性を示す。 本研究は, 材料キャラクタリゼーションと原子構造決定のギャップを橋渡しするための重要な一歩であり, さらに, 様々な材料特性を対象とする探究において, 材料発見に活用できる。

The ability to rapidly develop materials with desired properties has a transformative impact on a broad range of emerging technologies. In this work, we introduce a new framework based on the diffusion model, a recent generative machine learning method to predict 3D structures of disordered materials from a target property. For demonstration, we apply the model to identify the atomic structures of amorphous carbons ($a$-C) as a representative material system from the target X-ray absorption near edge structure (XANES) spectra--a common experimental technique to probe atomic structures of materials. We show that conditional generation guided by XANES spectra reproduces key features of the target structures. Furthermore, we show that our model can steer the generative process to tailor atomic arrangements for a specific XANES spectrum. Finally, our generative model exhibits a remarkable scale-agnostic property, thereby enabling generation of realistic, large-scale structures through learning from a small-scale dataset (i.e., with small unit cells). Our work represents a significant stride in bridging the gap between materials characterization and atomic structure determination; in addition, it can be leveraged for materials discovery in exploring various material properties as targeted.
翻訳日:2023-12-12 20:33:56 公開日:2023-12-09
# チームコラボレーション対話の微粒化解析

Fine-Grained Analysis of Team Collaborative Dialogue ( http://arxiv.org/abs/2312.05471v1 )

ライセンス: Link先を確認
Ian Perera, Matthew Johnson, Carson Wilber(参考訳) ヒューマン・コラボレーティブ・チャット・ダイアログの自然言語分析は、多数の対話行動ラベル、不特定・動的タスク、インターリーブされたトピック、長距離コンテキスト依存など、多くの独特な課題を抱える未調査領域である。 以前の研究は、lsaのような手法を使って、チームの対話と関連するパフォーマンスの幅広いメトリクスを研究してきたが、チームのダイナミクスと個々のパフォーマンスを対話から詳細に記述する作業はほとんど行われていない。 我々は,新しい階層的ラベリングスキームの生成,対話行為の発生頻度に基づく記述的メトリクスの設計,トランスフォーマティブ+crfアーキテクチャを用いた長距離コンテキスト組み込む初期結果などを含む,当社の組織から抽出したslackチャットを用いて,ソフトウェア開発領域で説明可能な分析ツールを開発するための最初の作業について説明する。

Natural language analysis of human collaborative chat dialogues is an understudied domain with many unique challenges: a large number of dialogue act labels, underspecified and dynamic tasks, interleaved topics, and long-range contextual dependence. While prior work has studied broad metrics of team dialogue and associated performance using methods such as LSA, there has been little effort in generating fine-grained descriptions of team dynamics and individual performance from dialogue. We describe initial work towards developing an explainable analytics tool in the software development domain using Slack chats mined from our organization, including generation of a novel, hierarchical labeling scheme; design of descriptive metrics based on the frequency of occurrence of dialogue acts; and initial results using a transformer + CRF architecture to incorporate long-range context.
翻訳日:2023-12-12 20:33:37 公開日:2023-12-09
# GPT-4Vを用いたレチキュラー化学における画像とデータマイニング

Image and Data Mining in Reticular Chemistry Using GPT-4V ( http://arxiv.org/abs/2312.05468v1 )

ライセンス: Link先を確認
Zhiling Zheng, Zhiguo He, Omar Khattab, Nakul Rampal, Matei A. Zaharia, Christian Borgs, Jennifer T. Chayes, Omar M. Yaghi(参考訳) 人工知能の科学研究への統合は、ChatGPTまたはAPIを通じてアクセス可能な、視覚能力の強化を特徴とする大きな言語モデルであるGPT-4Vと新たなピンナクルに達した。 本研究は,GPT-4Vが金属-有機フレームワーク,特にグラフィカルソースから複雑なデータをナビゲートし,取得する能力を示す。 提案手法では,346の学術論文を6240の画像に自動変換し,それに続いて,GPT-4Vを用いて自然言語のプロンプトを用いて画像の分類と解析を行う。 この手法により、GPT-4Vは窒素等温線、PXRDパターン、TGA曲線などのMOF特性に不可欠な鍵プロットを93%以上の精度で正確に同定し、解釈することができる。 このモデルがこれらのプロットから重要な情報を抽出する能力は、データマイニングの能力だけでなく、レチキュラー化学のための包括的なデジタルデータベースの作成を支援する可能性も強調している。 さらに, 抽出した窒素等温性データは, 200以上の化合物の理論的および実験的なポロシティ値の比較を可能にし, 相違点を強調し, 計算および実験データの統合の重要性を強調した。 この研究は、科学の発見とイノベーションの加速、計算ツールと実験研究のギャップの橋渡し、より効率的で包括的で包括的な科学調査への道を開くためのaiの可能性を強調している。

The integration of artificial intelligence into scientific research has reached a new pinnacle with GPT-4V, a large language model featuring enhanced vision capabilities, accessible through ChatGPT or an API. This study demonstrates the remarkable ability of GPT-4V to navigate and obtain complex data for metal-organic frameworks, especially from graphical sources. Our approach involved an automated process of converting 346 scholarly articles into 6240 images, which represents a benchmark dataset in this task, followed by deploying GPT-4V to categorize and analyze these images using natural language prompts. This methodology enabled GPT-4V to accurately identify and interpret key plots integral to MOF characterization, such as nitrogen isotherms, PXRD patterns, and TGA curves, among others, with accuracy and recall above 93%. The model's proficiency in extracting critical information from these plots not only underscores its capability in data mining but also highlights its potential in aiding the creation of comprehensive digital databases for reticular chemistry. In addition, the extracted nitrogen isotherm data from the selected literature allowed for a comparison between theoretical and experimental porosity values for over 200 compounds, highlighting certain discrepancies and underscoring the importance of integrating computational and experimental data. This work highlights the potential of AI in accelerating scientific discovery and innovation, bridging the gap between computational tools and experimental research, and paving the way for more efficient, inclusive, and comprehensive scientific inquiry.
翻訳日:2023-12-12 20:33:22 公開日:2023-12-09
# ソーシャルメディアにおけるテキストの毒性:Facebookコメントで表現されたBangla Toxic言語を理解する

Textual Toxicity in Social Media: Understanding the Bangla Toxic Language Expressed in Facebook Comment ( http://arxiv.org/abs/2312.05467v1 )

ライセンス: Link先を確認
Mohammad Mamun Or Rashid(参考訳) ソーシャルメディアは、ユーザー生成コンテンツを含むデジタル文学のリポジトリである。 ソーシャルメディアのユーザーは、テキスト、絵文字、ミーム、その他の視覚的およびテキスト的媒体を通じて、さまざまなメディアで意見を表明している。 これらのメディア要素の大部分は他人にとって有害なものとして扱われ、CyberbullyingやToxic Languageなど多くの単語で知られている。 本研究の目的は,毒性言語toxlex_bnのキュレーションおよび付加価値データセットを分析することである。 ソーシャルメディアで毒性を検出するために分類材料として使用できる、徹底的な単語リストである。 バングラデシュと西ベンガルのソーシャルメディア文化では、サイバーいじめ、ヘイトスピーチ、モラルポリシングとしてベンガルのコミュニティが使う有毒な言語/スクリプトが主要なトレンドとなった。 毒性は非常に高くなり、被害者は憎悪者の説明ビデオのカウンターとして投稿しなければならなかった。 ほとんどのケースは女性有名人を指しており、その関係、服装、ライフスタイルは混乱し、コメントボックスに毒性が溢れている。 著名人のバッシングだけでなく、ヒンドゥー教徒、インド・バングラデシュ、1971年の2人の反対者の間でも憎悪が相次いだ。 facebookのコメントがバングラデシュで訴訟や法的な問題を引き起こすことすらあるので、もっと研究が必要だ。 本研究では,バングラの有害言語データセットを解析し,ベンガル文字および言語を用いて利用者が入力した。 このため、1968年ごろには2207590のコメントから派生した単語リストとしてのユニークなビッグラムやフレーズが分析されている。 この分析は、ソーシャルメディアで使用されているバングラの有害言語の検出を強化し、この仮想疾患を治療すると考えられる。

Social Media is a repository of digital literature including user-generated content. The users of social media are expressing their opinion with diverse mediums such as text, emojis, memes, and also through other visual and textual mediums. A major portion of these media elements could be treated as harmful to others and they are known by many words including Cyberbullying and Toxic Language . The goal of this research paper is to analyze a curated and value-added dataset of toxic language titled ToxLex_bn . It is an exhaustive wordlist that can be used as classifier material to detect toxicity in social media. The toxic language/script used by the Bengali community as cyberbullying, hate speech and moral policing became major trends in social media culture in Bangladesh and West Bengal. The toxicity became so high that the victims has to post as a counter or release explanation video for the haters. Most cases are pointed to women celebrity and their relation, dress, lifestyle are became trolled and toxicity flooded in comments boxes. Not only celebrity bashing but also hates occurred between Hindu Muslims, India-Bangladesh, Two opponents of 1971 and these are very common for virtual conflict in the comment thread. Even many times facebook comment causes sue and legal matters in Bangladesh and thus it requires more study. In this study, a Bangla toxic language dataset has been analyzed which was inputted by the user in Bengali script & language. For this, about 1968 unique bigrams or phrases as wordlists have been analyzed which are derived from 2207590 comments. It is assumed that this analysis will reinforce the detection of Bangla's toxic language used in social media and thus cure this virtual disease.
翻訳日:2023-12-12 20:32:53 公開日:2023-12-09
# メタ強化学習とオンラインLQRにおけるタスク関連損失関数について

On Task-Relevant Loss Functions in Meta-Reinforcement Learning and Online LQR ( http://arxiv.org/abs/2312.05465v1 )

ライセンス: Link先を確認
Jaeuk Shin, Giho Kim, Howon Lee, Joonho Han, Insoon Yang(参考訳) データ使用量の観点からの有能なmeta-reinforcement learning(meta-rl)アルゴリズムの設計は、実世界での成功に向けて取り組むべき中心的な課題である。 本稿では,タスク指向方式で手元にあるシステムや環境のモデルを学習する,サンプル効率のメタRLアルゴリズムを提案する。 メタRLの標準的なモデルベースアプローチとは対照的に,本手法では,環境の決定クリティカルな部分を迅速に捉えるために,値情報を利用する。 本手法の重要なコンポーネントは、タスク推論モジュールの学習のための損失関数と、モデルの不一致と値推定を体系的に結合するシステムモデルであり、これにより、既存のメタrlアルゴリズムに比べてかなり少ないデータ量で、ポリシーとタスク推論モジュールの学習を容易にする。 このアイデアは、オンライン線形二次規制 (LQR) 問題である非メタ-RL設定にも拡張され、この手法は戦略の本質を明らかにするために単純化することができる。 提案手法は高次元ロボット制御とオンラインLQR問題において評価され,実測値からタスクを効率的に解くのに欠かせない情報抽出の有効性を実証的に検証した。

Designing a competent meta-reinforcement learning (meta-RL) algorithm in terms of data usage remains a central challenge to be tackled for its successful real-world applications. In this paper, we propose a sample-efficient meta-RL algorithm that learns a model of the system or environment at hand in a task-directed manner. As opposed to the standard model-based approaches to meta-RL, our method exploits the value information in order to rapidly capture the decision-critical part of the environment. The key component of our method is the loss function for learning the task inference module and the system model that systematically couples the model discrepancy and the value estimate, thereby facilitating the learning of the policy and the task inference module with a significantly smaller amount of data compared to the existing meta-RL algorithms. The idea is also extended to a non-meta-RL setting, namely an online linear quadratic regulator (LQR) problem, where our method can be simplified to reveal the essence of the strategy. The proposed method is evaluated in high-dimensional robotic control and online LQR problems, empirically verifying its effectiveness in extracting information indispensable for solving the tasks from observations in a sample efficient manner.
翻訳日:2023-12-12 20:32:23 公開日:2023-12-09
# フルショットCLIP支援拡散生成によるモデル故障の同定と緩和

Identifying and Mitigating Model Failures through Few-shot CLIP-aided Diffusion Generation ( http://arxiv.org/abs/2312.05464v1 )

ライセンス: Link先を確認
Atoosa Chegini, Soheil Feizi(参考訳) ディープラーニングモデルは予期せぬ失敗に遭遇する可能性がある。 これらの失敗の一般的な理由は、トレーニング中にめったに見られないバックグラウンドのオブジェクトの発生である。 これらの障害モードをよりよく理解するためには、人間解釈可能な記述がコストのかかるさらなる分析と改善に不可欠である。 本研究では,大規模言語モデル (chatgpt) と視覚言語深層モデル (clip) の機能を活用し,ヒューマン・イン・ザ・ループの介入なしに,スプリアス相関(例:滅多に見られる背景)に関連する障害モードのテキスト記述を生成するエンド・ツー・エンドのフレームワークを提案する。 これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。 モデルは、この生成されたデータを使用して、その弱点から学び、各クラスのデータで珍しいバックグラウンドのパフォーマンスを向上させることができる。 私たちのアプローチは幅広いソリューションとして機能し、モデル障害モードの解釈の進歩を約束し、広範囲の障害シナリオ(例えば、バックグラウンドや色)を数ショットで自動的に深層学習モデルを強化する。 私たちの実験では、resnets, efficientnets, densenets, vision transformer (vit), swavs, mocos, dinos, clips on various datasets(imagenet-1000, cifar-10, cifar-100)などの40ドルの異なるモデルに対して、ハードサブポピュレーション(特に間違ったバックグラウンドアソシエーション)において、注目すべき \textbf{improvements(\sim \textbf{21%}$)を示しました。

Deep learning models can encounter unexpected failures, especially when dealing with challenging sub-populations. One common reason for these failures is the occurrence of objects in backgrounds that are rarely seen during training. To gain a better understanding of these failure modes, human-interpretable descriptions are crucial for further analysis and improvement which is expensive. In this study, we propose an end-to-end framework that utilizes the capabilities of large language models (ChatGPT) and vision-language deep models (CLIP) to generate text descriptions of failure modes associated with spurious correlations (e.g. rarely seen backgrounds) without human-in-the-loop intervention. These descriptions can be used to generate synthetic data using generative models, such as diffusion models. The model can now use this generated data to learn from its weaknesses and enhance its performance on backgrounds that are uncommon for each class of data. Our approach serves as a broad solution, promising progress in comprehending model failure modes and strengthening deep learning models across a wide range of failure scenarios (e.g. bacckgrounds, colors) automatically in a few-shot manner. Our experiments have shown remarkable \textbf{improvements in accuracy ($\sim \textbf{21%}$)} on hard sub-populations (particularly for wrong background association) across $40$ different models, such as ResNets, EfficientNets, DenseNets, Vision Transformer (ViT), SwAVs, MoCos, DINOs, and CLIPs on various datasets such as ImageNet-1000, CIFAR-10, and CIFAR-100.
翻訳日:2023-12-12 20:32:01 公開日:2023-12-09
# 多粒度因果構造学習

Multi-granularity Causal Structure Learning ( http://arxiv.org/abs/2312.05549v1 )

ライセンス: Link先を確認
Jiaxuan Liang, Jun Wang, Guoxian Yu, Shuyin Xia, Guoyin Wang(参考訳) 自然現象の根底にある因果的メカニズムを解き明かし、モデル化し、理解することは、無数の科学分野にまたがる基本的な取り組みである。 一方、データから因果関係を発見すると、新たな知識が生まれる。 既存の因果学習アルゴリズムは主に変数の孤立した効果に注目し、複数の変数の複雑な相互作用とその集団行動パターンを見落としている。 さらに、高次元データの有用性は因果アルゴリズムの時間的コストをかなり正確に表す。 本稿では,まずスパースオートエンコーダを利用したMgCSL(Multi-granularity Causal Structure Learning)と呼ばれる新しい手法を開発し,粗粒化戦略と微粒化からマクロ化への因果的抽象化について検討する。 MgCSLはマルチグラニュラリティ変数を入力として、多層パーセプトロンを訓練し、変数間の因果関係を探索する。 高次元データに対する有効性を高めるため、MgCSLは変数間の有向非巡回グラフを積極的に探索する単純化された非循環性制約を導入する。 実験の結果,MgCSLは競争ベースラインより優れており,fMRIデータセット上の因果関係が説明できることがわかった。

Unveil, model, and comprehend the causal mechanisms underpinning natural phenomena stand as fundamental endeavors across myriad scientific disciplines. Meanwhile, new knowledge emerges when discovering causal relationships from data. Existing causal learning algorithms predominantly focus on the isolated effects of variables, overlook the intricate interplay of multiple variables and their collective behavioral patterns. Furthermore, the ubiquity of high-dimensional data exacts a substantial temporal cost for causal algorithms. In this paper, we develop a novel method called MgCSL (Multi-granularity Causal Structure Learning), which first leverages sparse auto-encoder to explore coarse-graining strategies and causal abstractions from micro-variables to macro-ones. MgCSL then takes multi-granularity variables as inputs to train multilayer perceptrons and to delve the causality between variables. To enhance the efficacy on high-dimensional data, MgCSL introduces a simplified acyclicity constraint to adeptly search the directed acyclic graph among variables. Experimental results show that MgCSL outperforms competitive baselines, and finds out explainable causal connections on fMRI datasets.
翻訳日:2023-12-12 20:26:58 公開日:2023-12-09
# スマートヘルスケアを目指して - IoTとMLの課題と機会

Towards Smart Healthcare: Challenges and Opportunities in IoT and ML ( http://arxiv.org/abs/2312.05530v1 )

ライセンス: Link先を確認
Munshi Saifuzzaman and Tajkia Nuri Ananna(参考訳) 新型コロナウイルス(COVID-19)のパンデミックや他の健康危機は、世界中の医療サービスを促進する必要性を強調している。 病院や診療所を中心とした伝統的な医療システムは、このような課題に直面して不十分であることが証明されている。 従来の医療の重要な部分であるインテリジェントウェアラブルデバイスは、IoT(Internet of Things)技術を活用して、環境に関連する広範なデータを収集すると同時に、心理的、行動的、身体的健康も収集する。 これらのウェアラブルや他のIoTデバイスが医療で生成する実質的なデータを管理することは、意思決定プロセスを妨げる可能性がある、重大な課題である。 近年、情報抽出や洞察の獲得、予測にデータ分析を適用することへの関心が高まっている。 さらに、さまざまなネットワーク課題に対処することで知られる機械学習(ML)では、医療におけるIoTシステムを強化する実装が増加している。 この章は、IoTヘルスケアセクターにMLメソッドを統合する際に直面するハードルを探求することに焦点を当てている。 iotベース、mlベース、およびiotによる医療業界におけるml方法論の実装の3つのシナリオに分類した、現在の研究課題と可能性の包括的概要を提供する。 我々は、既存の方法論が直面する困難を強調し、将来の研究者、医療専門家、政府機関に貴重な洞察を提供する。 これにより、MLを利用したインテリジェントヘルスケアのためのビッグデータ分析の最新の開発状況が更新される。

The COVID-19 pandemic and other ongoing health crises have underscored the need for prompt healthcare services worldwide. The traditional healthcare system, centered around hospitals and clinics, has proven inadequate in the face of such challenges. Intelligent wearable devices, a key part of conventional healthcare, leverage Internet of Things (IoT) technology to collect extensive data related to the environment, as well as psychological, behavioral, and physical health. Managing the substantial data generated by these wearables and other IoT devices in healthcare poses a significant challenge, potentially impeding decision-making processes. Recent interest has grown in applying data analytics for extracting information, gaining insights, and making predictions. Additionally, machine learning (ML), known for addressing various networking challenges, has seen increased implementation to enhance IoT systems in healthcare. This chapter focuses exclusively on exploring the hurdles encountered when integrating ML methods into the IoT healthcare sector. We offer a comprehensive summary of current research challenges and potential opportunities, categorized into three scenarios: IoT-based, ML-based, and the implementation of ML methodologies in the healthcare industry via the IoT. We highlight the difficulties faced by existing methodologies, providing valuable insights for future researchers, healthcare professionals, and government agencies. This ensures they stay updated on the latest developments in big data analytics for intelligent healthcare utilizing ML.
翻訳日:2023-12-12 20:26:38 公開日:2023-12-09
# MICCAI 2023キドニーと腫瘍分離チャレンジのための3次元U-Netトレーニング構成と後処理戦略の探索

Exploring 3D U-Net Training Configurations and Post-Processing Strategies for the MICCAI 2023 Kidney and Tumor Segmentation Challenge ( http://arxiv.org/abs/2312.05528v1 )

ライセンス: Link先を確認
Kwang-Hyun Uhm, Hyunjun Cho, Zhixin Xu, Seohoon Lim, Seung-Won Jung, Sung-Hoo Hong, Sung-Jea Ko(参考訳) 2023年には81,800人の腎臓がんが新たに診断され、米国では14,890人が死亡すると予想されている。 腹部CT(Dynamic contrast-enhanced abdominal Computed Tomography)は,病変の検出によく用いられる。 しかし, 腎腫瘍と腎腫瘍の像像に微妙な差異があるため, サーバ間変動が存在する。 本稿では,ct画像における腎臓,嚢胞,腎臓腫瘍の高精度分割のための各種3次元u-netトレーニング構成と後処理戦略について検討する。 我々は2023年腎臓腫瘍分画(kits23)チャレンジのデータセットについて検証を行った。 本手法は, 平均Diceスコア0.820, 平均Surface Dice 0.712の未確認試験データに対して, KiTS23チャレンジの最終ランキングで2位となった。

In 2023, it is estimated that 81,800 kidney cancer cases will be newly diagnosed, and 14,890 people will die from this cancer in the United States. Preoperative dynamic contrast-enhanced abdominal computed tomography (CT) is often used for detecting lesions. However, there exists inter-observer variability due to subtle differences in the imaging features of kidney and kidney tumors. In this paper, we explore various 3D U-Net training configurations and effective post-processing strategies for accurate segmentation of kidneys, cysts, and kidney tumors in CT images. We validated our model on the dataset of the 2023 Kidney and Kidney Tumor Segmentation (KiTS23) challenge. Our method took second place in the final ranking of the KiTS23 challenge on unseen test data with an average Dice score of 0.820 and an average Surface Dice of 0.712.
翻訳日:2023-12-12 20:26:18 公開日:2023-12-09
# 教師なしグラフ異常検出のための強化近傍選択

Reinforcement Neighborhood Selection for Unsupervised Graph Anomaly Detection ( http://arxiv.org/abs/2312.05526v1 )

ライセンス: Link先を確認
Yuanchen Bei, Sheng Zhou, Qiaoyu Tan, Hao Xu, Hao Chen, Zhao Li, Jiajun Bu(参考訳) 非教師付きグラフ異常検出は、ノードの大部分からかなり逸脱する稀なパターンを示すグラフ内の異常を識別することを目的としているため、様々な実用化に欠かせない。 近年、グラフニューラルネットワーク(GNN)を用いて、近隣からの情報を集約して異常検出のための高品質なノード表現を学習している。 しかし、異常の存在は観測された近傍を信頼できないものにし、ノード表現学習のための誤解を招く情報集約をもたらす可能性がある。 グラフの異常検出には適切な近傍の選択が不可欠であるが、異常指向の指導や表現学習との相互依存がないことも課題である。 これらの課題に対処するため,複雑な環境下での適応学習における強化学習の利点を活用し,非教師付きグラフ Anomaly Detection (RAND) のための強化近傍選択を取り入れた新しい手法を提案する。 RANDは、与えられた中央ノードの候補隣のプールを複数の間接的な隣人によって強化することから始まる。 次に、RANDは、与えられた隣人を考慮した信頼性と報酬を評価するために、調整された強化異常評価モジュールを設計する。 最後に、RANDはこれらの報酬に基づいて、最も信頼できる隣人のサブセットを選択し、信頼できない隣人からのメッセージを増幅する異常認識アグリゲータを導入する。 3つの合成データセットと2つの実世界のデータセットに対する大規模な実験は、RANDが最先端の手法より優れていることを示した。

Unsupervised graph anomaly detection is crucial for various practical applications as it aims to identify anomalies in a graph that exhibit rare patterns deviating significantly from the majority of nodes. Recent advancements have utilized Graph Neural Networks (GNNs) to learn high-quality node representations for anomaly detection by aggregating information from neighborhoods. However, the presence of anomalies may render the observed neighborhood unreliable and result in misleading information aggregation for node representation learning. Selecting the proper neighborhood is critical for graph anomaly detection but also challenging due to the absence of anomaly-oriented guidance and the interdependence with representation learning. To address these issues, we utilize the advantages of reinforcement learning in adaptively learning in complex environments and propose a novel method that incorporates Reinforcement neighborhood selection for unsupervised graph ANomaly Detection (RAND). RAND begins by enriching the candidate neighbor pool of the given central node with multiple types of indirect neighbors. Next, RAND designs a tailored reinforcement anomaly evaluation module to assess the reliability and reward of considering the given neighbor. Finally, RAND selects the most reliable subset of neighbors based on these rewards and introduces an anomaly-aware aggregator to amplify messages from reliable neighbors while diminishing messages from unreliable ones. Extensive experiments on both three synthetic and two real-world datasets demonstrate that RAND outperforms the state-of-the-art methods.
翻訳日:2023-12-12 20:26:04 公開日:2023-12-09
# 一つの質問しか学ばない: シングルステージマルチパーソン・マルチタスク人間中心認識のための統一されたヒューマンクエリを学習する

You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception ( http://arxiv.org/abs/2312.05525v1 )

ライセンス: Link先を確認
Sheng Jin, Shuhuai Li, Tong Li, Wentao Liu, Chen Qian, Ping Luo(参考訳) 人間中心の知覚(ペデトリアン検出、セグメンテーション、ポーズ推定、属性解析など)は、コンピュータビジョンの長年の問題である。 本稿では,単一段階のマルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。 提案手法は,人間の問合せの統一表現を学習することに集中し,人間のインスタンスレベルの複雑な特徴を捉え,複雑な多人数シナリオを分離する。 HCPタスクは個別によく研究されているが、総合的なベンチマークデータセットがないため、HCPタスクのシングルステージマルチタスク学習は文献で完全に活用されていない。 このギャップに対処するため,モデル開発と総合評価を可能にするCOCO-UniHumanベンチマークデータセットを提案する。 提案手法のマルチタスクHCPモデルとタスク固有HCPモデルとの競合性能を比較検討した。 さらに,新しいhcpタスクへのヒューマンクエリの適応性を強調する実験を行い,ロバストな一般化能力を示した。 コードとデータは公開アクセス可能である。

Human-centric perception (e.g. pedetrian detection, segmentation, pose estimation, and attribute analysis) is a long-standing problem for computer vision. This paper introduces a unified and versatile framework (HQNet) for single-stage multi-person multi-task human-centric perception (HCP). Our approach centers on learning a unified human query representation, denoted as Human Query, which captures intricate instance-level features for individual persons and disentangles complex multi-person scenarios. Although different HCP tasks have been well-studied individually, single-stage multi-task learning of HCP tasks has not been fully exploited in the literature due to the absence of a comprehensive benchmark dataset. To address this gap, we propose COCO-UniHuman benchmark dataset to enable model development and comprehensive evaluation. Experimental results demonstrate the proposed method's state-of-the-art performance among multi-task HCP models and its competitive performance compared to task-specific HCP models. Moreover, our experiments underscore Human Query's adaptability to new HCP tasks, thus demonstrating its robust generalization capability. Codes and data will be publicly accessible.
翻訳日:2023-12-12 20:25:38 公開日:2023-12-09
# Augmenty: 構造化テキスト拡張のためのPythonライブラリ

Augmenty: A Python Library for Structured Text Augmentation ( http://arxiv.org/abs/2312.05520v1 )

ライセンス: Link先を確認
Kenneth Enevoldsen(参考訳) Augmnetyは構造化テキスト拡張のためのPythonライブラリである。 SpaCy上に構築されており、テキストとアノテーションの両方を拡張できる。 複雑な拡張パイプラインを作成するために、augmentyは柔軟な方法で組み合わせることができる幅広いアグメンテーションを提供する。 また、単語置換拡張子などのカスタム拡張子を作成するために使用できるプリミティブのセットも含まれている。 この機能は、名前付きエンティティ認識(ner)、part-of-speechタグ、依存性解析など、さまざまなアプリケーション内の拡張を可能にする。

Augmnety is a Python library for structured text augmentation. It is built on top of spaCy and allows for augmentation of both the text and its annotations. Augmenty provides a wide range of augmenters which can be combined in a flexible manner to create complex augmentation pipelines. It also includes a set of primitives that can be used to create custom augmenters such as word replacement augmenters. This functionality allows for augmentations within a range of applications such as named entity recognition (NER), part-of-speech tagging, and dependency parsing.
翻訳日:2023-12-12 20:25:17 公開日:2023-12-09
# 多レベルグラフ表現学習のための等相整合変分グラフオートエンコーダ

Isomorphic-Consistent Variational Graph Auto-Encoders for Multi-Level Graph Representation Learning ( http://arxiv.org/abs/2312.05519v1 )

ライセンス: Link先を確認
Hanxuan Yang, Qingchao Kong and Wenji Mao(参考訳) グラフ表現学習は基本的な研究テーマであり、ノードとリンクレベルから高いグラフレベルへの複数のダウンストリームタスクの恩恵を受けるように一般化することができる。 実際、一般的に教師なしの方法で訓練されるタスクに依存しない汎用グラフ表現学習手法を開発することが望ましい。 関連する研究では、グラフ表現学習法のパワーは、異なるグラフ構造を異なる埋め込みと、一貫した埋め込み(すなわち、グラフモデルの同型整合性)にマップする同型グラフとを区別できるかどうかに依存する。 しかし、タスクに依存しない一般グラフ表現学習では、変分グラフオートエンコーダ(vgaes)で表される既存の教師なしグラフモデルは、1-hop近傍のサブグラフ内でのみ同型一貫性を保ち、より難しい高レベルタスクにおいて劣るパフォーマンスを示す。 本稿では,既存の教師なし手法の限界を克服するため,多段階のタスク非依存グラフ表現学習のためのIsomorphic-Consistent VGAE(IsoC-VGAE)を提案する。 まず,教師なし学習の設定下で同型一貫性を維持する理論的保証を提供するために,復号化スキームを考案する。 次に、逆グラフニューラルネットワーク(Inv-GNN)デコーダを直感的実現として提案し、GNNノードの埋め込みをマルチホップ近傍情報で再構築することでモデルを訓練し、VGAEフレームワーク内の高次同型一貫性を維持する。 本研究では,ノード分類,リンク予測,グラフ分類など,さまざまなレベルにおける代表グラフ学習タスクに関する広範な実験を行い,提案手法が一般に最先端の教師なし手法および代表教師付き手法よりも優れていることを確認した。

Graph representation learning is a fundamental research theme and can be generalized to benefit multiple downstream tasks from the node and link levels to the higher graph level. In practice, it is desirable to develop task-agnostic general graph representation learning methods that are typically trained in an unsupervised manner. Related research reveals that the power of graph representation learning methods depends on whether they can differentiate distinct graph structures as different embeddings and map isomorphic graphs to consistent embeddings (i.e., the isomorphic consistency of graph models). However, for task-agnostic general graph representation learning, existing unsupervised graph models, represented by the variational graph auto-encoders (VGAEs), can only keep the isomorphic consistency within the subgraphs of 1-hop neighborhoods and thus usually manifest inferior performance on the more difficult higher-level tasks. To overcome the limitations of existing unsupervised methods, in this paper, we propose the Isomorphic-Consistent VGAE (IsoC-VGAE) for multi-level task-agnostic graph representation learning. We first devise a decoding scheme to provide a theoretical guarantee of keeping the isomorphic consistency under the settings of unsupervised learning. We then propose the Inverse Graph Neural Network (Inv-GNN) decoder as its intuitive realization, which trains the model via reconstructing the GNN node embeddings with multi-hop neighborhood information, so as to maintain the high-order isomorphic consistency within the VGAE framework. We conduct extensive experiments on the representative graph learning tasks at different levels, including node classification, link prediction and graph classification, and the results verify that our proposed model generally outperforms both the state-of-the-art unsupervised methods and representative supervised methods.
翻訳日:2023-12-12 20:25:07 公開日:2023-12-09
# Pensieveを使ったステートフルな大規模言語モデル

Stateful Large Language Model Serving with Pensieve ( http://arxiv.org/abs/2312.05516v1 )

ライセンス: Link先を確認
Lingfan Yu, Jinyang Li(参考訳) 大規模言語モデル(LLM)は、ChatGPTが広く普及していることから、最近大きな成功を収めている。 既存のLLMサービスシステムはリクエスト間でステートレスである。 したがって、複数ターン会話の共通設定でllmを使用する場合には、各ターンにサービスシステムからの要求と並行して会話履歴の増大ログを処理しなければならず、繰り返し履歴処理が行われる。 本稿では,マルチターン会話llmサービスに最適化されたシステムであるpensieve$をデザインする。 Pensieve$は、以前処理された履歴をキャッシュすることで、リクエスト間での会話状態を維持する。 Pensieve$のマルチ層キャッシュ戦略は、GPUとCPUメモリの両方を使用して、キャッシュされたデータを効率的に保存および取得することができる。 さらに$Pensieve$は、最近のPagedAttentionカーネルを一般化して、GPUキャッシュを非連続メモリ上に分散した複数の入力トークン間の注意をサポートする。 我々の評価によると、$Pensieve$はvLLMと比較して1.51-1.95xスループットを実現でき、レイテンシを60-75%削減できる。

Large Language Models (LLMs) have recently experienced great success, as evident in the widespread popularity of ChatGPT. Existing LLM serving systems are stateless across requests. Consequently, when LLMs are used in the common setting of multi-turn conversations, a growing log of the conversation history must be processed alongside any request by the serving system at each turn, resulting in repeated history processing. In this paper, we design $Pensieve$, a system optimized for multi-turn conversation LLM serving. $Pensieve$ maintains the conversation state across requests by caching previously processed history to avoid duplicate processing. $Pensieve$'s multi-tier caching strategy can utilize both GPU and CPU memory to efficiently store and retrieve cached data. $Pensieve$ also generalizes the recent PagedAttention kernel to support attention between multiple input tokens with a GPU cache spread over non-contiguous memory. Our evaluation shows that $Pensieve$ is able to achieve 1.51-1.95x throughput compared to vLLM and reduce latency by 60-75%.
翻訳日:2023-12-12 20:24:12 公開日:2023-12-09
# 抗バイアスソフトラベル蒸留による対向ロバストな公平性の改善

Improving Adversarial Robust Fairness via Anti-Bias Soft Label Distillation ( http://arxiv.org/abs/2312.05508v1 )

ライセンス: Link先を確認
Shiji Zhao, Xizhe Wang, Xingxing Wei(参考訳) ディープニューラルネット(DNN)の敵対的事例に対する敵対的堅牢性を改善するための効果的な方法として、AT(Adversarial Training)が広く証明されている。 ATの変種であるARD(Adversarial Robustness Distillation)は、大規模教師モデルの指導による小学生モデルの堅牢性向上に優れた性能を示した。 しかし、ATモデルとARDモデルの両方が頑健な公正性問題に遭遇し、これらのモデルはクラスの一部(容易なクラス)に直面した時に強い堅牢性を示す。 本稿では,潜在的な要因を詳細に分析し,異なるクラス(ハードクラスやイージークラスなど)におけるサンプルのソフトラベルの滑らかさが,実験的観察と理論解析の両方からdnnモデルのロバストな公平性に与える影響を論じる。 以上の知見に基づいて, 知識蒸留(KD)の枠組みにおいて, 対向的頑健な公正性問題を緩和するアンチバイアスソフトラベル蒸留(ABSLD)法を提案する。 具体的には、訓練過程におけるサンプルソフトラベルのクラス毎の平滑度を調整し、異なるクラスにkdの異なる温度を割り当ててソフトラベルの平滑度を制御することにより、異なるクラス間の学生のエラーリスクギャップを適応的に低減し、公平性を達成する。 大規模な実験により、ABSLDは現状のAT、ARD、ロバストフェアネス法よりも、ロバストネスとフェアネスの全体的な性能において優れていることが示された。

Adversarial Training (AT) has been widely proved to be an effective method to improve the adversarial robustness against adversarial examples for Deep Neural Networks (DNNs). As a variant of AT, Adversarial Robustness Distillation (ARD) has demonstrated its superior performance in improving the robustness of small student models with the guidance of large teacher models. However, both AT and ARD encounter the robust fairness problem: these models exhibit strong robustness when facing part of classes (easy class), but weak robustness when facing others (hard class). In this paper, we give an in-depth analysis of the potential factors and argue that the smoothness degree of samples' soft labels for different classes (i.e., hard class or easy class) will affect the robust fairness of DNN models from both empirical observation and theoretical analysis. Based on the above finding, we propose an Anti-Bias Soft Label Distillation (ABSLD) method to mitigate the adversarial robust fairness problem within the framework of Knowledge Distillation (KD). Specifically, ABSLD adaptively reduces the student's error risk gap between different classes to achieve fairness by adjusting the class-wise smoothness degree of samples' soft labels during the training process, and the smoothness degree of soft labels is controlled by assigning different temperatures in KD to different classes. Extensive experiments demonstrate that ABSLD outperforms state-of-the-art AT, ARD, and robust fairness methods in terms of overall performance of robustness and fairness.
翻訳日:2023-12-12 20:23:43 公開日:2023-12-09
# Aligner: 大規模言語モデルのアラインメントにおいて,グローバルなトークンは数百万のパラメータである

Aligner: One Global Token is Worth Millions of Parameters When Aligning Large Language Models ( http://arxiv.org/abs/2312.05503v1 )

ライセンス: Link先を確認
Zhou Ziheng, Yingnian Wu, Song-Chun Zhu, and Demetri Terzopoulos (University of California, Los Angeles)(参考訳) マルチビリオンパラメータサイズの大規模言語モデル(LLM)の整合性を実現するために,パラメータ効率の良いPEFT法である Aligner を導入する。 Alignerは、グローバルに共有される可変トークンセットを構築し、すべてのレイヤの注意を変更できるユニークな設計を採用している。 この方法では、たった5000のパラメータに対して1つのトークンを会計した場合であっても、Alignerは数百万のパラメータを必要とするLoRAのような最先端のLLM適応メソッドと互換性がある。 この能力は命令追従タスクと値アライメントタスクの両方で実証される。 パラメータ効率の多重次数改善に加えて、ALGner が LLM の内部メカニズムにもたらす洞察も有用である。 本手法のアーキテクチャ的特徴と有効性は,本実験に加えて,llm が "形式" と "知識 (knowledge)" の内部処理を幾分直交的に分離することを示す。 この発見は、LLMメカニズムの理解と価値アライメントに関する新しい研究の動機となる。

We introduce Aligner, a novel Parameter-Efficient Fine-Tuning (PEFT) method for aligning multi-billion-parameter-sized Large Language Models (LLMs). Aligner employs a unique design that constructs a globally shared set of tunable tokens that modify the attention of every layer. Remarkably with this method, even when using one token accounting for a mere 5,000 parameters, Aligner can still perform comparably well to state-of-the-art LLM adaptation methods like LoRA that require millions of parameters. This capacity is substantiated in both instruction following and value alignment tasks. Besides the multiple order-of-magnitude improvement in parameter efficiency, the insight Aligner provides into the internal mechanisms of LLMs is also valuable. The architectural features and efficacy of our method, in addition to our experiments demonstrate that an LLM separates its internal handling of "form" and "knowledge" in a somewhat orthogonal manner. This finding promises to motivate new research into LLM mechanism understanding and value alignment.
翻訳日:2023-12-12 20:22:24 公開日:2023-12-09
# poisoning $\times$ evasion: グラフニューラルネットワークの共生的対向ロバスト性

Poisoning $\times$ Evasion: Symbiotic Adversarial Robustness for Graph Neural Networks ( http://arxiv.org/abs/2312.05502v1 )

ライセンス: Link先を確認
Ege Erdogan, Simon Geisler, Stephan G\"unnemann(参考訳) ディープラーニングモデルが小さな入力摂動に弱いことはよく知られている。 このような摂動例を逆例と呼ぶ。 敵の例は通常、訓練時間(毒殺)またはテスト時間(脱出)でモデルを騙すために作成される。 本研究は, 中毒と回避の共生について検討する。 双方の脅威モデルを組み合わせることで、敵攻撃の破壊的効果を大幅に改善できることを示す。 具体的には,構造摂動下でのグラフニューラルネットワーク(gnns)のロバスト性を調査し,一階最適化を用いた新しい脅威モデルに対するメモリ効率の高い適応的エンドツーエンド攻撃を考案する。

It is well-known that deep learning models are vulnerable to small input perturbations. Such perturbed instances are called adversarial examples. Adversarial examples are commonly crafted to fool a model either at training time (poisoning) or test time (evasion). In this work, we study the symbiosis of poisoning and evasion. We show that combining both threat models can substantially improve the devastating efficacy of adversarial attacks. Specifically, we study the robustness of Graph Neural Networks (GNNs) under structure perturbations and devise a memory-efficient adaptive end-to-end attack for the novel threat model using first-order optimization.
翻訳日:2023-12-12 20:21:33 公開日:2023-12-09
# コンパクト次元モデルにおけるスカラー場に対する真空電流

Vacuum currents for a scalar field in models with compact dimensions ( http://arxiv.org/abs/2312.05501v1 )

ライセンス: Link先を確認
A. A. Saharian(参考訳) 本稿では、トロイダルコンパクト化空間次元を持つ時空における荷電スカラー場に対する電流密度の真空期待値について検討する。 背景ジオメトリとして、minkowskian (lm)、local de sitter (lds)、local anti-de sitter (lads)時空が考えられる。 コンパクト次元に沿って、場の作用素に準周期性条件を課し、定数ゲージ場の存在を仮定する。 真空電流はコンパクト次元のみに沿った非零成分を持つ。 これらの成分は、磁束量子と等しい周期を持つコンパクト次元で囲まれた磁束の周期関数である。 LdS と LAdS のジオメトリと、曲率半径と比較して、コンパクト次元の長さの小さな値の場合、その次元に沿った真空電流の膨張の先頭項は、LMバルクのそれと一致する。 この限界において、電流密度のモード和に対する支配的な貢献は、曲率半径よりも小さい波長の真空ゆらぎと重力場の影響によるものである。 重力場の影響は、曲率半径よりも大きいコンパクト次元の長さに必須である。 特に、LMバルクにおける電流密度の指数的な抑制の代わりに、LdSとLAdSの時空におけるパワーローの崩壊が起こる。

This paper reviews the investigations on the vacuum expectation value of the current density for a charged scalar field in spacetimes with toroidally compactified spatial dimensions. As background geometries locally Minkowskian (LM), locally de Sitter (LdS) and locally anti-de Sitter (LAdS) spacetimes are considered. Along compact dimensions quasiperiodicity conditions are imposed on the field operator and the presence of a constant gauge field is assumed. The vacuum current has non-zero components only along compact dimensions. Those components are periodic functions of the magnetic flux enclosed by compact dimensions with the period equal to the flux quantum. For LdS and LAdS geometries and for small values of the length of a compact dimension, compared with the curvature radius, the leading term in the expansion of the the vacuum current along that dimension coincides with that for LM bulk. In this limit the dominant contribution to the mode sum for the current density comes from the vacuum fluctuations with wavelength smaller than the curvature radius and the influence of the gravitational field is weak. The effects of the gravitational field are essential for lengths of compact dimensions larger than the curvature radius. In particular, instead of the exponential suppression of the current density in LM bulk one can have power law decay in LdS and LAdS spacetimes.
翻訳日:2023-12-12 20:21:16 公開日:2023-12-09
# 歴史問題:大規模言語モデルにおける時間的知識編集

History Matters: Temporal Knowledge Editing in Large Language Model ( http://arxiv.org/abs/2312.05497v1 )

ライセンス: Link先を確認
Xunjian Yin, Jin Jiang, Liming Yang, Xiaojun Wan(参考訳) 大規模な言語モデルに格納されている知識を修正または更新するという命令的なタスクは、2つの異なるソースから生じます。 モデル編集における主要な取り組みは、異なる理由から生じる2つの異なるカテゴリの編集を詳述し、モデルの本来の知識を直接新しい知識に修正する。 しかし,モデルの本来の知識の保存は依然として適切である。 特に、世界力学の進化によってモデルの知識が時代遅れになった場合、新しい知識を統合しつつ、歴史的知識の記憶を保たなければならない。 本稿では,時間的知識編集(TKE)の課題を紹介し,現在のモデル編集手法を評価するためのベンチマークATOKe(Assessment of Temporal Knowledge Editing)を確立する。 既存のモデル編集手法はモデルに新しい知識を思い出させるのに有効であるが、そのモデル編集は歴史的知識を壊滅的に忘れてしまう。 そこで,本稿では,歴史的知識と新たな知識を同時に編集し,各事実の時間に対するモデルの予測を最適化する既存の編集モデルを強化するための,時間目標付きマルチ編集(meto)という,単純で汎用的なフレームワークを提案する。 評価の結果、ATOKeはまだ難しいが、METOは新たな知識の学習の有効性を維持し、また、履歴知識の活用における編集モデルの性能を大幅に向上させる。

The imperative task of revising or updating the knowledge stored within large language models arises from two distinct sources: intrinsic errors inherent in the model which should be corrected and outdated knowledge due to external shifts in the real world which should be updated. Prevailing efforts in model editing conflate these two distinct categories of edits arising from distinct reasons and directly modify the original knowledge in models into new knowledge. However, we argue that preserving the model's original knowledge remains pertinent. Specifically, if a model's knowledge becomes outdated due to evolving worldly dynamics, it should retain recollection of the historical knowledge while integrating the newfound knowledge. In this work, we introduce the task of Temporal Knowledge Editing (TKE) and establish a benchmark AToKe (Assessment of TempOral Knowledge Editing) to evaluate current model editing methods. We find that while existing model editing methods are effective at making models remember new knowledge, the edited model catastrophically forgets historical knowledge. To address this gap, we propose a simple and general framework termed Multi-Editing with Time Objective (METO) for enhancing existing editing models, which edits both historical and new knowledge concurrently and optimizes the model's prediction for the time of each fact. Our assessments demonstrate that while AToKe is still difficult, METO maintains the effectiveness of learning new knowledge and meanwhile substantially improves the performance of edited models on utilizing historical knowledge.
翻訳日:2023-12-12 20:20:56 公開日:2023-12-09
# 命令表現によるフレキシブル・クロスモーダル・ステガノグラフィ

Flexible Cross-Modal Steganography via Implicit Representations ( http://arxiv.org/abs/2312.05496v1 )

ライセンス: Link先を確認
Seoyun Yang, Sojeong Song, Chang D. Yoo, Junmo Kim(参考訳) Inlicit Neural Representation (INR) という, モーダル非依存な新しいデータ形式に基づく, 革新的な無損失ステガノグラフィーフレームワーク INRSteg を提案する。 我々のフレームワークは、高品質なステゴデータを保証するために、元のINRを変更することなく、複数のデータを効果的に隠蔽すると考えられる。 秘密データの神経表現は、まず、重複しない独立した経路を有するように連結され、次いで、連結されたネットワークの重み行列の対角ブロックに重み凍結技術を適用して秘密データの重みを保存するとともに、重み行列の対角ブロックの余剰自由重量をカバーデータに取付ける。 本フレームワークは,画像,音声,映像,3次元形状など,さまざまなモードに対して,探索されていないクロスモーダルステガノグラフィを動作させることができる。

We present INRSteg, an innovative lossless steganography framework based on a novel data form Implicit Neural Representations (INR) that is modal-agnostic. Our framework is considered for effectively hiding multiple data without altering the original INR ensuring high-quality stego data. The neural representations of secret data are first concatenated to have independent paths that do not overlap, then weight freezing techniques are applied to the diagonal blocks of the weight matrices for the concatenated network to preserve the weights of secret data while additional free weights in the off-diagonal blocks of weight matrices are fitted to the cover data. Our framework can perform unexplored cross-modal steganography for various modalities including image, audio, video, and 3D shapes, and it achieves state-of-the-art performance compared to previous intra-modal steganographic methods.
翻訳日:2023-12-12 20:20:30 公開日:2023-12-09
# Captumを使って生成言語モデルを説明する

Using Captum to Explain Generative Language Models ( http://arxiv.org/abs/2312.05491v1 )

ライセンス: Link先を確認
Vivek Miglani, Aobo Yang, Aram H. Markosyan, Diego Garcia-Olano, Narine Kokhlikyan(参考訳) CaptumはPyTorchのモデル説明可能性のための包括的なライブラリで、解釈可能性の文献から、ユーザがPyTorchモデルを理解するための様々な方法を提供する。 本稿では,生成言語モデルの振る舞いを分析するために特別に設計されたcaptumの新機能を紹介する。 生成言語モデルにおける学習関連性を理解するために利用可能な機能とその応用例について概説する。

Captum is a comprehensive library for model explainability in PyTorch, offering a range of methods from the interpretability literature to enhance users' understanding of PyTorch models. In this paper, we introduce new features in Captum that are specifically designed to analyze the behavior of generative language models. We provide an overview of the available functionalities and example applications of their potential for understanding learned associations within generative language models.
翻訳日:2023-12-12 20:20:11 公開日:2023-12-09
# 潤滑液のトポロジー界面

Topological Interfaces of Luttinger Liquids ( http://arxiv.org/abs/2312.05566v1 )

ライセンス: Link先を確認
Ananda Roy and Hubert Saleur(参考訳) 二次元共形場理論のトポロジカルインターフェースは、理論の対称性に関する情報を含み、顕著なスペクトルおよび絡み合い特性を示す。 これらの界面の格子実現はユニタリ極小モデルに対して提案されているが、自由でコンパクトなボソン模型であるラッティンガー液体に対しても同様である。 本稿では, 2つのルッティンガー液体の位相的界面を, 特殊1次元超伝導体の結合により実現できることを示す。 後者のギャップのない励起は、クーパーペアの電荷の特定の整数倍である電荷を運ぶ。 上記の整数はボソニック場の対象空間の巻線によって決定されるが、これは非自明な位相的界面を生み出すのに必要な重要な要素である。 後者は、ある数のクーパーペアがインターフェースを横断する完全な送信のために発生する。 位相的インタフェースはジョセフソン接合配列に自然に存在するが、最も単純なケースは実験的に整列された--$0-\pi$ qubits、コンデンサおよび通常のジョセフソン接合によって実現される。 トポロジカルインタフェースの符号は絡み合いエントロピー計算によって得られる。 特に、いわゆるインターフェイスエントロピーへのサブリーディング寄与は、既存の場の理論の予測と異なることが示されている。 提案された格子モデルは、これまでab-initio研究を免れたいくつかの予想された共形固定点の解析のためのスピンとエノン鎖に対する実験的に実現可能な代替手段を提供する。

Topological interfaces of two-dimensional conformal field theories contain information about symmetries of the theory and exhibit striking spectral and entanglement characteristics. While lattice realizations of these interfaces have been proposed for unitary minimal models, the same has remained elusive for the paradigmatic Luttinger liquid {\it i.e.,} the free, compact boson model. Here, we show that a topological interface of two Luttinger liquids can be realized by coupling special one-dimensional superconductors. The gapless excitations in the latter carry charges that are specific integer multiples of the charge of Cooper-pairs. The aforementioned integers are determined by the windings in the target space of the bosonic fields -- a crucial element required to give rise to nontrivial topological interfaces. The latter occur due to the perfect transmission of certain number of Cooper-pairs across the interface. The topological interfaces arise naturally in Josephson junction arrays with the simplest case being realized by an array of experimentally-demonstrated~$0-\pi$ qubits, capacitors and ordinary Josephson junctions. Signatures of the topological interface are obtained through entanglement entropy computations. In particular, the subleading contribution to the so-called interface entropy is shown to differ from existing field theory predictions. The proposed lattice model provides an experimentally-realizable alternative to spin and anyon chains for the analysis of several conjectured conformal fixed points which have so far eluded ab-initio investigation.
翻訳日:2023-12-12 20:13:26 公開日:2023-12-09
# 行政 4.0 近代IT支援連邦政府のためのカスタマイズ・必要な教育プラットフォームとしての行政情報学

Administration 4.0: Administrative informatics as a customized and necessary educational platform for a modern IT-supported federal administration ( http://arxiv.org/abs/2312.05563v1 )

ライセンス: Link先を確認
Uwe M. Borghoff, Nicol Matzner-Vogel, Siegfried Rapp(参考訳) デジタル化は連邦政府を征服し、強調している。 選択した大規模ICTプロジェクトを用いて,タスクの複雑化と学際性を示す。 連邦政府のIT戦略は、すべての定義された活動分野に対して、十分に訓練された専門家を必要とする。 この不足した資源は、ドイツ省や当局のニーズのために特別に開発された個別の学位課程で、学術的に訓練されることがますます増えている。 行政情報学コースの例を用いて,その必要性と成功事例を説明する。 本稿では,ITZBund と連邦財務省の著者らが開発した Bachelor's/Master's Program を用いて,このコースの開発における2つの設計決定,すなわち超学際性と設計思考を正当化する。 私たちは新聞全体にドイツの視点を取り入れている。 しかし、この結論は他の国にも当てはまる。

Digitalization is conquering and stressing out the federal administration. Using selected large-scale ICT projects, we show how complex and interdisciplinary the tasks are. The federal administration's IT strategy requires well-trained specialists for all defined fields of action. This scarce resource is increasingly being trained academically in separate, tailor-made degree courses that are developed specifically for the needs of the German ministries and authorities. We use the example of administrative informatics courses to explain their necessity and success story. Using a Bachelor's/Master's program developed by the authors for the ITZBund and the Federal Ministry of Finance, we look at a concrete implementation and justify two of our design decisions in the development of the course, namely transdisciplinarity and design thinking. We adopt a German perspective throughout the paper. However, the conclusions also apply to other countries.
翻訳日:2023-12-12 20:13:02 公開日:2023-12-09
# ニューラルコード生成における思考の連鎖--軽量言語モデルから学ぶ

Chain-of-Thought in Neural Code Generation: From and For Lightweight Language Models ( http://arxiv.org/abs/2312.05562v1 )

ライセンス: Link先を確認
Guang Yang, Yu Zhou, Xiang Chen, Xiangyu Zhang, Terry Yue Zhuo, Taolue Chen(参考訳) 大規模言語モデル(llm)はコード生成において顕著な可能性を示している。 思考の連鎖(CoT)推論の統合は、そのパフォーマンスをさらに向上させる。 しかしながら、現在のCoTメソッドは、リソース制約のあるシナリオにおいて適用性を妨げ、1000億以上のパラメータを生成するために手書きやLLMを必要とすることが多い。 本研究では,100億未満のパラメータを持つと定義される軽量言語モデル (lLM) について検討する。 経験的に、ほとんどの lLM は、数ショット法によって、高品質な CoT を生成することはできないが、コード生成におけるパフォーマンスを改善するために、他の場所で生成された高品質な CoT を活用することができる。 これらの知見に基づいて,コード生成のためのCOTを自動生成するためにlLMを利用する新しいアプローチCOTTONを設計する。 我々は新しいデータセットを合成し、様々なベンチマークで広範な実験を行う。 その結果,COTTONが生成するCoTsは,自動評価と人的評価の指標において,ベースラインを上回っていることがわかった。 特に、COTTONが生成するCoTは、ChatGLM (130B)のようなLCMよりも高い性能を達成するために様々なlLMを増強し、gpt-3.5-turbo (175B) で生成されたものと競合する。 また,ソフトウェア工学応用における lLM の可能性についても検討した。

Large Language Models (LLMs) have demonstrated remarkable potential in code generation. The integration of Chain of Thought (CoT) reasoning can further boost their performance. However, current CoT methods often require manual writing or LLMs with over 100 billion parameters to generate, impeding their applicability in resource-constrained scenarios. In this study, we investigate lightweight Language Models (lLMs), which are defined to have fewer than 10 billion parameters. Empirically, we find that most lLMs cannot generate high-quality CoTs when prompted by the few-shot method, but can take advantage of high-quality CoTs generated elsewhere to improve their performance in code generation. Based on these findings, we design a novel approach COTTON which can leverage lLMs to automatically generate CoTs for code generation. We synthesize new datasets and conduct extensive experiments on various benchmarks. The results show that the CoTs generated by COTTON outperform the baselines in terms of automated and human evaluation metrics. In particular, the CoTs generated by COTTON boost various lLMs to achieve higher performance gains than those generated by LLMs such as ChatGLM (130B), and are competitive with those generated by gpt-3.5-turbo (175B). Our study also showcases the potential of lLMs in software engineering applications.
翻訳日:2023-12-12 20:12:48 公開日:2023-12-09
# kerr修飾紡糸キャビティマグノメカニクスにおける非相反フォトン・フォノンの絡み合い

Nonreciprocal Photon-Phonon Entanglement in Kerr-Modified Spinning Cavity Magnomechanics ( http://arxiv.org/abs/2312.05561v1 )

ライセンス: Link先を確認
Jiaojiao Chen, Xiao-Gang Fan, Wei Xiong, Dong Wang, and Liu Ye(参考訳) キャビティマグノメカニクスは、マクロ量子効果の研究、特に量子情報科学の重要な資源である量子絡み合いの研究において大きな可能性を示している。 本稿では,キャビティ・マグノメカニクスにおけるマグノンケラー効果とサニャック効果の両方を用いて,マグノンを媒介とする非相反フォノンの絡み合いを実現する。 平均マグノン数は, キャビティ上の強駆動場の強度と相反する非線形あるいは非線形な挙動を選択的に示すことができる。 この駆動場の支援により、マグノン-フォノンカップリングは大幅に強化され、マグノンと光子の交換相互作用を介して非相互フォノン-フォノンの絡み合いが生じる。 この非相反的な絡み合いはマグノンカー効果とサニャック効果によって著しく強化される。 利用可能なパラメータを考えると、非相互フォトン-フォノンの絡み合いは$\sim3$Kで保存でき、浴槽温度に対して顕著な耐性を示す。 その結果, キャビティマグノメカニクスにおいて, マグノンカー効果とサニャック効果を両立した非相反デバイスの開発が期待できることがわかった。

Cavity magnomechanics has shown great potential in studying macroscopic quantum effects, especially for quantum entanglement, which is a key resource for quantum information science. Here we propose to realize magnons mediated nonreciprocal photon-phonon entanglement with both the magnon Kerr and Sagnac effects in cavity magnomechanics. We find that the mean magnon number can selectively exhibit nonreciprocal linear or nonlinear (bistable) behavior with the strength of the strong driving field on the cavity. Assisted by this driving field, the magnon-phonon coupling is greatly enhanced, leading to the nonreciprocal photon-phonon entanglement via the swapping interaction between the magnons and photons. This nonreciprocal entanglement can be significantly enhanced with the magnon Kerr and Sagnac effects. Given the available parameters, the nonreciprocal photon-phonon entanglement can be preserved at $\sim3$ K, showing remarkable resilience against the bath temperature. The result reveals that our work holds promise in developing various nonreciprocal devices with both the magnon Kerr and Sagnac effects in cavity magnomechanics.
翻訳日:2023-12-12 20:12:23 公開日:2023-12-09
# 業務プロセスのアクティビティシーケンスの予測者の正確性向上

Enhancing the Accuracy of Predictors of Activity Sequences of Business Processes ( http://arxiv.org/abs/2312.05560v1 )

ライセンス: Link先を確認
Muhammad Awais Ali, Marlon Dumas, Fredrik Milani(参考訳) 予測プロセスモニタリングは、運用上の意思決定のために予測モデルを訓練し使用する方法を研究する進化途上の研究分野である。 この分野で研究された問題の1つは、その完了までのケースにおける今後の活動の順序を予測することである。 ケースサフィックスの予測は、リソーススケジュールの異なる短期的ワークロードと実行時間を予測する入力を提供する。 この問題に対処する既存の方法は、いくつかのアクティビティが何度も繰り返される接尾辞を生成することが多いが、このパターンはデータでは観測されない。 より綿密な検査では、この欠点は連続したアクティビティインスタンスをサンプリングしてケース接尾辞を生成するアプローチに起因している。 そこで本論文では,予測事例の接尾辞における活動の繰り返しを減らすことを目的としたサンプリング手法を提案する。 このアプローチ、すなわちデーモンアクションは、連続したアクティビティインスタンスを生成するときに探索と搾取のバランスを取る。 このサンプリング手法を用いて,ケース接尾辞予測のための深層学習アプローチを強化し,制御-フロー精度測定において,改良されたアプローチが未強化の手法よりも優れていることを示す。

Predictive process monitoring is an evolving research field that studies how to train and use predictive models for operational decision-making. One of the problems studied in this field is that of predicting the sequence of upcoming activities in a case up to its completion, a.k.a. the case suffix. The prediction of case suffixes provides input to estimate short-term workloads and execution times under different resource schedules. Existing methods to address this problem often generate suffixes wherein some activities are repeated many times, whereas this pattern is not observed in the data. Closer examination shows that this shortcoming stems from the approach used to sample the successive activity instances to generate a case suffix. Accordingly, the paper introduces a sampling approach aimed at reducing repetitions of activities in the predicted case suffixes. The approach, namely Daemon action, strikes a balance between exploration and exploitation when generating the successive activity instances. We enhance a deep learning approach for case suffix predictions using this sampling approach, and experimentally show that the enhanced approach outperforms the unenhanced ones with respect to control-flow accuracy measures.
翻訳日:2023-12-12 20:12:00 公開日:2023-12-09
# 系列ハミルトンアセンブリによるVQEのパラメータトレーニングの改善

Improving Parameter Training for VQEs by Sequential Hamiltonian Assembly ( http://arxiv.org/abs/2312.05552v1 )

ライセンス: Link先を確認
Jonas Stein, Navid Roshani, Maximilian Zorn, Philipp Altmann, Michael K\"olle, Claudia Linnhoff-Popien(参考訳) 量子機械学習における中心的な課題は、パラメータ化量子回路(PQC)の設計と訓練である。 深層学習と同様に、消失する勾配はpqcsの訓練能力に重大な問題をもたらす。 そのような原因の1つは非局所損失関数であり、関連する量子ビットの大きなサブセットの測定を要求する。 大域的損失関数を用いた量子応用のパラメータトレーニングを容易にするために,局所成分を用いた損失関数を反復的に近似する逐次ハミルトニアンアセンブリを提案する。 原理実証を目指して,可変量子固有ソルバ(vqe)を用いたグラフ彩色問題を用いたアプローチを評価した。 シミュレーションの結果,従来のパラメータトレーニングでは29.99%,実証的手法では5.12%,平均的精度では5.12%であった。 これにより、局所性を考慮した学習技術への道が開かれ、現実的な問題の大きなクラスにおいて、消滅する勾配を回避することができる。

A central challenge in quantum machine learning is the design and training of parameterized quantum circuits (PQCs). Similar to deep learning, vanishing gradients pose immense problems in the trainability of PQCs, which have been shown to arise from a multitude of sources. One such cause are non-local loss functions, that demand the measurement of a large subset of involved qubits. To facilitate the parameter training for quantum applications using global loss functions, we propose a Sequential Hamiltonian Assembly, which iteratively approximates the loss function using local components. Aiming for a prove of principle, we evaluate our approach using Graph Coloring problem with a Varational Quantum Eigensolver (VQE). Simulation results show, that our approach outperforms conventional parameter training by 29.99% and the empirical state of the art, Layerwise Learning, by 5.12% in the mean accuracy. This paves the way towards locality-aware learning techniques, allowing to evade vanishing gradients for a large class of practically relevant problems.
翻訳日:2023-12-12 20:11:40 公開日:2023-12-09
# 多次元フェアフェデレーション学習

Multi-dimensional Fair Federated Learning ( http://arxiv.org/abs/2312.05551v1 )

ライセンス: Link先を確認
Cong Su, Guoxian Yu, Jun Wang, Hui Li, Qingzhong Li, Han Yu(参考訳) federated learning(fl)は、プライバシを損なうことなく分散データからモデルをトレーニングするための、有望なコラボレーティブかつセキュアなパラダイムとして登場した。 グループフェアネス(group fairness)とクライアントフェアネス( client fairness)は、flにとって重要なフェアネスの2次元である。 標準FLは特定のクライアントに対して不均等な不利をもたらす可能性があり、人口の異なるグループを公平に扱うという課題に直面している。 不利なクライアントの一般化能力を損なうことなく、公平なflモデルをプライベートにトレーニングする問題は未解決である。 本稿では,この問題に対処し,グループフェアネスとクライアントフェアネスを同時に実現する手法であるmFairFLを提案する。 mFairFLは微分乗数を利用して、公正性制約を伴う経験的リスク最小化の最適化目標を構築する。 ローカルに訓練されたモデルを集約する前に、まず勾配間の衝突を検出し、その後、これらの衝突を軽減するために勾配の方向と大きさを反復的にキュレートする。 理論的解析は、mFairFLがモデル開発の公正性を促進することを証明している。 3つのベンチマークデータセットに基づく実験評価は、7つの最先端ベースラインと比較してmFairFLの大きな利点を示している。

Federated learning (FL) has emerged as a promising collaborative and secure paradigm for training a model from decentralized data without compromising privacy. Group fairness and client fairness are two dimensions of fairness that are important for FL. Standard FL can result in disproportionate disadvantages for certain clients, and it still faces the challenge of treating different groups equitably in a population. The problem of privately training fair FL models without compromising the generalization capability of disadvantaged clients remains open. In this paper, we propose a method, called mFairFL, to address this problem and achieve group fairness and client fairness simultaneously. mFairFL leverages differential multipliers to construct an optimization objective for empirical risk minimization with fairness constraints. Before aggregating locally trained models, it first detects conflicts among their gradients, and then iteratively curates the direction and magnitude of gradients to mitigate these conflicts. Theoretical analysis proves mFairFL facilitates the fairness in model development. The experimental evaluations based on three benchmark datasets show significant advantages of mFairFL compared to seven state-of-the-art baselines.
翻訳日:2023-12-12 20:11:22 公開日:2023-12-09
# d3a-ts:時系列におけるノイズ駆動型データ拡張

D3A-TS: Denoising-Driven Data Augmentation in Time Series ( http://arxiv.org/abs/2312.05550v1 )

ライセンス: Link先を確認
David Solis-Martin, Juan Galan-Paez, Joaquin Borrego-Diaz(参考訳) データ駆動型機械学習では,データ量の重要性が実証されている。 データは常に価値のあるものですが、タスクによっては金に近いものもあります。 これは、データが不足しているエンジニアリング領域や、障害が稀な予測メンテナンスなど、取得に非常にコストがかかる領域で発生する。 この文脈では、合成データを生成するメカニズムは非常に有用である。 コンピュータビジョンや自然言語処理などの分野では、人工データ生成は有望な結果で広く研究されているが、時系列などの他の領域では、あまり注目されていない。 本研究は、分類と回帰問題に対する時系列におけるデータ拡張のための異なるテクニックの研究と分析に特に焦点をあてる。 提案手法は,画像処理分野において最近成功した拡散確率モデルを用いて時系列におけるデータ拡張を行う手法である。 さらに, メタ属性を用いたデータ拡張プロセスについて検討した。 その結果, 分類と回帰モデルを訓練するための合成データの作成において, この手法の高有用性が浮き彫りになった。 その結果, 多様な領域からの6つの異なるデータセットが採用され, 入力サイズと出力型で汎用性を示した。 最後に、得られた結果をさらに支援するために広範なアブレーション研究を行う。

It has been demonstrated that the amount of data is crucial in data-driven machine learning methods. Data is always valuable, but in some tasks, it is almost like gold. This occurs in engineering areas where data is scarce or very expensive to obtain, such as predictive maintenance, where faults are rare. In this context, a mechanism to generate synthetic data can be very useful. While in fields such as Computer Vision or Natural Language Processing synthetic data generation has been extensively explored with promising results, in other domains such as time series it has received less attention. This work specifically focuses on studying and analyzing the use of different techniques for data augmentation in time series for classification and regression problems. The proposed approach involves the use of diffusion probabilistic models, which have recently achieved successful results in the field of Image Processing, for data augmentation in time series. Additionally, the use of meta-attributes to condition the data augmentation process is investigated. The results highlight the high utility of this methodology in creating synthetic data to train classification and regression models. To assess the results, six different datasets from diverse domains were employed, showcasing versatility in terms of input size and output types. Finally, an extensive ablation study is conducted to further support the obtained outcomes.
翻訳日:2023-12-12 20:11:04 公開日:2023-12-09
# 不完全データを用いた腎臓癌診断のための統合多相CT合成と分類フレームワーク

A Unified Multi-Phase CT Synthesis and Classification Framework for Kidney Cancer Diagnosis with Incomplete Data ( http://arxiv.org/abs/2312.05548v1 )

ライセンス: Link先を確認
Kwang-Hyun Uhm, Seung-Won Jung, Moon Hyung Choi, Sung-Hoo Hong, Sung-Jea Ko(参考訳) 多相ctは相間の相補的情報により腎癌の診断に広く用いられている。 しかし、多相ctの完全なセットは実際の臨床応用では利用できないことが多い。 近年、利用可能なデータから欠落したモダリティ画像を生成する研究がいくつか行われている。 それにもかかわらず、生成された画像は診断タスクに有効であるとは保証されない。 本稿では,不完全多相CTを用いた腎癌診断のための統一的枠組みを提案する。 我々のフレームワークの利点は、がんのサブタイプを分類するのに有用な欠落したCTフェーズを明示的に学習する合成モデルを奨励することである。 また,本フレームワークに病変分割ネットワークを組み込むことにより,CT全容の癌分類に有効な病変レベル特徴を活用できる。 提案するフレームワークは,3次元CTボリュームの合成と分類を協調的に最適化する,完全3次元畳み込みニューラルネットワークに基づいている。 社内および外部のデータセットに対する大規模な実験は、最先端のベースラインと比較して、不完全なデータによる診断のためのフレームワークの有効性を示す。 特に,ctデータを用いた癌サブタイプ分類は,与えられた不完全データを用いた分類よりも高い性能が得られる。

Multi-phase CT is widely adopted for the diagnosis of kidney cancer due to the complementary information among phases. However, the complete set of multi-phase CT is often not available in practical clinical applications. In recent years, there have been some studies to generate the missing modality image from the available data. Nevertheless, the generated images are not guaranteed to be effective for the diagnosis task. In this paper, we propose a unified framework for kidney cancer diagnosis with incomplete multi-phase CT, which simultaneously recovers missing CT images and classifies cancer subtypes using the completed set of images. The advantage of our framework is that it encourages a synthesis model to explicitly learn to generate missing CT phases that are helpful for classifying cancer subtypes. We further incorporate lesion segmentation network into our framework to exploit lesion-level features for effective cancer classification in the whole CT volumes. The proposed framework is based on fully 3D convolutional neural networks to jointly optimize both synthesis and classification of 3D CT volumes. Extensive experiments on both in-house and external datasets demonstrate the effectiveness of our framework for the diagnosis with incomplete data compared with state-of-the-art baselines. In particular, cancer subtype classification using the completed CT data by our method achieves higher performance than the classification using the given incomplete data.
翻訳日:2023-12-12 20:10:45 公開日:2023-12-09
# 動的プログラミング - 軌道追従のためのベルマン方程式の一般化

Signatures Meet Dynamic Programming: Generalizing Bellman Equations for Trajectory Following ( http://arxiv.org/abs/2312.05547v1 )

ライセンス: Link先を確認
Motoya Ohnishi, Iretiayo Akinola, Jie Xu, Ajay Mandlekar, Fabio Ramos(参考訳) 経路シグネチャは、テンソル積を通る経路の高速連結を含む有用な代数的性質を持つ、経路の解析的および幾何学的特性を効率的に捉える経路の強力な表現として提案されている。 最近、シグネチャは時系列分析の機械学習問題に広く採用されている。 本研究では、経路シグネチャの最適制御や興味深い性質に典型的に使用される値関数間の接続を確立する。 これらの接続は、ベルマン方程式を軌道空間に効率的に一般化するシグネチャ変換を持つ新しい制御フレームワークを動機付ける。 我々は、署名制御と呼ばれるフレームワークの特性と利点を分析する。 特に、私たちは、 (i) 異なる/適応的な時間ステップを自然に扱うことができる。 (ii)値関数更新よりも高レベルの情報を効率的に伝播する。 (iii)長いロールアウトに対して動的システムの誤特定にロバストである。 このフレームワークの具体例として,経路追跡のためのモデル予測制御法を考案する。 この方法は積分制御を一般化し、未知の乱問題に適合する。 提案するアルゴリズムはシミュレーションでテストされ、ポイントマス、antモデルの曲線追従、ロボットマニピュレータなどの典型的な制御やロボット工学のタスクを含む微分可能な物理モデルがテストされている。

Path signatures have been proposed as a powerful representation of paths that efficiently captures the path's analytic and geometric characteristics, having useful algebraic properties including fast concatenation of paths through tensor products. Signatures have recently been widely adopted in machine learning problems for time series analysis. In this work we establish connections between value functions typically used in optimal control and intriguing properties of path signatures. These connections motivate our novel control framework with signature transforms that efficiently generalizes the Bellman equation to the space of trajectories. We analyze the properties and advantages of the framework, termed signature control. In particular, we demonstrate that (i) it can naturally deal with varying/adaptive time steps; (ii) it propagates higher-level information more efficiently than value function updates; (iii) it is robust to dynamical system misspecification over long rollouts. As a specific case of our framework, we devise a model predictive control method for path tracking. This method generalizes integral control, being suitable for problems with unknown disturbances. The proposed algorithms are tested in simulation, with differentiable physics models including typical control and robotics tasks such as point-mass, curve following for an ant model, and a robotic manipulator.
翻訳日:2023-12-12 20:10:27 公開日:2023-12-09
# DPoser: 人類の3Dマップに先立つロバストな拡散モデル

DPoser: Diffusion Model as Robust 3D Human Pose Prior ( http://arxiv.org/abs/2312.05541v1 )

ライセンス: Link先を確認
Junzhe Lu, Jing Lin, Hongkun Dou, Yulun Zhang, Yue Deng, Haoqian Wang(参考訳) 人間のポーズをモデル化することは、人間とロボットの相互作用から拡張現実への応用の基盤となっているが、人間のポーズを頑丈に構築することは、生体力学的制約と多様な人間の動きのために依然として課題である。 VAEやNDFのような伝統的な先行は、現実主義や一般化において、特に目に見えないノイズのポーズのような極端な状況では、しばしば不足する。 これらの問題に対処するため,我々は拡散モデルに先立って,頑健で多用途な人間のポーズであるdposerを紹介する。 最適化フレームワークで設計されたDPoserは、ヒューマンメッシュリカバリ、ポーズ補完、モーションデノイングなど、さまざまなポーズ中心のアプリケーションにシームレスに統合される。 具体的には、これらのタスクを逆問題として定式化することにより、効率的な解法に変分拡散サンプリングを用いる。 さらに,従来の研究で焦点を絞ったポーズと構造化画像の相違を認め,下流タスクの性能向上を目的とした時間経過スケジューリングを提案する。 我々の徹底的な実験は、DPoserが複数のタスクにまたがる既存の最先端のポーズよりも優れていることを示す。

Modeling human pose is a cornerstone in applications from human-robot interaction to augmented reality, yet crafting a robust human pose prior remains a challenge due to biomechanical constraints and diverse human movements. Traditional priors like VAEs and NDFs often fall short in realism and generalization, especially in extreme conditions such as unseen noisy poses. To address these issues, we introduce DPoser, a robust and versatile human pose prior built upon diffusion models. Designed with optimization frameworks, DPoser seamlessly integrates into various pose-centric applications, including human mesh recovery, pose completion, and motion denoising. Specifically, by formulating these tasks as inverse problems, we employ variational diffusion sampling for efficient solving. Furthermore, acknowledging the disparity between the articulated poses we focus on and structured images in previous research, we propose a truncated timestep scheduling to boost performance on downstream tasks. Our exhaustive experiments demonstrate DPoser's superiority over existing state-of-the-art pose priors across multiple tasks.
翻訳日:2023-12-12 20:10:08 公開日:2023-12-09
# 説明可能な適応最適化による連関因果学習

Federated Causality Learning with Explainable Adaptive Optimization ( http://arxiv.org/abs/2312.05540v1 )

ライセンス: Link先を確認
Dezhi Yang, Xintong He, Jun Wang, Guoxian Yu, Carlotta Domeniconi, Jinglin Zhang(参考訳) 観測データから因果関係を発見することは、様々な科学領域において重要な課題である。 プライバシーに対する意識が高まるにつれて、データは公開されることが許されず、分散データから因果グラフを学ぶことは極めて困難である。 本稿では,分散不均質データから統一された大域因果グラフを学習するための連合因果発見戦略(fedcausal)を提案する。 クライアントデータから因果グラフを自然に集約し,局所データを公開せずにグローバルグラフの非周期性を制約するグローバル最適化公式を設計する。 他のフェデレーション付き因果学習アルゴリズムとは異なり、FedCausalは局所的および大域的最適化を柔軟な最適化目標を持つ完全有向非巡回グラフ(DAG)学習プロセスに統合する。 この最適化の目的は高い解釈可能性を持ち、同種および異種データを適応的に処理できることを実証する。 合成データと実データを用いた実験の結果、フェデカウサルは非独立かつ同一の分散データ(非iidデータ)を効果的に扱うことができ、優れた性能を示す。

Discovering the causality from observational data is a crucial task in various scientific domains. With increasing awareness of privacy, data are not allowed to be exposed, and it is very hard to learn causal graphs from dispersed data, since these data may have different distributions. In this paper, we propose a federated causal discovery strategy (FedCausal) to learn the unified global causal graph from decentralized heterogeneous data. We design a global optimization formula to naturally aggregate the causal graphs from client data and constrain the acyclicity of the global graph without exposing local data. Unlike other federated causal learning algorithms, FedCausal unifies the local and global optimizations into a complete directed acyclic graph (DAG) learning process with a flexible optimization objective. We prove that this optimization objective has a high interpretability and can adaptively handle homogeneous and heterogeneous data. Experimental results on synthetic and real datasets show that FedCausal can effectively deal with non-independently and identically distributed (non-iid) data and has a superior performance.
翻訳日:2023-12-12 20:09:48 公開日:2023-12-09
# csl:unseenを含むセグメンテーションのためのクラス非依存構造制約学習

CSL: Class-Agnostic Structure-Constrained Learning for Segmentation Including the Unseen ( http://arxiv.org/abs/2312.05538v1 )

ライセンス: Link先を確認
Hao Zhang, Fang Li, Lu Qi, Ming-Hsuan Yang, and Narendra Ahuja(参考訳) Out-Of-Distribution (OOD) Segmentation と Zero-Shot Semantic Segmentation (ZS3) の対応は難しい。 既存の戦略はクラスに依存しない mask2former (ca-m2f) を特定のタスクに適応させる。 しかし、これらの手法は特異なタスクに対応し、スクラッチからの要求訓練を行い、性能に影響を及ぼすCA-M2Fの欠陥を示す。 本稿では,既存の手法と統合可能なプラグインフレームワークであるcsl(class-dependent structure-constrained learning)を提案し,unseen,特にood,zs3,ドメイン適応(da)タスクを含む,構造的制約を組み込んでパフォーマンス向上を実現する。 CSLは,(1)基本教師ネットワークから知識を抽出し,トレーニングや推論フレーズ間の制約を強制すること,(2)既存のモデルを活用して,推論フェーズ中に制約を付加すること,の2つの方法を統合する。 OODオブジェクトセグメンテーションを強化するソフトアサインとマスク分割手法を提案する。 実証的な評価は、CSLがOODセグメンテーション、ZS3、DAセグメンテーションにまたがる既存のアルゴリズムの性能向上に成功し、3つのタスクすべてにわたって最先端を一貫して超越していることを示している。

Addressing Out-Of-Distribution (OOD) Segmentation and Zero-Shot Semantic Segmentation (ZS3) is challenging, necessitating segmenting unseen classes. Existing strategies adapt the class-agnostic Mask2Former (CA-M2F) tailored to specific tasks. However, these methods cater to singular tasks, demand training from scratch, and we demonstrate certain deficiencies in CA-M2F, which affect performance. We propose the Class-Agnostic Structure-Constrained Learning (CSL), a plug-in framework that can integrate with existing methods, thereby embedding structural constraints and achieving performance gain, including the unseen, specifically OOD, ZS3, and domain adaptation (DA) tasks. There are two schemes for CSL to integrate with existing methods (1) by distilling knowledge from a base teacher network, enforcing constraints across training and inference phrases, or (2) by leveraging established models to obtain per-pixel distributions without retraining, appending constraints during the inference phase. We propose soft assignment and mask split methodologies that enhance OOD object segmentation. Empirical evaluations demonstrate CSL's prowess in boosting the performance of existing algorithms spanning OOD segmentation, ZS3, and DA segmentation, consistently transcending the state-of-art across all three tasks.
翻訳日:2023-12-12 20:09:30 公開日:2023-12-09
# KEN: 自然言語を用いたカーネル拡張

KEN: Kernel Extensions using Natural Language ( http://arxiv.org/abs/2312.05531v1 )

ライセンス: Link先を確認
Yusheng Zheng, Yiwei Yang, Maolin Chen, Andrew Quinn(参考訳) オペレーティングシステムを変更・拡張する能力は、システムのセキュリティ、信頼性、性能を改善する上で重要な機能である。 拡張バークレーパケットフィルタ(eBPF)エコシステムはLinuxカーネルを拡張するための標準メカニズムとして登場し、最近Windowsに移植された。 eBPFプログラムは、既存のロジックの前後でシステムが実行するカーネルに新しいロジックを注入する。 eBPFエコシステムはカーネル拡張の柔軟なメカニズムを提供するが、今日の開発者はeBPFプログラムを書くのが難しい。 eBPF開発者は、論理をどこに配置するかを判断し、EBPF検証によって強制される制御フローとデータアクセスに関するプログラミング制限に対処するために、オペレーティングシステムの内部について深い知識を持つ必要がある。 本稿では,kernel Extensionsを自然言語で書けるようにすることで,eBPFプログラムを書くことの難しさを軽減するフレームワークであるKENを提案する。 KENは、ユーザの英語のプロンプトを与えられたeBPFプログラムを合成するために、大規模言語モデル(LLM)の最近の進歩を利用する。 LLMの出力がユーザのプロンプトと意味的に等価であることを保証するため、KENはLLMを内蔵したプログラム理解、シンボリック実行、一連のフィードバックループを組み合わせている。 鍵となる斬新さはこれらの技法の組み合わせである。 特に、このシステムは、プログラム合成の結果とプログラム理解を組み合わせることを可能にする新しい構造でシンボリックな実行を使用しており、これらのタスクごとにllmが示した最近の成功に基づいている。 KENを評価するために,eBPFプログラムのための自然言語プロンプトの新しいコーパスを開発した。 その結果,プログラム合成ベースラインに比べて2.67倍の改善率である80%で正しいebpfプログラムを生成できることが判明した。

The ability to modify and extend an operating system is an important feature for improving a system's security, reliability, and performance. The extended Berkeley Packet Filters (eBPF) ecosystem has emerged as the standard mechanism for extending the Linux kernel and has recently been ported to Windows. eBPF programs inject new logic into the kernel that the system will execute before or after existing logic. While the eBPF ecosystem provides a flexible mechanism for kernel extension, it is difficult for developers to write eBPF programs today. An eBPF developer must have deep knowledge of the internals of the operating system to determine where to place logic and cope with programming limitations on the control flow and data accesses of their eBPF program enforced by the eBPF verifier. This paper presents KEN, an alternative framework that alleviates the difficulty of writing an eBPF program by allowing Kernel Extensions to be written in Natural language. KEN uses recent advances in large language models (LLMs) to synthesize an eBPF program given a user's English language prompt. To ensure that LLM's output is semantically equivalent to the user's prompt, KEN employs a combination of LLM-empowered program comprehension, symbolic execution, and a series of feedback loops. KEN's key novelty is the combination of these techniques. In particular, the system uses symbolic execution in a novel structure that allows it to combine the results of program synthesis and program comprehension and build on the recent success that LLMs have shown for each of these tasks individually. To evaluate KEN, we developed a new corpus of natural language prompts for eBPF programs. We show that KEN produces correct eBPF programs on 80% which is an improvement of a factor of 2.67 compared to an LLM-empowered program synthesis baseline.
翻訳日:2023-12-12 20:09:00 公開日:2023-12-09
# グラフニューラルネットワークのための因子化説明器

Factorized Explainer for Graph Neural Networks ( http://arxiv.org/abs/2312.05596v1 )

ライセンス: Link先を確認
Rundong Huang, Farhad Shirani, Dongsheng Luo(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習する能力によって、注目を集めている。 これらの深層学習モデルのブラックボックスを開くために、GNN予測を理解するために、ポストホックなインスタンスレベルの説明法が提案されている。 これらの手法は,訓練されたGNNの予測動作を説明する部分構造を探索する。 本稿では,多種多様な説明課題に対して,グラフ情報ボトルネック(GIB)の原理に基づく従来の手法では,説明可能性の概念と一致しない自明な解が認められていることを解析的に示す。 代わりに、上述した自明な解を避けるために修正された GIB の原理が用いられるかもしれないと論じる。 さらに、理論的性能保証を伴う新しい因子化説明モデルを導入する。 修正GIBを用いて,提案した因子化説明器の構造特性を解析した。 提案手法の有効性を検証するため,合成データと実世界のデータセットの両方について広範な実験を行った。

Graph Neural Networks (GNNs) have received increasing attention due to their ability to learn from graph-structured data. To open the black-box of these deep learning models, post-hoc instance-level explanation methods have been proposed to understand GNN predictions. These methods seek to discover substructures that explain the prediction behavior of a trained GNN. In this paper, we show analytically that for a large class of explanation tasks, conventional approaches, which are based on the principle of graph information bottleneck (GIB), admit trivial solutions that do not align with the notion of explainability. Instead, we argue that a modified GIB principle may be used to avoid the aforementioned trivial solutions. We further introduce a novel factorized explanation model with theoretical performance guarantees. The modified GIB is used to analyze the structural properties of the proposed factorized explainer. We conduct extensive experiments on both synthetic and real-world datasets to validate the effectiveness of our proposed factorized explainer over existing approaches.
翻訳日:2023-12-12 20:03:00 公開日:2023-12-09
# 物理層コミュニケーションのための生成型ai:調査

Generative AI for Physical Layer Communications: A Survey ( http://arxiv.org/abs/2312.05594v1 )

ライセンス: Link先を確認
Nguyen Van Huynh, Jiacheng Wang, Hongyang Du, Dinh Thai Hoang, Dusit Niyato, Diep N. Nguyen, Dong In Kim, and Khaled B. Letaief(参考訳) 最近の生成型人工知能(gai)の進化は、chatgptのような画期的なアプリケーションを生み出し、テキスト、オーディオ、ビデオ、さらにはネットワークトラフィックデータといったデジタルコンテンツ生成の効率を高めるだけでなく、その多様性も強化している。 デジタルコンテンツ作成以外にも、複雑なデータ配信を分析するGAIの能力は、特に新しい物理層通信技術の急速な拡大の中で、無線通信に大きな可能性をもたらす。 例えば、拡散モデルは入力信号分布を学習し、チャネル推定精度を向上させるのに使うことができるが、変分オートエンコーダはチャネル分布をモデル化し、ブラインドチャネル等化の潜在変数を推定することができる。 そこで本稿では,信号分類,チャネル推定,等化といった従来の問題から,インテリジェント反射面やジョイント・ソース・チャネル符号化といった新たな話題まで,物理層におけるgaiの通信応用に関する包括的考察を行う。 また、GAI対応物理層通信と従来のAIがサポートしているものを比較し、これらの領域におけるGAI固有の能力とユニークな貢献を強調します。 最後に,オープンな課題について論じ,物理層通信におけるgaiのさらなる探索と発展のための基礎となる,今後の研究の方向性を提案する。

The recent evolution of generative artificial intelligence (GAI) leads to the emergence of groundbreaking applications such as ChatGPT, which not only enhances the efficiency of digital content production, such as text, audio, video, or even network traffic data, but also enriches its diversity. Beyond digital content creation, GAI's capability in analyzing complex data distributions offers great potential for wireless communications, particularly amidst a rapid expansion of new physical layer communication technologies. For example, the diffusion model can learn input signal distributions and use them to improve the channel estimation accuracy, while the variational autoencoder can model channel distribution and infer latent variables for blind channel equalization. Therefore, this paper presents a comprehensive investigation of GAI's applications for communications at the physical layer, ranging from traditional issues, including signal classification, channel estimation, and equalization, to emerging topics, such as intelligent reflecting surfaces and joint source channel coding. We also compare GAI-enabled physical layer communications with those supported by traditional AI, highlighting GAI's inherent capabilities and unique contributions in these areas. Finally, the paper discusses open issues and proposes several future research directions, laying a foundation for further exploration and advancement of GAI in physical layer communications.
翻訳日:2023-12-12 20:02:45 公開日:2023-12-09
# 自然言語処理のためのディープラーニングにおけるハイブリッドとアンサンブルの検討

A Review of Hybrid and Ensemble in Deep Learning for Natural Language Processing ( http://arxiv.org/abs/2312.05589v1 )

ライセンス: Link先を確認
Jianguo Jia, Wen Liang, Youzhi Liang(参考訳) 本稿では,自然言語処理(nlp)におけるハイブリッド・アンサンブル深層学習モデルの包括的探索を行い,感情分析,名前付きエンティティ認識,機械翻訳,質問応答,テキスト分類,生成,音声認識,要約,言語モデリングなど,さまざまなタスクにわたる変換可能性について考察する。 本稿では,各タスクを体系的に導入し,主要なアーキテクチャをリカレントニューラルネットワーク(RNN)からBERTなどのトランスフォーマーベースモデルに記述し,その性能,課題,計算要求を評価する。 アンサンブル技術の適用性を強調し、様々なNLPアプリケーションを強化する能力を強調している。 計算オーバーヘッド、オーバーフィッティング、モデル解釈の複雑さを含む実装上の課題は、解釈可能性とパフォーマンスのトレードオフとともに対処される。 簡潔で価値のないガイドとして、タスク、アーキテクチャ、課題に関する洞察を総合し、nlpでディープラーニングをアンサンブルすることで、言語駆動アプリケーションの発展を目指す研究者や実践者に総合的な視点を提供します。

This review presents a comprehensive exploration of hybrid and ensemble deep learning models within Natural Language Processing (NLP), shedding light on their transformative potential across diverse tasks such as Sentiment Analysis, Named Entity Recognition, Machine Translation, Question Answering, Text Classification, Generation, Speech Recognition, Summarization, and Language Modeling. The paper systematically introduces each task, delineates key architectures from Recurrent Neural Networks (RNNs) to Transformer-based models like BERT, and evaluates their performance, challenges, and computational demands. The adaptability of ensemble techniques is emphasized, highlighting their capacity to enhance various NLP applications. Challenges in implementation, including computational overhead, overfitting, and model interpretation complexities, are addressed alongside the trade-off between interpretability and performance. Serving as a concise yet invaluable guide, this review synthesizes insights into tasks, architectures, and challenges, offering a holistic perspective for researchers and practitioners aiming to advance language-driven applications through ensemble deep learning in NLP.
翻訳日:2023-12-12 20:02:20 公開日:2023-12-09
# 言語支援ビジョンモデルデバッガ: バグ発見のためのサンプルフリーアプローチ

Language-assisted Vision Model Debugger: A Sample-Free Approach to Finding Bugs ( http://arxiv.org/abs/2312.05588v1 )

ライセンス: Link先を確認
Chaoquan Jiang, Jinqiang Wang, Rui Hu, Jitao Sang(参考訳) 総合的精度の高い視覚モデルは、しばしば特定のシナリオにおいて体系的な誤りを示し、深刻な安全上の懸念を生じさせる。 視覚モデルのバグの診断は注目を集めているが、従来の診断アプローチではアノテーション(celebaの各サンプルに付随するリッチなメタデータ)が必要となる。 この問題に対処するために,マルチモーダルモデル (\eg CLIP) に基づく視覚モデルにおけるバグの診断に画像の代わりにテキストを使用する言語支援診断手法を提案する。 提案手法は,CLIPの埋め込み空間と診断対象のバギー視覚モデルとを関連付けるとともに,共有分類器とCLIPからの埋め込み空間のクロスモーダル転送性を利用して,CLIPのテキストブランチがプロキシモデルとなり,バギーモデルにバグを見つける。 プロキシモデルは、画像とペアのテキストを分類することができる。 診断中、タスク関連コーパスを得るために大きな言語モデル(llm)が用いられ、このコーパスはキーワードを抽出するために使用される。 これらのキーワードを含むテンプレートで構築された記述は、プロキシモデルのエラーを調べる入力テキストとして機能する。 最後に、ウォーターバードとセロバデータセット上の言語を使って既存のビジュアルモデルを診断する能力を検証することで、人間の専門家に理解できるバグを識別し、既知のバグだけでなく、これまで知られていないバグも発見する。

Vision models with high overall accuracy often exhibit systematic errors in specific scenarios, posing potential serious safety concerns. Diagnosing bugs of vision models is gaining increased attention, however traditional diagnostic approaches require annotation efforts (\eg rich metadata accompanying each samples of CelebA). To address this issue,We propose a language-assisted diagnostic method that uses texts instead of images to diagnose bugs in vision models based on multi-modal models (\eg CLIP). Our approach connects the embedding space of CLIP with the buggy vision model to be diagnosed; meanwhile, utilizing a shared classifier and the cross-modal transferability of embedding space from CLIP, the text-branch of CLIP become a proxy model to find bugs in the buggy model. The proxy model can classify texts paired with images. During the diagnosis, a Large Language Model (LLM) is employed to obtain task-relevant corpora, and this corpora is used to extract keywords. Descriptions constructed with templates containing these keywords serve as input text to probe errors in the proxy model. Finally, we validate the ability to diagnose existing visual models using language on the Waterbirds and CelebA datasets, we can identify bugs comprehensible to human experts, uncovering not only known bugs but also previously unknown ones.
翻訳日:2023-12-12 20:01:57 公開日:2023-12-09
# 一般化影響関数によるブラックボックス予測の深い理解

Deeper Understanding of Black-box Predictions via Generalized Influence Functions ( http://arxiv.org/abs/2312.05586v1 )

ライセンス: Link先を確認
Hyeonsu Lyu, Jonggyu Jang, Sehyun Ryu, Hyun Jong Yang(参考訳) 影響関数(IF)は、学習データがモデル行動に与える影響を解明する。 しかし、現代の大規模モデルにおける非凸性の増加とパラメータ数の増大は、計算における不正確な影響近似と不安定性をもたらす。 大規模なモデルにおける一階近似は、IFが検査データに関係のないニュアンスパラメータを含む全てのパラメータを変更するため、そのような不安定性を引き起こすと強く疑っている。 そこで我々は,データに関連するパラメータを選択的に解析する。 しかし、選択されたパラメータからの影響を単に計算するだけでは、未選択パラメータのサブリミナルな影響を無効化できないため、誤解を招くことがある。 提案手法では,固定パラメータの影響を考慮しつつ,対象パラメータの影響を正確に推定する一般化IFを導入する。 従来のifsとは異なり、分析データと密接に関連した関連するターゲットパラメータを識別する手法を新たに採用した。 さらに,ロバストな逆ヘッセン-ベクトル積近似を用いて計算不安定性に取り組む。 驚くべきことに,提案手法はネットワーク構成にかかわらず収束を保証している。 resnet-18とvgg-11のクラス削除とバックドアモデルのリカバリに関するアプローチを評価した。 ネットワークのわずか10\%を変更すると、スクラッチから再トレーニングされたネットワークに匹敵する結果が得られる。 最初の推測と一致して、過剰なパラメータの変更によってネットワークユーティリティが低下することを確認した。 私たちの提案は、さまざまなaiドメインにわたるモデル分析の汎用ツールになり、専門家と一般読者の両方にアピールできると考えています。 コードはhttps://github.com/hslyu/GIFで入手できる。

Influence functions (IFs) elucidate how learning data affects model behavior. However, growing non-convexity and the number of parameters in modern large-scale models lead to imprecise influence approximation and instability in computations. We highly suspect that the first-order approximation in large models causes such fragility, as IFs change all parameters including possibly nuisance parameters that are irrelevant to the examined data. Thus, we attempt to selectively analyze parameters associated with the data. However, simply computing influence from the chosen parameters can be misleading, as it fails to nullify the subliminal impact of unselected parameters. Our approach introduces generalized IFs, precisely estimating target parameters' influence while considering fixed parameters' effects. Unlike the classic IFs, we newly adopt a method to identify pertinent target parameters closely associated with the analyzed data. Furthermore, we tackle computational instability with a robust inverse-Hessian-vector product approximation. Remarkably, the proposed approximation algorithm guarantees convergence regardless of the network configurations. We evaluated our approach on ResNet-18 and VGG-11 for class removal and backdoor model recovery. Modifying just 10\% of the network yields results comparable to the network retrained from scratch. Aligned with our first guess, we also confirm that modifying an excessive number of parameters results in a decline in network utility. We believe our proposal can become a versatile tool for model analysis across various AI domains, appealing to both specialists and general readers. Codes are available at https://github.com/hslyu/GIF.
翻訳日:2023-12-12 20:01:32 公開日:2023-12-09
# NLP技術を用いた患者への医療専門化

Enhancing Medical Specialty Assignment to Patients using NLP Techniques ( http://arxiv.org/abs/2312.05585v1 )

ライセンス: Link先を確認
Chris Solomou(参考訳) 大規模言語モデル(英語版)(llms)の導入と、広く入手可能な膨大な医療データの導入は、医療領域へのnlpの適用を増幅した。 しかし、LCMは適用されたドメインに明示的に関係しないデータに基づいて事前訓練され、事前訓練された元のデータに対してバイアスがかかることが多い。 ドメイン固有のデータで事前トレーニングされた場合でも、これらのモデルは通常、特定のタスクに優れたパフォーマンスを達成するために、時間を要する微調整を必要とする。 これらの制約に対処するため,計算効率を向上し,優れた性能を実現する方法を提案する。 具体的には,大量のテキストコーパスで事前学習された言語モデルを上回る深層学習アーキテクチャの学習にキーワードを用いる。 本提案では,事前学習や微調整は必要とせず,マルチラベル分類を行うための特定の設定に直接適用できる。 本研究の目的は,医用文字と関連するキーワードを含むデータセットを用いて,患者を専門医に自動的に割り当てることである。 この目的のために、このデータセット上でPubMedBERTモデルを微調整し、実験のベースラインとして機能します。 次に、DNNとRoBERTa言語モデルを2回トレーニングし、キーワードと完全な書き起こしの両方を入力として使用します。 これらのアプローチのパフォーマンスを関連するメトリクスで比較します。 テキスト分類におけるキーワードの利用は,基本的なDLアーキテクチャと大規模言語モデルの両方において,分類性能を著しく向上させることを示した。 このアプローチは、従来の言語モデルをドメイン固有のデータで微調整する手法に代わる有望で効率的な代替であり、様々な医療領域で応用できる可能性を持っている。

The introduction of Large Language Models (LLMs), and the vast volume of publicly available medical data, amplified the application of NLP to the medical domain. However, LLMs are pretrained on data that are not explicitly relevant to the domain that are applied to and are often biased towards the original data they were pretrained upon. Even when pretrained on domainspecific data, these models typically require time-consuming fine-tuning to achieve good performance for a specific task. To address these limitations, we propose an alternative approach that achieves superior performance while being computationally efficient. Specifically, we utilize keywords to train a deep learning architecture that outperforms a language model pretrained on a large corpus of text. Our proposal does not require pretraining nor fine-tuning and can be applied directly to a specific setting for performing multi-label classification. Our objective is to automatically assign a new patient to the specialty of the medical professional they require, using a dataset that contains medical transcriptions and relevant keywords. To this end, we fine-tune the PubMedBERT model on this dataset, which serves as the baseline for our experiments. We then twice train/fine-tune a DNN and the RoBERTa language model, using both the keywords and the full transcriptions as input. We compare the performance of these approaches using relevant metrics. Our results demonstrate that utilizing keywords for text classification significantly improves classification performance, for both a basic DL architecture and a large language model. Our approach represents a promising and efficient alternative to traditional methods for finetuning language models on domain-specific data and has potential applications in various medical domains
翻訳日:2023-12-12 20:01:09 公開日:2023-12-09
# データフリーメッシュムーバによるより優れたニューラルPDE解法

Better Neural PDE Solvers Through Data-Free Mesh Movers ( http://arxiv.org/abs/2312.05583v1 )

ライセンス: Link先を確認
Peiyan Hu, Yue Wang, Zhi-Ming Ma(参考訳) 近年,物理系モデリングにおける偏微分方程式(PDE)の解法としてニューラルネットワークが広く用いられている。 主要な研究は、事前定義された静的メッシュの離散化に関する学習システムの進化に焦点を当てているが、これらのシステムの動的性質のため、強化学習や教師付き学習技術を用いて適応的および動的メッシュを作成する方法もある。 しかし、これらのアプローチは、(1)高価な最適メッシュデータの必要性、(2)メッシュ精錬中の解空間の自由度とトポロジーの変化の2つの主な課題に直面している。 これらの課題に対処するために,ニューラルネットワークアダプタを用いたニューラルPDEソルバを提案する。 まず、DMM(Data-free Mesh Mover)と呼ばれる新しいデータフリーなニューラルネットワークアダプタを紹介します。 まず、最適なメッシュデータを持たないMonge-Ampere方程式を用いて、ソリューションを適応メッシュにマッピングする演算子である。 次に、ノードやエッジの追加や削除ではなく、既存のノードを移動することで、メッシュを動的に変更する。 理論的解析により、DMMによって生成されたメッシュは最小の補間誤差境界を持つことが示された。 DMMに基づいて、動的システムの効率的かつ正確なモデル化を行うため、移動メッシュを2分岐アーキテクチャで埋め込んだ移動メッシュベースのニューラルPDEソルバ(MM-PDE)と、データ内の情報を保存するための学習可能な補間フレームワークを開発する。 実験により,本手法は適切なメッシュを生成し,広く検討されているPDEシステムのモデル化における精度を大幅に向上することを示した。

Recently, neural networks have been extensively employed to solve partial differential equations (PDEs) in physical system modeling. While major studies focus on learning system evolution on predefined static mesh discretizations, some methods utilize reinforcement learning or supervised learning techniques to create adaptive and dynamic meshes, due to the dynamic nature of these systems. However, these approaches face two primary challenges: (1) the need for expensive optimal mesh data, and (2) the change of the solution space's degree of freedom and topology during mesh refinement. To address these challenges, this paper proposes a neural PDE solver with a neural mesh adapter. To begin with, we introduce a novel data-free neural mesh adaptor, called Data-free Mesh Mover (DMM), with two main innovations. Firstly, it is an operator that maps the solution to adaptive meshes and is trained using the Monge-Ampere equation without optimal mesh data. Secondly, it dynamically changes the mesh by moving existing nodes rather than adding or deleting nodes and edges. Theoretical analysis shows that meshes generated by DMM have the lowest interpolation error bound. Based on DMM, to efficiently and accurately model dynamic systems, we develop a moving mesh based neural PDE solver (MM-PDE) that embeds the moving mesh with a two-branch architecture and a learnable interpolation framework to preserve information within the data. Empirical experiments demonstrate that our method generates suitable meshes and considerably enhances accuracy when modeling widely considered PDE systems.
翻訳日:2023-12-12 20:00:42 公開日:2023-12-09
# シュロディンガーの物質波方程式の力学的類似性

Mechanical Analogue for Schrodinger's Matter-Wave Equation ( http://arxiv.org/abs/2312.05581v1 )

ライセンス: Link先を確認
Nicos Makris(参考訳) この論文では、シュロディンガーの元々の4階実数値物質波方程式の1次元版に正確な機械的類似性があることを最初に示した。 分散弾性ばねに支持される複合曲げシーリングビームである。 しかしながら、この発見にもかかわらず、この論文はシュロディンガーの2階複素値物質波方程式の物理的に実現可能な機械的類似体を構築することは不可能であり、それ故に元の4階実数値物質波方程式で予測されたものよりも低いエネルギー準位が生じることを示す。

In this paper we first show that, there exists a precise mechanical analogue for the one-dimensional version of Schrodinger's original 4th-order, real-valued matter-wave equation. It is a composite, flexural-shear beam supported on distributed elastic springs. Nevertheless, in spite of this finding, this paper shows that it is not possible to construct a physically realizable mechanical analogue for Schrodinger's 2nd-order, complex valued matter-wave equation which yields lower eigenvalues; therefore, lower energy levels than these predicted with his original 4th-order, real-valued matter-wave equation.
翻訳日:2023-12-12 20:00:12 公開日:2023-12-09
# 生成学習のための条件確率補間

Conditional Stochastic Interpolation for Generative Learning ( http://arxiv.org/abs/2312.05579v1 )

ライセンス: Link先を確認
Ding Huang, Jian Huang, Ting Li, and Guohao Shen(参考訳) 条件分布学習のための条件確率補間法(CSI)を提案する。 CSIは、基準分布を目標条件分布に伝達する確率フロー方程式または確率微分方程式を学習する。 これはまず条件付き確率補間に基づいてドリフト関数と条件付きスコア関数を学習し、通常の微分方程式や条件付きサンプリングのための拡散過程によって支配される決定論的過程を構築するために使われる。 提案するcsiモデルでは,学習中に発生する不安定性問題に対処するために適応拡散項を導入する。 条件付きスコア関数とドリフト関数の明示的な形式を軽度条件下での条件付き期待値で提供し、これらの関数を推定する非パラメトリック回帰アプローチを自然に導く。 さらに,kl発散の観点から条件付き確率補間により目標条件分布を学習するために,ニューラルネットワーク近似誤差を考慮した非漸近誤差境界を確立する。 ベンチマーク画像データセットを用いた画像生成におけるCSIの適用について述べる。

We propose a conditional stochastic interpolation (CSI) approach to learning conditional distributions. CSI learns probability flow equations or stochastic differential equations that transport a reference distribution to the target conditional distribution. This is achieved by first learning the drift function and the conditional score function based on conditional stochastic interpolation, which are then used to construct a deterministic process governed by an ordinary differential equation or a diffusion process for conditional sampling. In our proposed CSI model, we incorporate an adaptive diffusion term to address the instability issues arising during the training process. We provide explicit forms of the conditional score function and the drift function in terms of conditional expectations under mild conditions, which naturally lead to an nonparametric regression approach to estimating these functions. Furthermore, we establish non-asymptotic error bounds for learning the target conditional distribution via conditional stochastic interpolation in terms of KL divergence, taking into account the neural network approximation error. We illustrate the application of CSI on image generation using a benchmark image dataset.
翻訳日:2023-12-12 19:59:59 公開日:2023-12-09
# アライメントに基づく原子磁気センサのスピンノイズ分光

Spin noise spectroscopy of an alignment-based atomic magnetometer ( http://arxiv.org/abs/2312.05577v1 )

ライセンス: Link先を確認
Marcin Kozbial, Lucy Elson, Lucas M. Rushton, Ali Akbar, Adil Meraki, Kasper Jensen, Jan Kolodynski(参考訳) 光ポンピング磁力計(opm)は、非常に感度が高く、コンパクトでポータブルなデバイスに繋がる小型化の技術的改善と相まって、磁場センシングの課題に革命を起こしている。 OPMは、それぞれ円偏光または直線偏光による光ポンピングによってスピン偏光されるスピン配向原子アンサンブルまたはスピン配向原子アンサンブルに基づいている。 OPMの特性とノイズの動的特性はリアルタイムセンシングタスクへの応用において重要である。 本研究では,アライメント型磁気センサのスピンノイズ分光実験を行った。 さらに, スピンのラーモア沈降に寄与する強磁場とは別に, 揚水ビームに沿う垂直方向に白色雑音を印加した場合に, デバイスが提示するノイズパワースペクトルを予測する確率的モデルを提案する。 入射光の線形偏光角度とともに印加される雑音の強度を変化させることで,ラーモアのスペクトルピークと対応する線幅の高さを正確に予測するモデルを検証した。 我々の研究は、アライメントベースの磁気センサがリアルタイムセンシングタスクで動作するための道を開いた。

Optically pumped magnetometers (OPMs) are revolutionising the task of magnetic-field sensing due to their extremely high sensitivity combined with technological improvements in miniaturisation which have led to compact and portable devices. OPMs can be based on spin-oriented or spin-aligned atomic ensembles which are spin-polarized through optical pumping with circular or linear polarized light, respectively. Characterisation of OPMs and the dynamical properties of their noise is important for applications in real-time sensing tasks. In our work, we experimentally perform spin noise spectroscopy of an alignment-based magnetometer. Moreover, we propose a stochastic model that predicts the noise power spectra exhibited by the device when, apart from the strong magnetic field responsible for the Larmor precession of the spin, white noise is applied in the perpendicular direction aligned with the pumping-probing beam. By varying the strength of the noise applied as well as the linear-polarisation angle of incoming light, we verify the model to accurately predict the heights of the Larmor-induced spectral peaks and their corresponding line-widths. Our work paves the way for alignment-based magnetometers to become operational in real-time sensing tasks.
翻訳日:2023-12-12 19:59:41 公開日:2023-12-09
# 放送モードにおけるマッチングラディの動的調整:新しいマルチタスク学習戦略と時間モデルアプローチ

Dynamic Adjustment of Matching Radii under the Broadcasting Mode: A Novel Multitask Learning Strategy and Temporal Modeling Approach ( http://arxiv.org/abs/2312.05576v1 )

ライセンス: Link先を確認
Taijie Chen, Zijian Shen, Siyuan Feng, Linchuan Yang, Jintao Ke(参考訳) 配車サービスが大きく伸びる中、ほとんどの研究は配車モードに集中しており、ドライバーはプラットフォームに割り当てられたルートに固執しなければならない。 しかし、プラットフォームによって放送される番組からドライバーが好みの注文を自由に選択できる放送モードは、あまり注目されていない。 このようなシステムにおいて重要だが挑戦的な課題の1つは、空間、時間、リアルタイムの供給/需要特性にまたがる最適なマッチング半径の決定である。 本研究では、配車プラットフォームがリアルタイムの需給情報に応じてシステム全体の性能を最大化する最適なマッチング半径を選択することを可能にする、マッチングradiiのキーシステム性能指標を予測するトランスフォーマエンコーダベース(teb)モデルを開発した。 半径決定に一致する複数のシステム性能指標を同時に最大化するために,各タスクの収束速度を向上する(1つのメトリックの最適化に対応する)新しいマルチタスク学習アルゴリズムを考案し,より正確な全体予測を行う。 ブロードキャストモードに基づく配車サービスに特化したシミュレーション環境において,提案手法を評価した。 この結果から,提案手法に基づくマッチングradiiの動的調整は,プラットフォーム収益の7.55%向上や,ベンチマークアルゴリズムと比較して13%のオーダーフルフィルメント率向上など,システム性能を著しく向上することが明らかとなった。

As ride-hailing services have experienced significant growth, the majority of research has concentrated on the dispatching mode, where drivers must adhere to the platform's assigned routes. However, the broadcasting mode, in which drivers can freely choose their preferred orders from those broadcast by the platform, has received less attention. One important but challenging task in such a system is the determination of the optimal matching radius, which usually varies across space, time, and real-time supply/demand characteristics. This study develops a Transformer-Encoder-Based (TEB) model that predicts key system performance metrics for a range of matching radii, which enables the ride-hailing platform to select an optimal matching radius that maximizes overall system performance according to real-time supply and demand information. To simultaneously maximize multiple system performance metrics for matching radius determination, we devise a novel multi-task learning algorithm that enhances convergence speed of each task (corresponding to the optimization of one metric) and delivers more accurate overall predictions. We evaluate our methods in a simulation environment specifically designed for broadcasting-mode-based ride-hailing service. Our findings reveal that dynamically adjusting matching radii based on our proposed predict-then-optimize approach significantly improves system performance, e.g., increasing platform revenue by 7.55% and enhancing order fulfillment rate by 13% compared to benchmark algorithms.
翻訳日:2023-12-12 19:59:22 公開日:2023-12-09
# 混合モデル上でのスケッチ演算子のRIP保証の再検討

Revisiting RIP guarantees for sketching operators on mixture models ( http://arxiv.org/abs/2312.05573v1 )

ライセンス: Link先を確認
Ayoub Belhadji and R\'emi Gribonval(参考訳) 圧縮混合モデリングにおけるスケッチの文脈では、特定の混合モデルに関するスケッチ作用素の制限等尺特性の既存の証明を再考する。 既存の保証の欠点を検証した後、ランダムなスケッチ演算子を構築するためにランダムなフーリエ特徴を描画する際に、サンプリングの重要性を仮定する必要性を回避する代替分析を提案する。 本解析は,スケッチ演算子を定義するのに使用される周波数の集合のみに依存する制限等長定数の新たな決定論的境界に基づいており,これらの境界を利用して,所望のrip保証につながるランダムスケッチ演算子の濃度不等式を確立する。 また,高速ランダム線形作用素に関連する周波数を持つ構造化スケッチの理論的保証への扉を開く。

In the context of sketching for compressive mixture modeling, we revisit existing proofs of the Restricted Isometry Property of sketching operators with respect to certain mixtures models. After examining the shortcomings of existing guarantees, we propose an alternative analysis that circumvents the need to assume importance sampling when drawing random Fourier features to build random sketching operators. Our analysis is based on new deterministic bounds on the restricted isometry constant that depend solely on the set of frequencies used to define the sketching operator; then we leverage these bounds to establish concentration inequalities for random sketching operators that lead to the desired RIP guarantees. Our analysis also opens the door to theoretical guarantees for structured sketching with frequencies associated to fast random linear operators.
翻訳日:2023-12-12 19:58:57 公開日:2023-12-09
# r2-talker:ハッシュグリッドランドマーク符号化とプログレッシブ多層コンディショニングを用いたリアルタイム対話ヘッド合成

R2-Talker: Realistic Real-Time Talking Head Synthesis with Hash Grid Landmarks Encoding and Progressive Multilayer Conditioning ( http://arxiv.org/abs/2312.05572v1 )

ライセンス: Link先を確認
Zhiling Ye and LiangGuo Zhang and Dingheng Zeng and Quan Lu and Ning Jiang(参考訳) 動的NeRFは近年,3次元音声画像合成に注目が集まっている。 レンダリング速度と視覚的品質の進歩にもかかわらず、効率と効率性の向上には課題が続いている。 R2-Talkerはリアルなリアルタイム音声ヘッド合成を可能にする効率的かつ効果的なフレームワークである。 具体的には,マルチレゾリューションハッシュグリッドを用いて,顔ランドマークを条件特徴としてエンコードする新しい手法を提案する。 このアプローチは、任意のランドマークを統一された特徴空間にマッピングすることで、条件付き特徴としてランドマーク構造を損失なく符号化する。 さらに, 効率的な条件付き特徴融合のためのNeRFレンダリングパイプラインにおけるプログレッシブ多層条件設定手法を提案する。 我々の新しいアプローチは、最先端の成果と比較して、広範な実験によって示される以下の利点がある。 1) ロスレス入力符号化により, より正確な特徴の取得が可能となり, 視覚的品質が向上する。 入力と条件空間の分離は一般化性を向上させる。 2) 各MLP層における条件特徴とMLP出力の融合は条件の影響を高め, より正確な唇合成と視覚的品質の向上をもたらす。 3) 条件特徴の融合をコンパクトに構成し, 計算効率を大幅に向上する。

Dynamic NeRFs have recently garnered growing attention for 3D talking portrait synthesis. Despite advances in rendering speed and visual quality, challenges persist in enhancing efficiency and effectiveness. We present R2-Talker, an efficient and effective framework enabling realistic real-time talking head synthesis. Specifically, using multi-resolution hash grids, we introduce a novel approach for encoding facial landmarks as conditional features. This approach losslessly encodes landmark structures as conditional features, decoupling input diversity, and conditional spaces by mapping arbitrary landmarks to a unified feature space. We further propose a scheme of progressive multilayer conditioning in the NeRF rendering pipeline for effective conditional feature fusion. Our new approach has the following advantages as demonstrated by extensive experiments compared with the state-of-the-art works: 1) The lossless input encoding enables acquiring more precise features, yielding superior visual quality. The decoupling of inputs and conditional spaces improves generalizability. 2) The fusing of conditional features and MLP outputs at each MLP layer enhances conditional impact, resulting in more accurate lip synthesis and better visual quality. 3) It compactly structures the fusion of conditional features, significantly enhancing computational efficiency.
翻訳日:2023-12-12 19:58:44 公開日:2023-12-09
# パラメータ効率のよい算数推論を実現するシンボリック・ソルバーの訓練

Frugal LMs Trained to Invoke Symbolic Solvers Achieve Parameter-Efficient Arithmetic Reasoning ( http://arxiv.org/abs/2312.05571v1 )

ライセンス: Link先を確認
Subhabrata Dutta, Joykirat Singh, Ishan Pandey, Sunny Manchanda, Soumen Chakrabarti, Tanmoy Chakraborty(参考訳) 大規模言語モデル(llm)は、スケールで創発的な行動としてゼロショット数学的推論能力を示し、一般にcot(chain-of-thoughts)推論として表される。 しかし、複数の実験結果から、この傾向は、500億のパラメータを超える、軌道サイズを持つllmのみであることが示唆されている。 一方、教育神経科学者は、言語から形式へのモジュラー化、定式化の記号的操作、エンドゲーム演算をモジュール化する算術語問題と同時期に記号的代数的操作を導入することを示唆している。 本稿では,多段階推論において弱い最小のLMが,算術語問題を正規化課題として仮定した場合に合理的な算術的推論を達成できるという仮説から始める。 我々がSYRELMと呼ぶアーキテクチャにおいて、LMは自然言語の算術的質問を形式言語(FL)記述にマッピングする翻訳者の役割を担っている。 そして、記号解法がFL式を評価して解を求める。 効率的な低ランクアダプタを備えた小型の冷凍LMは、算術問題(変数名とその目的、変数を組み合わせた公式表現など)の自然言語記述を含むFL式を生成することができる。 我々は、適応されたLMを訓練するためにポリシー段階の強化学習を採用する。 このことは、外部ツール(電卓、Web検索など)がLMの学習段階から本質的に切り離されているツール拡張LDMの最近の発展から著しく離れている。 syrelm はベース lms に対して大きな改善(例えば +30.65 絶対点改善(gpt-j 6b モデルを用いた svamp データセットの精度向上)を示しつつ、テストベッドの診断、解釈、そしてほとんどの研究者の到達範囲内でも容易である。

Large Language Models (LLM) exhibit zero-shot mathematical reasoning capacity as a behavior emergent with scale, commonly manifesting as chain-of-thoughts (CoT) reasoning. However, multiple empirical findings suggest that this prowess is exclusive to LLMs with exorbitant sizes (beyond 50 billion parameters). Meanwhile, educational neuroscientists suggest that symbolic algebraic manipulation be introduced around the same time as arithmetic word problems to modularize language-to-formulation, symbolic manipulation of the formulation, and endgame arithmetic. In this paper, we start with the hypothesis that much smaller LMs, which are weak at multi-step reasoning, can achieve reasonable arithmetic reasoning if arithmetic word problems are posed as a formalize-then-solve task. In our architecture, which we call SYRELM, the LM serves the role of a translator to map natural language arithmetic questions into a formal language (FL) description. A symbolic solver then evaluates the FL expression to obtain the answer. A small frozen LM, equipped with an efficient low-rank adapter, is capable of generating FL expressions that incorporate natural language descriptions of the arithmetic problem (e.g., variable names and their purposes, formal expressions combining variables, etc.). We adopt policy-gradient reinforcement learning to train the adapted LM, informed by the non-differentiable symbolic solver. This marks a sharp departure from the recent development in tool-augmented LLMs, in which the external tools (e.g., calculator, Web search, etc.) are essentially detached from the learning phase of the LM. SYRELM shows massive improvements (e.g., +30.65 absolute point improvement in accuracy on the SVAMP dataset using GPT-J 6B model) over base LMs, while keeping our testbed easy to diagnose, interpret and within reach of most researchers.
翻訳日:2023-12-12 19:58:27 公開日:2023-12-09
# ばらばらな変分学生t過程

Sparse Variational Student-t Processes ( http://arxiv.org/abs/2312.05568v1 )

ライセンス: Link先を確認
Jian Xu, Delu Zeng(参考訳) ベイズ学習の理論は、重い尾の分布とデータセットを外れ値でモデル化するために学生プロセスを利用する。 しかし、ガウス過程と類似した計算複雑性を持つ学生プロセスにもかかわらず、このモデルのスパース表現に限定的に重点を置いている。 これは、従来のスパースガウス過程と比較してモデリングと計算が困難になるためである。 私たちのモチベーションは、計算の複雑さを減らし、現実世界のデータセットをより柔軟にするためのスパース表現フレームワークの必要性に対処することにあります。 これを実現するために,学生プロセスの条件分布を利用してスパース誘導点を導入する。 ベイズ法と変分推論は、よく定義された下界の導出に利用され、確率的勾配降下によるモデルのより効率的な最適化が促進される。 本研究では,モンテカルロサンプリングとjensenの不等式を用いて,kl正規化項を損失関数で計算する2つの手法を提案する。 我々は,データに異常値や重み付き振舞いがある場合のガウス過程の代替として,これらの手法を採用することを提案する。 UCI と Kaggle から得られた様々な合成および実世界のデータセットに対する2つの提案手法の評価を行い,計算複雑性と精度の点でベースライン法と比較し,その有効性を示した。

The theory of Bayesian learning incorporates the use of Student-t Processes to model heavy-tailed distributions and datasets with outliers. However, despite Student-t Processes having a similar computational complexity as Gaussian Processes, there has been limited emphasis on the sparse representation of this model. This is mainly due to the increased difficulty in modeling and computation compared to previous sparse Gaussian Processes. Our motivation is to address the need for a sparse representation framework that reduces computational complexity, allowing Student-t Processes to be more flexible for real-world datasets. To achieve this, we leverage the conditional distribution of Student-t Processes to introduce sparse inducing points. Bayesian methods and variational inference are then utilized to derive a well-defined lower bound, facilitating more efficient optimization of our model through stochastic gradient descent. We propose two methods for computing the variational lower bound, one utilizing Monte Carlo sampling and the other employing Jensen's inequality to compute the KL regularization term in the loss function. We propose adopting these approaches as viable alternatives to Gaussian processes when the data might contain outliers or exhibit heavy-tailed behavior, and we provide specific recommendations for their applicability. We evaluate the two proposed approaches on various synthetic and real-world datasets from UCI and Kaggle, demonstrating their effectiveness compared to baseline methods in terms of computational complexity and accuracy, as well as their robustness to outliers.
翻訳日:2023-12-12 19:57:28 公開日:2023-12-09
# 監視における状況認識の強化:機械学習によるビデオ分析結果の可視化手法の活用

Enhancing Situational Awareness in Surveillance: Leveraging Data Visualization Techniques for Machine Learning-based Video Analytics Outcomes ( http://arxiv.org/abs/2312.05629v1 )

ライセンス: Link先を確認
Babak Rahimi Ardabili, Shanle Yao, Armin Danesh Pazho, Lauren Bourque, Hamed Tabkhi(参考訳) 監視カメラの広範囲な展開は大量のデータを生成し、微妙な解釈を必要とする。 本研究では、現在のインフラ内のAI監視データに適したデータ表現と可視化技術について、徹底的に検討する。 これは、重要なデータメトリクス、状況認識のための方法、および様々な可視化技術に発展し、安全性を高め、都市開発を導く可能性を強調している。 本研究は,8日間に8台のカメラを用いて,地域大学環境下での実環境調査を行った。 本研究は, 歩行者行動, 監視, 公共安全を解明するための, 職業指標, 統計的異常検出, 鳥の目視, ヒートマップなどのツールを提案する。 境界ボックスやセグメンテーション画像などのスマートビデオ監視の複雑なデータから、これらのコンピュータビジョンの結果を、法執行機関、都市プランナー、社会科学者など、ステークホルダーのための直感的な視覚化と行動可能な洞察に変換することを目指している。 その結果,ai監視データの可視化が,緊急対応,公衆衛生プロトコル,クラウドコントロール,リソース分散,予測モデリング,都市計画,インフォームド意思決定に与える影響が強調された。

The pervasive deployment of surveillance cameras produces a massive volume of data, requiring nuanced interpretation. This study thoroughly examines data representation and visualization techniques tailored for AI surveillance data within current infrastructures. It delves into essential data metrics, methods for situational awareness, and various visualization techniques, highlighting their potential to enhance safety and guide urban development. This study is built upon real-world research conducted in a community college environment, utilizing eight cameras over eight days. This study presents tools like the Occupancy Indicator, Statistical Anomaly Detection, Bird's Eye View, and Heatmaps to elucidate pedestrian behaviors, surveillance, and public safety. Given the intricate data from smart video surveillance, such as bounding boxes and segmented images, we aim to convert these computer vision results into intuitive visualizations and actionable insights for stakeholders, including law enforcement, urban planners, and social scientists. The results emphasize the crucial impact of visualizing AI surveillance data on emergency handling, public health protocols, crowd control, resource distribution, predictive modeling, city planning, and informed decision-making.
翻訳日:2023-12-12 19:50:30 公開日:2023-12-09
# 開発者支援を再定義する: ソフトウェアエコシステムにおける大規模言語モデルを通して

Redefining Developer Assistance: Through Large Language Models in Software Ecosystem ( http://arxiv.org/abs/2312.05626v1 )

ライセンス: Link先を確認
Somnath Banerjee, Avik Dutta, Sayan Layek, Amruit Sahoo, Sam Conrad Joyce, Rima Hazra(参考訳) 本稿では,ドメイン固有大規模言語モデル(LLM)の進歩を,ソフトウェア開発への応用に焦点をあてて検討する。 我々は,ソフトウェア関連自然言語クエリの処理を支援するため,命令チューニングによって開発されたモデルであるdevassistllamaを紹介する。 命令チューニング LLM の亜種であるこのモデルは、特に複雑な技術ドキュメントの扱い、ソフトウェア固有のタスクにおける開発者の能力の向上に長けている。 DevAssistLlamaの作成には、様々なソフトウェアシステムから広範な命令データセットを構築し、名前付きエンティティ認識(NER)、関係抽出(RE)、リンク予測(LP)の効果的な処理を可能にした。 これらの課題においてDevAssistLlamaはChatGPTなどの他のモデルと比較して優れた能力を発揮する。 この研究は、ソフトウェア開発における特殊なLLMの可能性だけでなく、この領域の先駆者でもある。

In this paper, we delve into the advancement of domain-specific Large Language Models (LLMs) with a focus on their application in software development. We introduce DevAssistLlama, a model developed through instruction tuning, to assist developers in processing software-related natural language queries. This model, a variant of instruction tuned LLM, is particularly adept at handling intricate technical documentation, enhancing developer capability in software specific tasks. The creation of DevAssistLlama involved constructing an extensive instruction dataset from various software systems, enabling effective handling of Named Entity Recognition (NER), Relation Extraction (RE), and Link Prediction (LP). Our results demonstrate DevAssistLlama's superior capabilities in these tasks, in comparison with other models including ChatGPT. This research not only highlights the potential of specialized LLMs in software development also the pioneer LLM for this domain.
翻訳日:2023-12-12 19:50:08 公開日:2023-12-09
# コヒーレント・インコヒーレント制御と確率最適化を用いた2ビット用C-NOT, SWAP, C-Zゲートの生成

Generation of C-NOT, SWAP, and C-Z Gates for Two Qubits Using Coherent and Incoherent Controls and Stochastic Optimization ( http://arxiv.org/abs/2312.05625v1 )

ライセンス: Link先を確認
Oleg Morzhin, Alexander Pechen(参考訳) 本研究では, 2量子ビットハミルトニアンの3つの特定の形式を持つコヒーレント・非コヒーレント制御を持つgorini-kossakowsky-sudarchhan-lindblad型主方程式によって決定される開量子系のダイナミクスの一般的な形式を考える。 コヒーレント制御は、ハミルトニアンと非コヒーレント制御は、ハミルトニアンと散逸のスーパーオペレータの両方に入る。 これらのシステムでは,2量子ビットc-not,スワップ,c-zゲートを生成する制御問題を分割定数制御と確率最適化を用いて解析し,dual annealingアルゴリズムを適用した。 数値実験では,システムと環境の相互作用の強さの異なる値に対して,デュアルアニーリングにより得られた最小の不確かさを解析した。

In this work, we consider a general form of the dynamics of open quantum systems determined by the Gorini-Kossakowsky-Sudarchhan-Lindblad type master equation with simultaneous coherent and incoherent controls with three particular forms of the two-qubit Hamiltonians. Coherent control enters in the Hamiltonian and incoherent control enters in both the Hamiltonian and the superoperator of dissipation. For these systems, we analyze the control problems of generating two-qubit C-NOT, SWAP, and C-Z gates using with piecewise constant controls and stochastic optimization in the form of an adapted version of the dual annealing algorithm. In the numerical experiment, we analyze the minimal infidelity obtained by the dual annealing for various values of strength of the interaction between the system and the environment.
翻訳日:2023-12-12 19:49:53 公開日:2023-12-09
# PILLOW: プロンプトマッチングによる効率的なインストラクションファインタニングの実現

PILLOW: Enhancing Efficient Instruction Fine-tuning via Prompt Matching ( http://arxiv.org/abs/2312.05621v1 )

ライセンス: Link先を確認
Zhenting Qi, Xiaoyu Tan, Shaojie Shi, Chao Qu, Yinghui Xu, Yuan Qi(参考訳) 命令の微調整は、従来、様々なタスクに大規模言語モデル(LLM)を適用するために用いられてきた。 それにもかかわらず、この技術は大量の計算資源を必要とすることが多く、個人や小規模のエンティティによるデプロイには実用的ではない。 最近、LoRA(Lolow-Rank Adaptation)が有望な代替手段となり、リソースオーバーヘッドを削減した完全なチューニングと同等の高機能を提供する。 しかし、LoRAの微調整によって満足なパフォーマンスを達成することは、非常に難しい課題である。 本稿では,LLMのインコンテクスト学習能力を活用し,識別に基づくプロンプト手法によりLoRAの性能向上を図ることを目的としたPILLOWを提案する。 PILLOWは、ユーザ定義のプロンプトプールからプロンプトを選択し、選択したプロンプトを入力としてユーザ命令と結合し、LoRA-fine-tuned LLMを使用して推論を行う。 強化学習(Reinforcement Learning)でトレーニングされたPILLOWは、一般的な命令の微調整手法と比較して、さまざまな評価指標に対してコンメジュレートなパフォーマンスを示し、コンシューマグレードのGPUリソースのみを活用し、計算コストを大幅に削減する。

Instruction fine-tuning has conventionally been employed to adapt Large Language Models (LLMs) to a variety of tasks. Nonetheless, this technique often necessitates substantial computational resources, making it impractical for deployment by individuals or small-scale entities. Recently, Low-Rank Adaptation (LoRA) has become a promising alternative, offering high capabilities on par with full tuning with reduced resource overhead. However, attaining satisfactory performance through the fine-tuning of LoRA is a non-trivial challenge. In this paper, we propose PILLOW, which aims to improve LoRA's performance by a discrimination-based prompting method, leveraging LLMs' In-Context Learning ability. PILLOW incorporates a matching network that selects prompts from a user-defined prompt pool, concatenates the selected prompts with the user instruction as input, and performs inference using the LoRA-fine-tuned LLMs. Trained with Reinforcement Learning, PILLOW exhibits commensurate performance on various evaluation metrics compared with typical instruction fine-tuning methods, utilizing only consumer-grade GPU resources and exhibiting a large reduction in computational costs.
翻訳日:2023-12-12 19:49:39 公開日:2023-12-09
# 実世界の超解像のための反復的トークン評価と改良

Iterative Token Evaluation and Refinement for Real-World Super-Resolution ( http://arxiv.org/abs/2312.05616v1 )

ライセンス: Link先を確認
Chaofeng Chen, Shangchen Zhou, Liang Liao, Haoning Wu, Wenxiu Sun, Qiong Yan, Weisi Lin(参考訳) 実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。 GAN(Generative Adversarial Networks)や連続拡散モデルといった既存の手法では、多くの推論ステップを必要とする連続拡散モデルにおいて、GANの訓練が困難であるなど、独自の問題がある。 本稿では、離散トークン表現空間で動作する離散拡散モデル、すなわち高品質(HQ)画像で事前訓練されたVQGANコードブックから抽出された特徴のインデックスを利用するRWSRのための反復トークン評価・再定義(ITER)フレームワークを提案する。 ITER は GAN よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。 具体的には,RWSRを2つのサブタスク,すなわち歪み除去とテクスチャ生成に分割する。 歪み除去はlq画像による単純なhqトークン予測を伴い、テクスチャ生成は離散拡散モデルを用いてトークンリファインメントネットワークを用いて歪み除去出力を反復的に洗練する。 特に,離散拡散過程にトークン評価ネットワークを含めることを提案する。 どのトークンが良い復元であるかを評価することを学び、反復的な改善結果を改善するのに役立ちます。 さらに、評価ネットワークは、まず歪み除去出力の状態をチェックし、必要な全精細ステップを適応的に選択することにより、歪み除去とテクスチャ生成のバランスを良好に維持することができる。 大規模な実験結果から、ITERは訓練が容易で、わずか8ステップでうまく機能することがわかった。 私たちのコードは公開されます。

Real-world image super-resolution (RWSR) is a long-standing problem as low-quality (LQ) images often have complex and unidentified degradations. Existing methods such as Generative Adversarial Networks (GANs) or continuous diffusion models present their own issues including GANs being difficult to train while continuous diffusion models requiring numerous inference steps. In this paper, we propose an Iterative Token Evaluation and Refinement (ITER) framework for RWSR, which utilizes a discrete diffusion model operating in the discrete token representation space, i.e., indexes of features extracted from a VQGAN codebook pre-trained with high-quality (HQ) images. We show that ITER is easier to train than GANs and more efficient than continuous diffusion models. Specifically, we divide RWSR into two sub-tasks, i.e., distortion removal and texture generation. Distortion removal involves simple HQ token prediction with LQ images, while texture generation uses a discrete diffusion model to iteratively refine the distortion removal output with a token refinement network. In particular, we propose to include a token evaluation network in the discrete diffusion process. It learns to evaluate which tokens are good restorations and helps to improve the iterative refinement results. Moreover, the evaluation network can first check status of the distortion removal output and then adaptively select total refinement steps needed, thereby maintaining a good balance between distortion removal and texture generation. Extensive experimental results show that ITER is easy to train and performs well within just 8 iterative steps. Our codes will be available publicly.
翻訳日:2023-12-12 19:49:15 公開日:2023-12-09
# ポアソン幾何学的量子力学定式化

Poisson Geometric Formulation of Quantum Mechanics ( http://arxiv.org/abs/2312.05615v1 )

ライセンス: Link先を確認
Pritish Sinha and Ankit Yadav(参考訳) 有限次元混合状態および純粋状態に対する量子力学のポアソン幾何学的定式化について検討する。 同様に、量子力学は古典力学の言語で理解可能であることを示す。 我々はヒルベルト空間のシンプレクティック構造をレビューし、標準座標を同定する。 幾何は密度行列の空間に拡張され、$D_N^+$となる。 もはやシンプレクティックではないが、$\mathfrak{su}(N)$ Poisson commutation relation に従う。 この代数のカシミール曲面を同定し、物理的な純粋状態が原始カシミールの交叉上にあるシンプレクティック部分多様体の1つであることを示す。 様々な種類の原始カシミールが同定される。 D_N^+$の一般シンプレクティック部分多様体を同定し、その次元を算出する。 D_N^+$ はそのようなシンプレクティック部分多様体の非連結和として記述される。 D_N^+$とそのポアソン構造は、$\mathbb{C}^N \times \mathbb{C}^M$とそのシンプレクティック構造における純粋状態の部分的トレースから復元される。 物理純状態の幾何学 $\mathbb{C}P^{N-1}$ もまた密度行列の全空間のポアソン幾何$D_N^+$ と整合される。 ポアソン部分多様体の昇鎖 $D_N^M \subset D_N^{M+1}$ は $\subset$ for $M \leq N$ に対して同一視される。 各ポアソン部分多様体は、$N-M$ Casimirsの交叉上にあり、$\mathbb{C}^M$状態を$\mathbb{C}^N \times \mathbb{C}^M$で追跡することによって構成される。 葉も議論されている。 最大エントロピーが$d_n^m$の混合状態からなるシンプレクティック部分多様体のクラスにおける正の半定値による幾何学上の制約について検討した。

We study the Poisson geometrical formulation of quantum mechanics for finite dimensional mixed and pure states. Equivalently, we show quantum mechanics can be understood in the language of classical mechanics. We review the symplectic structure of the Hilbert space and identify canonical coordinates. We find the geometry extends to space of density matrices $D_N^+$. It is no more symplectic but follows $\mathfrak{su}(N)$ Poisson commutation relation. We identify Casimir surfaces for this algebra and show physical pure states constitute one of the symplectic submanifold lying on the intersection of primitive Casimirs. Various forms of primitive Casimirs are identified. Generic symplectic submanifolds of $D_N^+$ are identified and dimensions of the same are calculated. $D_N^+$ is written as a disjoint union of such symplectic submanifolds. $D_N^+$ and its Poisson structure is recovered from partial tracing of the pure states in $\mathbb{C}^N \times \mathbb{C}^M$ and its symplectic structure. Geometry of physical pure states $\mathbb{C}P^{N-1}$ is also reconciled with Poisson geometry of full space of density matrices $D_N^+$. An ascending chain of Poisson submanifolds $D_N^M \subset D_N^{M+1}$ are identified with respect to $\subset$ for $M \leq N$. Each Poisson submanifold lies on the intersection of $N-M$ Casimirs and is constructed by tracing out the $\mathbb{C}^M$ states in $\mathbb{C}^N \times \mathbb{C}^M$. Their foliations are also discussed. Constraints on the geometry due to positive semi-definiteness on a class of symplectic submanifolds $E_N^M$ consisting of mixed states with maximum entropy in $D_N^M$ are studied.
翻訳日:2023-12-12 19:48:50 公開日:2023-12-09
# 学習遺伝子の線形拡張としてのトランス

Transformer as Linear Expansion of Learngene ( http://arxiv.org/abs/2312.05614v1 )

ライセンス: Link先を確認
Shiyu Xia, Miaosen Zhang, Xu Yang, Ruiming Chen, Haokun Chen, Xin Geng(参考訳) 本稿では,共有トランスフォーマーモジュールを拡張して様々な深さでトランスフォーマーを生成し,動的リソース制約への適応を可能にすることを提案する。 遺伝的拡張性に類似して、我々はそのようなモジュールを学習遺伝子と呼ぶ。 拡張機構を同定するために, 層位置とその対応する重み値の関係を探索し, 線形関数がこの関係を適切に近似することを示した。 この知見に基づき,多種多様な深さの変圧器を柔軟に生産し初期化するための新しい手法である学習遺伝子(tleg)の線形展開としてトランスフォーマを提案する。 具体的には,学習遺伝子を学習するために,学習遺伝子から線形に拡張した補助トランスを構築し,その後ソフト蒸留を用いて学習する。 その後、訓練された学習遺伝子を線形に拡張し、様々な下流シナリオをサポートすることにより、様々な深さのトランスフォーマーを作成および初期化する。 ImageNet-1K分類に関する大規模な実験では、TLEGは、スクラッチからトレーニングされた多くの個別モデルと比較して、同等またはより良いパフォーマンスを達成し、トレーニングコストは約2$\times$である。 1つのモデルを複数の下流分類データセットに転送する場合、TLEGは既存の初期化手法を大きなマージンで上回る(例えば、iNat 2019では+6.87%、CIFAR-100では+7.66%)。 異なるリソース制約に適応した異なるスケールのモデルを作成する必要がある状況において、TLEGは、これらのモデルを初期化するための19$\times$パラメータと5$\times$トレーニングコストを削減しながら、同等の結果を得る。

We propose expanding the shared Transformer module to produce and initialize Transformers with diverse depths, enabling adaptation to dynamic resource constraints. Drawing an analogy to genetic expansibility, we term such module as learngene. To identify the expansion mechanism, we delve into the relationship between the layer position and its corresponding weight value, and find that linear function appropriately approximates this relationship. Building on this insight, we present Transformer as Linear Expansion of learnGene (TLEG), a novel approach for flexibly producing and initializing Transformers of diverse depths. Specifically, to learn learngene, we firstly construct an auxiliary Transformer linearly expanded from learngene, after which we train it through employing soft distillation. Subsequently, we can produce and initialize Transformers of varying depths via linearly expanding the well-trained learngene, thereby supporting diverse downstream scenarios. Extensive experiments on ImageNet-1K classification demonstrate that TLEG achieves comparable or better performance compared to many individual models trained from scratch, while reducing around 2$\times$ training cost. When transferring one model to several downstream classification datasets, TLEG surpasses existing initialization methods by a large margin (e.g., +6.87% on iNat 2019 and +7.66% on CIFAR-100). Under the situation where we need to produce models of different scales adapting for different resource constraints, TLEG achieves comparable results while reducing around 19$\times$ parameters stored to initialize these models and around 5$\times$ training costs, in contrast to the pre-training and fine-tuning approach.
翻訳日:2023-12-12 19:48:23 公開日:2023-12-09
# アルゴリズム推論のためのトリプルトエッジアテンション

Triplet Edge Attention for Algorithmic Reasoning ( http://arxiv.org/abs/2312.05611v1 )

ライセンス: Link先を確認
Yeonjoon Jung and Sungsoo Ahn(参考訳) 本研究では,古典的アルゴリズムから学習可能なニューラルネットワークを開発するためのニューラルネットワーク推論について検討する。 主な課題は、与えられたアルゴリズムの出力を予測するのに十分な表現力を持つグラフニューラルネットワークを開発することである。 本研究では,エッジ対応グラフアテンション層であるTriplet Edge Attention (TEA)と呼ばれる新しいグラフニューラルネットワーク層を導入する。 我々のアルゴリズムはエッジの潜在性を正確に計算し、エッジベースの注意力を使って複数のトリプレットメッセージを集約する。 CLRSベンチマークでTEA層を実証的に検証し、平均で5%$改善したことを実証します。 特に、最先端モデルと比較して、文字列アルゴリズムの30%$の改善を実現しています。

This work investigates neural algorithmic reasoning to develop neural networks capable of learning from classical algorithms. The main challenge is to develop graph neural networks that are expressive enough to predict the given algorithm outputs while generalizing well to out-of-distribution data. In this work, we introduce a new graph neural network layer called Triplet Edge Attention (TEA), an edge-aware graph attention layer. Our algorithm works by precisely computing edge latent, aggregating multiple triplet messages using edge-based attention. We empirically validate our TEA layer in the CLRS benchmark and demonstrate a $5%$ improvement on average. In particular, we achieve a $30%$ improvement for the string algorithms compared to the state-of-the-art model.
翻訳日:2023-12-12 19:47:53 公開日:2023-12-09
# 量子鍵分配プロトコルBB84の包括的解析

Comprehensive Analysis of BB84, A Quantum Key Distribution Protocol ( http://arxiv.org/abs/2312.05609v1 )

ライセンス: Link先を確認
SujayKumar Reddy M and Chandra Mohan B(参考訳) 量子鍵分配(Quantum Key Distribution, QKD)は、秘密鍵を共有することによって、双方間のセキュアな通信を可能にする技術である。 最もよく知られているqkdプロトコルの1つは、1984年にcharles bennettとgilles brassardによって提案されたbb84プロトコルである。 このプロトコルでは、アリスとボブは量子チャネルを使って量子ビットを交換し、盗聴に耐性のある共有鍵を生成する。 本稿では、BB84プロトコルを含む既存のQKDスキームの比較研究を行い、BB84プロトコルの長年の進歩を強調した。 本研究の目的は,様々なQKDスキームとその強みと弱みを概観し,既存のシミュレーションと実装を通じてQKDの動作原理を実証することである。 本研究により,BB84プロトコルは,様々な環境で広く研究され,実装されている高度にセキュアなQKDスキームであることを示す。 さらに,bb84プロトコルのセキュリティと実用性を向上させるため,デコイ状態や高度な誤り訂正技術などの改良についても検討した。 本稿では,セキュア通信技術におけるBB84プロトコルに着目し,QKDスキームの包括的分析を行う。

Quantum Key Distribution (QKD) is a technique that enables secure communication between two parties by sharing a secret key. One of the most well-known QKD protocols is the BB84 protocol, proposed by Charles Bennett and Gilles Brassard in 1984. In this protocol, Alice and Bob use a quantum channel to exchange qubits, allowing them to generate a shared key that is resistant to eavesdropping. This paper presents a comparative study of existing QKD schemes, including the BB84 protocol, and highlights the advancements made in the BB84 protocol over the years. The study aims to provide a comprehensive overview of the different QKD schemes and their strengths and weaknesses and demonstrate QKDs working principles through existing simulations and implementations. Through this study, we show that the BB84 protocol is a highly secure QKD scheme that has been extensively studied and implemented in various settings. Furthermore, we discuss the improvements made to the BB84 protocol to enhance its security and practicality, including the use of decoy states and advanced error correction techniques. Overall, this paper provides a comprehensive analysis of QKD schemes, focusing on the BB84 protocol in secure communication technologies.
翻訳日:2023-12-12 19:47:41 公開日:2023-12-09
# TCTCA: 拡張シーケンス処理のためのチャンク注意を伴う時間的畳み込みネットワーク

TCNCA: Temporal Convolution Network with Chunked Attention for Scalable Sequence Processing ( http://arxiv.org/abs/2312.05605v1 )

ライセンス: Link先を確認
Aleksandar Terzic, Michael Hersche, Geethan Karunaratne, Luca Benini, Abu Sebastian, Abbas Rahimi(参考訳) MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。 線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。 結果として得られたモデルはTCNCAと呼ばれ、Chunked Attentionを備えたテンポラル畳み込みネットワークである。 我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。 EnWik8では、TCNCAはMEGAを上回り、トレーニング中に1.37\times$/1.24\times$より速いフォワード/バックワードパスで損失を減らした。 TCNCAで使用される拡張畳み込みは、GPUのFFTベースの並列化繰り返しよりも一貫して大幅に高速であり、非常に大きなシーケンス長を扱うためのスケーラブルな候補となる。 さらにLRAでは、TCNCAは平均して、MEGAが達成したのと同じ精度で推論中に1.28\times$スピードアップを達成する。 連想的リコールでは, 過剰な乗法的および加法的相互作用を伴わずに, TCNCA の簡易版でさえ, 配列長や語彙サイズにおいて MEGA よりも優れているか, あるいは競合的であることがわかった。

MEGA is a recent transformer-based architecture, which utilizes a linear recurrent operator whose parallel computation, based on the FFT, scales as $O(LlogL)$, with $L$ being the sequence length. We build upon their approach by replacing the linear recurrence with a special temporal convolutional network which permits larger receptive field size with shallower networks, and reduces the computational complexity to $O(L)$. The resulting model is called TCNCA, a Temporal Convolutional Network with Chunked Attention. We evaluate TCNCA on EnWik8 language modeling, long-range-arena (LRA) sequence classification, as well as a synthetic reasoning benchmark associative recall. On EnWik8, TCNCA outperforms MEGA, reaching a lower loss with $1.37\times$/$1.24\times$ faster forward/backward pass during training. The dilated convolutions used in TCNCA are consistently and significantly faster operations than the FFT-based parallelized recurrence in GPUs, making them a scalable candidate for handling very large sequence lengths: they are up to $7.07\times$/$2.86\times$ faster in the forward/backward pass for sequences up to 131k. Further on LRA, TCNCA achieves, on average, $1.28\times$ speed-up during inference with similar accuracy to what MEGA achieves. On associative recall, we find that even a simplified version of TCNCA, without excessive multiplicative and additive interactions, remains superior or competitive to MEGA on a range of sequence lengths and vocabulary sizes.
翻訳日:2023-12-12 19:47:20 公開日:2023-12-09
# Sim-GPT: GPTアノテートデータによるテキスト類似性

Sim-GPT: Text Similarity via GPT Annotated Data ( http://arxiv.org/abs/2312.05603v1 )

ライセンス: Link先を確認
Shuhe Wang, Beiming Cao, Shengyu Zhang, Xiaoya Li, Jiwei Li, Fei Wu, Guoyin Wang, Eduard Hovy(参考訳) テキスト類似度スコアを持つ高品質なラベル付き文対の大規模なコレクションがないため、Semantic Textual similarity (STS) の既存のアプローチは、主に教師なしの技法や、NLIベースのデータセットのようなテキスト類似度に部分的に相関した信号に頼っている。 本稿では,GPTアノテートデータ(略してSim-GPT)を用いてテキスト類似度を測定する手法を提案する。 Sim-GPTの中核となる考え方は、STSモデルがトレーニングされていることに基づいて、GPT-4を使用してSTSラベルでデータを生成することである。 Sim-GPT フレームワークは LLM を利用して,STS のトレーニング信号の欠如のギャップを埋める,相当量の信頼できるアノテートデータを提供する。 Sim-GPTはBERTやRoBERTaをバックボーンとして1回生成したデータセットでトレーニングされている。 GPT-4 (371K)の例に基づいて訓練されたSim-GPTは、広く使用されている7つのSTSベンチマークでSOTAのパフォーマンスを出力する:+0.99 over supervised-SimCSE、+0.42 over the current SOTA PromCSEモデル。 フィールドのさらなる進歩を促進するため、GPT-4からモデルと371Kの注釈付きサンプルをそれぞれリリースする。 コード、モデル、注釈付きデータは、https://github.com/ShuheWang1998/Sim-GPTで入手できる。

Due to the lack of a large collection of high-quality labeled sentence pairs with textual similarity scores, existing approaches for Semantic Textual Similarity (STS) mostly rely on unsupervised techniques or training signals that are only partially correlated with textual similarity, e.g., NLI-based datasets. To tackle this issue, in this paper, we propose the strategy of measuring text similarity via GPT annotated data (Sim-GPT for short). The core idea of Sim-GPT is to generate data with STS labels using GPT-4, based on which an STS model is trained. Sim-GPT framework utilizes LLMs to provide a substantial amount of reliable annotated data filling the gap of the lack of training signals for STS. Sim-GPT is trained on a one-time generated dataset using BERT or RoBERTa as the backbone, which offers long-term savings in cost and speed compared to repeatedly invoking LLMs for each sentence pair. Trained on the examples from GPT-4 (371K), Sim-GPT yields SOTA performances on the widely-used seven STS benchmarks: +0.99 over supervised-SimCSE, and +0.42 over the current SOTA PromCSE model. To encourage further advancements of the field, we release both models and the 371K annotated examples from GPT-4. Code, models and annotated data are available at: https://github.com/ShuheWang1998/Sim-GPT.
翻訳日:2023-12-12 19:46:49 公開日:2023-12-09
# EipFormer: 3Dインスタンスセグメンテーションにおけるインスタンス位置の強調

EipFormer: Emphasizing Instance Positions in 3D Instance Segmentation ( http://arxiv.org/abs/2312.05602v1 )

ライセンス: Link先を確認
Mengnan Zhao, Lihe Zhang, Yuqiu Kong and Baocai Yin(参考訳) 3Dインスタンスのセグメンテーションは、3Dシーンの理解において重要な役割を果たす。 この分野での最近の進歩にもかかわらず、既存のアプローチには一定の制限がある。 これらの手法はしばしば、中心予測や最遠点サンプリングを用いて、広大な3次元点雲のサンプル代表点から得られる固定されたインスタンス位置に依存する。 しかし、これらの選択されたポジションは実際のインスタンスセンターから外れる可能性があり、正確にインスタンスをグループ化する上での課題となる。 さらに、一つの座標から候補インスタンスをグループ化する一般的な手法は、隣接するインスタンスを識別したり、エッジポイントを組み込むのに困難をもたらす。 これらの問題に対処するため,我々は,プログレッシブアグリゲーションと2重位置埋め込みを含む新しいトランスフォーマーアーキテクチャ eipformer を提案する。 プログレッシブアグリゲーションメカニズムはインスタンスの位置を利用してインスタンスの提案を洗練する。 加重極点サンプリングにより初期インスタンス位置を強化し、アグリゲーション平均とセンターマッチングを用いてインスタンス位置と提案をさらに洗練する。 さらに、双対位置埋め込みは原位置埋め込みと集中位置埋め込みを重畳し、隣接するインスタンスを区別するモデル性能を向上させる。 一般的なデータセットに関する大規模な実験は、EipFormerが最先端のアプローチよりも優れた、あるいは同等のパフォーマンスを実現していることを示している。

3D instance segmentation plays a crucial role in comprehending 3D scenes. Despite recent advancements in this field, existing approaches exhibit certain limitations. These methods often rely on fixed instance positions obtained from sampled representative points in vast 3D point clouds, using center prediction or farthest point sampling. However, these selected positions may deviate from actual instance centers, posing challenges in precisely grouping instances. Moreover, the common practice of grouping candidate instances from a single type of coordinates introduces difficulties in identifying neighboring instances or incorporating edge points. To tackle these issues, we present a novel Transformer-based architecture, EipFormer, which comprises progressive aggregation and dual position embedding. The progressive aggregation mechanism leverages instance positions to refine instance proposals. It enhances the initial instance positions through weighted farthest point sampling and further refines the instance positions and proposals using aggregation averaging and center matching. Additionally, dual position embedding superposes the original and centralized position embeddings, thereby enhancing the model performance in distinguishing adjacent instances. Extensive experiments on popular datasets demonstrate that EipFormer achieves superior or comparable performance compared to state-of-the-art approaches.
翻訳日:2023-12-12 19:46:19 公開日:2023-12-09
# すべてのデータが問題ではない:モデルの性能と効率を向上させるためのエンドツーエンドの適応データセットプラニングフレームワーク

Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework for Enhancing Model Performance and Efficiency ( http://arxiv.org/abs/2312.05599v1 )

ライセンス: Link先を確認
Suorong Yang, Hongchao Yang, Suhan Guo, Furao Shen, Jian Zhao(参考訳) ディープニューラルネットワークは様々なタスクで顕著なパフォーマンスを示しているが、通常は大量のトレーニングデータを必要とする。 実世界のデータセットに冗長性とバイアスが存在するため、トレーニングデータセット内のすべてのデータがモデルパフォーマンスに寄与するわけではない。 この問題に対処するために、冗長なトレーニングサンプルを排除し、計算とメモリオーバーヘッドを低減し、モデル性能と効率を向上させるためにデータセットプルーニング技術が導入されている。 しかしながら、以前の作業は手作業によるスカラースコアに依存しており、さまざまなディープネットワークやデータセットにわたる実用的パフォーマンスとスケーラビリティを制限している。 本稿では,エンドツーエンドのアダプティブデータセットpruningフレームワークであるadaprunerを提案する。 AdaPrunerは、明示的に定義されたメトリクスを必要とせずに、効果的なデータセットプルーニングを実行することができる。 本フレームワークは,タスク固有の最適化目標を持つ訓練データと微調整モデルを共同で作成する。 AdaPrunerは,(1)適応型データセットプルーニング(ADP)モジュールを利用して,冗長なサンプルを予測プルーニング比率に反復的にプルーニングし,(2)正確なプルーニングのためにモデル性能を最適化するプルーニングパフォーマンスコントローラ(PPC)モジュールを利用する。 したがって、adaprunerは、さまざまなデータセットとディープネットワーク間で高いスケーラビリティと互換性を示し、データセットの分散とモデルパフォーマンスの向上をもたらす。 adaprunerは、トレーニングデータの最大10-30\%をプラニングした後でも、モデルパフォーマンスを著しく向上することができる。 特に、これらの改善はメモリと計算コストの大幅な削減を伴う。 定性的かつ定量的な実験は、AdaPrunerが他の最先端のデータセットプルーニング手法よりも大きなマージンで優れていることを示唆している。

While deep neural networks have demonstrated remarkable performance across various tasks, they typically require massive training data. Due to the presence of redundancies and biases in real-world datasets, not all data in the training dataset contributes to the model performance. To address this issue, dataset pruning techniques have been introduced to enhance model performance and efficiency by eliminating redundant training samples and reducing computational and memory overhead. However, previous works most rely on manually crafted scalar scores, limiting their practical performance and scalability across diverse deep networks and datasets. In this paper, we propose AdaPruner, an end-to-end Adaptive DAtaset PRUNing framEwoRk. AdaPruner can perform effective dataset pruning without the need for explicitly defined metrics. Our framework jointly prunes training data and fine-tunes models with task-specific optimization objectives. AdaPruner leverages (1) An adaptive dataset pruning (ADP) module, which iteratively prunes redundant samples to an expected pruning ratio; and (2) A pruning performance controller (PPC) module, which optimizes the model performance for accurate pruning. Therefore, AdaPruner exhibits high scalability and compatibility across various datasets and deep networks, yielding improved dataset distribution and enhanced model performance. AdaPruner can still significantly enhance model performance even after pruning up to 10-30\% of the training data. Notably, these improvements are accompanied by substantial savings in memory and computation costs. Qualitative and quantitative experiments suggest that AdaPruner outperforms other state-of-the-art dataset pruning methods by a large margin.
翻訳日:2023-12-12 19:45:56 公開日:2023-12-09
# 実証的研究によるデータセット蒸留のクロスアーキテクチャ一般化の促進

Boosting the Cross-Architecture Generalization of Dataset Distillation through an Empirical Study ( http://arxiv.org/abs/2312.05598v1 )

ライセンス: Link先を確認
Lirui Zhao, Yuxin Zhang, Mingbao Lin, Fei Chao, Rongrong Ji(参考訳) データセット蒸留のクロスアーキテクチャの一般化は、その実用的重要性を著しく弱める。 本論文は, 蒸留モデルに対する誘導バイアスを受ける合成データセットについて, 実験的検討を通じてこの問題を緩和する試みである。 したがって, 評価モデルは, 蒸留モデルの類似した構造に限定される。 本稿では, 蒸留モデルの中間層の特徴を多層構造評価に活用する蒸留特性(elf)を用いた新しい評価法を提案する。 このように、評価モデルはバイアスのない知識から学習し、性能を維持しながらアーキテクチャが不安定になる。 大規模な実験を行うことで、ALFが現在のDD法のクロスアーキテクチャ一般化を十分に強化できることを示す。 このプロジェクトのコードは \url{https://github.com/Lirui-Zhao/ELF} にある。

The poor cross-architecture generalization of dataset distillation greatly weakens its practical significance. This paper attempts to mitigate this issue through an empirical study, which suggests that the synthetic datasets undergo an inductive bias towards the distillation model. Therefore, the evaluation model is strictly confined to having similar architectures of the distillation model. We propose a novel method of EvaLuation with distillation Feature (ELF), which utilizes features from intermediate layers of the distillation model for the cross-architecture evaluation. In this manner, the evaluation model learns from bias-free knowledge therefore its architecture becomes unfettered while retaining performance. By performing extensive experiments, we successfully prove that ELF can well enhance the cross-architecture generalization of current DD methods. Code of this project is at \url{https://github.com/Lirui-Zhao/ELF}.
翻訳日:2023-12-12 19:45:27 公開日:2023-12-09
# 景観品質オブジェクトにおけるインタビューの自動コーディングにおける人工知能 比較と事例研究

Artificial Intelligence in the automatic coding of interviews on Landscape Quality Objectives. Comparison and case study ( http://arxiv.org/abs/2312.05597v1 )

ライセンス: Link先を確認
Mario Burgui-Burgui(参考訳) 本研究では,キューバ北部の小島 (cayo santa mar\'ia) における景観品質目標に着目した12の研究面接のマニュアルコーディングと,3つの人工知能機能(at-las.ti,chatgpt,google bard)による自動コーディングの比較分析を行った。 この目的のために, 正確性, 包括性, テーマコヒーレンス, 冗長性, 明確性, 詳細性, 規則性といった比較基準が確立された。 この分析は、多くの欠陥と欠点があるにもかかわらず、意図した目的のためにAIの有用性を示した。 要約すると、今日のAIの自動コーディングは、研究者による情報の詳細な詳細な分析へのガイドとして有用である。 しかし、これが最近開発された分野であるため、急速な進化がこれらのツールに必要とされる改善をもたらすことが期待されている。

In this study, we conducted a comparative analysis of the automated coding provided by three Artificial Intelligence functionalities (At-las.ti, ChatGPT and Google Bard) in relation to the manual coding of 12 research interviews focused on Landscape Quality Objectives for a small island in the north of Cuba (Cayo Santa Mar\'ia). For this purpose, the following comparison criteria were established: Accuracy, Comprehensiveness, Thematic Coherence, Redundancy, Clarity, Detail and Regularity. The analysis showed the usefulness of AI for the intended purpose, albeit with numerous flaws and shortcomings. In summary, today the automatic coding of AIs can be considered useful as a guide towards a subsequent in-depth and meticulous analysis of the information by the researcher. However, as this is such a recently developed field, rapid evolution is expected to bring the necessary improvements to these tools.
翻訳日:2023-12-12 19:45:14 公開日:2023-12-09
# 強化学習と大規模言語モデルを活用したコード最適化

Leveraging Reinforcement Learning and Large Language Models for Code Optimization ( http://arxiv.org/abs/2312.05657v1 )

ライセンス: Link先を確認
Shukai Duan, Nikos Kanakaris, Xiongye Xiao, Heng Ping, Chenyu Zhou, Nesreen K. Ahmed, Guixiang Ma, Mihai Capota, Theodore L. Willke, Shahin Nazarian, Paul Bogdan(参考訳) コード最適化は、経験豊富なプログラマからかなりのレベルの専門知識を必要とする厄介なタスクです。 このレベルの専門知識は、新しいハードウェアアーキテクチャの急速な開発と比較すると不十分である。 コード最適化プロセス全体の推進に向けて、最近のアプローチは機械学習と人工知能技術に依存している。 本稿では,コード最適化の複雑さを低減するための新しいフレームワークを提案する。 提案するフレームワークは,大規模言語モデル (LLM) と強化学習 (RL) に基づいており,微調整プロセス中にLLMが環境(すなわち単体テスト)からフィードバックを受け取ることができる。 我々は,既存の最先端モデルと比較し,学習段階の低下とパラメータの少ないモデルへの適用性から,速度と計算使用量に関して,より効率的であることを示す。 さらに,本フレームワークは論理的および構文的誤りの可能性を低減する。 提案手法を評価するために,新しい強化学習アルゴリズムであるCodeT5言語モデルとRRHFを用いて,PIEデータセット上でいくつかの実験を行った。 最適化品質やスピードアップに関して,さまざまな評価指標を採用しています。 評価の結果,提案フレームワークは,トレーニング時間を短縮し,事前学習を小さくした既存モデルと比較した結果が得られた。 特に、%OP TおよびSPメトリクスに関するベースラインモデルよりも5.6%と2.2の増加を達成する。

Code optimization is a daunting task that requires a significant level of expertise from experienced programmers. This level of expertise is not sufficient when compared to the rapid development of new hardware architectures. Towards advancing the whole code optimization process, recent approaches rely on machine learning and artificial intelligence techniques. This paper introduces a new framework to decrease the complexity of code optimization. The proposed framework builds on large language models (LLMs) and reinforcement learning (RL) and enables LLMs to receive feedback from their environment (i.e., unit tests) during the fine-tuning process. We compare our framework with existing state-of-the-art models and show that it is more efficient with respect to speed and computational usage, as a result of the decrement in training steps and its applicability to models with fewer parameters. Additionally, our framework reduces the possibility of logical and syntactical errors. Toward evaluating our approach, we run several experiments on the PIE dataset using a CodeT5 language model and RRHF, a new reinforcement learning algorithm. We adopt a variety of evaluation metrics with regards to optimization quality, and speedup. The evaluation results demonstrate that the proposed framework has similar results in comparison with existing models using shorter training times and smaller pre-trained models. In particular, we accomplish an increase of 5.6% and 2.2 over the baseline models concerning the %OP T and SP metrics.
翻訳日:2023-12-12 19:39:23 公開日:2023-12-09
# プラズモニック・スカイミリオン量子熱力学

Plasmonic skyrmion quantum thermodynamics ( http://arxiv.org/abs/2312.05656v1 )

ライセンス: Link先を確認
Vipin Vijayan, L. Chotorlishvili, A. Ernst, M. I. Katsnelson, S. S. P. Parkin, S. K. Mishra(参考訳) 量子熱力学の分野における主な障害は、ナノスケールで動作する量子熱エンジンの開発と実用化である。 量子ワーキングボディに関連する重要な課題の1つは、「量子摩擦(quantum friction)」の発生である。 したがって、可逆量子サイクルの構築は断熱的近道の利用を必要とする。 しかし、現実の量子物質に対するそのような近道の実験的な実現は、非常に複雑であり、しばしば達成不可能である。 本研究では,プラズモンスカイミオン格子を用いた量子熱エンジンを提案する。 厳密な解析により、そのトポロジカルな保護のため、量子スラミオン物質はゼロ可逆的な作用を示すことを示した。 その結果、我々のエンジンは断熱ショートカットを必要とせずに作動する。 数値計算により、系が量子skyrmion相にあるとき、伝播状態は幾何学的および力学的な位相のみによって初期状態と異なることを観測した。 アディアバシットの蒸発は、ゼロ遷移行列要素とゼロ可逆的な作用をもたらす。 プラズモン変調と電場を用いることで、我々は量子サイクルを駆動する。 量子ワーキングボディを構成する基本的なビルディングブロックは、プラズモン格子内の個々のスカイミオンである。 結果として、エンジンの出力電力と、存在する量子skyrmionの数を操作することによって達成される熱力学的作業を正確に制御することができる。

The primary obstacle in the field of quantum thermodynamics revolves around the development and practical implementation of quantum heat engines operating at the nanoscale. One of the key challenges associated with quantum working bodies is the occurrence of "quantum friction," which refers to irreversible wasted work resulting from quantum inter-level transitions. Consequently, the construction of a reversible quantum cycle necessitates the utilization of adiabatic shortcuts. However, the experimental realization of such shortcuts for realistic quantum substances is exceedingly complex and often unattainable. In this study, we propose a quantum heat engine that capitalizes on the plasmonic skyrmion lattice. Through rigorous analysis, we demonstrate that the quantum skyrmion substance, owing to its topological protection, exhibits zero irreversible work. Consequently, our engine operates without the need for adiabatic shortcuts. We checked by numerical calculations and observed that when the system is in the quantum skyrmion phase, the propagated states differ from the initial states only by the geometricl and dynamical phases. The adiabacit evoluation leads to the zero transition matrix elements and zero irreversible work. By employing plasmonic mods and an electric field, we drive the quantum cycle. The fundamental building blocks for constructing the quantum working body are individual skyrmions within the plasmonic lattice. As a result, one can precisely control the output power of the engine and the thermodynamic work accomplished by manipulating the number of quantum skyrmions present.
翻訳日:2023-12-12 19:39:03 公開日:2023-12-09
# 神経積分方程式のスペクトル法

Spectral methods for Neural Integral Equations ( http://arxiv.org/abs/2312.05654v1 )

ライセンス: Link先を確認
Emanuele Zappala(参考訳) 神経積分方程式 (neural integral equation) は、積分方程式の理論に基づく深層学習モデルであり、このモデルが積分作用素と、最適化手順によって学習される対応する(第2種類の)方程式からなる。 このアプローチでは、機械学習における積分演算子の非局所的性質を活用できるが、計算コストは高い。 本稿では,スペクトル領域の演算子を学習し,計算コストの低減と補間精度の向上を実現するための,スペクトル法に基づくニューラル積分方程式の枠組みを提案する。 本手法の特性について検討し,モデルの近似能力,および数値解への収束に関して,様々な理論的保証を示す。 得られたモデルの有効性を示す数値実験を行う。

Neural integral equations are deep learning models based on the theory of integral equations, where the model consists of an integral operator and the corresponding equation (of the second kind) which is learned through an optimization procedure. This approach allows to leverage the nonlocal properties of integral operators in machine learning, but it is computationally expensive. In this article, we introduce a framework for neural integral equations based on spectral methods that allows us to learn an operator in the spectral domain, resulting in a cheaper computational cost, as well as in high interpolation accuracy. We study the properties of our methods and show various theoretical guarantees regarding the approximation capabilities of the model, and convergence to solutions of the numerical methods. We provide numerical experiments to demonstrate the practical effectiveness of the resulting model.
翻訳日:2023-12-12 19:38:44 公開日:2023-12-09
# すべてを支配するための一つのゲートスキーム: 量子コンピューティングのための複雑で縮小された命令セットの導入

One Gate Scheme to Rule Them All: Introducing a Complex Yet Reduced Instruction Set for Quantum Computing ( http://arxiv.org/abs/2312.05652v1 )

ライセンス: Link先を確認
Jianxin Chen, Dawei Ding, Weiyuan Gong, Cupjin Huang, Qi Ye(参考訳) 量子命令セットの設計とアーキテクチャは、量子コンピュータの性能にとって最重要である。 この研究は、シングルキュービットゲートまでの任意の2キュービットゲートを直接かつ効率的に実現する、xx+yy$結合を持つキュービットのゲートスキームを導入する。 第一に、このスキームは、特にデコヒーレンスが主要なエラー源である場合、量子演算の忠実な実行を可能にする。 第二に、このスキームは$\textbf{SU}(4)$の2キュービットゲート群にまたがっているので、アルゴリズムの実装に最適な2キュービットゲート数を達成するために利用できる。 これら2つのシナジーの利点は、量子複雑だが還元命令セットコンピュータ(CRISC)をもたらす。 ゲートスキームはコンパクトだが、包括的な量子演算の配列をサポートする。 これはパラドックス的に見えるかもしれないが、量子コンピュータアーキテクチャと古典コンピュータアーキテクチャの根本的な違いにより実現可能である。 ゲートスキームを用いることで、ジェネリック $n$-qubit ゲート合成、量子ボリューム、キュービットルーティングなど、さまざまなアプリケーションで顕著な改善が観察される。 さらに、提案手法では、ゲート時間が$\frac{\pi}{2g}$のcnotゲートと局所的に等価なゲートも実現しており、ここでは$g$が2量子ビット結合である。 また、AshNスキームは、逆結合系における主コヒーレントエラーである$ZZ$エラーに完全に従わず、ゲートを実装する制御パラメータを容易に調整し、$ZZ$項を考慮に入れることができる。

The design and architecture of a quantum instruction set are paramount to the performance of a quantum computer. This work introduces a gate scheme for qubits with $XX+YY$ coupling that directly and efficiently realizes any two-qubit gate up to single-qubit gates. First, this scheme enables high-fidelity execution of quantum operations, especially when decoherence is the primary error source. Second, since the scheme spans the entire $\textbf{SU}(4)$ group of two-qubit gates, we can use it to attain the optimal two-qubit gate count for algorithm implementation. These two advantages in synergy give rise to a quantum Complex yet Reduced Instruction Set Computer (CRISC). Though the gate scheme is compact, it supports a comprehensive array of quantum operations. This may seem paradoxical but is realizable due to the fundamental differences between quantum and classical computer architectures. Using our gate scheme, we observe marked improvements across various applications, including generic $n$-qubit gate synthesis, quantum volume, and qubit routing. Furthermore, the proposed scheme also realizes a gate locally equivalent to the commonly used CNOT gate with a gate time of $\frac{\pi}{2g}$, where $g$ is the two-qubit coupling. The AshN scheme is also completely impervious to $ZZ$ error, the main coherent error in transversely coupled systems, as the control parameters implementing the gates can be easily adjusted to take the $ZZ$ term into account.
翻訳日:2023-12-12 19:38:32 公開日:2023-12-09
# 固定単位演算による振幅と位相マスクのインターレースによる任意複素行列の学習

Learning Arbitrary Complex Matrices by Interlacing Amplitude and Phase Masks with Fixed Unitary Operations ( http://arxiv.org/abs/2312.05648v1 )

ライセンス: Link先を確認
Matthew Markowitz, Kevin Zelaya, Mohammad-Ali Miri(参考訳) プログラム可能なフォトニック集積回路は、フォトニックとエレクトロニクスを融合させ、高速かつ低消費電力で光ベースの情報処理を実現する新しい技術である。 最も基本的な数学的操作の一つとして応用範囲が広いことを考えると、行列ベクトル乗算を行うプログラマブルフォトニック回路に特に関心がある。 この点において、既存のフォトニック集積回路技術と互換性のある行列演算を確実に実装するための新しい回路アーキテクチャの開発に大きな関心が寄せられている。 近年, 離散線形ユニタリ演算は, 多ポート部品を介在する位相シフタアレイのカスケードにより, ユニタリ演算の効率的なフォトニック化を可能にする固定演算子に介在する対角位相パラメータによってパラメータ化できることが示されている。 ここでは、そのような分解は、固定ユニタリ行列と交互に変化する対角行列で任意の複素行列をパラメトリケートできるような、より広範な分解のクラスの特別な場合であることを示す。 そこで我々は, 離散線形演算を物理的に実装する新しいアーキテクチャを提案する。 提案アーキテクチャは,結合導波路アレイを用いて実装可能な固定ユニタリ層を介在するN+1$振幅・位相変調層を用いて,N の N$行列演算子を表現する。 提案アーキテクチャは、オンチップアナログ情報処理のためのプログラマブルフォトニック回路の新たなファミリーの開発を可能にする。

Programmable photonic integrated circuits represent an emerging technology that amalgamates photonics and electronics, paving the way for light-based information processing at high speeds and low power consumption. Considering their wide range of applications as one of the most fundamental mathematical operations there has been a particular interest in programmable photonic circuits that perform matrix-vector multiplication. In this regard, there has been great interest in developing novel circuit architectures for performing matrix operations that are compatible with the existing photonic integrated circuit technology which can thus be reliably implemented. Recently, it has been shown that discrete linear unitary operations can be parameterized through diagonal phase parameters interlaced with a fixed operator that enables efficient photonic realization of unitary operations by cascading phase shifter arrays interlaced with a multiport component. Here, we show that such a decomposition is only a special case of a much broader class of factorizations that allow for parametrizing arbitrary complex matrices in terms of diagonal matrices alternating with a fixed unitary matrix. Thus, we introduce a novel architecture for physically implementing discrete linear operations. The proposed architecture is built on representing an $N \times N$ matrix operator in terms of $N+1$ amplitude-and-phase modulation layers interlaced with a fixed unitary layer that could be implemented via a coupled waveguide array. The proposed architecture enables the development of novel families of programmable photonic circuits for on-chip analog information processing.
翻訳日:2023-12-12 19:38:03 公開日:2023-12-09
# 非有界作用素の固有値漸近性。 2光子量子ラビモデル

Eigenvalues asymptotics of unbounded operators. Two-photon quantum Rabi model ( http://arxiv.org/abs/2312.05646v1 )

ライセンス: Link先を確認
E. A. Ianovich(参考訳) 本研究では、非有界作用素の固有値の漸近に関する一般的な結果を得る。 ここでは、コンパクト、相対コンパクト、自己共役または非自己共役摂動の異なる場合を考える。 特に、コンパクト摂動における非有界作用素の固有値漸近性に関するジャナス=ナボコ補題の一般化を証明する。 また,振動子スペクトルの非コンパクト摂動に関する過去の結果の一般化も行った。 例えば、2光子量子ラビモデルを考える。 このモデルのエネルギー演算子の大固有値に対する木長漸近式を得る。 このモデル多項式に関連する漸近性は見いだされる。 また、量子光学の収縮作用素に対するペレロモフ分解定理のオリジナルの証明を与える。

In this work the general results about asymptotics of eigenvalues of unbounded operators are obtained. We consider here different cases of compact, relatively compact, selfadjoint or nonselfadjoint perturbations. In particular we prove a generalization of Janas-Naboko lemma about eigenvalues asymptotics of unbounded operators at compact perturbation. A generalization of our previous result about noncompact perturbation of oscillator spectrum is also given. As an example we consider two-photon quantum Rabi model. We obtain tree-term asymptotic formula for large eigenvalues of the energy operator of this model. The asymptotics of related to this model polynomials is found. We give also an original proof of the Perelomov factorization theorem for contraction operator of quantum optics.
翻訳日:2023-12-12 19:37:37 公開日:2023-12-09
# サンプル最適局所的仮説選択と相互作用の証明可能な利点

Sample-Optimal Locally Private Hypothesis Selection and the Provable Benefits of Interactivity ( http://arxiv.org/abs/2312.05645v1 )

ライセンス: Link先を確認
Alireza F. Pour, Hassan Ashtiani, Shahab Asoodeh(参考訳) 局所的な差分プライバシーの制約の下で仮説選択の問題を考察する。 クラス$\mathcal{f}$ of $k$ディストリビューションと未知のディストリビューション$h$から一組のi.i.d.サンプルが与えられた場合、仮説選択の目標は、$h$までの合計変動距離が$\mathcal{f}$(高い確率で)のベストディストリビューションに匹敵する分布$\hat{f}$を選択することである。 我々は、$\theta\left(\frac{k}{\alpha^2\min \{\varepsilon^2,1\}}\right)$サンプルを使用して$d_{tv}(h,\hat{f})\leq \alpha + 9 \min_{f\in \mathcal{f}}d_{tv}(h,f)$を高い確率で保証する$\varepsilon$-locally-differentially-private (\varepsilon$-ldp)アルゴリズムを開発した。 このサンプルの複雑さは、Gopi et al. (2020) の下限と一致する$\varepsilon<1$に対して最適である。 この問題の既知アルゴリズムは全て$\Omega\left(\frac{k\log k}{\alpha^2\min \{ \varepsilon^2 ,1\}} \right)$サンプルを動作させる必要があった。 さらに,この結果は,$\varepsilon$-LDP仮説選択における相互作用のパワーを示す。 すなわち、非相互作用仮説選択のサンプル複雑性に対して、既知の$\Omega\left(\frac{k\log k}{\alpha^2\min \{ \varepsilon^2 ,1\}} \right)$を破る。 我々のアルゴリズムはこの障壁を$\Theta(\log \log k)$の相互作用で破る。 結果を証明するために,統計的問合せアルゴリズム (sqa) に対して,独立興味を持つかもしれない<emph{ critical query} の概念を定義する。 形式的には、SQAは、その成功が要求する少数のクエリの精度に依存する場合、少数のクリティカルクエリを使用すると言われている。 次に、より少数のクリティカルクエリを使用するLDPアルゴリズムを設計する。

We study the problem of hypothesis selection under the constraint of local differential privacy. Given a class $\mathcal{F}$ of $k$ distributions and a set of i.i.d. samples from an unknown distribution $h$, the goal of hypothesis selection is to pick a distribution $\hat{f}$ whose total variation distance to $h$ is comparable with the best distribution in $\mathcal{F}$ (with high probability). We devise an $\varepsilon$-locally-differentially-private ($\varepsilon$-LDP) algorithm that uses $\Theta\left(\frac{k}{\alpha^2\min \{\varepsilon^2,1\}}\right)$ samples to guarantee that $d_{TV}(h,\hat{f})\leq \alpha + 9 \min_{f\in \mathcal{F}}d_{TV}(h,f)$ with high probability. This sample complexity is optimal for $\varepsilon<1$, matching the lower bound of Gopi et al. (2020). All previously known algorithms for this problem required $\Omega\left(\frac{k\log k}{\alpha^2\min \{ \varepsilon^2 ,1\}} \right)$ samples to work. Moreover, our result demonstrates the power of interaction for $\varepsilon$-LDP hypothesis selection. Namely, it breaks the known lower bound of $\Omega\left(\frac{k\log k}{\alpha^2\min \{ \varepsilon^2 ,1\}} \right)$ for the sample complexity of non-interactive hypothesis selection. Our algorithm breaks this barrier using only $\Theta(\log \log k)$ rounds of interaction. To prove our results, we define the notion of \emph{critical queries} for a Statistical Query Algorithm (SQA) which may be of independent interest. Informally, an SQA is said to use a small number of critical queries if its success relies on the accuracy of only a small number of queries it asks. We then design an LDP algorithm that uses a smaller number of critical queries.
翻訳日:2023-12-12 19:37:30 公開日:2023-12-09
# NiSNN-A:モータ画像脳波分類への応用を目的とした非定常スパイクニューラルネットワーク

NiSNN-A: Non-iterative Spiking Neural Networks with Attention with Application to Motor Imagery EEG Classification ( http://arxiv.org/abs/2312.05643v1 )

ライセンス: Link先を確認
Chuhan Zhang, Wei Pan, Cosimo Della Santina(参考訳) 脳波(EEG)研究における重要なカテゴリである運動画像は、携帯医療機器や孤立した環境操作などの低エネルギー消費を必要とするシナリオとしばしば交差する。 従来のディープラーニングアルゴリズムは、その有効性にもかかわらず、高いエネルギー利用を伴う計算要求が特徴である。 代替として、脳の生物学的機能にインスパイアされたスパイキングニューラルネットワーク(SNN)が、有望なエネルギー効率のソリューションとして出現する。 しかしながら、SNNは通常、対応する畳み込みニューラルネットワーク(CNN)よりも精度が低い。 注意機構は関連する機能に注目することでネットワークの精度を向上するが、SNNフレームワークへの統合は未解決のままである。 本研究では,脳波分類におけるSNNと注意機構を組み合わせて,精度の向上とエネルギー消費の削減を目的とする。 そこで本研究では,従来のSNNにおいてイテレーティブ LIF ニューロンを用いた勾配問題を克服した非定位Leaky Integrate-and-Fire(LIF)ニューロンモデルを提案する。 次に,特徴マップを洗練するために,逐次的注意機構を導入する。 大規模モータ画像データセット OpenBMI 上で, 提案したNon-iterative SNN with Attention (NiSNN-A) モデルについて検討した。 実験結果は 1) モデルが他のSNNモデルよりも高い精度で性能を向上する。 2) 我々のモデルでは, 同等の精度を維持しながら, 対応するCNNモデル(すなわち2.27倍)と比較してエネルギー効率が向上する。

Motor imagery, an important category in electroencephalogram (EEG) research, often intersects with scenarios demanding low energy consumption, such as portable medical devices and isolated environment operations. Traditional deep learning algorithms, despite their effectiveness, are characterized by significant computational demands accompanied by high energy usage. As an alternative, spiking neural networks (SNNs), inspired by the biological functions of the brain, emerge as a promising energy-efficient solution. However, SNNs typically exhibit lower accuracy than their counterpart convolutional neural networks (CNNs). Although attention mechanisms successfully increase network accuracy by focusing on relevant features, their integration in the SNN framework remains an open question. In this work, we combine the SNN and the attention mechanisms for the EEG classification, aiming to improve precision and reduce energy consumption. To this end, we first propose a Non-iterative Leaky Integrate-and-Fire (LIF) neuron model, overcoming the gradient issues in the traditional SNNs using the Iterative LIF neurons. Then, we introduce the sequence-based attention mechanisms to refine the feature map. We evaluated the proposed Non-iterative SNN with Attention (NiSNN-A) model on OpenBMI, a large-scale motor imagery dataset. Experiment results demonstrate that 1) our model outperforms other SNN models by achieving higher accuracy, 2) our model increases energy efficiency compared to the counterpart CNN models (i.e., by 2.27 times) while maintaining comparable accuracy.
翻訳日:2023-12-12 19:36:40 公開日:2023-12-09
# ヘテロジニアス環境におけるフェデレーション学習の高速化:動的階層化アプローチ

Speed Up Federated Learning in Heterogeneous Environment: A Dynamic Tiering Approach ( http://arxiv.org/abs/2312.05642v1 )

ライセンス: Link先を確認
Seyed Mahmoud Sajjadi Mohammadabadi, Syed Zawad, Feng Yan, and Lei Yang(参考訳) フェデレーション学習(fl)は、トレーニングデータを分散し、プライベートに保ちながら、協調的にモデルをトレーニングすることを可能にする。 しかしながら、flを用いたモデル、特に大規模モデルを用いたモデルのトレーニングにおける重要な障害のひとつは、異種計算と通信能力を持つデバイスのリソース制約と、タスクサイズの違いである。 このような不均一性は、クライアントのトレーニング時間に大きな変化をもたらし、結果として、トレーニング時間が長くなり、より高速なクライアントにリソースを浪費することになります。 このような不均一性問題に対処するため,より遅いクライアントがモデルの一部を動的にサーバにオフロードし,リソース制約を緩和し,トレーニングを高速化する動的階層型フェデレートラーニング(DTFL)システムを提案する。 Split Learningの概念を活用することで、DTFLはグローバルモデルのさまざまな部分を異なる階層のクライアントにオフロードし、各クライアントがローカルロスベースのトレーニングを通じてモデルを並列に更新することができる。 これにより、リソース制約のあるデバイスにおける計算と通信の要求を低減し、ストラグラー問題を軽減できる。 DTFLは動的階層スケジューラを導入し、各クライアントのトレーニング時間、通信速度、データセットサイズに基づいて、階層プロファイリングを使用して予測されるトレーニング時間を推定する。 dynamic tier schedulerは、各ラウンドのトレーニング時間を最小化するために、クライアントを適切なティアに割り当てる。 まず、DTFLの収束特性を理論的に証明する。 次に、IIDおよび非IIDシステムの両方で、人気のある画像データセット(CIFAR-10、CIFAR-100、CINIC-10、HAM10000)上で、大規模なモデル(ResNet-56、ResNet-110)をトレーニングする。 その結果,最新のFL法と比較して,DTFLはモデルの精度を維持しながらトレーニング時間を著しく短縮できることがわかった。

Federated learning (FL) enables collaboratively training a model while keeping the training data decentralized and private. However, one significant impediment to training a model using FL, especially large models, is the resource constraints of devices with heterogeneous computation and communication capacities as well as varying task sizes. Such heterogeneity would render significant variations in the training time of clients, resulting in a longer overall training time as well as a waste of resources in faster clients. To tackle these heterogeneity issues, we propose the Dynamic Tiering-based Federated Learning (DTFL) system where slower clients dynamically offload part of the model to the server to alleviate resource constraints and speed up training. By leveraging the concept of Split Learning, DTFL offloads different portions of the global model to clients in different tiers and enables each client to update the models in parallel via local-loss-based training. This helps reduce the computation and communication demand on resource-constrained devices and thus mitigates the straggler problem. DTFL introduces a dynamic tier scheduler that uses tier profiling to estimate the expected training time of each client, based on their historical training time, communication speed, and dataset size. The dynamic tier scheduler assigns clients to suitable tiers to minimize the overall training time in each round. We first theoretically prove the convergence properties of DTFL. We then train large models (ResNet-56 and ResNet-110) on popular image datasets (CIFAR-10, CIFAR-100, CINIC-10, and HAM10000) under both IID and non-IID systems. Extensive experimental results show that compared with state-of-the-art FL methods, DTFL can significantly reduce the training time while maintaining model accuracy.
翻訳日:2023-12-12 19:36:18 公開日:2023-12-09
# 光空洞に結合したMHz周波数機械振動子におけるフォノンと光子の非古典的相関

Non-classical correlations between phonons and photons in a MHz-frequency mechanical oscillator coupled to an optical cavity ( http://arxiv.org/abs/2312.05641v1 )

ライセンス: Link先を確認
Ivan Galinskiy, Georg Enzian, Micha{\l} Parniak, Eugene Polzik(参考訳) 本研究では,Fabry-P'erot光共振器内部の軟クランプ型超コヒーレント膜振動子を用いたシステムにおいて,光子と光子の非古典的相関性を示す。 機械発振器に格納されたフォノンは、その後読み出すと強い量子コヒーレンスを示す。 古典的なコーシー=シュワルツの不平等の違反を92%の信頼で観察する。 本システムは、サブミリメートルサイズのナノグラム・メカニカル・オシレータにおける低周波量子効果の研究の可能性を示す。

We demonstrate non-classical correlations between phonons and photons created using opto-mechanical spontaneous parametric down-conversion in a system based on a soft-clamped ultracoherent membrane oscillator inside of a Fabry-P\'erot optical resonator. We show that phonons stored in the mechanical oscillator, when subsequently read out, display strong signs of quantum coherence, which we demonstrate by single-photon counting enabled by our state-of-the-art optical filtering system. We observe a violation of the classical Cauchy-Schwarz inequality with a confidence of >92%. The presented system demonstrates the potential for studies of low-frequency quantum effects in sub-millimeter size nanogram-scale mechanical oscillators.
翻訳日:2023-12-12 19:35:43 公開日:2023-12-09
# キーワードスポッティング --ディープラーニングを用いた音声中のコマンド検出

Keyword spotting -- Detecting commands in speech using deep learning ( http://arxiv.org/abs/2312.05640v1 )

ライセンス: Link先を確認
Sumedha Rai, Tong Li, Bella Lyu(参考訳) 音声認識は、機械学習と人工知能の開発において重要な課題となっている。 本研究では,音声認識機械学習とディープラーニング技術を用いたキーワードスポッティングの重要課題について検討する。 我々は、原波形をMel Frequency Cepstral Coefficients (MFCC)に変換することで特徴工学を実装し、モデルへの入力として利用する。 我々は,ガウス混合を用いた隠れマルコフモデル,畳み込みニューラルネットワーク,長期記憶や注意機構を含む反復ニューラルネットワークの変種など,いくつかの異なるアルゴリズムを実験した。 実験では, BiLSTM と Attention を用いた RNN が 93.9% の精度で最高の性能を達成した。

Speech recognition has become an important task in the development of machine learning and artificial intelligence. In this study, we explore the important task of keyword spotting using speech recognition machine learning and deep learning techniques. We implement feature engineering by converting raw waveforms to Mel Frequency Cepstral Coefficients (MFCCs), which we use as inputs to our models. We experiment with several different algorithms such as Hidden Markov Model with Gaussian Mixture, Convolutional Neural Networks and variants of Recurrent Neural Networks including Long Short-Term Memory and the Attention mechanism. In our experiments, RNN with BiLSTM and Attention achieves the best performance with an accuracy of 93.9 %
翻訳日:2023-12-12 19:35:31 公開日:2023-12-09
# スケーラブルなスピンフォトニック界面のためのダイヤモンドマイクロディスクキャビティアレイへのアライメントフリー結合

Alignment-Free Coupling to Arrays of Diamond Microdisk Cavities for Scalable Spin-Photon Interfaces ( http://arxiv.org/abs/2312.05638v1 )

ライセンス: Link先を確認
Helaman R. Flores, Samuel R. Layton, Dirk Englund, Ryan M. Camacho(参考訳) ダイヤモンドマイクロディスクにおける色中心へのスピン光子インタフェースのスケーラブルな設計を提案する。 この設計は、マイクロディスクから低数値の開口モードへの垂直放出を可能にするためにダイヤモンドマイクロディスク上に覆ったシリコン窒化ケイ素六方晶格子で構成されており、スズ空孔(snv)中心の量子効率は最大45\%である。 我々の設計は製造エラーに頑健であり、光学収集モードと結合した量子エミッタを大規模に製造できる可能性がある。 また,双極子モデルを用いて複素構造の自由空間性能を最適化する新しい手法を導入し,計算時間を65万倍削減したフルウェーブ有限差分時間領域シミュレーションに匹敵する結果を得た。

We propose a scalable design for a spin-photon interface to a color center in a diamond microdisk. The design consists of a silicon oxynitride hexagonal lattice overlaid on a diamond microdisk to enable vertical emission from the microdisk into low-numerical aperture modes, with quantum efficiencies as high as 45\% for a tin vacancy (SnV) center. Our design is robust to manufacturing errors, potentially enabling large scale fabrication of quantum emitters coupled to optical collection modes. We also introduce a novel approach for optimizing the free space performance of a complex structure using a dipole model, achieving comparable results to full-wave finite difference time domain simulations with a 650,000 times reduction in computational time.
翻訳日:2023-12-12 19:35:19 公開日:2023-12-09
# スーパービジョンによるPose Guidance: 衣服交換者の再識別のためのフレームワーク

Pose Guidance by Supervision: A Framework for Clothes-Changing Person Re-Identification ( http://arxiv.org/abs/2312.05634v1 )

ライセンス: Link先を確認
Quoc-Huy Trinh and Nhat-Tan Bui and Phuoc-Thao Vo Thi and Hai-Dang Nguyen and Debesh Jha and Ulas Bagci and Minh-Triet Tran(参考訳) 人物再同定(ReID)タスクは、監視カメラによる複数の個人追跡を強化することを目的としている。 テキストベースの人物検索やヒューマンマッチングなど、マルチモーダルタスクへの追加サポートを提供する。 ReIDの主な課題の1つは着替えであり、これは同じ人が異なる服を着ていることを意味する。 従来の手法は服のデータの整合性を維持し、服の着替えデータを扱うという競合的な結果を得たが、それでも服の情報に過度に依存する傾向にあり、人間の外見のダイナミックな性質によって性能が制限される傾向にある。 この課題を軽減するために,ReIDタスク内でポーズガイダンスを学習するための効果的なフレームワークであるPose Guidance by Supervision(PGS)フレームワークを提案する。 このアプローチは、事前訓練された特徴からのポーズ知識と人的部分情報を活用して、衣服関連情報にネットワークを集中させることにより、深層学習モデルに対する衣服の影響を軽減する。 5つのベンチマークデータセットに関する広範な実験は、reidタスクで堅牢なモデルを開発することを約束する他の最先端メソッドと比較して、我々のフレームワークが競争力のある結果を達成していることを示している。 私たちのコードはhttps://github.com/huyquoctrinh/pgsで利用可能です。

Person Re-Identification (ReID) task seeks to enhance the tracking of multiple individuals by surveillance cameras. It provides additional support for multimodal tasks, including text-based person retrieval and human matching. One of the primary challenges in ReID is clothes-changing, which means the same person wears different clothes. While previous methods have achieved competitive results in maintaining clothing data consistency and handling clothing change data, they still tend to rely excessively on clothing information, thus limiting performance due to the dynamic nature of human appearances. To mitigate this challenge, we propose the Pose Guidance by Supervision (PGS) framework, an effective framework for learning pose guidance within the ReID task. This approach leverages pose knowledge and human part information from the pre-trained features to guide the network focus on clothes-irrelevant information, thus alleviating the clothes' influence on the deep learning model. Extensive experiments on five benchmark datasets demonstrate that our framework achieves competitive results compared with other state-of-the-art methods, which holds promise for developing robust models in the ReID task. Our code is available at https://github.com/huyquoctrinh/PGS.
翻訳日:2023-12-12 19:35:03 公開日:2023-12-09
# 表情認識のための主題ベースドメイン適応

Subject-Based Domain Adaptation for Facial Expression Recognition ( http://arxiv.org/abs/2312.05632v1 )

ライセンス: Link先を確認
Muhammad Osama Zeeshan, Muhammad Haseeb Aslam, Soufiane Belharbi, Alessandro L. Koerich, Marco Pedersoli, Simon Bacon, Eric Granger(参考訳) 深層学習(DL)モデルを特定の対象個人に適用することは、教師なしドメイン適応(UDA)手法を用いて達成できる表情認識(FER)において難しい課題である。 ソースおよびターゲットデータセット間での深いFERモデルの適用にはいくつかのUDA手法が提案されているが、複数の主題固有のソースドメインは、主題ベース適応における個人内および個人間の変動を正確に表現するために必要である。 本稿では、データ集合全体ではなく、ドメインが個々人に対応するような設定を考える。 UDAとは異なり、マルチソースドメイン適応(MSDA)メソッドは複数のソースデータセットを利用してターゲットモデルの精度と堅牢性を向上させることができる。 しかし、MSDAの以前の手法はデータセット全体にわたる画像分類モデルに適応しており、より多くのソースドメインにスケールできない。 本稿では、FERにおける主観的ドメイン適応のための新しいMSDA手法を提案する。 複数のソース対象(ラベル付きソースドメインデータ)からの情報を効率的に利用して、ディープFERモデルを単一のターゲット個人(ラベルなしターゲットドメインデータ)に適応させる。 適応中、複数の情報源からのデータ間のドメインシフトを軽減するために、まずソース間の差分損失を計算する。 次に,対象対象者と対象対象者の領域シフトを低減し,目標対象者に対する自信の強化した疑似ラベルを生成するための新たな戦略を提案する。 Experiments\footnote{\textcolor{red}{\textbf{Supplementary material} には私たちのコードが含まれています。 87名の被験者を対象とするBioVid熱・痛みデータセット(PartA)では,MSDAが複数の被験者を対象とするソースドメインに対して,最先端の手法より優れていることが示されている。

Adapting a deep learning (DL) model to a specific target individual is a challenging task in facial expression recognition (FER) that may be achieved using unsupervised domain adaptation (UDA) methods. Although several UDA methods have been proposed to adapt deep FER models across source and target data sets, multiple subject-specific source domains are needed to accurately represent the intra- and inter-person variability in subject-based adaption. In this paper, we consider the setting where domains correspond to individuals, not entire datasets. Unlike UDA, multi-source domain adaptation (MSDA) methods can leverage multiple source datasets to improve the accuracy and robustness of the target model. However, previous methods for MSDA adapt image classification models across datasets and do not scale well to a larger number of source domains. In this paper, a new MSDA method is introduced for subject-based domain adaptation in FER. It efficiently leverages information from multiple source subjects (labeled source domain data) to adapt a deep FER model to a single target individual (unlabeled target domain data). During adaptation, our Subject-based MSDA first computes a between-source discrepancy loss to mitigate the domain shift among data from several source subjects. Then, a new strategy is employed to generate augmented confident pseudo-labels for the target subject, allowing a reduction in the domain shift between source and target subjects. Experiments\footnote{\textcolor{red}{\textbf{Supplementary material} contains our code, which will be made public, and additional experimental results.}} on the challenging BioVid heat and pain dataset (PartA) with 87 subjects shows that our Subject-based MSDA can outperform state-of-the-art methods yet scale well to multiple subject-based source domains.
翻訳日:2023-12-12 19:34:40 公開日:2023-12-09
# 失敗モデルの構築と余剰失敗の解説のためのテスト生成戦略

Test Generation Strategies for Building Failure Models and Explaining Spurious Failures ( http://arxiv.org/abs/2312.05631v1 )

ライセンス: Link先を確認
Baharin Aliashrafi Jodat, Abhishek Chandar, Shiva Nejati, Mehrdad Sabetzadeh(参考訳) テスト入力は、テスト中のシステムが故障しているときだけでなく、入力が無効または非現実的なときも失敗する。 無効または非現実的なテスト入力による失敗は急激です。 特に単一のテスト実行にかなりの時間を要する計算集約型(ci)システムでは、スプリアス障害を回避することで、システムの主機能を実行するテストの有効性が向上する。 本稿では,ミスの原因となるテスト入力の解釈可能なルールを推論するための障害モデルを構築することを提案する。 障害モデル構築のための代替戦略として,(1)機械学習(ml)誘導テスト生成と(2)サロゲート支援テスト生成の2つを検討した。 mlガイドテスト生成は、パスとフェールテスト入力を分離する境界領域を推定し、これらの領域からテスト入力をサンプルする。 surrogateによるテスト生成は、すべての入力を強制するのではなく、テスト入力のラベルを予測するためにsurrogateモデルに依存している。 本稿では,複数のサロゲートモデルを同時に利用し,最も正確なモデルから動的に予測を選択する新しいサロゲート支援アルゴリズムを提案する。 本研究では,サロゲート支援およびML誘導テスト生成アルゴリズムに基づいて推定された故障モデルの精度を実証的に評価する。 サイバーフィジカルシステムとネットワークのドメインのケーススタディを用いて,提案手法は平均83%の精度で障害モデルを生成し,ml誘導テスト生成と2つのベースラインよりも優れていることを示した。 さらに、このアプローチは、ドメイン知識に対する正当なスプリアスな失敗を識別する、障害誘発ルールを学習します。

Test inputs fail not only when the system under test is faulty but also when the inputs are invalid or unrealistic. Failures resulting from invalid or unrealistic test inputs are spurious. Avoiding spurious failures improves the effectiveness of testing in exercising the main functions of a system, particularly for compute-intensive (CI) systems where a single test execution takes significant time. In this paper, we propose to build failure models for inferring interpretable rules on test inputs that cause spurious failures. We examine two alternative strategies for building failure models: (1) machine learning (ML)-guided test generation and (2) surrogate-assisted test generation. ML-guided test generation infers boundary regions that separate passing and failing test inputs and samples test inputs from those regions. Surrogate-assisted test generation relies on surrogate models to predict labels for test inputs instead of exercising all the inputs. We propose a novel surrogate-assisted algorithm that uses multiple surrogate models simultaneously, and dynamically selects the prediction from the most accurate model. We empirically evaluate the accuracy of failure models inferred based on surrogate-assisted and ML-guided test generation algorithms. Using case studies from the domains of cyber-physical systems and networks, we show that our proposed surrogate-assisted approach generates failure models with an average accuracy of 83%, significantly outperforming ML-guided test generation and two baselines. Further, our approach learns failure-inducing rules that identify genuine spurious failures as validated against domain knowledge.
翻訳日:2023-12-12 19:34:09 公開日:2023-12-09
# 自己監視型学習におけるCNNの反撃:より大きいカーネルサイズは必要なもの

The Counterattack of CNNs in Self-Supervised Learning: Larger Kernel Size might be All You Need ( http://arxiv.org/abs/2312.05695v1 )

ライセンス: Link先を確認
Tianjin Huang, Shiwei Liu, Tianlong Chen and Zhangyang Wang(参考訳) ビジョントランスフォーマーは、その優れたスケーリングトレンドのおかげで、コンピュータビジョンにおいて急速に蜂起し、徐々に畳み込みニューラルネットワーク(cnns)を置き換える。 自己教師付き学習(SSL)に関する最近の研究は、トランスフォーマーのバックボーンがCNNよりもはるかに強力な結果を示し続けているシム事前学習タスクを導入している。 SSLの文脈では、トランスフォーマーやセルフアテンションモジュールは本質的にCNNよりも適していると考えるようになった。 しかし、cnnによるsslの以前の技術が標準のresnetsをバックボーンとして選んだとしても、そのアーキテクチャの有効性は先進的なビジョントランスフォーマーに遅れをとっていることが知られていることは注目に値する。 したがって、SSLの最近の進歩に自己注意操作が不可欠なのか、それともCNNがより高度な設計で同じ卓越性を提供できるのか、まだ不明である。 TransformerとCNN間のSSLパフォーマンスギャップを埋めることができますか? これらの興味深い質問に答えるために、最近提案されたより強力なラガーカーネルCNNアーキテクチャに自己教師付き事前トレーニングを適用し、SSL性能においてトランスフォーマーとリンゴ対アップルの比較を行う。 以上の結果から,畳み込みカーネルサイズをスケールアップするだけでなく,小さな変更を加えるだけで,最高のSSLトレーニングトランスフォーマーと同程度に動作する純粋なCNN SSLアーキテクチャを構築できることが示唆された。 驚くべきことに、ダウンストリームタスク \textt{ms coco}検出とセグメンテーションに転送すると、sslプリトレーニングcnnモデル(100epochsでトレーニング)は、300epochプリトレーニングトランスフォーマーと同等の性能を実現します。 この研究が、自己監督学習バックボーンに必要な(あるいはそうでない)ものを理解する上で有効であることを願っています。

Vision Transformers have been rapidly uprising in computer vision thanks to their outstanding scaling trends, and gradually replacing convolutional neural networks (CNNs). Recent works on self-supervised learning (SSL) introduce siamese pre-training tasks, on which Transformer backbones continue to demonstrate ever stronger results than CNNs. People come to believe that Transformers or self-attention modules are inherently more suitable than CNNs in the context of SSL. However, it is noteworthy that most if not all prior arts of SSL with CNNs chose the standard ResNets as their backbones, whose architecture effectiveness is known to already lag behind advanced Vision Transformers. Therefore, it remains unclear whether the self-attention operation is crucial for the recent advances in SSL - or CNNs can deliver the same excellence with more advanced designs, too? Can we close the SSL performance gap between Transformers and CNNs? To answer these intriguing questions, we apply self-supervised pre-training to the recently proposed, stronger lager-kernel CNN architecture and conduct an apple-to-apple comparison with Transformers, in their SSL performance. Our results show that we are able to build pure CNN SSL architectures that perform on par with or better than the best SSL-trained Transformers, by just scaling up convolutional kernel sizes besides other small tweaks. Impressively, when transferring to the downstream tasks \texttt{MS COCO} detection and segmentation, our SSL pre-trained CNN model (trained in 100 epochs) achieves the same good performance as the 300-epoch pre-trained Transformer counterpart. We hope this work can help to better understand what is essential (or not) for self-supervised learning backbones.
翻訳日:2023-12-12 19:27:35 公開日:2023-12-09
# Agile-Quant: エッジ上のLCMの高速推論のためのアクティベーションガイド付き量子化

Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge ( http://arxiv.org/abs/2312.05693v1 )

ライセンス: Link先を確認
Xuan Shen, Peiyan Dong, Lei Lu, Zhenglun Kong, Zhengang Li, Ming Lin, Chao Wu, Yanzhi Wang(参考訳) 大きな言語モデル(LLM)は、複雑な言語モデリングタスクにおける印象的なパフォーマンスで際立っている。 しかし、それらの要求する計算とメモリは、エッジデバイスで広く使用するための障害となる。 その後、LCMのデバイス上での効率を高めるために量子化が導入される。 近年の研究では、8ビット以下の量子化が可能であり、エンド・ツー・エンドのタスク性能への影響は最小限であるが、アクティベーションは定量化されていない。 一方、一般的なエッジデバイスは、これらのサブ8ビット量子化ネットワークを効果的に実行するのに苦労している。 本稿では,人気のある大規模言語モデル(llms)のためのアクティベーション誘導量子化フレームワークであるagile-quantを提案する。 ハードウェアのプロファイリングとアクティベーション分析を考慮し,タスク性能のトレードオフと実際の推論速度のバランスをとるための基本的なアクティベーション量子化戦略を導入する。 次に,アクティベーション・アウェア・トークン・プルーニング技術を利用して,アウトリアーとアテンティビティへの悪影響を低減した。 最終的に、SIMDベースの4ビット乗算器と効率的なTRIP行列乗算を用いて、エッジ上のLCMのアクセラレータを実装する。 llama, opt, bloom, 4ビットまたは8ビットのアクティベーションと4ビットの重み量子化を含む,さまざまなスケールのllmに適用した。 実験によると、agile-quantは、既存のウェイトのみの量子化法に匹敵するタスクパフォーマンスを維持しながら、モデルウェイトとアクティベーションの同時量子化を達成している。 さらに、8ビットと4ビットのシナリオでは、Agile-Quantは複数のエッジデバイスにまたがるFP16と比較して、デバイス上でのスピードアップを最大2.55倍に達成している。

Large Language Models (LLMs) stand out for their impressive performance in intricate language modeling tasks. However, their demanding computational and memory needs pose obstacles for broad use on edge devices. Quantization is then introduced to boost LLMs' on-device efficiency. Recent works show that 8-bit or lower weight quantization is feasible with minimal impact on end-to-end task performance, while the activation is still not quantized. On the other hand, mainstream commodity edge devices still struggle to execute these sub-8-bit quantized networks effectively. In this paper, we propose Agile-Quant, an activation-guided quantization framework for popular Large Language Models (LLMs), and implement an end-to-end accelerator on multiple edge devices for faster inference. Considering the hardware profiling and activation analysis, we first introduce a basic activation quantization strategy to balance the trade-off of task performance and real inference speed. Then we leverage the activation-aware token pruning technique to reduce the outliers and the adverse impact on attentivity. Ultimately, we utilize the SIMD-based 4-bit multiplier and our efficient TRIP matrix multiplication to implement the accelerator for LLMs on the edge. We apply our framework on different scales of LLMs including LLaMA, OPT, and BLOOM with 4-bit or 8-bit for the activation and 4-bit for the weight quantization. Experiments show that Agile-Quant achieves simultaneous quantization of model weights and activations while maintaining task performance comparable to existing weight-only quantization methods. Moreover, in the 8- and 4-bit scenario, Agile-Quant achieves an on-device speedup of up to 2.55x compared to its FP16 counterparts across multiple edge devices, marking a pioneering advancement in this domain.
翻訳日:2023-12-12 19:26:45 公開日:2023-12-09
# NLLG Quarterly arXiv Report 09/23: 現在最も影響力のあるAIペーパーは何ですか?

NLLG Quarterly arXiv Report 09/23: What are the most influential current AI Papers? ( http://arxiv.org/abs/2312.05688v1 )

ライセンス: Link先を確認
Ran Zhang, Aida Kostikova, Christoph Leiter, Jonas Belouadi, Daniil Larionov, Yanran Chen, Vivian Fresen, Steffen Eger(参考訳) 人工知能(AI)は、特に自然言語処理(NLP)、機械学習(ML)、コンピュータビジョン(CV)のサブフィールドで急速に成長している。 この急速な進歩とペースを維持することは、この分野の研究者や専門家にとって大きな課題となる。 2023年1月から9月までの期間をカバーするこのarXivレポートでは、これらのAIのダイナミックな領域をナビゲートするための洞察と分析を提供することを目指している。 私たちはこれを達成する 1) 1月~6月を対象とする現在の上位40紙と,所定の期間におけるarXivから最も引用された上位40紙を比較検討する。 2) データセットの特徴とキーワード人気の分析 3) 地域ごとのエンゲージメントの違いを明らかにするため, 機関のグローバルなセクター分布を検討する。 提案論文の16%がNLPをプライマリカテゴリ(25%以上がCVおよびMLをプライマリカテゴリ)としており、最も引用されている論文の50%がNLPをプライマリカテゴリ、90%がLDMをターゲットとしている。 さらに、私たちは 一 合衆国は、上位40紙及び上位9紙のうち、次いで中国を支配している。 二 ヨーロッパは、明らかに遅れており、最も引用される論文の上位40にほとんど現れない。 iii)アメリカの産業は、最も影響力のある40の論文で大半が誇張されている。

Artificial Intelligence (AI) has witnessed rapid growth, especially in the subfields Natural Language Processing (NLP), Machine Learning (ML) and Computer Vision (CV). Keeping pace with this rapid progress poses a considerable challenge for researchers and professionals in the field. In this arXiv report, the second of its kind, which covers the period from January to September 2023, we aim to provide insights and analysis that help navigate these dynamic areas of AI. We accomplish this by 1) identifying the top-40 most cited papers from arXiv in the given period, comparing the current top-40 papers to the previous report, which covered the period January to June; 2) analyzing dataset characteristics and keyword popularity; 3) examining the global sectoral distribution of institutions to reveal differences in engagement across geographical areas. Our findings highlight the continued dominance of NLP: while only 16% of all submitted papers have NLP as primary category (more than 25% have CV and ML as primary category), 50% of the most cited papers have NLP as primary category, 90% of which target LLMs. Additionally, we show that i) the US dominates among both top-40 and top-9k papers, followed by China; ii) Europe clearly lags behind and is hardly represented in the top-40 most cited papers; iii) US industry is largely overrepresented in the top-40 most influential papers.
翻訳日:2023-12-12 19:26:10 公開日:2023-12-09
# Amortized Neural Posterior Estimation と nbi を用いたステラースペクトル測定

Stellar Spectra Fitting with Amortized Neural Posterior Estimation and nbi ( http://arxiv.org/abs/2312.05687v1 )

ライセンス: Link先を確認
Keming Zhang, Tharindu Jayasinghe, Joshua S. Bloom(参考訳) 現代の調査では、数十万の恒星のスペクトルが同時に観測され、スペクトルモデルに適合して恒星のパラメータ/ラベルが導出される。 したがって、Amortized Neural Posterior Estimation (ANPE) の手法は、多数のターゲットをサブ線形/コンスタント計算コストとして推定できる適切なアプローチとして重要である。 新しいnbiソフトウェアパッケージを活用して、APOGEEサーベイ用のANPEモデルをトレーニングし、モックと実際のAPOGEE恒星スペクトルの両方で有効性を示す。 nbiパッケージのユニークな特徴は、シーケンシャルデータによる天文学的な逆問題に対する既定の機能である。 そのため、最小限の労力でトレーニングモデルを取得することができました。 本研究では,観測データの実際の不確実性を利用したスペクトルデータに固有な測定ノイズ特性を扱うための効果的な手法を提案する。 これによってトレーニングデータは、ANPEアプリケーションにとって重要な側面である観測データに類似することが可能になる。 スペクトルデータ特性と観測機器の関連付けを考えると、モデルが特定の機器のために訓練され、nbiフレームワークの下で配布され、リアルタイムの恒星パラメータ推論を容易にするanpe「モデル動物園」の有用性について議論する。

Modern surveys often deliver hundreds of thousands of stellar spectra at once, which are fit to spectral models to derive stellar parameters/labels. Therefore, the technique of Amortized Neural Posterior Estimation (ANPE) stands out as a suitable approach, which enables the inference of large number of targets as sub-linear/constant computational costs. Leveraging our new nbi software package, we train an ANPE model for the APOGEE survey and demonstrate its efficacy on both mock and real APOGEE stellar spectra. Unique to the nbi package is its out-of-the-box functionality on astronomical inverse problems with sequential data. As such, we have been able to acquire the trained model with minimal effort. We introduce an effective approach to handling the measurement noise properties inherent in spectral data, which utilizes the actual uncertainties in the observed data. This allows training data to resemble observed data, an aspect that is crucial for ANPE applications. Given the association of spectral data properties with the observing instrument, we discuss the utility of an ANPE "model zoo," where models are trained for specific instruments and distributed under the nbi framework to facilitate real-time stellar parameter inference.
翻訳日:2023-12-12 19:25:46 公開日:2023-12-09
# サプライチェーンにおけるプライバシ保護マルチエージェント強化学習

Privacy Preserving Multi-Agent Reinforcement Learning in Supply Chains ( http://arxiv.org/abs/2312.05686v1 )

ライセンス: Link先を確認
Ananta Mukherjee, Peeyush Kumar, Boling Yang, Nishanth Chandran, Divya Gupta(参考訳) 本稿では,多エージェント強化学習(MARL)におけるプライバシの懸念,特に個別の戦略データを秘密にしなければならないサプライチェーンのコンテキストにおいて対処する。 サプライチェーン内の組織はエージェントとしてモデル化され、それぞれが他者と対話しながら目的を最適化しようとする。 各組織の戦略は隣の戦略に付随するので、国家のプライバシと行動関連の情報の維持が不可欠である。 この課題に対処するために,MARL設定にセキュアなマルチパーティ計算(MPC)フレームワークを利用するゲーム理論,プライバシ保護機構を提案する。 我々の主な貢献は、この問題を解決するためにセキュアなMPCフレームワークSecFloat on EzPCの実装に成功したことです。 しかし、SecFloat を用いた MADDPG 操作のようなポリシー勾配法を単に実装するだけで、概念上は実現可能だが、プログラム的に難解である。 このハードルを克服するために、我々は、ニューラルネットワークの前後パスをSecFloatと互換性のある基本的な操作に分解し、MADDPGアルゴリズムの効率的で安全なバージョンを作成する新しいアプローチを考案した。 さらに,MARLフレームワークにおける学習成功のための重要な特徴である,プライバシ保存方式で浮動小数点演算を行う学習機構を提案する。 実験の結果、平均68.19%のサプライチェーンの浪費がデータ共有の無い2PCで減少し、また各プレイヤーの平均累積収入は42.27%向上した。 この作業は、サプライチェーンのコンテキストにおけるセキュアな計算の大幅な改善を約束し、実用的なプライバシ保護のためのMARLの道を開く。

This paper addresses privacy concerns in multi-agent reinforcement learning (MARL), specifically within the context of supply chains where individual strategic data must remain confidential. Organizations within the supply chain are modeled as agents, each seeking to optimize their own objectives while interacting with others. As each organization's strategy is contingent on neighboring strategies, maintaining privacy of state and action-related information is crucial. To tackle this challenge, we propose a game-theoretic, privacy-preserving mechanism, utilizing a secure multi-party computation (MPC) framework in MARL settings. Our major contribution is the successful implementation of a secure MPC framework, SecFloat on EzPC, to solve this problem. However, simply implementing policy gradient methods such as MADDPG operations using SecFloat, while conceptually feasible, would be programmatically intractable. To overcome this hurdle, we devise a novel approach that breaks down the forward and backward pass of the neural network into elementary operations compatible with SecFloat , creating efficient and secure versions of the MADDPG algorithm. Furthermore, we present a learning mechanism that carries out floating point operations in a privacy-preserving manner, an important feature for successful learning in MARL framework. Experiments reveal that there is on average 68.19% less supply chain wastage in 2 PC compared to no data share, while also giving on average 42.27% better average cumulative revenue for each player. This work paves the way for practical, privacy-preserving MARL, promising significant improvements in secure computation within supply chain contexts and broadly.
翻訳日:2023-12-12 19:25:26 公開日:2023-12-09
# 条件付き量子探索における2値改善

Bi-Quadratic Improvement in Conditional Quantum Search ( http://arxiv.org/abs/2312.05680v1 )

ライセンス: Link先を確認
Akankshya Dash, Biswaranjan Panda and Arun K Pati(参考訳) グロバー探索アルゴリズムは、データベース内のマークされた項目を古典的アルゴリズムよりも2次的に高速に非構造化検索し、最適であることが示されている。 ここでは,検索空間を局所的なクエリ演算子で2ブロックに分割し,グローバル演算子が一定の条件を満たす場合,二分数高速化の実現が可能であることを示す。 さらに,騒音の存在下でのバイクアドラティック・スピードアップについて検討し,騒音シナリオを許容できることを示す。 これは、データベース探索や最適化など様々な分野に応用できる可能性があり、複雑な計算問題を解く上で効率的な探索アルゴリズムが重要な役割を果たす。

The Grover search algorithm performs an unstructured search of a marked item in a database quadratically faster than classical algorithms and is shown to be optimal. Here, we show that if the search space is divided into two blocks with the local query operators and the global operators satisfy certain condition, then it is possible to achieve an improvement of bi-quadratic speed-up. Furthermore, we investigate the bi-quadratic speed-up in the presence of noise and show that it can tolerate noisy scenario. This may have potential applications for diverse fields, including database searching, and optimization, where efficient search algorithms play a pivotal role in solving complex computational problems.
翻訳日:2023-12-12 19:24:55 公開日:2023-12-09
# 基礎モデルのバッチ低ランク適応

Batched Low-Rank Adaptation of Foundation Models ( http://arxiv.org/abs/2312.05677v1 )

ライセンス: Link先を確認
Yeming Wen, Swarat Chaudhuri(参考訳) ローランク適応(LoRA)は, トレーニング可能な低ランク行列を組み込むことにより, 微調整基礎モデルに注目されている。 LoRAには多くの利点があるが、多様なグローバルユーザベースへのリアルタイムサービスの適用性は、複数のタスク固有のアダプタを効率的に扱うことができないことによる制約がある。 これにより、受信するリクエストごとにパーソナライズされたタスク固有の適応を必要とするシナリオのパフォーマンスボトルネックが課される。 この制約を緩和するために、ミニバッチ内の各入力サンプルに独自の低ランク適応重みを関連付けることができるフレームワークであるfast lora(flora)を導入し、異種リクエストの効率的なバッチ化を可能にした。 8言語にまたがるMultiPL-Eコード生成ベンチマークと6言語にまたがる多言語音声認識タスクにおいて,FLoRAがLoRAの性能上の利点を保っていることを実証的に示す。

Low-Rank Adaptation (LoRA) has recently gained attention for fine-tuning foundation models by incorporating trainable low-rank matrices, thereby reducing the number of trainable parameters. While LoRA offers numerous advantages, its applicability for real-time serving to a diverse and global user base is constrained by its incapability to handle multiple task-specific adapters efficiently. This imposes a performance bottleneck in scenarios requiring personalized, task-specific adaptations for each incoming request. To mitigate this constraint, we introduce Fast LoRA (FLoRA), a framework in which each input example in a minibatch can be associated with its unique low-rank adaptation weights, allowing for efficient batching of heterogeneous requests. We empirically demonstrate that FLoRA retains the performance merits of LoRA, showcasing competitive results on the MultiPL-E code generation benchmark spanning over 8 languages and a multilingual speech recognition task across 6 languages.
翻訳日:2023-12-12 19:24:43 公開日:2023-12-09
# 思考音響データを用いた知能学習システムにおける自己調節サイクル特性と学生のパフォーマンスの関係

Using Think-Aloud Data to Understand Relations between Self-Regulation Cycle Characteristics and Student Performance in Intelligent Tutoring Systems ( http://arxiv.org/abs/2312.05675v1 )

ライセンス: Link先を確認
Conrad Borchers, Jiayi Zhang, Ryan S. Baker, Vincent Aleven(参考訳) 多くの研究が問題解決による学習における自己統制の重要性を示している。 学習分析における最近の研究は、学習の全体的な利益に関する学生のSRLの使用について大きく調査している。 SRLは学習者間での動作性能の違いに関連している。 本研究では,学習者のモーメント・バイ・モーメント(モーメント・バイ・モーメント,モーメント・パフォーマンス)とsrlの挙動について検討した。 本稿では,ai生成の思考素片に基づくsrl行動のラベリングの実現可能性を示し,各発話における4つのsrlカテゴリ(情報処理,計画,実行,誤りの実現)の存在の有無を同定する。 SRL符号を用いた回帰分析を行い,SRLの出現,頻度,周期特性,および遅延が,その後の複数段階の問題における学生のパフォーマンスとどのように関係しているかを検討した。 学生のSRLサイクル特性を考慮したモデルでは、運動中のSRL評価のみを用いたモデルよりも優れていた。 理論的予測に従えば,SRLサイクルのプロセス重度段階における学生の行動は,後のSRLサイクル段階よりも,問題解決時のモーメント・バイ・モーメントの正しさが低かった。 本稿では,学習過程においてSRLを付加するシステム再設計の機会について論じる。また,思考音声データの書き起こしに基づくSRLの評価にもとづいて,機械学習を用いて研究を高速化するための道筋について考察する。

Numerous studies demonstrate the importance of self-regulation during learning by problem-solving. Recent work in learning analytics has largely examined students' use of SRL concerning overall learning gains. Limited research has related SRL to in-the-moment performance differences among learners. The present study investigates SRL behaviors in relationship to learners' moment-by-moment performance while working with intelligent tutoring systems for stoichiometry chemistry. We demonstrate the feasibility of labeling SRL behaviors based on AI-generated think-aloud transcripts, identifying the presence or absence of four SRL categories (processing information, planning, enacting, and realizing errors) in each utterance. Using the SRL codes, we conducted regression analyses to examine how the use of SRL in terms of presence, frequency, cyclical characteristics, and recency relate to student performance on subsequent steps in multi-step problems. A model considering students' SRL cycle characteristics outperformed a model only using in-the-moment SRL assessment. In line with theoretical predictions, students' actions during earlier, process-heavy stages of SRL cycles exhibited lower moment-by-moment correctness during problem-solving than later SRL cycle stages. We discuss system re-design opportunities to add SRL support during stages of processing and paths forward for using machine learning to speed research depending on the assessment of SRL based on transcription of think-aloud data.
翻訳日:2023-12-12 19:24:24 公開日:2023-12-09
# 強化学習による音響キャビテーション気泡の位置制御

Position control of an acoustic cavitation bubble by reinforcement learning ( http://arxiv.org/abs/2312.05674v1 )

ライセンス: Link先を確認
K\'alm\'an Klapcsik, B\'alint Gyires-T\'oth, Juan Manuel Rossell\'o, Ferenc Heged\H{u}s(参考訳) 二重周波数定在音場における音響キャビテーションバブルの位置を任意に制御できる強化学習を用いて制御技術を開発した。 エージェントは、x/\lambda_0\in[0.05, 0.25]$の範囲でバブル位置を操作するために最適な圧力振幅値を選択する必要がある。 エージェントを訓練するために、連続的なアクションスペースをサポートするアクター-批判オフポリシーアルゴリズム(ディープ決定論的ポリシー勾配)が用いられ、圧力振幅値を0$と1\, \mathrm{bar}$で連続的に設定できる。 気泡と目標位置との間の距離を最小化し、エージェントが最短時間で位置制御を行うことを暗黙的に促す形状の報酬関数を定式化する。 場合によっては、最適制御は、線形理論から期待される解の7倍高速である。

A control technique is developed via Reinforcement Learning that allows arbitrary controlling of the position of an acoustic cavitation bubble in a dual-frequency standing acoustic wave field. The agent must choose the optimal pressure amplitude values to manipulate the bubble position in the range of $x/\lambda_0\in[0.05, 0.25]$. To train the agent an actor-critic off-policy algorithm (Deep Deterministic Policy Gradient) was used that supports continuous action space, which allows setting the pressure amplitude values continuously within $0$ and $1\, \mathrm{bar}$. A shaped reward function is formulated that minimizes the distance between the bubble and the target position and implicitly encourages the agent to perform the position control within the shortest amount of time. In some cases, the optimal control can be 7 times faster than the solution expected from the linear theory.
翻訳日:2023-12-12 19:23:52 公開日:2023-12-09
# インド・アーリア語におけるヘイトスピーチと攻撃的コンテンツ検出:LSTMとトランスフォーマーの戦い

Hate Speech and Offensive Content Detection in Indo-Aryan Languages: A Battle of LSTM and Transformers ( http://arxiv.org/abs/2312.05671v1 )

ライセンス: Link先を確認
Nikhil Narayan, Mrutyunjay Biswal, Pramod Goyal, Abhranta Panigrahi(参考訳) ソーシャルメディアプラットフォームは、個人が自分の考えや経験を表現するためのアクセス可能なアウトレットとして機能し、結果としてすべての年齢層にまたがるユーザー生成データが流入する。 これらのプラットフォームは自由な表現を可能にする一方で、ヘイトスピーチや攻撃的なコンテンツの拡散など、重要な課題も提示する。 このような反対的な言語は客観的な言論を妨害し、議論の過激化を招き、最終的には民主的価値を脅かす。 その結果、組織は虐待行為を監視し、抑制するための措置を講じ、疑わしい投稿を識別するための自動化方法を必要としている。 本稿では,英語とインド・アーリア語におけるHate Speech and Offensive Content Identification in English and Indo-Aryan Languages (HASOC) 2023 Share Task Trackに貢献する。 z-agi labsはベンガル語、アッサム語、ボド語、シンハラ語、グジャラティ語という5つの異なる言語でヘイトスピーチの分類を総合的に比較分析している。 本研究は,ベルト変種,XLM-R,LSTMモデルなど,幅広い事前学習モデルを対象として,これらの言語におけるヘイトスピーチの識別性能を評価する。 その結果,モデル性能の興味深い変化が明らかになった。 特に、bert base multilingual cased は言語間で強力な演奏者として現れ、ベンガル語では0.67027、アッサム語では 0.70525 というf1スコアを達成している。 同時に、ボドのF1スコアは0.83009で他のモデルよりも大幅に優れています。 シンハラではXLM-RはF1スコア0.83493で際立っているが、グジャラティではF1スコア0.76601で照らされたカスタムLSTMベースのモデルである。 本研究は,多言語環境におけるヘイトスピーチ検出のための各種事前学習モデルの適合性に関する貴重な知見を提供する。 本研究は,それぞれのニュアンスを考慮し,ロバストなヘイトスピーチ検出システムを構築するためのインフォームドモデル選択に寄与する。

Social media platforms serve as accessible outlets for individuals to express their thoughts and experiences, resulting in an influx of user-generated data spanning all age groups. While these platforms enable free expression, they also present significant challenges, including the proliferation of hate speech and offensive content. Such objectionable language disrupts objective discourse and can lead to radicalization of debates, ultimately threatening democratic values. Consequently, organizations have taken steps to monitor and curb abusive behavior, necessitating automated methods for identifying suspicious posts. This paper contributes to Hate Speech and Offensive Content Identification in English and Indo-Aryan Languages (HASOC) 2023 shared tasks track. We, team Z-AGI Labs, conduct a comprehensive comparative analysis of hate speech classification across five distinct languages: Bengali, Assamese, Bodo, Sinhala, and Gujarati. Our study encompasses a wide range of pre-trained models, including Bert variants, XLM-R, and LSTM models, to assess their performance in identifying hate speech across these languages. Results reveal intriguing variations in model performance. Notably, Bert Base Multilingual Cased emerges as a strong performer across languages, achieving an F1 score of 0.67027 for Bengali and 0.70525 for Assamese. At the same time, it significantly outperforms other models with an impressive F1 score of 0.83009 for Bodo. In Sinhala, XLM-R stands out with an F1 score of 0.83493, whereas for Gujarati, a custom LSTM-based model outshined with an F1 score of 0.76601. This study offers valuable insights into the suitability of various pre-trained models for hate speech detection in multilingual settings. By considering the nuances of each, our research contributes to an informed model selection for building robust hate speech detection systems.
翻訳日:2023-12-12 19:23:38 公開日:2023-12-09
# 脳信号による関連フィードバック

Relevance Feedback with Brain Signals ( http://arxiv.org/abs/2312.05669v1 )

ライセンス: Link先を確認
Ziyi Ye, Xiaohui Xie, Qingyao Ai, Yiqun Liu, Zhihong Wang, Weihang Su, Min Zhang(参考訳) RF(Relevance Feedback)プロセスは、フィードバック文書の正確かつリアルタイムな関連度推定に頼り、検索性能を向上させる。 明示的関連アノテーションの収集はユーザにとって余計な負担となるため,疑似関連信号と暗黙的フィードバック信号を代替手段として使用することを検討した。 しかし、そのような信号は関連性の間接的な指標であり、ユーザインタラクションが欠如している、あるいはバイアスのある複雑な検索シナリオに悩まされる。 近年,携帯型・高精度脳コンピュータインタフェース(BCI)機器の進歩により,検索過程におけるユーザの脳活動の監視が可能となった。 脳信号は検索結果に対するユーザーの心理的反応を直接反映できるため、追加のRF信号として機能する。 rfの文脈における脳信号の有効性を検討するために,bciに基づく関連フィードバックと疑似関連信号と暗黙的信号を組み合わせた新しいrfフレームワークを提案する。 ユーザスタディデータセットの実験結果から,脳波を取り入れることで,RFフレームワークの性能が大幅に向上することが示された。 さらに,脳の信号は,特に暗黙の信号が欠落したり,騒々しい場合に,いくつかの難解な検索シナリオにおいて特に良好に機能することが観察された。 これは、RFの文脈で脳信号を利用するタイミングと方法を明らかにする。

The Relevance Feedback (RF) process relies on accurate and real-time relevance estimation of feedback documents to improve retrieval performance. Since collecting explicit relevance annotations imposes an extra burden on the user, extensive studies have explored using pseudo-relevance signals and implicit feedback signals as substitutes. However, such signals are indirect indicators of relevance and suffer from complex search scenarios where user interactions are absent or biased. Recently, the advances in portable and high-precision brain-computer interface (BCI) devices have shown the possibility to monitor user's brain activities during search process. Brain signals can directly reflect user's psychological responses to search results and thus it can act as additional and unbiased RF signals. To explore the effectiveness of brain signals in the context of RF, we propose a novel RF framework that combines BCI-based relevance feedback with pseudo-relevance signals and implicit signals to improve the performance of document re-ranking. The experimental results on the user study dataset show that incorporating brain signals leads to significant performance improvement in our RF framework. Besides, we observe that brain signals perform particularly well in several hard search scenarios, especially when implicit signals as feedback are missing or noisy. This reveals when and how to exploit brain signals in the context of RF.
翻訳日:2023-12-12 19:23:05 公開日:2023-12-09
# 分散オンラインソーシャルネットワークにおける分極

Polarization in Decentralized Online Social Networks ( http://arxiv.org/abs/2312.05668v1 )

ライセンス: Link先を確認
Lucio La Cava, Domenico Mandaglio, Andrea Tagarelli(参考訳) 中央集権型ソーシャルメディアプラットフォームは現在、ユーザエンゲージメントのシフトを経験しており、Decentralized Online Social Networks (DOSNs)のような別のパラダイムに注意を向けている。 DOSNの人気の高まりは、オープンソースソフトウェアのアクセシビリティのルーツとなり、誰でも新しいインスタンス(サーバ)を作成でき、Fediverseと呼ばれる分散ネットワークに参加することができる。 この運動量の増加にもかかわらず、DOSNsのインスタンス間の正と負の相互作用の影響に対処する研究が不足している。 この研究は、最も広く認知されている分散型ソーシャルメディアプラットフォームであるmastodonに焦点をあてて、dosnsにおけるインスタンスの分極に関する予備的な検証を行い、このギャップを埋めることを目的としている。 この結果から,Fediverseにおける分極は,インスタンス間のフェデレーション環境を育成したいという願望や,Fediverseに潜在的なリスクをもたらす可能性のあるインスタンスの分離を促進するという願望の影響を受け,ユニークな方法で現れることが示唆された。

Centralized social media platforms are currently experiencing a shift in user engagement, drawing attention to alternative paradigms like Decentralized Online Social Networks (DOSNs). The rising popularity of DOSNs finds its root in the accessibility of open-source software, enabling anyone to create a new instance (i.e., server) and participate in a decentralized network known as Fediverse. Despite this growing momentum, there has been a lack of studies addressing the effect of positive and negative interactions among instances within DOSNs. This work aims to fill this gap by presenting a preliminary examination of instances' polarization in DOSNs, focusing on Mastodon -- the most widely recognized decentralized social media platform, boasting over 10M users and nearly 20K instances to date. Our results suggest that polarization in the Fediverse emerges in unique ways, influenced by the desire to foster a federated environment between instances, also facilitating the isolation of instances that may pose potential risks to the Fediverse.
翻訳日:2023-12-12 19:22:42 公開日:2023-12-09
# CoGS: 制御可能なガウススプラッティング

CoGS: Controllable Gaussian Splatting ( http://arxiv.org/abs/2312.05664v1 )

ライセンス: Link先を確認
Heng Yu, Joel Julin, Zolt\'an \'A. Milacski, Koichiro Niinuma, L\'aszl\'o A. Jeni(参考訳) 有声物体の3次元構造のキャプチャと再アニメーションは重要な障壁となる。 一方,広範に校正されたマルチビュー設定を必要とする手法は複雑で資源集約的であり,実用性に限界がある。 一方、シングルカメラのNeural Radiance Fields(NeRF)はより合理化されたアプローチを提供するが、過度のトレーニングとレンダリングコストがある。 3d gaussian splattingは2つの理由から、適切な代替品である。 まず,3次元ダイナミックガウシアンのための既存の手法では,同期型マルチビューカメラが必要であり,また動的シナリオにおける制御性の欠如がある。 本稿では,シーン要素を直接操作し,事前に計算した制御信号の必要なしに動的シーンをリアルタイムに制御する,制御可能なガウス分割法CoGSを提案する。 難易度が異なる動的オブジェクトを含む合成および実世界のデータセットを用いてCoGSを評価した。 我々の評価では、CoGSは視覚的忠実度の観点から、既存の動的および制御可能なニューラル表現よりも一貫して優れていた。

Capturing and re-animating the 3D structure of articulated objects present significant barriers. On one hand, methods requiring extensively calibrated multi-view setups are prohibitively complex and resource-intensive, limiting their practical applicability. On the other hand, while single-camera Neural Radiance Fields (NeRFs) offer a more streamlined approach, they have excessive training and rendering costs. 3D Gaussian Splatting would be a suitable alternative but for two reasons. Firstly, existing methods for 3D dynamic Gaussians require synchronized multi-view cameras, and secondly, the lack of controllability in dynamic scenarios. We present CoGS, a method for Controllable Gaussian Splatting, that enables the direct manipulation of scene elements, offering real-time control of dynamic scenes without the prerequisite of pre-computing control signals. We evaluated CoGS using both synthetic and real-world datasets that include dynamic objects that differ in degree of difficulty. In our evaluations, CoGS consistently outperformed existing dynamic and controllable neural representations in terms of visual fidelity.
翻訳日:2023-12-12 19:22:23 公開日:2023-12-09
# 大規模言語モデルにおけるモデル圧縮が社会バイアスに及ぼす影響の理解

Understanding the Effect of Model Compression on Social Bias in Large Language Models ( http://arxiv.org/abs/2312.05662v1 )

ライセンス: Link先を確認
Gustavo Gon\c{c}alves and Emma Strubell(参考訳) 大規模言語モデル(LLM)は、そのテキストの社会的バイアスに適合する膨大なウェブテキストのコーパスを自己監督で訓練する。 介入がなければ、これらの社会的偏見は下流のタスクにおけるモデルの予測に留まり、表現的害をもたらす。 事前訓練中に学習した不適切な社会バイアスの影響を軽減するために、多くの戦略が提案されている。 同時に, LLMの計算負担を軽減するため, モデル圧縮法がますます普及している。 両方のアプローチの人気と必要性にもかかわらず、この2つの間の相互作用を探求する作業はほとんど行われていない。 我々は, LLMの社会的バイアス測定における量化と知識蒸留によるモデル圧縮の影響について, 慎重に検討した。 より長い事前訓練とより大きなモデルにより、社会的偏見が高まり、量子化は、最初の事前訓練時間の20%のトレードオフで正則化効果を示した。

Large Language Models (LLMs) trained with self-supervision on vast corpora of web text fit to the social biases of that text. Without intervention, these social biases persist in the model's predictions in downstream tasks, leading to representational harm. Many strategies have been proposed to mitigate the effects of inappropriate social biases learned during pretraining. Simultaneously, methods for model compression have become increasingly popular to reduce the computational burden of LLMs. Despite the popularity and need for both approaches, little work has been done to explore the interplay between these two. We perform a carefully controlled study of the impact of model compression via quantization and knowledge distillation on measures of social bias in LLMs. Longer pretraining and larger models led to higher social bias, and quantization showed a regularizer effect with its best trade-off around 20% of the original pretraining time.
翻訳日:2023-12-12 19:22:06 公開日:2023-12-09
# ラベル差分プライバシーを有する回帰のための最適アンバイアスランダム化器

Optimal Unbiased Randomizers for Regression with Label Differential Privacy ( http://arxiv.org/abs/2312.05659v1 )

ライセンス: Link先を確認
Ashwinkumar Badanidiyuru and Badih Ghazi and Pritish Kamath and Ravi Kumar and Ethan Leeman and Pasin Manurangsi and Avinash V Varadarajan and Chiyuan Zhang(参考訳) ラベル微分プライバシー(dp)の制約下で回帰モデルのトレーニングを行うための新しいラベルランダム化器を提案する。 特に,バイアスと分散のトレードオフを利用して,ラベル上で推定された事前分布に依存するラベルランダム化器を構築する。 これらのランダム化器が,いくつかのデータセットで最先端のプライバシ利用トレードオフを実現することを実証し,ラベルdpを用いたニューラルネットワークのトレーニングにおけるバイアス低減の重要性を強調した。 また, 最適不偏ランダム化器の構造特性に関する理論的結果も示した。

We propose a new family of label randomizers for training regression models under the constraint of label differential privacy (DP). In particular, we leverage the trade-offs between bias and variance to construct better label randomizers depending on a privately estimated prior distribution over the labels. We demonstrate that these randomizers achieve state-of-the-art privacy-utility trade-offs on several datasets, highlighting the importance of reducing bias when training neural networks with label DP. We also provide theoretical results shedding light on the structural properties of the optimal unbiased randomizers.
翻訳日:2023-12-12 19:21:51 公開日:2023-12-09
# 検索拡張生成のためのコンテキストチューニング

Context Tuning for Retrieval Augmented Generation ( http://arxiv.org/abs/2312.05708v1 )

ライセンス: Link先を確認
Raviteja Anantha, Tharun Bethi, Danil Vodianik, Srinivas Chappidi(参考訳) 大きな言語モデル(LLM)は、いくつかの例で新しいタスクを解く素晴らしい能力を持っていますが、適切なツールにアクセスする必要があります。 Retrieval Augmented Generation (RAG)は、タスクに関連するツールのリストを取得することでこの問題に対処する。 しかし、ragのツール検索ステップでは、すべての必要な情報がクエリに明示的に存在する必要がある。 これは、広く採用されているツール検索手法であるセマンティックサーチが、クエリが不完全な場合やコンテキストの欠如時にフェールする可能性があるため、制限である。 この制限に対処するために、スマートコンテキスト検索システムを用いて、ツール検索と計画生成の両方を改善する関連情報をフェッチするContext Tuning for RAGを提案する。 軽量コンテキスト検索モデルは,コンテキスト項目の検索とランク付けに数値的,カテゴリー的,習慣的使用信号を使用する。 実験の結果,コンテキストチューニングにより意味検索が大幅に向上し,コンテキスト検索タスクとツール検索タスクのrecall@kが3.5倍,1.5倍改善され,llmベースのプランナー精度が11.6%向上した。 さらに,LambdaMARTを用いたReciprocal Rank Fusion (RRF) を用いた軽量モデルでは,GPT-4に基づく検索よりも優れていることを示す。 さらに,ツール検索後にも,計画生成における文脈拡張は幻覚を減少させる。

Large language models (LLMs) have the remarkable ability to solve new tasks with just a few examples, but they need access to the right tools. Retrieval Augmented Generation (RAG) addresses this problem by retrieving a list of relevant tools for a given task. However, RAG's tool retrieval step requires all the required information to be explicitly present in the query. This is a limitation, as semantic search, the widely adopted tool retrieval method, can fail when the query is incomplete or lacks context. To address this limitation, we propose Context Tuning for RAG, which employs a smart context retrieval system to fetch relevant information that improves both tool retrieval and plan generation. Our lightweight context retrieval model uses numerical, categorical, and habitual usage signals to retrieve and rank context items. Our empirical results demonstrate that context tuning significantly enhances semantic search, achieving a 3.5-fold and 1.5-fold improvement in Recall@K for context retrieval and tool retrieval tasks respectively, and resulting in an 11.6% increase in LLM-based planner accuracy. Additionally, we show that our proposed lightweight model using Reciprocal Rank Fusion (RRF) with LambdaMART outperforms GPT-4 based retrieval. Moreover, we observe context augmentation at plan generation, even after tool retrieval, reduces hallucination.
翻訳日:2023-12-12 19:12:12 公開日:2023-12-09
# 高速マルチエコースパイラルfMRIのための非カルト的自己監督型物理駆動ディープラーニング再構成

Non-Cartesian Self-Supervised Physics-Driven Deep Learning Reconstruction for Highly-Accelerated Multi-Echo Spiral fMRI ( http://arxiv.org/abs/2312.05707v1 )

ライセンス: Link先を確認
Hongyi Gu, Chi Zhang, Zidan Yu, Christoph Rettenmeier, V. Andrew Stenger, Mehmet Ak\c{c}akaya(参考訳) 機能MRI(Functional MRI)は、脳機能の非侵襲的な研究のための重要なツールである。 過去10年間で、複数のエコー時間をサンプリングするマルチエコーfMRI法が普及し、定量化が進んでいる。 これらの取得は典型的にはカルト軌道を用いて行われるが、非カルト軌道、特にスパイラルな取得はエコー時間のより高密度なサンプリングを約束する。 しかし、このような取得は十分な時空間分解のために非常に高い加速速度を必要とする。 本研究では,物理駆動型ディープラーニング(PD-DL)を用いて,マルチエコスパイラルfMRIを10倍高速化する手法を提案する。 我々は,非モンテカルロ軌道による学習を最適化するための自己教師付き学習アルゴリズムを改良し,PD-DLネットワークのトレーニングに使用する。 提案した自己教師型PD-DL再構成は,BOLD分析による高時空間分解能を実現する。

Functional MRI (fMRI) is an important tool for non-invasive studies of brain function. Over the past decade, multi-echo fMRI methods that sample multiple echo times has become popular with potential to improve quantification. While these acquisitions are typically performed with Cartesian trajectories, non-Cartesian trajectories, in particular spiral acquisitions, hold promise for denser sampling of echo times. However, such acquisitions require very high acceleration rates for sufficient spatiotemporal resolutions. In this work, we propose to use a physics-driven deep learning (PD-DL) reconstruction to accelerate multi-echo spiral fMRI by 10-fold. We modify a self-supervised learning algorithm for optimized training with non-Cartesian trajectories and use it to train the PD-DL network. Results show that the proposed self-supervised PD-DL reconstruction achieves high spatio-temporal resolution with meaningful BOLD analysis.
翻訳日:2023-12-12 19:11:48 公開日:2023-12-09
# 構造的逆自由自然勾配:大規模ニューラルネットワークのためのメモリ効率・数値安定KFAC

Structured Inverse-Free Natural Gradient: Memory-Efficient & Numerically-Stable KFAC for Large Neural Nets ( http://arxiv.org/abs/2312.05705v1 )

ライセンス: Link先を確認
Wu Lin, Felix Dangel, Runa Eschenhagen, Kirill Neklyudov, Agustinus Kristiadi, Richard E. Turner, Alireza Makhzani(参考訳) KFACのような深層学習のための二階法は、ニューラルネットトレーニングに有用である。 しかし、Kronecker因子は高密度であるため、メモリ非効率で数値的に不安定であり、高精度行列の逆転や分解を必要とする。 したがって、このような手法はトランスフォーマーベースモデルのような大規模なニューラルネットワークのトレーニングには広くは使われない。 この2つの問題を i) KFACの逆フリー更新を定式化して (II) Kronecker因子のそれぞれに構造を付与することにより、構造的逆自由な自然勾配降下(SINGD)と呼ぶことができる。 大規模ニューラルネットワークでは、KFACとは対照的に、SINGDはメモリ効率が高く、数値的に堅牢であり、半精度でもAdamWより優れていることが示されている。 したがって,我々の研究は,大規模ニューラルネットワークに対する最新の低精度トレーニングにおいて,一階法と二階法の間のギャップを閉じている。

Second-order methods for deep learning -- such as KFAC -- can be useful for neural net training. However, they are often memory-inefficient and numerically unstable for low-precision training since their preconditioning Kronecker factors are dense, and require high-precision matrix inversion or decomposition. Consequently, such methods are not widely used for training large neural networks such as transformer-based models. We address these two issues by (i) formulating an inverse-free update of KFAC and (ii) imposing structures in each of the Kronecker factors, resulting in a method we term structured inverse-free natural gradient descent (SINGD). On large modern neural networks, we show that, in contrast to KFAC, SINGD is memory efficient and numerically robust, and often outperforms AdamW even in half precision. Hence, our work closes a gap between first-order and second-order methods in modern low precision training for large neural nets.
翻訳日:2023-12-12 19:11:34 公開日:2023-12-09
# 時系列表現学習のための教師なしマルチモーダル特徴アライメント

Unsupervised Multi-modal Feature Alignment for Time Series Representation Learning ( http://arxiv.org/abs/2312.05698v1 )

ライセンス: Link先を確認
Chen Liang, Donghua Yang, Zhiyu Liang, Hongzhi Wang, Zheng Liang, Xiyang Zhang, Jianfeng Huang(参考訳) 近年、時系列データに対する教師なし表現学習(URL)の分野は、様々な下流アプリケーションにまたがる顕著な適応性により、大きな関心を集めている。 教師なし学習のゴールは下流のタスクと異なり、時間的特徴の特徴のみに着目して下流のタスクユーティリティを確保するのが難しい。 研究者は、情報的時系列に暗示される識別パターンを抽出し、ギャップを埋めるために複数の変換を提案している。 スペクトル領域、ウェーブレット変換機能、画像形式、象徴的特徴などの様々な特徴工学技術が導入されているが、複雑な特徴融合法の利用や推論中の不均一特徴への依存は、ソリューションのスケーラビリティを阻害している。 そこで本研究では,スペクトルグラフ理論に着想を得て,異なるモーダル性から符号化された時系列表現の整合と結合に焦点をあてた革新的な手法を導入し,これらの多モード特徴間の潜在パターン関連を明らかにするためのニューラルエンコーダを導出する。 複数のモーダルから特徴を融合させる従来の手法とは対照的に,提案手法は単一時系列エンコーダを保持することによりニューラルネットワークアーキテクチャを単純化し,拡張性を維持する。 さらに、より優れた帰納バイアスを維持するためのエンコーダのメカニズムを実証し、証明する。 実験により,様々な領域の時系列データセットに対して,提案手法の有効性を検証した。 我々のアプローチは、様々な下流タスクにまたがる既存の最先端のURLメソッドよりも優れています。

In recent times, the field of unsupervised representation learning (URL) for time series data has garnered significant interest due to its remarkable adaptability across diverse downstream applications. Unsupervised learning goals differ from downstream tasks, making it tricky to ensure downstream task utility by focusing only on temporal feature characterization. Researchers have proposed multiple transformations to extract discriminative patterns implied in informative time series, trying to fill the gap. Despite the introduction of a variety of feature engineering techniques, e.g. spectral domain, wavelet transformed features, features in image form and symbolic features etc. the utilization of intricate feature fusion methods and dependence on heterogeneous features during inference hampers the scalability of the solutions. To address this, our study introduces an innovative approach that focuses on aligning and binding time series representations encoded from different modalities, inspired by spectral graph theory, thereby guiding the neural encoder to uncover latent pattern associations among these multi-modal features. In contrast to conventional methods that fuse features from multiple modalities, our proposed approach simplifies the neural architecture by retaining a single time series encoder, consequently leading to preserved scalability. We further demonstrate and prove mechanisms for the encoder to maintain better inductive bias. In our experimental evaluation, we validated the proposed method on a diverse set of time series datasets from various domains. Our approach outperforms existing state-of-the-art URL methods across diverse downstream tasks.
翻訳日:2023-12-12 19:11:15 公開日:2023-12-09
# 2量子Rabiモデルにおける環境誘起量子相転移

Environment induced dynamical quantum phase transition in two-qubit Rabi model ( http://arxiv.org/abs/2312.05697v1 )

ライセンス: Link先を確認
G. Di Bello, A. Ponticelli, F. Pavan, V. Cataudella, G. De Filippis, A. de Candia, C. A. Perroni(参考訳) オープン2量子rabiモデルの力学および熱力学特性を数値的最先端手法を用いて検討する。 量子ビット-オシレータカップリングのクエンチを通して、大域的な自由度を含む大域系は、熱力学的遷移が設定される同じパラメータでキンクが行われるロスシュミット・エコーの速度関数によってシグナル伝達される動的量子位相遷移に移動する。 この遷移の開始は磁化分布のバイモーダルな性質だけでなく、2つの量子ビットの絡み合いの符号からも生じる。 これらの結果は、量子相転移のダイナミクスの複雑な挙動に光を当てた。

We investigate both dynamical and thermodynamic properties of an open two-qubit Rabi model by means of numerical state-of-the-art approaches. Through a quench on the qubits-oscillator coupling, the global system, including the bath degrees of freedom, runs into a dynamical quantum phase transition signalled by the Loschmidt echo's rate function whose kinks take place at the same parameters where thermodynamic transition sets in. Notably, the onset of this transition arises not only from the bimodal character of the magnetization distribution, but also from signatures in the two qubits' entanglement. These findings shed light on the complex behavior of the dynamics of quantum phase transitions.
翻訳日:2023-12-12 19:10:53 公開日:2023-12-09
# gpt-4と安全事例生成:探索分析

GPT-4 and Safety Case Generation: An Exploratory Analysis ( http://arxiv.org/abs/2312.05696v1 )

ライセンス: Link先を確認
Mithila Sivakumar and Alvine Boaye Belle and Jinjun Shan and Kimya Khakzad Shahandashti(参考訳) ソフトウェアエンジニアリングの世界では、ChatGPTによって実証された大きな言語モデル(LLM)と会話インターフェースの出現は、革命的なものではない。 諸藩にまたがる潜在能力は否定できないが,本論文では,無漁地の調査,安全事例の発見などを目的として,捕縛遠征を行う。 本稿では, GPT-4 の既存の知識基盤を探索し, 安全事例を視覚的に表現できる優れた表記法である Goal Structuring Notation (GSN) の理解に焦点を当てた。 そして, GPT-4 を用いて 4 つの実験を行った。 これらの実験は、定義されたシステムとアプリケーションドメイン内の安全ケースを生成する能力を評価するために設計されている。 この文脈でGPT-4の性能を測定するため,車載用タイヤノイズ認識(TNR)のためのML(Machine-Learning)対応コンポーネントと,X線システムで作成した地中安全事例とを比較した。 これにより、モデルの生成能力に関する貴重な洞察を得ることができました。 以上の結果から,GPT-4は適度に正確かつ合理的な安全引数を生成する能力を示した。 さらに,本実験では,基準安全事例のセマンティックな内容と密に一致した安全事例を生成する能力を示した。

In the ever-evolving landscape of software engineering, the emergence of large language models (LLMs) and conversational interfaces, exemplified by ChatGPT, is nothing short of revolutionary. While their potential is undeniable across various domains, this paper sets out on a captivating expedition to investigate their uncharted territory, the exploration of generating safety cases. In this paper, our primary objective is to delve into the existing knowledge base of GPT-4, focusing specifically on its understanding of the Goal Structuring Notation (GSN), a well-established notation allowing to visually represent safety cases. Subsequently, we perform four distinct experiments with GPT-4. These experiments are designed to assess its capacity for generating safety cases within a defined system and application domain. To measure the performance of GPT-4 in this context, we compare the results it generates with ground-truth safety cases created for an X-ray system system and a Machine-Learning (ML)-enabled component for tire noise recognition (TNR) in a vehicle. This allowed us to gain valuable insights into the model's generative capabilities. Our findings indicate that GPT-4 demonstrates the capacity to produce safety arguments that are moderately accurate and reasonable. Furthermore, it exhibits the capability to generate safety cases that closely align with the semantic content of the reference safety cases used as ground-truths in our experiments.
翻訳日:2023-12-12 19:10:40 公開日:2023-12-09
# 自己監督型学習による自律レーダのブートストラップ

Bootstrapping Autonomous Radars with Self-Supervised Learning ( http://arxiv.org/abs/2312.04519v2 )

ライセンス: Link先を確認
Yiduo Hao, Sohrab Madani, Junfeng Guan, Mohammed Alloulah, Saurabh Gupta, Haitham Hassanieh(参考訳) レーダーを用いた自動運転車の認識は、霧や悪天候下での運転能力から研究の関心が高まりつつある。 しかし、大規模レーダーデータの注釈付けのコストと難しさにより、レーダーモデルの訓練が妨げられている。 このボトルネックを克服するために,未ラベルのレーダーデータを事前学習したレーダのみの埋め込みに活用する,自己教師型学習フレームワークを提案する。 提案手法は,レーダ対レーダーとレーダ対画像のコントラスト損失を組み合わせることで,ラベルなしのレーダヒートマップと対応するカメラ画像から一般表現を学習する。 下流オブジェクト検出に使用する場合,提案するセルフスーパービジョンフレームワークにより,最先端の教師付きベースラインの精度を5.8%向上できることを示す。

The perception of autonomous vehicles using radars has attracted increased research interest due its ability to operate in fog and bad weather. However, training radar models is hindered by the cost and difficulty of annotating large-scale radar data. To overcome this bottleneck, we propose a self-supervised learning framework to leverage the large amount of unlabeled radar data to pre-train radar-only embeddings for self-driving perception tasks. The proposed method combines radar-to-radar and radar-to-vision contrastive losses to learn a general representation from unlabeled radar heatmaps paired with their corresponding camera images. When used for downstream object detection, we demonstrate that the proposed self-supervision framework can improve the accuracy of state-of-the-art supervised baselines by 5.8% in mAP.
翻訳日:2023-12-12 12:25:29 公開日:2023-12-09
# マルチウィンナー投票における時間的公正性

Temporal Fairness in Multiwinner Voting ( http://arxiv.org/abs/2312.04417v2 )

ライセンス: Link先を確認
Edith Elkind, Svetlana Obraztsova, Nicholas Teh(参考訳) マルチウィンナー投票は、民主主義システムにおける議会選挙からオンラインショッピングプラットフォームにおける製品配置まで、さまざまな設定を捉えている。 公理的特徴付け、計算複雑性、マルチウィンナー投票規則のアルゴリズム解析を扱う多くの研究がある。 多くの課題が残っているが、公正かつ代表的な結果と、多くのよく研究されている設定に対する効率的なアルゴリズム解の存在を示す大きな進歩があった。 しかし、この作品の多くは単発の選挙に焦点が当てられているが、実際の多くの選挙が定期的に繰り返されている。 したがって、マルチウィンナー投票の研究を時間的設定に拡張することが不可欠である。 近年,この問題に対処する試みがいくつかある。 しかし、これらの作品は、非常に異なる方法で多時期投票をモデル化するため、比較が難しい。 我々は,この領域における時間的公平性を研究するための統一的な枠組みを提案し,既存の様々な作業体とのつながりを描き,それらを汎用的な枠組みに統合する。 また、既存の文献のギャップを識別し、将来の作業の複数の機会を概説し、時間的環境下での多票制の将来へのビジョンを提示する。

Multiwinner voting captures a wide variety of settings, from parliamentary elections in democratic systems to product placement in online shopping platforms. There is a large body of work dealing with axiomatic characterizations, computational complexity, and algorithmic analysis of multiwinner voting rules. Although many challenges remain, significant progress has been made in showing existence of fair and representative outcomes as well as efficient algorithmic solutions for many commonly studied settings. However, much of this work focuses on single-shot elections, even though in numerous real-world settings elections are held periodically and repeatedly. Hence, it is imperative to extend the study of multiwinner voting to temporal settings. Recently, there have been several efforts to address this challenge. However, these works are difficult to compare, as they model multi-period voting in very different ways. We propose a unified framework for studying temporal fairness in this domain, drawing connections with various existing bodies of work, and consolidating them within a general framework. We also identify gaps in existing literature, outline multiple opportunities for future work, and put forward a vision for the future of multiwinner voting in temporal settings.
翻訳日:2023-12-12 12:25:15 公開日:2023-12-09
# 自動睡眠ステージングのためのドメイン不変表現学習と睡眠ダイナミクスモデリング

Domain Invariant Representation Learning and Sleep Dynamics Modeling for Automatic Sleep Staging ( http://arxiv.org/abs/2312.03196v3 )

ライセンス: Link先を確認
Seungyeon Lee, Thai-Hoang Pham, Zhao Cheng, Ping Zhang(参考訳) 睡眠ステージングは睡眠障害の診断と治療において重要な課題となっている。 大規模睡眠データベースの増加に伴い、自動睡眠ステージングに向けた大きな進展が見られた。 しかし、以前の研究は睡眠研究において重要な問題に直面しており、被験者の生理的信号の不均一性、ラベルのないデータから有意な情報を抽出できないこと、睡眠段階間の相関のモデル化が困難であること、予測の不確実性を定量化するための効果的なメカニズムが欠如している。 本研究では,ニューラルネットワークに基づく睡眠ステージングモデルDREAMを提案し,生理的信号から領域一般化表現を学習し,睡眠動態をモデル化する。 DREAMは、様々な被験者の睡眠信号から睡眠関連および被写体不変表現を学習し、シーケンシャル信号セグメントと睡眠ステージ間の相互作用を捉えて睡眠ダイナミクスをモデル化する。 睡眠ステージ予測実験,ケーススタディ,ラベルなしデータの使用,不確実性など,DREAMの優位性を示すための総合的な実証的研究を行った。 特に, テスト対象と訓練対象の差異がある場合において, 新たな被験者に対して, 一般決定関数を学習するドリームの能力を検証した。 不確かさの定量化は、ドリームが予測の不確実性を提供し、モデルに信頼性を与え、現実世界のアプリケーションで睡眠の専門家を助けることを示している。

Sleep staging has become a critical task in diagnosing and treating sleep disorders to prevent sleep related diseases. With growing large scale sleep databases, significant progress has been made toward automatic sleep staging. However, previous studies face critical problems in sleep studies; the heterogeneity of subjects' physiological signals, the inability to extract meaningful information from unlabeled data to improve predictive performances, the difficulty in modeling correlations between sleep stages, and the lack of an effective mechanism to quantify predictive uncertainty. In this study, we propose a neural network based sleep staging model, DREAM, to learn domain generalized representations from physiological signals and models sleep dynamics. DREAM learns sleep related and subject invariant representations from diverse subjects' sleep signals and models sleep dynamics by capturing interactions between sequential signal segments and between sleep stages. We conducted a comprehensive empirical study to demonstrate the superiority of DREAM, including sleep stage prediction experiments, a case study, the usage of unlabeled data, and uncertainty. Notably, the case study validates DREAM's ability to learn generalized decision function for new subjects, especially in case there are differences between testing and training subjects. Uncertainty quantification shows that DREAM provides prediction uncertainty, making the model reliable and helping sleep experts in real world applications.
翻訳日:2023-12-12 12:22:02 公開日:2023-12-09
# 局在電子照射による広帯域材料における量子エミッタ作製の比較研究

Comparative study of quantum emitter fabrication in wide bandgap materials using localized electron irradiation ( http://arxiv.org/abs/2312.02856v3 )

ライセンス: Link先を確認
Anand Kumar, Chanaprom Cholsuk, Mohammad N. Mishuk, Mouli Hazra, Clotilde Pillot, Tjorben Matthes, Tanveer A. Shaik, Asli Cakan, Volker Deckert, Sujin Suwanna, Tobias Vogl(参考訳) 量子光源は、様々な量子技術応用のための重要な基礎コンポーネントである。 量子テクノロジーの急速な発展により、量子エミッターをホストできる材料に対する需要が高まっている。 そのような物質の1つのプラットフォームは、六方晶窒化ホウ素(hBN)の蛍光欠陥であり、バンドギャップ内で深いサブレベルを誘導する。 この問題は、他の層状ワイドバンドギャップ (2D) 材料が同様の単一光子放出欠陥をもたらすかどうかである。 本稿では, 量子エミッタを担体として知られている, 剥離した多層ミカフレーク中の量子エミッタをhBNおよび他の広帯域3D結晶(炭化ケイ素, 窒化ガリウム)で作製し, 比較する。 我々は,標準走査型電子顕微鏡を用いた局所電子照射の一次製造技術を用いている。 実験を補完するために, 密度汎関数理論シミュレーションを用いて固有欠陥の原子構造と光物理特性の研究を行った。 我々の製造技術は高い収率と高い単一光子純度を持つhBN量子エミッタを生成することができるが、研究中の他の固体結晶のエミッタを作製することはできない。 これにより、電荷状態操作によってすでに存在する欠陥の活性化に依存する可能性があるエミッタ生成メカニズムの結論を導き出すことができる。 したがって、hBNエミッタの同定とその生成過程の重要なステップを提供する。

Quantum light sources are crucial foundational components for various quantum technology applications. With the rapid development of quantum technology, there has been a growing demand for materials that are capable of hosting quantum emitters. One such material platform are fluorescent defects in hexagonal boron nitride (hBN) inducing deep sub-levels within the band gap. The question arises if other layered wide bandgap (2D) materials offer similar single photon emitting defects. Here, we investigate and compare the fabrication of quantum emitters in exfoliated multi-layer mica flakes with hBN and other wide bandgap 3D crystals (silicon carbide and gallium nitride) which are known to host quantum emitters. We use our primary fabrication technique of localized electron irradiation using a standard scanning electron microscope. To complement our experimental work, we employ density functional theory simulations to study the atomic structures of intrinsic defects and their photophysical properties. While our fabrication technique can create hBN quantum emitters with a high yield and high single photon purity, it is unable to fabricate emitters in the other solid-state crystals under investigation. This allows us to draw conclusions on the emitter fabrication mechanism, which could be relying on the activation of already present defects by charge state manipulation. We therefore provide an important step toward the identification of hBN emitters and their formation process.
翻訳日:2023-12-12 12:21:36 公開日:2023-12-09