このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240728となっている論文です。

PDF登録状況(公開日: 20240728)

TitleAuthorsAbstract論文公表日・翻訳日
# コンピュータサイエンス高等教育におけるRAGの可能性に関する学部の展望

Faculty Perspectives on the Potential of RAG in Computer Science Higher Education ( http://arxiv.org/abs/2408.01462v1 )

ライセンス: Link先を確認
Sagnik Dakshit, (参考訳) 大規模言語モデル(LLM)の出現は、自然言語処理の分野に大きな影響を与え、アプリケーションへの広範な統合とパブリックアクセスのために、様々な領域にわたる会話タスクを変換した。 教育におけるLLMの適用に関する議論は、特に盗作と政策遵守に関する倫理的懸念を提起している。 会話タスクにおけるLLMの進歩にもかかわらず、信頼性と幻覚の限界は、会話を守る必要性を増し、コンピュータサイエンス高等教育におけるRAGの調査の動機となった。 仮想教示アシスタントと教示アシスタントの2つのタスクに対する検索補助(RAG)アプリケーションを開発した。 本研究では,学部・大学院コンピュータサイエンス科の教員の評価と意見を,各科目ごとに個別のRAGシステムを用いて,様々なレベルで収集した。 本研究は,LLMに基づくRAGの教育への応用に関する教員のフィードバックを収集した初めてのものである。 調査の結果、教員はRAGシステムの可能性を仮想的な教示アシスタントや教示援助として認める一方で、フルスケール展開にはある種の障壁や特徴が示唆されることがわかった。 これらの知見は、倫理的含意を慎重に検討することの必要性と、責任と効果的な実装を確保するための適切な安全対策の開発について、先進的な言語モデルの統合に関する継続的な議論に寄与している。

The emergence of Large Language Models (LLMs) has significantly impacted the field of Natural Language Processing and has transformed conversational tasks across various domains because of their widespread integration in applications and public access. The discussion surrounding the application of LLMs in education has raised ethical concerns, particularly concerning plagiarism and policy compliance. Despite the prowess of LLMs in conversational tasks, the limitations of reliability and hallucinations exacerbate the need to guardrail conversations, motivating our investigation of RAG in computer science higher education. We developed Retrieval Augmented Generation (RAG) applications for the two tasks of virtual teaching assistants and teaching aids. In our study, we collected the ratings and opinions of faculty members in undergraduate and graduate computer science university courses at various levels, using our personalized RAG systems for each course. This study is the first to gather faculty feedback on the application of LLM-based RAG in education. The investigation revealed that while faculty members acknowledge the potential of RAG systems as virtual teaching assistants and teaching aids, certain barriers and features are suggested for their full-scale deployment. These findings contribute to the ongoing discussion on the integration of advanced language models in educational settings, highlighting the need for careful consideration of ethical implications and the development of appropriate safeguards to ensure responsible and effective implementation.
翻訳日:2024-08-19 04:49:14 公開日:2024-07-28
# 異種無線ネットワークにおけるGNN接続チャネルと電力配分

GNN-Based Joint Channel and Power Allocation in Heterogeneous Wireless Networks ( http://arxiv.org/abs/2408.03957v1 )

ライセンス: Link先を確認
Lili Chen, Jingge Zhu, Jamie Evans, (参考訳) チャネルと電力資源の最適配分は、最小の干渉、最大データレート、効率的なエネルギー利用を確保する上で重要な役割を果たす。 無線ネットワークにおける資源管理問題に対処するためのアプローチとして,グラフニューラルネットワーク(GNN)が注目されている。 本稿では、異種無線ネットワークにおける共同資源配分問題に対処するGNNに基づくアルゴリズムを提案する。 具体的には、異種無線ネットワークを異種グラフとしてモデル化し、利用可能なチャネルを割り当て、ネットワークスループットを最大化するための電力伝達を目的としたグラフニューラルネットワーク構造を提案する。 提案するジョイントチャネルとパワーアロケーショングラフニューラルネットワーク(JCPGNN)は,共有メッセージ計算層と2つのタスク固有の層から構成され,それぞれがチャネルとパワーアロケーションタスクに重点を置いている。 包括的実験により,提案アルゴリズムは,従来の最適化アルゴリズムと比較して高い計算効率で良好な性能が得られることを示した。

The optimal allocation of channels and power resources plays a crucial role in ensuring minimal interference, maximal data rates, and efficient energy utilisation. As a successful approach for tackling resource management problems in wireless networks, Graph Neural Networks (GNNs) have attracted a lot of attention. This article proposes a GNN-based algorithm to address the joint resource allocation problem in heterogeneous wireless networks. Concretely, we model the heterogeneous wireless network as a heterogeneous graph and then propose a graph neural network structure intending to allocate the available channels and transmit power to maximise the network throughput. Our proposed joint channel and power allocation graph neural network (JCPGNN) comprises a shared message computation layer and two task-specific layers, with a dedicated focus on channel and power allocation tasks, respectively. Comprehensive experiments demonstrate that the proposed algorithm achieves satisfactory performance but with higher computational efficiency compared to traditional optimisation algorithms.
翻訳日:2024-08-19 04:27:34 公開日:2024-07-28
# 運動解析のためのセンサの解析

Analysis of sensors for movement analysis ( http://arxiv.org/abs/2408.07281v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Anna Faura-Pujol, Hector Montalvo-Ruiz, Alexia Losada-Fors, Pablo Genovese, Pilar Sanz-Cartagena, (参考訳) 本稿では, マイクロチップジェスチャーID, 跳躍動作, ノトムモキャップ, タップ・フット動作解析用センサなど, さまざまな動作センサを解析・比較する。 主目的は、センサーによって提供される測定のアクアレーシーを評価することである。 本研究は、例えば、地震/パーキンソン病の解析において、デバイスを活性化・制御するためのタッチ機構が存在しないことを示す。 このシナリオは特に新型コロナウイルスのシナリオで興味深い。 表面に触れる必要がなくなると、感染リスクは減少する。

In this paper we analyze and compare different movement sensors: micro-chip gesture-ID, leap motion, noitom mocap, and specially developed sensor for tapping and foot motion analysis. The main goal is to evaluate the accu-racy of measurements provided by the sensors. This study presents rele-vance, for instance, in tremor/Parkinson disease analysis as well as no touch mechanisms for activation and control of devices. This scenario is especially interesting in COVID-19 scenario. Removing the need to touch a surface, the risk of contagion is reduced.
翻訳日:2024-08-19 03:47:26 公開日:2024-07-28
# ユビキタスな信号検出法に向けて

Towards a Universal Method for Meaningful Signal Detection ( http://arxiv.org/abs/2408.00016v1 )

ライセンス: Link先を確認
Louis Mahon, (参考訳) 人間の発話と特定の動物の発声は、ある発話が伝達する内容を解読できるため、意味のある内容を伝えることができることが知られている。 本稿では,信号が意味を持つかどうかを判断するための代替手法として,信号自体を解析し,伝達された意味とは無関係であることを示す。 波形を入力として取り出す手法を考案し,その「意味豊かさ」の度合いを示すスコアを出力する。 入力の連続部分をクラスタ化して、総記述長を最小化し、割り当てられたクラスタラベルのコードの長さを有意性スコアとする。 提案手法は,様々な基準に対して実証的に評価し,様々な言語および様々な話者による人間の発話に高いスコアを与える唯一の方法であり,鳥類やオルカの動物声に対する適度なスコア,および様々な音源からの環境騒音に対する低スコアであることを示す。

It is known that human speech and certain animal vocalizations can convey meaningful content because we can decipher the content that a given utterance does convey. This paper explores an alternative approach to determining whether a signal is meaningful, one that analyzes only the signal itself and is independent of what the conveyed meaning might be. We devise a method that takes a waveform as input and outputs a score indicating its degree of `meaningfulness`. We cluster contiguous portions of the input to minimize the total description length, and then take the length of the code of the assigned cluster labels as meaningfulness score. We evaluate our method empirically, against several baselines, and show that it is the only one to give a high score to human speech in various languages and with various speakers, a moderate score to animal vocalizations from birds and orcas, and a low score to ambient noise from various sources.
翻訳日:2024-08-05 00:36:46 公開日:2024-07-28
# ELP-Adapters:各種音声処理タスクのためのパラメータ効率の良い適応器チューニング

ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks ( http://arxiv.org/abs/2407.21066v1 )

ライセンス: Link先を確認
Nakamasa Inoue, Shinta Otake, Takumi Hirose, Masanari Ohi, Rei Kawakami, (参考訳) 音声データからジェネリック表現を学習するための重要なアプローチとして,自己教師付き学習が登場した。 音声認識、話者検証、感情認識などの下流タスクにおいて有望な結果が得られたにもかかわらず、かなりの数のパラメータが必要であり、各タスクのメモリ非効率を微調整する。 この制限に対処するため、ELPアダプタチューニング、エンコーダアダプタ(Eアダプタ)、層アダプタ(Lアダプタ)、プロンプトアダプタ(Pアダプタ)の3種類のアダプタを用いたパラメータ効率の高い微調整手法を導入する。 E-adaptersはトランスフォーマーベースのエンコーダ層に統合され、音声認識に有効な微細な音声表現の学習を支援する。 L適応者は、各エンコーダ層から下流頭部への経路を作成し、話者検証と感情認識に有効な下位エンコーダ層から非言語的特徴を抽出する。 P-adapterは、CNNの機能に擬似機能を付加し、効率と効率をさらに向上させる。 これらのアダプタを使えば、モデルは様々な音声処理タスクに迅速に適応できる。 5つのバックボーンモデルを用いて,提案手法の有効性を実証した。 WavLMのバックボーンでは、その性能はすべてのタスクの完全な微調整と同等かそれ以上であり、学習可能なパラメータは90%削減された。

Self-supervised learning has emerged as a key approach for learning generic representations from speech data. Despite promising results in downstream tasks such as speech recognition, speaker verification, and emotion recognition, a significant number of parameters is required, which makes fine-tuning for each task memory-inefficient. To address this limitation, we introduce ELP-adapter tuning, a novel method for parameter-efficient fine-tuning using three types of adapter, namely encoder adapters (E-adapters), layer adapters (L-adapters), and a prompt adapter (P-adapter). The E-adapters are integrated into transformer-based encoder layers and help to learn fine-grained speech representations that are effective for speech recognition. The L-adapters create paths from each encoder layer to the downstream head and help to extract non-linguistic features from lower encoder layers that are effective for speaker verification and emotion recognition. The P-adapter appends pseudo features to CNN features to further improve effectiveness and efficiency. With these adapters, models can be quickly adapted to various speech processing tasks. Our evaluation across four downstream tasks using five backbone models demonstrated the effectiveness of the proposed method. With the WavLM backbone, its performance was comparable to or better than that of full fine-tuning on all tasks while requiring 90% fewer learnable parameters.
翻訳日:2024-08-01 19:45:44 公開日:2024-07-28
# DistilBERT を用いた歌歌詞による遺伝的・継承分類の探索 : 面白いNLPベンチャー

Exploring Genre and Success Classification through Song Lyrics using DistilBERT: A Fun NLP Venture ( http://arxiv.org/abs/2407.21068v1 )

ライセンス: Link先を確認
Servando Pizarro Martinez, Moritz Zimmermann, Miguel Serkan Offermann, Florian Reither, (参考訳) 本稿では,歌詞のジャンル分類,ビューベース成功予測,およそのリリース年に着目し,歌詞の完全解釈問題に対する自然言語処理(NLP)アプローチを提案する。 本試験は,ジャンル分類における65 %,成功予測における79 %,ジャンル分類における DistilBERT モデルとリリース年予測のための BERT 埋め込みを用いた有望な結果を提供する。 サポートベクターマシンはリリース年予測で他のモデルよりも優れ、14.18の最低ルート平均二乗誤差(RMSE)を達成した。 本研究は、歌詞の感情的な複雑さを適切に理解する上で、現在のアプローチの欠点に対処することで、音楽との関係に革命をもたらす可能性のある洞察を提供する。

This paper presents a natural language processing (NLP) approach to the problem of thoroughly comprehending song lyrics, with particular attention on genre classification, view-based success prediction, and approximate release year. Our tests provide promising results with 65\% accuracy in genre classification and 79\% accuracy in success prediction, leveraging a DistilBERT model for genre classification and BERT embeddings for release year prediction. Support Vector Machines outperformed other models in predicting the release year, achieving the lowest root mean squared error (RMSE) of 14.18. Our study offers insights that have the potential to revolutionize our relationship with music by addressing the shortcomings of current approaches in properly understanding the emotional intricacies of song lyrics.
翻訳日:2024-08-01 19:45:44 公開日:2024-07-28
# 低ランクモデルに基づく高自動車両の高次元耐故障試験

High-Dimensional Fault Tolerance Testing of Highly Automated Vehicles Based on Low-Rank Models ( http://arxiv.org/abs/2407.21069v1 )

ライセンス: Link先を確認
Yuewen Mei, Tong Nie, Jian Sun, Ye Tian, (参考訳) 高自動車両(HAV)の耐故障性を確保することは、潜在的に深刻な故障が存在するため、その安全性に不可欠である。 したがって,HAVの安全性を評価するために,ファストインジェクション(FI)テストが実践者によって実施される。 テストケースを完全にカバーするためには、さまざまな駆動シナリオと障害設定を検討する必要がある。 しかし、多数のテストシナリオと障害設定の組み合わせにより、テストスペースは複雑で高次元になる可能性がある。 さらに、新たに追加されたすべてのシナリオのパフォーマンスを評価するのにリソースがかかります。 セキュリティ問題を引き起こす致命的な欠陥の希少さは、その課題をさらに強めている。 これらの課題に対処するため、我々はSRMF(Smoothness Regularized Matrix Factorization)フレームワークを用いてFIテストの高速化を提案する。 まず、その安全性値に基づいて、スパース評価データを構造化行列に整理する。 そして、行列構造によって捕捉された相関によって未検証値が推定される。 高次元性に対処するため、テスト空間に低ランク制約が課される。 既存のシナリオと新たなシナリオの関係を活かし、臨界断層の局所的な規則性を捉えるために、3種類の滑らか度正規化が補体として設計されている。 我々は自動車の追従実験を行い、シナリオでカットする。 その結果、SRMFは様々なシナリオにおいて最も低い予測誤差を有し、他の機械学習モデルと比較して稀な臨界故障を予測できることがわかった。 さらに、SRMFは1171の加速速度、99.3%の精度、91.1%のF1スコアを達成できる。 我々の知る限りでは、HAVのFIテストに低ランクモデルを導入する最初の試みである。

Ensuring fault tolerance of Highly Automated Vehicles (HAVs) is crucial for their safety due to the presence of potentially severe faults. Hence, Fault Injection (FI) testing is conducted by practitioners to evaluate the safety level of HAVs. To fully cover test cases, various driving scenarios and fault settings should be considered. However, due to numerous combinations of test scenarios and fault settings, the testing space can be complex and high-dimensional. In addition, evaluating performance in all newly added scenarios is resource-consuming. The rarity of critical faults that can cause security problems further strengthens the challenge. To address these challenges, we propose to accelerate FI testing under the low-rank Smoothness Regularized Matrix Factorization (SRMF) framework. We first organize the sparse evaluated data into a structured matrix based on its safety values. Then the untested values are estimated by the correlation captured by the matrix structure. To address high dimensionality, a low-rank constraint is imposed on the testing space. To exploit the relationships between existing scenarios and new scenarios and capture the local regularity of critical faults, three types of smoothness regularization are further designed as a complement. We conduct experiments on car following and cut in scenarios. The results indicate that SRMF has the lowest prediction error in various scenarios and is capable of predicting rare critical faults compared to other machine learning models. In addition, SRMF can achieve 1171 acceleration rate, 99.3% precision and 91.1% F1 score in identifying critical faults. To the best of our knowledge, this is the first work to introduce low-rank models to FI testing of HAVs.
翻訳日:2024-08-01 19:35:32 公開日:2024-07-28
# Occam's Razor and Bender and Koller's Octopus

Occam's Razor and Bender and Koller's Octopus ( http://arxiv.org/abs/2407.21070v1 )

ライセンス: Link先を確認
Michael Guerzhoy, (参考訳) 本稿では,Bender と Koller の ACL 2020 論文 "Climbing towards NLU: on meaning form, and understanding in the age of data" を論じる。 我々は,論文の主な論点であると考えられるものを提示し,論文の主張に対する自然な反論に学生が関与することを推奨する。 我々は、この話題を学部生に教えるために使用する教材を添付する。

We discuss the teaching of the discussion surrounding Bender and Koller's prominent ACL 2020 paper, "Climbing toward NLU: on meaning form, and understanding in the age of data" \cite{bender2020climbing}. We present what we understand to be the main contentions of the paper, and then recommend that the students engage with the natural counter-arguments to the claims in the paper. We attach teaching materials that we use to facilitate teaching this topic to undergraduate students.
翻訳日:2024-08-01 19:35:32 公開日:2024-07-28
# オブジェクト検出のための変形可能なカプセル

Deformable Capsules for Object Detection ( http://arxiv.org/abs/2104.05031v3 )

ライセンス: Link先を確認
Rodney Lalonde, Naji Khosravan, Ulas Bagci, (参考訳) カプセルネットワークは、より強力な内部表現を格納し、中間表現のプロジェクション間の合意に基づいてルーティング情報をルーティングすることで、畳み込みネットワークよりも大きな利益を約束する。 それにもかかわらず、彼らの成功は計算的に高価な性質のため、小規模の分類データセットに限られている。 記憶効率は良いが、畳み込みカプセルは、物体のポーズ/変形をモデル化するカプセルの能力を根本的に制限する幾何学的な制約を課す。 さらに、検出や大規模分類といった大きなタスクにスケールアップするクラスカプセルのメモリ上の問題にも対処していない。 本研究では、コンピュータビジョンにおいて重要な問題である物体検出に対処するために、新しいカプセルネットワーク、変形可能なカプセル(\textit{DeformCaps})を導入する。 本稿では,新しいカプセル構造 (\textit{SplitCaps}) と新しい動的ルーティングアルゴリズム (\textit{SE-Routing}) の2つの新しいアルゴリズムを提案する。 提案手法は,本論文において,オブジェクト検出のためのカプセルネットワークを構築するために,効率よくスケールアップできることを実証する。 提案アーキテクチャは1段階検出フレームワークであり,MS COCOは最先端の1段階CNN手法と同等であり,偽陽性検出は少なく,オブジェクトの異常なポーズ・ビューポイントに一般化する。

Capsule networks promise significant benefits over convolutional networks by storing stronger internal representations, and routing information based on the agreement between intermediate representations' projections. Despite this, their success has been limited to small-scale classification datasets due to their computationally expensive nature. Though memory efficient, convolutional capsules impose geometric constraints that fundamentally limit the ability of capsules to model the pose/deformation of objects. Further, they do not address the bigger memory concern of class-capsules scaling up to bigger tasks such as detection or large-scale classification. In this study, we introduce a new family of capsule networks, deformable capsules (\textit{DeformCaps}), to address a very important problem in computer vision: object detection. We propose two new algorithms associated with our \textit{DeformCaps}: a novel capsule structure (\textit{SplitCaps}), and a novel dynamic routing algorithm (\textit{SE-Routing}), which balance computational efficiency with the need for modeling a large number of objects and classes, which have never been achieved with capsule networks before. We demonstrate that the proposed methods efficiently scale up to create the first-ever capsule network for object detection in the literature. Our proposed architecture is a one-stage detection framework and it obtains results on MS COCO which are on par with state-of-the-art one-stage CNN-based methods, while producing fewer false positive detection, generalizing to unusual poses/viewpoints of objects.
翻訳日:2024-07-31 23:24:35 公開日:2024-07-28
# ロバスト統計を用いたマルチタスク学習と帯域幅

Multitask Learning and Bandits via Robust Statistics ( http://arxiv.org/abs/2112.14233v5 )

ライセンス: Link先を確認
Kan Xu, Hamsa Bastani, (参考訳) 意思決定者は、しばしば多くの関連するが不均一な学習問題に直面している。 例えば、大手小売店は、価格や在庫の問題を解決するために、異なる店舗で製品需要を学習し、類似の顧客に仕える店舗で共同で学ぶことが望ましい場合があり、また、病院ネットワークは、個別の介入を割り当てるために、異なる業者で患者リスクを学習したい場合もあり、類似の患者集団に仕える病院で共同で学ぶことが望ましい。 実際のデータセットに動機付け,各学習インスタンス内の未知のパラメータを,共有グローバルパラメータとスパースインスタンス固有項に分解できる自然設定について検討する。 本稿では,この構造をサンプル効率のよい2段階のマルチタスク学習推定器を提案する。 我々の推定器は、一般的な失業推定器と比較して、特徴次元$d$のサンプル複雑性境界を改良し、この改善はマルチタスク学習の恩恵を受ける「データ・プール」インスタンスに対して指数関数的である。 本稿では,マルチタスク推定器を同時文脈帯域幅アルゴリズムに組み込むことにより,オンライン学習におけるこれらの結果の有用性について述べる。 我々は、時間とともにバイアス分散トレードオフを適切にバランスさせるために、推定器の動的キャリブレーションを定義し、その結果、文脈次元$d$の後悔境界を改善する。 最後に、合成および実際のデータセットに対する我々のアプローチの価値について説明する。

Decision-makers often simultaneously face many related but heterogeneous learning problems. For instance, a large retailer may wish to learn product demand at different stores to solve pricing or inventory problems, making it desirable to learn jointly for stores serving similar customers; alternatively, a hospital network may wish to learn patient risk at different providers to allocate personalized interventions, making it desirable to learn jointly for hospitals serving similar patient populations. Motivated by real datasets, we study a natural setting where the unknown parameter in each learning instance can be decomposed into a shared global parameter plus a sparse instance-specific term. We propose a novel two-stage multitask learning estimator that exploits this structure in a sample-efficient way, using a unique combination of robust statistics (to learn across similar instances) and LASSO regression (to debias the results). Our estimator yields improved sample complexity bounds in the feature dimension $d$ relative to commonly-employed estimators; this improvement is exponential for "data-poor" instances, which benefit the most from multitask learning. We illustrate the utility of these results for online learning by embedding our multitask estimator within simultaneous contextual bandit algorithms. We specify a dynamic calibration of our estimator to appropriately balance the bias-variance tradeoff over time, improving the resulting regret bounds in the context dimension $d$. Finally, we illustrate the value of our approach on synthetic and real datasets.
翻訳日:2024-07-31 23:19:20 公開日:2024-07-28
# 化学作業のためのベイズ流ネットワークフレームワーク

A Bayesian Flow Network Framework for Chemistry Tasks ( http://arxiv.org/abs/2407.20294v1 )

ライセンス: Link先を確認
Nianze Tao, Minori Abe, (参考訳) 本研究では,離散データを扱うベイジアンフローネットワークに基づく化学タスクを処理する言語モデルであるChemBFNを紹介する。 復元損失を大幅に低減し,サンプリング品質を向上させるため,新しい精度スケジュールを提案する。 本手法は, 少ないサンプリングステップを用いても, 十分な多様性を持つ分子を生成するのに適していることを示す。 条件生成に分類器フリーガイダンス法を適用する。 生成的学習の後、我々のモデルは、単一のモジュールスタイルでオールインワンモデルを構築するゲートを開く最先端のパフォーマンスで、回帰および分類タスクを微調整できる点も指摘しておく価値がある。 我々のモデルはhttps://github.com/Augus 1999/bayesian-flow-network-for-chemistryでオープンソース化されました。

In this work, we introduce ChemBFN, a language model that handles chemistry tasks based on Bayesian flow networks working on discrete data. A new accuracy schedule is proposed to improve the sampling quality by significantly reducing the reconstruction loss. We show evidence that our method is appropriate for generating molecules with satisfied diversity even when a smaller number of sampling steps is used. A classifier-free guidance method is adapted for conditional generation. It is also worthwhile to point out that after generative training, our model can be fine-tuned on regression and classification tasks with the state-of-the-art performance, which opens the gate of building all-in-one models in a single module style. Our model has been open sourced at https://github.com/Augus1999/bayesian-flow-network-for-chemistry.
翻訳日:2024-07-31 19:18:14 公開日:2024-07-28
# 良い量子符号からのNLTSハミルトニアン

NLTS Hamiltonians from good quantum codes ( http://arxiv.org/abs/2206.13228v3 )

ライセンス: Link先を確認
Anurag Anshu, Nikolas P. Breuckmann, Chinmay Nirkhe, (参考訳) NLTS (No Low-Energy Trivial State) のフリードマンとヘイスティングスの予想 [2014] は、非自明な複雑性を持つすべての低エネルギー状態を持つハミルトニアンの族が存在することを示唆している。 我々は、最近発見された定数レートおよび線形距離QLDPC符号の族がNLTS局所ハミルトニアンに対応することを示すことによって、この予想を証明した。

The NLTS (No Low-Energy Trivial State) conjecture of Freedman and Hastings [2014] posits that there exist families of Hamiltonians with all low energy states of non-trivial complexity (with complexity measured by the quantum circuit depth preparing the state). We prove this conjecture by showing that the recently discovered families of constant-rate and linear-distance QLDPC codes correspond to NLTS local Hamiltonians.
翻訳日:2024-07-31 01:36:13 公開日:2024-07-28
# 非平滑PDE制約最適化のためのADMM-PINNsアルゴリズムフレームワーク:ディープラーニングアプローチ

The ADMM-PINNs Algorithmic Framework for Nonsmooth PDE-Constrained Optimization: A Deep Learning Approach ( http://arxiv.org/abs/2302.08309v2 )

ライセンス: Link先を確認
Yongcun Song, Xiaoming Yuan, Hangrui Yue, (参考訳) 本研究では,非滑らかな偏微分方程式(PDE)制約付き最適化問題に対して,乗算器の交互方向法と物理インフォームドニューラルネットワーク(PINN)の組み合わせを検討した。 結果として得られるADMM-PINNのアルゴリズムフレームワークは、PINNの適用範囲を大幅に拡大し、PDE制約された最適化問題の非滑らかなケースに拡張する。 ADMMの適用により、反復に対するPDE制約と非滑らかな正規化項を解き放つことができる。 したがって、各イテレーションにおいて、結果のサブプロブレムの1つは、PINNによって効率的に解ける滑らかなPDE制約最適化であり、もう1つは、通常閉形式解を持つ単純な非滑らかな最適化問題であり、また、様々な標準最適化アルゴリズムや事前訓練されたニューラルネットワークによって効率的に解ける。 ADMM-PINNsアルゴリズムフレームワークはPDEを何度も解決する必要がなく、メッシュフリーで実装が容易で、異なるPDE設定にスケーラブルである。 我々は,逆ポテンシャル問題,楕円型方程式の情報源同定,バーガース方程式の制約付き最適制御,放物型方程式のスパース最適制御など,様々な試行的な応用によるADMM-PINNsアルゴリズムの効率性を検証する。

We study the combination of the alternating direction method of multipliers (ADMM) with physics-informed neural networks (PINNs) for a general class of nonsmooth partial differential equation (PDE)-constrained optimization problems, where additional regularization can be employed for constraints on the control or design variables. The resulting ADMM-PINNs algorithmic framework substantially enlarges the applicable range of PINNs to nonsmooth cases of PDE-constrained optimization problems. The application of the ADMM makes it possible to untie the PDE constraints and the nonsmooth regularization terms for iterations. Accordingly, at each iteration, one of the resulting subproblems is a smooth PDE-constrained optimization which can be efficiently solved by PINNs, and the other is a simple nonsmooth optimization problem which usually has a closed-form solution or can be efficiently solved by various standard optimization algorithms or pre-trained neural networks. The ADMM-PINNs algorithmic framework does not require to solve PDEs repeatedly, and it is mesh-free, easy to implement, and scalable to different PDE settings. We validate the efficiency of the ADMM-PINNs algorithmic framework by different prototype applications, including inverse potential problems, source identification in elliptic equations, control constrained optimal control of the Burgers equation, and sparse optimal control of parabolic equations.
翻訳日:2024-07-31 01:26:28 公開日:2024-07-28
# 量子機械学習のための古典特異値変換の改良

An Improved Classical Singular Value Transformation for Quantum Machine Learning ( http://arxiv.org/abs/2303.01492v4 )

ライセンス: Link先を確認
Ainesh Bakshi, Ewin Tang, (参考訳) 量子機械学習(QML)における量子スピードアップについて,量子特異値変換(QSVT)フレームワークを解析して検討する。 GSLW, STOC'19, arXiv:1806.01838]によって導入されたQSVTは、全ての主要な量子スピードアップを統一する。 本稿では,この方式におけるQSVTの性能を,多項式オーバーヘッドを小さくする古典的アルゴリズムを提供することにより,これらの提案に挑戦する。 行列 $A \in \mathbb{C}^{m\times n}$, a vector $b \in \mathbb{C}^{n}$, a bounded degree-$d$ polynomial $p$, and linear-time pre-processing とすると、$\|v - p(A) b\| \leq \varepsilon\|b\|$ in $\widetilde{\mathcal{O}}(d^{11} \|A\|_{\mathrm{F}}^4 / (\varepsilon^2 \|A\|^4 )$time というベクトル $v$ の記述を出力できる。 CGLLTW, STOC'20, arXiv:1910.06151], $\widetilde{\mathcal{O}}(d^{22} \|A\|_{\mathrm{F}}^6 /(\varepsilon^6 \|A\|^6 ) )$ timeで改善され、量子アクセス可能なメモリに入力をロードするための線形時間前処理の後、$$p(A)b$から$\varepsilon\|b\|$の誤差を$\widetilde{\mathcal{O}}(d^{22} \|A\|_{\mathrm{F}}/(\varepsilon^6 \|A\|^6 )$ timeで推定できるQSVTとのギャップを狭める。 我々の重要な洞察は、行列多項式の反復的計算法であるクレンショー繰り返しと、QSVTを古典的にシミュレートするスケッチ技法を組み合わせることである。 この作品にはいくつかの新しい古典的技法が紹介されている。 (a)二線形式を概ね保存する非文献的行列スケッチ。 b) クレンショー再発に対する新しい安定性解析,及び (c) 有界関数のチェビシェフ級数展開に現れる係数の算術進行を有界化するための新しい手法。

We study quantum speedups in quantum machine learning (QML) by analyzing the quantum singular value transformation (QSVT) framework. QSVT, introduced by [GSLW, STOC'19, arXiv:1806.01838], unifies all major types of quantum speedup; in particular, a wide variety of QML proposals are applications of QSVT on low-rank classical data. We challenge these proposals by providing a classical algorithm that matches the performance of QSVT in this regime up to a small polynomial overhead. We show that, given a matrix $A \in \mathbb{C}^{m\times n}$, a vector $b \in \mathbb{C}^{n}$, a bounded degree-$d$ polynomial $p$, and linear-time pre-processing, we can output a description of a vector $v$ such that $\|v - p(A) b\| \leq \varepsilon\|b\|$ in $\widetilde{\mathcal{O}}(d^{11} \|A\|_{\mathrm{F}}^4 / (\varepsilon^2 \|A\|^4 ))$ time. This improves upon the best known classical algorithm [CGLLTW, STOC'20, arXiv:1910.06151], which requires $\widetilde{\mathcal{O}}(d^{22} \|A\|_{\mathrm{F}}^6 /(\varepsilon^6 \|A\|^6 ) )$ time, and narrows the gap with QSVT, which, after linear-time pre-processing to load input into a quantum-accessible memory, can estimate the magnitude of an entry $p(A)b$ to $\varepsilon\|b\|$ error in $\widetilde{\mathcal{O}}(d\|A\|_{\mathrm{F}}/(\varepsilon \|A\|))$ time. Our key insight is to combine the Clenshaw recurrence, an iterative method for computing matrix polynomials, with sketching techniques to simulate QSVT classically. We introduce several new classical techniques in this work, including (a) a non-oblivious matrix sketch for approximately preserving bi-linear forms, (b) a new stability analysis for the Clenshaw recurrence, and (c) a new technique to bound arithmetic progressions of the coefficients appearing in the Chebyshev series expansion of bounded functions, each of which may be of independent interest.
翻訳日:2024-07-31 01:26:28 公開日:2024-07-28
# 無用な絡み合わせによる蒸留可能な絡み合わせと量子容量の推定

Estimate distillable entanglement and quantum capacity by squeezing useless entanglement ( http://arxiv.org/abs/2303.07228v4 )

ライセンス: Link先を確認
Chengkai Zhu, Chenghong Zhu, Xin Wang, (参考訳) 量子インターネットは、セキュアで効率的な量子通信、データ転送の再構築のための基本的なリソースとして、量子絡み合いに依存している。 この文脈では、エンタングルメント蒸留は量子インターネットの完全なポテンシャルを実現する上で重要な役割を担う重要なプロセスとして現れる。 それでも、蒸留可能な絡み合いとその密接に関連する必須量である量子容量を正確に推定することは依然として困難である。 本研究では、対象状態と自由状態の集合との最小分散を定量化する資源の逆分散として知られる一般的な資源測度について考察する。 この測定を応用して、状態や量子チャネル内の無駄な絡み合いがそれぞれ蒸留可能な絡み合いや量子容量に寄与しないという考え方に基づいて、両方の量に対する効率的な計算可能な上限を提案する。 我々の境界は半定値プログラミングによって計算でき、脱分極や振幅減衰ノイズなどの実用的な雑音下での最大絡み合った状態の浄化に実用的な応用が得られ、一方の蒸留可能な絡み合いの推定が改善される。 さらに、我々は、量子インターネットの発展に大きな関心を持つ、パウリチャネルやランダム混合ユニタリチャネルを含む量子ビット量子チャネルの量子容量を評価するための貴重なベンチマークを提供する。

Quantum Internet relies on quantum entanglement as a fundamental resource for secure and efficient quantum communication, reshaping data transmission. In this context, entanglement distillation emerges as a crucial process that plays a pivotal role in realizing the full potential of the quantum internet. Nevertheless, it remains challenging to accurately estimate the distillable entanglement and its closely related essential quantity, the quantum capacity. In this work, we consider a general resource measure known as the reverse divergence of resources which quantifies the minimum divergence between a target state and the set of free states. Leveraging this measure, we propose efficiently computable upper bounds for both quantities based on the idea that the useless entanglement within a state or a quantum channel does not contribute to the distillable entanglement or the quantum capacity, respectively. Our bounds can be computed via semidefinite programming and have practical applications for purifying maximally entangled states under practical noises, such as depolarizing and amplitude damping noises, leading to improvements in estimating the one-way distillable entanglement. Furthermore, we provide valuable benchmarks for evaluating the quantum capacities of qubit quantum channels, including the Pauli channels and the random mixed unitary channels, which are of great interest for the development of a quantum internet.
翻訳日:2024-07-31 01:26:28 公開日:2024-07-28
# HEは必要なもの - Additive HEを使ってFHE暗号文を圧縮する

HE is all you need: Compressing FHE Ciphertexts using Additive HE ( http://arxiv.org/abs/2303.09043v2 )

ライセンス: Link先を確認
Rasoul Akhavan Mahdavi, Abdulrahman Diaa, Florian Kerschbaum, (参考訳) ホモモルフィック暗号化(HE)は、プライバシ保護アプリケーションを構築するための一般的なツールである。 しかし、多くのクライアントや高遅延ネットワークのシナリオでは、大きな暗号文サイズによる通信コストがボトルネックとなっている。 本稿では,Learning with Errors(LWE)に基づく大規模同型暗号文を圧縮するために,小さな暗号文を含む付加的同型暗号方式を用いる新しい圧縮手法を提案する。 本手法は,暗号文の復号化における線形ステップを利用して,復号化の一部をサーバに委譲する手法である。 圧縮の比率は90%までで、圧縮キーは小さめである。 複数の暗号文を同時に圧縮することで、99\%以上の圧縮率が得られる。 我々の圧縮技術は,サーバからクライアントにLWE暗号文を送信するアプリケーションに対して,クエリに対する応答として容易に適用することができる。 さらに,この手法をクライアントがクエリを公開せずにデータベースにアクセスするプライベート情報検索(PIR)に適用する。 本手法を用いて,文献中の全プロトコル間での通信コストの最小化を実現するPIRプロトコルZipPIRを提案する。 ZipPIRは、前処理フェーズでクライアントとの通信を一切必要とせず、短命なクライアントや高遅延ネットワークを使ったPIRのユースケースに最適なソリューションとなります。

Homomorphic Encryption (HE) is a commonly used tool for building privacy-preserving applications. However, in scenarios with many clients and high-latency networks, communication costs due to large ciphertext sizes are the bottleneck. In this paper, we present a new compression technique that uses an additive homomorphic encryption scheme with small ciphertexts to compress large homomorphic ciphertexts based on Learning with Errors (LWE). Our technique exploits the linear step in the decryption of such ciphertexts to delegate part of the decryption to the server. We achieve compression ratios up to 90% which only requires a small compression key. By compressing multiple ciphertexts simultaneously, we can over 99\% compression rate. Our compression technique can be readily applied to applications which transmit LWE ciphertexts from the server to the client as the response to a query. Furthermore, we apply our technique to private information retrieval (PIR) where a client accesses a database without revealing its query. Using our compression technique, we propose ZipPIR, a PIR protocol which achieves the lowest overall communication cost among all protocols in the literature. ZipPIR does not require any communication with the client in the preprocessing phase, making it a great solution for use cases of PIR with ephemeral clients or high-latency networks.
翻訳日:2024-07-31 01:26:28 公開日:2024-07-28
# 二重指数ファミリに基づく拡張一般化線形モデルにおけるドロップアウト規則化

Dropout Regularization in Extended Generalized Linear Models based on Double Exponential Families ( http://arxiv.org/abs/2305.06625v2 )

ライセンス: Link先を確認
Benedikt Lütke Schwienhorst, Lucas Kock, Nadja Klein, David J. Nott, (参考訳) ドロップアウトは一般的な正規化手法であるが、理論的性質は完全には理解されていない。 本稿では, 2重指数列に基づく拡張一般化線形モデルにおける散逸正則化について検討する。 理論解析により、ドロップアウト正則化は平均と分散の両方において稀だが重要な特徴を好んでおり、従来の一般化された線形モデルの初期結果を一般化している。 具体的には, 平均パラメータと分散パラメータを柔軟にモデル化したB-スプラインを用いた適応平滑化にドロップアウトを適用した。 重要なB-スプライン基底関数は稀な特徴とみなすことが可能であり, 偏差パラメータの正則化の有効な形態であることを示す実験において, 明らかに滑らかなペナルティを伴い, ペナルティ化された最大可能性アプローチを改善する。 ベルリンからの交通検知データへの応用は、我々の方法の利点をさらに示している。

Even though dropout is a popular regularization technique, its theoretical properties are not fully understood. In this paper we study dropout regularization in extended generalized linear models based on double exponential families, for which the dispersion parameter can vary with the features. A theoretical analysis shows that dropout regularization prefers rare but important features in both the mean and dispersion, generalizing an earlier result for conventional generalized linear models. To illustrate, we apply dropout to adaptive smoothing with B-splines, where both the mean and dispersion parameters are modeled flexibly. The important B-spline basis functions can be thought of as rare features, and we confirm in experiments that dropout is an effective form of regularization for mean and dispersion parameters that improves on a penalized maximum likelihood approach with an explicit smoothness penalty. An application to traffic detection data from Berlin further illustrates the benefits of our method.
翻訳日:2024-07-31 01:16:44 公開日:2024-07-28
# 大規模言語モデルのパーソナリティテスト:時間的安定性に限界があるが、社会性を強調した

Personality testing of Large Language Models: Limited temporal stability, but highlighted prosociality ( http://arxiv.org/abs/2306.04308v3 )

ライセンス: Link先を確認
Bojana Bodroza, Bojana M. Dinic, Ljubisa Bojic, (参考訳) 大きな言語モデル(LLM)は、人間のような特徴と、ユーザに提供する親密性によって人気が高まり続けているため、社会的影響は必然的に拡大している。 これにより、総合的な研究がLSMを完全に理解し、その可能性、欠点、全体的な社会的影響を明らかにする必要性が高まる。 そこで本研究では,7つのLDMについて広範囲に調査を行い,時間的安定性と2つの点において人格楽器に対する反応の相互一致性を評価することを目的とした。 さらに、LLMの性格プロファイルを解析し、ヒトの規範データと比較した。 その結果, LLMs反応は短時間で, LIama3, GPT-4o, GPT-4o, GPT-4oの順に高い値を示した。 また、契約は使用済みの楽器や藩や特質にも依存していた。 このことは、LLMが安定した性格特性を確実にシミュレートする能力の変動ロバスト性を意味する。 少なくとも公正な合意を示した尺度では、LLMはエージェントとコミュニカルドメインの両方で社会的に望ましいプロファイルを示しており、社会人格のプロファイルは、高い同意性と良心と低いマキアベリア主義を反映していた。 人格特性に対する時間的安定性とコヒーレントな応答の排除は、その社会的影響とAI安全性の懸念から、AIシステムにとって不可欠である。

As Large Language Models (LLMs) continue to gain popularity due to their human-like traits and the intimacy they offer to users, their societal impact inevitably expands. This leads to the rising necessity for comprehensive studies to fully understand LLMs and reveal their potential opportunities, drawbacks, and overall societal impact. With that in mind, this research conducted an extensive investigation into seven LLM's, aiming to assess the temporal stability and inter-rater agreement on their responses on personality instruments in two time points. In addition, LLMs personality profile was analyzed and compared to human normative data. The findings revealed varying levels of inter-rater agreement in the LLMs responses over a short time, with some LLMs showing higher agreement (e.g., LIama3 and GPT-4o) compared to others (e.g., GPT-4 and Gemini). Furthermore, agreement depended on used instruments as well as on domain or trait. This implies the variable robustness in LLMs' ability to reliably simulate stable personality characteristics. In the case of scales which showed at least fair agreement, LLMs displayed mostly a socially desirable profile in both agentic and communal domains, as well as a prosocial personality profile reflected in higher agreeableness and conscientiousness and lower Machiavellianism. Exhibiting temporal stability and coherent responses on personality traits is crucial for AI systems due to their societal impact and AI safety concerns.
翻訳日:2024-07-31 01:06:50 公開日:2024-07-28
# オントロジーによるテンポラルクエリの特異性と学習性

Unique Characterisability and Learnability of Temporal Queries Mediated by an Ontology ( http://arxiv.org/abs/2306.07662v3 )

ライセンス: Link先を確認
Jean Christoph Jung, Vladislav Ryzhikov, Frank Wolter, Michael Zakharyaschev, (参考訳) データベースクエリを例から学習するアルゴリズムと、例によるクエリのユニークな特徴付けは、クエリ構築と説明の自動サポートを開発するための重要な出発点である。 オントロジーを介する時間的クエリの学習と特徴付けに関する最近の成果とテクニックが,時間的データやクエリにまで拡張可能であるかを検討する。 時間的ケースにおける関連するアプローチの体系的なレビューに基づいて、時間的ケースで構成された時間的クエリが(ポリノミカルに)学習可能で、一意に特徴付けられる条件を特定する一般的な転送結果を得る。

Algorithms for learning database queries from examples and unique characterisations of queries by examples are prominent starting points for developing automated support for query construction and explanation. We investigate how far recent results and techniques on learning and unique characterisations of atemporal queries mediated by an ontology can be extended to temporal data and queries. Based on a systematic review of the relevant approaches in the atemporal case, we obtain general transfer results identifying conditions under which temporal queries composed of atemporal ones are (polynomially) learnable and uniquely characterisable.
翻訳日:2024-07-31 01:06:50 公開日:2024-07-28
# スケーリングの法則はスケールしない

Scaling Laws Do Not Scale ( http://arxiv.org/abs/2307.03201v2 )

ライセンス: Link先を確認
Fernando Diaz, Michael Madaio, (参考訳) 最近の研究は、データセットのサイズが大きくなるにつれて、そのデータセットでトレーニングされたモデルのパフォーマンスが対応する("スケーリング法則"と呼ばれる)ことを主張して、より大規模なデータセットでAIモデルをトレーニングすることを提唱している。 本稿では,これらの主張を批判的に問うために,社会科学や機械学習から文献を引用する。 このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。 大規模なAIモデルのトレーニングに使用されるデータセットのサイズが大きくなるとともに、AIシステムがより大きなグループに影響を及ぼすにつれて、トレーニングや評価データセットで表現される異なるコミュニティの数が増加する。 したがって、データセットで表されるコミュニティは、スケーリング法則におけるモデルパフォーマンスを評価するのに使用されるメトリクスに反映されない(あるいは一致しない)値や好みを持つ可能性がある。 異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可避な選択をもたらします -- モデルパフォーマンスが大規模に改善されているという主張の妥当性を脅かすのです。 AI開発に関する論文の最後には、より大規模なデータセットをスクラップする動機は、モデルパフォーマンスに関する根本的な欠陥のある仮定に基づいているかもしれない、という内容で締めくくっています。 つまり、データセットが大きくなるにつれて、モデルが改善を続けるわけではない。 我々は、AI開発における規範と価値を再考する機会を提案し、大きなモデルの普遍性に対する主張に抵抗し、より局所的で小規模なデザインを育み、AIにおけるスケールへの衝動に抵抗する他の方法を提案する。

Recent work has advocated for training AI models on ever-larger datasets, arguing that as the size of a dataset increases, the performance of a model trained on that dataset will correspondingly increase (referred to as "scaling laws"). In this paper, we draw on literature from the social sciences and machine learning to critically interrogate these claims. We argue that this scaling law relationship depends on metrics used to measure performance that may not correspond with how different groups of people perceive the quality of models' output. As the size of datasets used to train large AI models grows and AI systems impact ever larger groups of people, the number of distinct communities represented in training or evaluation datasets grows. It is thus even more likely that communities represented in datasets may have values or preferences not reflected in (or at odds with) the metrics used to evaluate model performance in scaling laws. Different communities may also have values in tension with each other, leading to difficult, potentially irreconcilable choices about metrics used for model evaluations -- threatening the validity of claims that model performance is improving at scale. We end the paper with implications for AI development: that the motivation for scraping ever-larger datasets may be based on fundamentally flawed assumptions about model performance. That is, models may not, in fact, continue to improve as the datasets get larger -- at least not for all people or communities impacted by those models. We suggest opportunities for the field to rethink norms and values in AI development, resisting claims for universality of large models, fostering more local, small-scale designs, and other ways to resist the impetus towards scale in AI.
翻訳日:2024-07-31 01:06:50 公開日:2024-07-28
# コード分析タスクにLLMはどのように影響するのか?

How Does Naming Affect LLMs on Code Analysis Tasks? ( http://arxiv.org/abs/2307.12488v5 )

ライセンス: Link先を確認
Zhilong Wang, Lan Zhang, Chen Cao, Nanqing Luo, Xinzhi Luo, Peng Liu, (参考訳) GPTやBERTのような大規模言語モデル(LLM)は自然言語処理(NLP)のために提案され、汎用言語モデルとして有望な結果を示している。 プログラム分析タスクにLLMを採用する業界専門家や研究者が増えている。 しかし、プログラミング言語と自然言語との大きな違いの1つは、プログラマがプログラム内の変数、メソッド、関数に名前を割り当てる柔軟性を持っていることである。 直感的には、プログラムにおける命名の質は、プログラム解析タスクにおけるLLMの性能に影響を及ぼす。 本稿では,コード解析タスクにおける命名がLLMに与える影響について検討する。 具体的には、変数、メソッド、関数のナンセンスまたは誤解を招く名前を含むコードを含むデータセットのセットを作成します。 次に、よく訓練されたモデル(CodeBERT)を使用して、これらのデータセット上でコード解析タスクを実行します。 実験の結果,命名はLLMに基づくコード解析タスクの性能に大きく影響し,LLMに基づくコード表現学習がコード内の明確に定義された名前に大きく依存していることが示唆された。 さらに、GPTを用いた特別なコード解析タスクのケーススタディを行い、さらなる洞察を提供する。

The Large Language Models (LLMs), such as GPT and BERT, were proposed for natural language processing (NLP) and have shown promising results as general-purpose language models. An increasing number of industry professionals and researchers are adopting LLMs for program analysis tasks. However, one significant difference between programming languages and natural languages is that a programmer has the flexibility to assign any names to variables, methods, and functions in the program, whereas a natural language writer does not. Intuitively, the quality of naming in a program affects the performance of LLMs in program analysis tasks. This paper investigates how naming affects LLMs on code analysis tasks. Specifically, we create a set of datasets with code containing nonsense or misleading names for variables, methods, and functions, respectively. We then use well-trained models (CodeBERT) to perform code analysis tasks on these datasets. The experimental results show that naming has a significant impact on the performance of code analysis tasks based on LLMs, indicating that code representation learning based on LLMs heavily relies on well-defined names in code. Additionally, we conduct a case study on some special code analysis tasks using GPT, providing further insights.
翻訳日:2024-07-31 00:56:53 公開日:2024-07-28
# GNFactor: 一般化可能なニューラルネットワークを用いたマルチタスクリアルロボット学習

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields ( http://arxiv.org/abs/2308.16891v3 )

ライセンス: Link先を確認
Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang, (参考訳) ロボット工学において、非構造化現実環境における視覚的観察から多様な操作タスクを実行することができるエージェントを開発するための長年の課題である。 この目的を達成するには、ロボットはシーンの3D構造とセマンティクスを包括的に理解する必要がある。 本稿では,マルチタスクロボット操作のための視覚的行動クローニングエージェントである$\textbf{G}$eneralizable $\textbf{N}$eural feature $\textbf{F}$ieldsを紹介する。 GNFactorは、再構成モジュールとしての一般化可能なニューラルネットワーク(GNF)と決定モジュールとしてのPerceiver Transformerを共同で最適化し、共有された深部3Dボクセル表現を活用する。 セマンティクスを3Dに組み込むために、再構成モジュールは視覚言語基盤モデル(\textit{e g }$, Stable Diffusion)を使用して、豊富なセマンティクス情報を深部3Dボクセルに融合する。 GNFactorを3つの実ロボットタスクで評価し、10のRLBenchタスクの詳細な改善を行い、限られた数の実演を行った。 GNFactorの強い一般化能力を実証し、現状の課題や目に見えない課題に対するGNFactorの大幅な改善を観察する。 プロジェクトのWebサイトはhttps://yanjieze.com/GNFactor/。

It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present $\textbf{GNFactor}$, a visual behavior cloning agent for multi-task robotic manipulation with $\textbf{G}$eneralizable $\textbf{N}$eural feature $\textbf{F}$ields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model ($\textit{e.g.}$, Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .
翻訳日:2024-07-31 00:56:53 公開日:2024-07-28
# PanoVOS:ビデオセグメンテーションのためのトランスフォーマによる非パノラマおよびパノラマビューのブリッジ

PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation ( http://arxiv.org/abs/2309.12303v5 )

ライセンス: Link先を確認
Shilin Yan, Xiaohao Xu, Renrui Zhang, Lingyi Hong, Wenchao Chen, Wenqiang Zhang, Wei Zhang, (参考訳) パノラマビデオには、より豊かな空間情報が含まれており、自律運転やバーチャルリアリティといったいくつかの分野での例外的な経験から、非常に多くの注目を集めている。 しかし、既存のビデオセグメンテーション用データセットは、従来の平面画像のみに焦点を当てている。 本論文では,パノラマビデオデータセットであるパノVOSを提案する。 データセットは150本のビデオに高解像度と多様なモーションを提供する。 2次元平面ビデオとパノラマビデオの領域ギャップを定量化するために,パノVOSを用いた15のオフ・ザ・シェルフビデオオブジェクトセグメンテーション(VOS)モデルを評価した。 エラー解析により、パノラマビデオの画素レベルのコンテンツ不連続に対処できないことが判明した。 そこで我々は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に活用できるパノラマ空間整合変換器(PSCFormer)を提案する。 我々のPSCFormerネットワークは,従来のSOTAモデルと比較して,パノラマ条件下でのセグメンテーション結果において大きな優位性を示す。 我々のデータセットはパノラマVOSに新たな課題をもたらしており、パノラマVOSがパノラマセグメンテーション/トラッキングの開発を前進させることを期待しています。

Panoramic videos contain richer spatial information and have attracted tremendous amounts of attention due to their exceptional experience in some fields such as autonomous driving and virtual reality. However, existing datasets for video segmentation only focus on conventional planar images. To address the challenge, in this paper, we present a panoramic video dataset, PanoVOS. The dataset provides 150 videos with high video resolutions and diverse motions. To quantify the domain gap between 2D planar videos and panoramic videos, we evaluate 15 off-the-shelf video object segmentation (VOS) models on PanoVOS. Through error analysis, we found that all of them fail to tackle pixel-level content discontinues of panoramic videos. Thus, we present a Panoramic Space Consistency Transformer (PSCFormer), which can effectively utilize the semantic boundary information of the previous frame for pixel-level matching with the current frame. Extensive experiments demonstrate that compared with the previous SOTA models, our PSCFormer network exhibits a great advantage in terms of segmentation results under the panoramic setting. Our dataset poses new challenges in panoramic VOS and we hope that our PanoVOS can advance the development of panoramic segmentation/tracking.
翻訳日:2024-07-31 00:46:55 公開日:2024-07-28
# 交通予報におけるマスクオートエンコーダのパワーに関する研究

Revealing the Power of Masked Autoencoders in Traffic Forecasting ( http://arxiv.org/abs/2309.15169v2 )

ライセンス: Link先を確認
Jiarui Sun, Yujie Fan, Chin-Chia Michael Yeh, Wei Zhang, Girish Chowdhary, (参考訳) 都市計画に不可欠な交通予測には,都市部における空間的交通パターンの正確な予測が必要である。 既存の研究は主に変数間の空間的時間的依存関係を明示的に捉える複雑なモデルの設計に焦点を当てている。 しかし、この分野はデータ不足とモデルの安定性に関する課題に直面しており、結果としてパフォーマンスが制限される。 これらの問題に対処するために,交通予測における既存の時空間モデルを強化するためのプラグイン・アンド・プレイ・フレームワークSTMAE(Spatial-Temporal Masked AutoEncoders)を提案する。 STMAは2つの学習段階から構成される。 事前訓練段階において、エンコーダは、ランダムウォークベースの空間マスキングやパッチベースの時間マスキングを含む、二重マスキング戦略によって生成された部分的に可視的なトラフィックデータを処理する。 その後、2つのデコーダは、空間的および時間的視点からマスクされたものを再構築することを目的としている。 微調整段階は、事前訓練されたエンコーダを保持し、既存のバックボーンからのデコーダと統合して予測精度を向上させる。 トラフィックベンチマークの結果から,STMAEは様々な時空間モデルの予測能力を大幅に向上させることができることがわかった。

Traffic forecasting, crucial for urban planning, requires accurate predictions of spatial-temporal traffic patterns across urban areas. Existing research mainly focuses on designing complex models that capture spatial-temporal dependencies among variables explicitly. However, this field faces challenges related to data scarcity and model stability, which results in limited performance improvement. To address these issues, we propose Spatial-Temporal Masked AutoEncoders (STMAE), a plug-and-play framework designed to enhance existing spatial-temporal models on traffic prediction. STMAE consists of two learning stages. In the pretraining stage, an encoder processes partially visible traffic data produced by a dual-masking strategy, including biased random walk-based spatial masking and patch-based temporal masking. Subsequently, two decoders aim to reconstruct the masked counterparts from both spatial and temporal perspectives. The fine-tuning stage retains the pretrained encoder and integrates it with decoders from existing backbones to improve forecasting accuracy. Our results on traffic benchmarks show that STMAE can largely enhance the forecasting capabilities of various spatial-temporal models.
翻訳日:2024-07-31 00:46:55 公開日:2024-07-28
# SMPLer-X:表現力のある人文のスケールアップと形状推定

SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation ( http://arxiv.org/abs/2309.17448v3 )

ライセンス: Link先を確認
Zhongang Cai, Wanqi Yin, Ailing Zeng, Chen Wei, Qingping Sun, Yanjun Wang, Hui En Pang, Haiyi Mei, Mingyuan Zhang, Lei Zhang, Chen Change Loy, Lei Yang, Ziwei Liu, (参考訳) 表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。 進歩を奨励しているにもかかわらず、現在の最先端の手法は依然としてトレーニングデータセットの限定的なセットに依存している。 本研究では,VT-Hugeをバックボーンとし,さまざまなデータソースから最大4.5万インスタンスをトレーニングする,最初のジェネラリスト基盤モデル(SMPLer-Xと呼ばれる)へのEHPSのスケールアップについて検討する。 ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。 1) データのスケーリングには,32のEHPSデータセットに対して,単一のデータセットでトレーニングしたモデルでは処理できない幅広いシナリオを含む,体系的な調査を行う。 さらに重要なのは、広範なベンチマークプロセスから得られた洞察を活かして、トレーニングスキームを最適化し、EHPS能力の大幅な飛躍につながるデータセットを選択することです。 2) モデルスケーリングでは,EHPSにおけるモデルサイズのスケーリング法則を研究するために,視覚変換器を利用する。 さらに,我々はSMPLer-Xを専門モデルとし,さらなる性能向上を実現した。 AGORA (107.2 mm NMVE)、UBody (57.4 mm PVE)、EgoBody (63.6 mm PVE)、EHF (62.3 mm PVE) の7つのベンチマークに対して、我々の基礎モデルSMPLer-Xは一貫して最先端の結果を提供する。 ホームページ:https://caizhongang.github.io/projects/SMPLer-X/

Expressive human pose and shape estimation (EHPS) unifies body, hands, and face motion capture with numerous applications. Despite encouraging progress, current state-of-the-art methods still depend largely on a confined set of training datasets. In this work, we investigate scaling up EHPS towards the first generalist foundation model (dubbed SMPLer-X), with up to ViT-Huge as the backbone and training with up to 4.5M instances from diverse data sources. With big data and the large model, SMPLer-X exhibits strong performance across diverse test benchmarks and excellent transferability to even unseen environments. 1) For the data scaling, we perform a systematic investigation on 32 EHPS datasets, including a wide range of scenarios that a model trained on any single dataset cannot handle. More importantly, capitalizing on insights obtained from the extensive benchmarking process, we optimize our training scheme and select datasets that lead to a significant leap in EHPS capabilities. 2) For the model scaling, we take advantage of vision transformers to study the scaling law of model sizes in EHPS. Moreover, our finetuning strategy turn SMPLer-X into specialist models, allowing them to achieve further performance boosts. Notably, our foundation model SMPLer-X consistently delivers state-of-the-art results on seven benchmarks such as AGORA (107.2 mm NMVE), UBody (57.4 mm PVE), EgoBody (63.6 mm PVE), and EHF (62.3 mm PVE without finetuning). Homepage: https://caizhongang.github.io/projects/SMPLer-X/
翻訳日:2024-07-31 00:46:55 公開日:2024-07-28
# 分子コンフォーマーのアンサンブルに関する学習:データセットとベンチマーク

Learning Over Molecular Conformer Ensembles: Datasets and Benchmarks ( http://arxiv.org/abs/2310.00115v2 )

ライセンス: Link先を確認
Yanqiao Zhu, Jeehyun Hwang, Keir Adams, Zhen Liu, Bozhao Nan, Brock Stenfors, Yuanqi Du, Jatin Chauhan, Olaf Wiest, Olexandr Isayev, Connor W. Coley, Yizhou Sun, Wei Wang, (参考訳) 分子表現学習(MRL)は、薬物発見や酵素設計などの多くの生化学的応用に影響を与えている。 グラフニューラルネットワーク(GNN)は、2次元の分子グラフや1つの3次元構造から分子表現を学ぶのに効果的であるが、既存の研究はしばしば分子の柔軟な性質を見落としている。 分子の柔軟性をよりよく説明するために、近年のいくつかの研究は、MRLをアンサンブル学習問題として定式化し、一連のコンフォメータ構造から明示的に学習することに焦点を当てている。 しかしながら、これらの研究のほとんどは、限られたデータセット、タスク、モデルを持っている。 本研究では,コンフォーマー・アンサンブル・ラーニング(MARCEL)ベンチマークを初めて導入し,コンフォーマー・アンサンブルで学習する可能性を徹底的に評価し,有望な研究方向性を提案する。 MARCELは、有機触媒や遷移金属触媒を含む化学的に多様な分子の分子レベルおよび反応レベルの性質をカバーする4つのデータセットを含む。 さらに,1次元,2次元,3次元の分子表現学習モデルをベンチマークし,コンフォーマアンサンブルを3次元MRLモデルに明示的に組み込む2つの戦略を総合的な実証研究として実施する。 その結果,コンバータ空間から直接学習することで,様々なタスクやモデルの性能向上が期待できることがわかった。

Molecular Representation Learning (MRL) has proven impactful in numerous biochemical applications such as drug discovery and enzyme design. While Graph Neural Networks (GNNs) are effective at learning molecular representations from a 2D molecular graph or a single 3D structure, existing works often overlook the flexible nature of molecules, which continuously interconvert across conformations via chemical bond rotations and minor vibrational perturbations. To better account for molecular flexibility, some recent works formulate MRL as an ensemble learning problem, focusing on explicitly learning from a set of conformer structures. However, most of these studies have limited datasets, tasks, and models. In this work, we introduce the first MoleculAR Conformer Ensemble Learning (MARCEL) benchmark to thoroughly evaluate the potential of learning on conformer ensembles and suggest promising research directions. MARCEL includes four datasets covering diverse molecule- and reaction-level properties of chemically diverse molecules including organocatalysts and transition-metal catalysts, extending beyond the scope of common GNN benchmarks that are confined to drug-like molecules. In addition, we conduct a comprehensive empirical study, which benchmarks representative 1D, 2D, and 3D molecular representation learning models, along with two strategies that explicitly incorporate conformer ensembles into 3D MRL models. Our findings reveal that direct learning from an accessible conformer space can improve performance on a variety of tasks and models.
翻訳日:2024-07-31 00:46:55 公開日:2024-07-28
# マルチラウンドマルチエージェントゲームにおける多言語多言語言語モデルの進化

Evolving Diverse Red-team Language Models in Multi-round Multi-agent Games ( http://arxiv.org/abs/2310.00322v5 )

ライセンス: Link先を確認
Chengdong Ma, Ziran Yang, Hai Ci, Jun Gao, Minquan Gao, Xuehai Pan, Yaodong Yang, (参考訳) LLM(Large Language Model)のデプロイにおける最大の課題は、その無害性を保証することだ。 Redチームは、LLMを攻撃して安全性を確保することで脆弱性を特定することができる。 しかしながら、現在の取り組みは単一ラウンドのプロンプト設計と、固定ブルーチームに対する一方的なレッドチームの最適化に大きく依存しています。 これらの静的アプローチは、モード崩壊として知られる世代多様性を著しく低下させ、複雑化する人間-LLM相互作用の潜在的なリスクを発見するのが困難になる。 ここでは、レッドチームとブルーチーム間のマルチラウンド攻撃的および防御的相互作用を包括的に分析する動的レッドチームゲーム(RTG)を紹介します。 さらに,モード崩壊を緩和し,両チームにとってより良い戦略をもたらす近似的なナッシュ均衡の収束を理論的に保証するための多様性対策を備えたGamified Red Team Solver (GRTS) を開発した。 実験の結果、GRTSは様々なLSMを適応的に活用し、特定のモードの制約を超える多様な暗黙の攻撃を探索している。 赤チームのタスクの幾何学的構造は、回転するトップ仮説と一致し、異質な人間専門家のレッドチームのための有望なプロキシとして、多様なLLM人口を構築する必要性を確認します。 これにより、LSMのスケーラブルな毒性検出と安全なアライメントを実現することができる。

The primary challenge in deploying Large Language Model (LLM) is ensuring its harmlessness. Red team can identify vulnerabilities by attacking LLM to attain safety. However, current efforts heavily rely on single-round prompt designs and unilateral red team optimizations against fixed blue teams. These static approaches lead to significant reductions in generation diversity, known as the mode collapse, which makes it difficult to discover the potential risks in the increasingly complex human-LLM interactions. Here we introduce dynamic Red Team Game (RTG) to comprehensively analyze the multi-round offensive and defensive interactions between red team and blue team. Furthermore, we develop a Gamified Red Team Solver (GRTS) with diversity measures to mitigate mode collapse and theoretically guarantee the convergence of approximate Nash equilibrium which results in better strategies for both teams. Empirical results demonstrate that GRTS explore diverse and implicit attacks to adaptively exploit various LLMs, surpassing the constraints of specific modes. Insightfully, the geometrical structure we unveil of the red team task aligns with the spinning top hypothesis, confirming the necessity of constructing a diverse LLM population as a promising proxy for heterogeneous human expert red-teamers. This paves the way for scalable toxicity detection and safe alignment for LLMs.
翻訳日:2024-07-31 00:46:55 公開日:2024-07-28
# FLAIM: フェデレート設定におけるAIMに基づく合成データ生成

FLAIM: AIM-based Synthetic Data Generation in the Federated Setting ( http://arxiv.org/abs/2310.03447v3 )

ライセンス: Link先を確認
Samuel Maddock, Graham Cormode, Carsten Maple, (参考訳) 個人のプライバシを保護し、協力的なデータ共有を可能にすることは、組織にとって非常に重要です。 合成データ生成は、プライベートデータの統計特性を反映した人工データを生成する1つのソリューションである。 差分プライバシーの下で多くのテクニックが考案されているが、彼らは主にデータが集中していると仮定している。 しかし、データは複数のクライアントにフェデレートされた方法で分散されることが多い。 本研究では,連合型合成表データ生成の研究を開始する。 AIM と呼ばれる SOTA 中央手法に基づいて,DistAIM と FLAIM を提示する。 まず、AIMの配布が簡単であることを示し、新たなオーバーヘッドを必要とするセキュアなマルチパーティ計算に基づく最近のアプローチを拡張し、フェデレーションシナリオには適さないことを示す。 以上の結果から, 鼻性統合型AIMは, 不均一性の存在下, 実用性を大幅に劣化させる可能性が示唆された。 両問題を緩和するために、異質性のプライベートプロキシを維持する拡張FLAIMアプローチを提案する。 ヘテロジニティの度合いが異なるベンチマークデータセットの範囲でメソッドをシミュレートし、オーバーヘッドを減らしながら有効性を向上できることを示す。

Preserving individual privacy while enabling collaborative data sharing is crucial for organizations. Synthetic data generation is one solution, producing artificial data that mirrors the statistical properties of private data. While numerous techniques have been devised under differential privacy, they predominantly assume data is centralized. However, data is often distributed across multiple clients in a federated manner. In this work, we initiate the study of federated synthetic tabular data generation. Building upon a SOTA central method known as AIM, we present DistAIM and FLAIM. We first show that it is straightforward to distribute AIM, extending a recent approach based on secure multi-party computation which necessitates additional overhead, making it less suited to federated scenarios. We then demonstrate that naively federating AIM can lead to substantial degradation in utility under the presence of heterogeneity. To mitigate both issues, we propose an augmented FLAIM approach that maintains a private proxy of heterogeneity. We simulate our methods across a range of benchmark datasets under different degrees of heterogeneity and show we can improve utility while reducing overhead.
翻訳日:2024-07-31 00:46:55 公開日:2024-07-28
# パラメータ効率適応による不規則なモーダリティをもつロバストマルチモーダル学習

Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation ( http://arxiv.org/abs/2310.03986v4 )

ライセンス: Link先を確認
Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif, (参考訳) マルチモーダル学習は、下流タスクの全体的なパフォーマンスを改善するために、複数のソースからのデータを活用することを目指している。 データの冗長性は、いくつかの相関したモードでの欠落や破損した観察に対して、マルチモーダルシステムを堅牢にすることが望ましい。 しかし,複数の既存マルチモーダルネットワークの性能は,テスト時に1つまたは複数のモーダルが欠落した場合に著しく低下する。 モダリティの欠如に対するロバスト性を実現するために,事前学習型マルチモーダルネットワークに対する単純かつパラメータ効率の良い適応手法を提案する。 特に、欠落したモダリティを補うために中間特徴の変調を利用する。 このような適応は、モダリティの欠如による性能低下を部分的に橋渡しし、利用可能なモダリティの組み合わせのために訓練された独立した専用ネットワークよりも優れていることを示す。 提案手法の適応には極めて少数のパラメータ(例えば全パラメータの1%未満)が必要であり、幅広いモダリティの組み合わせやタスクに適用できる。 7つのデータセットにまたがる5つの異なるマルチモーダルタスクにおいて、提案手法の欠如したモダリティロバスト性を明らかにするために、一連の実験を行った。 提案手法は,様々なタスクやデータセットにまたがる汎用性を実証し,モダリティの欠如による頑健なマルチモーダル学習法よりも優れていることを示す。

Multimodal learning seeks to utilize data from multiple sources to improve the overall performance of downstream tasks. It is desirable for redundancies in the data to make multimodal systems robust to missing or corrupted observations in some correlated modalities. However, we observe that the performance of several existing multimodal networks significantly deteriorates if one or multiple modalities are absent at test time. To enable robustness to missing modalities, we propose a simple and parameter-efficient adaptation procedure for pretrained multimodal networks. In particular, we exploit modulation of intermediate features to compensate for the missing modalities. We demonstrate that such adaptation can partially bridge performance drop due to missing modalities and outperform independent, dedicated networks trained for the available modality combinations in some cases. The proposed adaptation requires extremely small number of parameters (e.g., fewer than 1% of the total parameters) and applicable to a wide range of modality combinations and tasks. We conduct a series of experiments to highlight the missing modality robustness of our proposed method on five different multimodal tasks across seven datasets. Our proposed method demonstrates versatility across various tasks and datasets, and outperforms existing methods for robust multimodal learning with missing modalities.
翻訳日:2024-07-31 00:36:23 公開日:2024-07-28
# 量子状態判別のための古典的シミュラブル測定の限界

Limitations of Classically-Simulable Measurements for Quantum State Discrimination ( http://arxiv.org/abs/2310.11323v2 )

ライセンス: Link先を確認
Chengkai Zhu, Zhiping Liu, Chenghong Zhu, Xin Wang, (参考訳) フォールトトレラント量子コンピューティングの分野では、スタビライザー演算は古典シミュレーションにおける顕著な効率を特徴とする重要な役割を担っている。 この効率性は、量子計算理論における非安定化器演算とは分離する。 本稿では,量子状態の区別における古典的シミュラブル測定の限界について検討する。 任意の純魔法状態とその奇素次元の直交補集合が、状態のコピー数に関係なく、安定化操作によって明確に区別できないことを実証する。 また、魔術状態の量子資源理論と量子状態の識別における絡み合いの間に固有の類似点と区別を明らかにする。 この結果は古典的にシミュレート可能な測定の固有の限界を強調し、量子古典境界の深い理解に寄与する。

In the realm of fault-tolerant quantum computing, stabilizer operations play a pivotal role, characterized by their remarkable efficiency in classical simulation. This efficiency sets them apart from non-stabilizer operations within the quantum computational theory. In this Letter, we investigate the limitations of classically-simulable measurements in distinguishing quantum states. We demonstrate that any pure magic state and its orthogonal complement of odd prime dimensions cannot be unambiguously distinguished by stabilizer operations, regardless of how many copies of the states are supplied. We also reveal intrinsic similarities and distinctions between the quantum resource theories of magic states and entanglement in quantum state discrimination. The results emphasize the inherent limitations of classically-simulable measurements and contribute to a deeper understanding of the quantum-classical boundary.
翻訳日:2024-07-31 00:36:23 公開日:2024-07-28
# 太陽光発電による電気自動車充電のための学習強化スケジューリング

Learning-Augmented Scheduling for Solar-Powered Electric Vehicle Charging ( http://arxiv.org/abs/2311.05941v2 )

ライセンス: Link先を確認
Tongxin Li, Chenxi Sun, (参考訳) 我々は、電気自動車(EV)にアウト・オブ・ディストリビューション(OOD)データで充電することを学ぶという課題に取り組む。 従来のスケジューリングアルゴリズムは、特にOODデータにおいて、ほぼ最適に近い平均性能と最悪のケース保証とのバランスが取れない。 モデル予測制御(MPC)は保守的すぎることが多く、データに依存しないことが多いが、強化学習(RL)は過度に攻撃的であり、データを完全に信頼する傾向にあり、常に最高の世界を達成する能力を妨げる。 このギャップを埋めるために,OOD-Chargingと呼ばれる新しいOOD対応スケジューリングアルゴリズムを導入する。 このアルゴリズムは動的「認識半径」を用いており、OODの重大さを反映した時間差差(TD)エラーに基づいてリアルタイムで更新される。 OOD-Chargingアルゴリズムは、EV充電スケジュールにおける一貫性と堅牢性のバランスをより効果的にし、現実世界の充電環境における適応性と効率を大幅に向上させる。 提案手法は,Caltech ACN-Dataにおける新型コロナウイルスによるEV充電行動の顕著な変化により,実際のOODシナリオ下でのスケジューリング報酬を確実に改善することを示す。

We tackle the challenge of learning to charge Electric Vehicles (EVs) with Out-of-Distribution (OOD) data. Traditional scheduling algorithms typically fail to balance near-optimal average performance with worst-case guarantees, particularly with OOD data. Model Predictive Control (MPC) is often too conservative and data-independent, whereas Reinforcement Learning (RL) tends to be overly aggressive and fully trusts the data, hindering their ability to consistently achieve the best-of-both-worlds. To bridge this gap, we introduce a novel OOD-aware scheduling algorithm, denoted OOD-Charging. This algorithm employs a dynamic "awareness radius", which updates in real-time based on the Temporal Difference (TD)-error that reflects the severity of OOD. The OOD-Charging algorithm allows for a more effective balance between consistency and robustness in EV charging schedules, thereby significantly enhancing adaptability and efficiency in real-world charging environments. Our results demonstrate that this approach improves the scheduling reward reliably under real OOD scenarios with remarkable shifts of EV charging behaviors caused by COVID-19 in the Caltech ACN-Data.
翻訳日:2024-07-31 00:36:23 公開日:2024-07-28
# 超並列計算のための整数リストとして格納された多項式ラディクス2指数の集合として表される2の補数加算による高速な乗算

Fast multiplication by two's complement addition of numbers represented as a set of polynomial radix 2 indexes, stored as an integer list for massively parallel computation ( http://arxiv.org/abs/2311.09922v3 )

ライセンス: Link先を確認
Mark Stocks, (参考訳) 整数リストとして格納された多項式ラディクス2指標の集合として表される数に基づく乗法を示す。 Polynomial integer index multiplication' は、ピソン符号で実装されたアルゴリズムの集合である。 本研究では,Number Theoretic Transform (NTT) とKaratsuba より高速な乗算法を示す。 また、ピソン符号で多項式ラディクス2整数法と比較するためにも実装された。 基底2の有限級数を表す整数指標のリストとして、任意の整数あるいは実数を表現できることを実証する。 数値の整数インデックス表現の有限列は、複数のCPU/GPU間で保存および分散することができる。 加算と乗算の操作は、インデックス整数表現で操作する2つの補完的な加算として適用でき、与えられたCPU/GPUアーキテクチャで完全に分散可能であることを示す。 本稿では,「多項式整数指数乗算法」が並列乗算法の現在の制限を克服するように,完全に分散された算術演算を実証する。 すなわち、結果の計算と中間結果の計算に共通コアメモリと共通ディスクを共有する必要がある。

We demonstrate a multiplication method based on numbers represented as set of polynomial radix 2 indices stored as an integer list. The 'polynomial integer index multiplication' method is a set of algorithms implemented in python code. We demonstrate the method to be faster than both the Number Theoretic Transform (NTT) and Karatsuba for multiplication within a certain bit range. Also implemented in python code for comparison purposes with the polynomial radix 2 integer method. We demonstrate that it is possible to express any integer or real number as a list of integer indices, representing a finite series in base two. The finite series of integer index representation of a number can then be stored and distributed across multiple CPUs / GPUs. We show that operations of addition and multiplication can be applied as two's complement additions operating on the index integer representations and can be fully distributed across a given CPU / GPU architecture. We demonstrate fully distributed arithmetic operations such that the 'polynomial integer index multiplication' method overcomes the current limitation of parallel multiplication methods. Ie, the need to share common core memory and common disk for the calculation of results and intermediate results.
翻訳日:2024-07-31 00:26:37 公開日:2024-07-28
# 自律運転のための言語エージェント

A Language Agent for Autonomous Driving ( http://arxiv.org/abs/2311.10813v4 )

ライセンス: Link先を確認
Jiageng Mao, Junjie Ye, Yuxi Qian, Marco Pavone, Yue Wang, (参考訳) 人間レベルの運転は、自動運転の究極の目標である。 従来のアプローチでは、自律運転を知覚予測計画の枠組みとして定式化しているが、そのシステムは人間の固有の推論能力や経験的知識を生かしてはいない。 本稿では,人間のような知性を自律運転システムに統合する認知エージェントとして,Large Language Models (LLMs) を利用した現行のパイプラインからの基本パラダイムシフトを提案する。 Agent-Driverと呼ばれる私たちのアプローチは、関数呼び出しを介してアクセス可能な汎用ツールライブラリ、共通感覚の認知記憶と意思決定に関する経験的知識、そしてチェーン・オブ・ソート推論、タスク・プランニング、モーション・プランニング、セルフリフレクションが可能な推論エンジンを導入することによって、従来の自律走行パイプラインを変革します。 LLMによって駆動されるエージェントドライブには直感的な常識と頑健な推論能力が備わっており、自動運転に対する人間的なアプローチをより微妙に実現しています。 我々は,大規模なnuScenesベンチマークに対するアプローチを評価し,Agent-Driverが最先端の駆動方法よりも大きなマージンで優れていることを実証した。 また,本手法は,これらの手法に対して,優れた解釈可能性と数発の学習能力を示す。

Human-level driving is an ultimate goal of autonomous driving. Conventional approaches formulate autonomous driving as a perception-prediction-planning framework, yet their systems do not capitalize on the inherent reasoning ability and experiential knowledge of humans. In this paper, we propose a fundamental paradigm shift from current pipelines, exploiting Large Language Models (LLMs) as a cognitive agent to integrate human-like intelligence into autonomous driving systems. Our approach, termed Agent-Driver, transforms the traditional autonomous driving pipeline by introducing a versatile tool library accessible via function calls, a cognitive memory of common sense and experiential knowledge for decision-making, and a reasoning engine capable of chain-of-thought reasoning, task planning, motion planning, and self-reflection. Powered by LLMs, our Agent-Driver is endowed with intuitive common sense and robust reasoning capabilities, thus enabling a more nuanced, human-like approach to autonomous driving. We evaluate our approach on the large-scale nuScenes benchmark, and extensive experiments substantiate that our Agent-Driver significantly outperforms the state-of-the-art driving methods by a large margin. Our approach also demonstrates superior interpretability and few-shot learning ability to these methods.
翻訳日:2024-07-31 00:26:37 公開日:2024-07-28
# 深い)線形ニューラルネットワークにおける重み変動と逆分散平坦性関係の導出

Weight fluctuations in (deep) linear neural networks and a derivation of the inverse-variance flatness relation ( http://arxiv.org/abs/2311.14120v4 )

ライセンス: Link先を確認
Markus Gross, Arne P. Raulf, Christoph Räth, (参考訳) 合成ガウスデータに対する確率勾配勾配勾配(SGD)の連続限界における1層および2層の線形ニューラルネットワークの定常的(リアルタイム)訓練条件について検討した。 弱いパラメータ化状態の単一層ネットワークの場合、ノイズ共分散行列のスペクトルは特にヘシアンから逸脱し、これはSGD力学の詳細なバランスの破れに起因する。 この場合の重量変動は概して異方性であるが、実質的に等方性損失を経験する。 低パラメータ化された2層ネットワークでは、各層における重みの確率力学を記述し、関連する定常共分散を解析する。 我々は, 層間結合を重み変動の異方性の発生源として同定した。 単層の場合とは対照的に、重み変動は実質的に異方性損失を受けており、その平坦度は揺らぎ変動と逆関係である。 そこで我々は,最近観測された逆分散-平坦性関係を,ディープ線形ニューラルネットワークのモデルで解析的に導出した。

We investigate the stationary (late-time) training regime of single- and two-layer underparameterized linear neural networks within the continuum limit of stochastic gradient descent (SGD) for synthetic Gaussian data. In the case of a single-layer network in the weakly underparameterized regime, the spectrum of the noise covariance matrix deviates notably from the Hessian, which can be attributed to the broken detailed balance of SGD dynamics. The weight fluctuations are in this case generally anisotropic, but effectively experience an isotropic loss. For an underparameterized two-layer network, we describe the stochastic dynamics of the weights in each layer and analyze the associated stationary covariances. We identify the inter-layer coupling as a distinct source of anisotropy for the weight fluctuations. In contrast to the single-layer case, the weight fluctuations are effectively subject to an anisotropic loss, the flatness of which is inversely related to the fluctuation variance. We thereby provide an analytical derivation of the recently observed inverse variance-flatness relation in a model of a deep linear neural network.
翻訳日:2024-07-31 00:26:37 公開日:2024-07-28
# Animatable 3D Gaussian: 複数のヒトアバターの高速かつ高品質な再構成

Animatable 3D Gaussian: Fast and High-Quality Reconstruction of Multiple Human Avatars ( http://arxiv.org/abs/2311.16482v3 )

ライセンス: Link先を確認
Yang Liu, Xiang Huang, Minghan Qin, Qinwei Lin, Haoqian Wang, (参考訳) 神経放射場は、高品質な乾燥可能な人間のアバターを再構築することができるが、訓練やレンダリングには高価であり、複雑な影を持つ複数の人間のシーンには適さない。 本稿では,入力画像とポーズから人間のアバターを学習するAnimatable 3D Gaussianを提案する。 我々は3次元ガウスアンを3次元ガウスアンと対応する骨格を標準空間でモデル化し、入力されたポーズに応じて3次元ガウスアンを空間に変形させることにより、ダイナミックな人間のシーンに拡張する。 複雑な動きとダイナミックシャドウを含むシーンにおける高品質な再構成を実現するために,ポーズ依存型形状と外観のためのマルチヘッドハッシュエンコーダと時間依存型環境閉塞モジュールを導入する。 InstantAvatarよりもトレーニング時間(1/60)が少なく、GPUメモリ(1/4)が少なく、レンダリング速度(7x)が速い。 本手法は,25秒のトレーニングで10人のシーンにおいて,複数のシーンに容易に拡張可能であり,それと同等の新規なビュー合成結果が得られる。

Neural radiance fields are capable of reconstructing high-quality drivable human avatars but are expensive to train and render and not suitable for multi-human scenes with complex shadows. To reduce consumption, we propose Animatable 3D Gaussian, which learns human avatars from input images and poses. We extend 3D Gaussians to dynamic human scenes by modeling a set of skinned 3D Gaussians and a corresponding skeleton in canonical space and deforming 3D Gaussians to posed space according to the input poses. We introduce a multi-head hash encoder for pose-dependent shape and appearance and a time-dependent ambient occlusion module to achieve high-quality reconstructions in scenes containing complex motions and dynamic shadows. On both novel view synthesis and novel pose synthesis tasks, our method achieves higher reconstruction quality than InstantAvatar with less training time (1/60), less GPU memory (1/4), and faster rendering speed (7x). Our method can be easily extended to multi-human scenes and achieve comparable novel view synthesis results on a scene with ten people in only 25 seconds of training.
翻訳日:2024-07-31 00:26:37 公開日:2024-07-28
# ハミルトンシミュレーションによる反応流の量子計算

Quantum computing of reacting flows via Hamiltonian simulation ( http://arxiv.org/abs/2312.07893v3 )

ライセンス: Link先を確認
Zhen Lu, Yue Yang, (参考訳) ハミルトン力学をシミュレートして反応流の量子計算を報告する。 反応する流れに対するスカラー輸送方程式はハミルトン系に変換され、物理空間における散逸的および非エルミート問題と高次元空間におけるエルミート問題とをマッピングする。 本手法を用いて, 周期的および一般条件下での反応流をシミュレーションする量子スペクトル法と有限差分法を開発した。 現在の量子コンピューティングアルゴリズムは、時間的離散化を伴わずに、反復的な量子状態の準備と測定を回避して、所定の時間に '`one-shot'' ソリューションを提供する。 量子および古典的アルゴリズムの計算複雑性を比較する。 量子スペクトル法は古典的手法と比較して指数加速度を示し、量子有限差分法は高次元問題において指数速度を達成できる。 量子アルゴリズムはQiskitパッケージを用いて量子コンピューティングシミュレータ上で検証される。 検証ケースは、線形ソース項と周期的またはインレット・アウトレット境界条件を持つ1次元および2次元の反応流をカバーしている。 量子スペクトル法と有限差分法から得られた結果は、解析的および古典的なシミュレーション結果と一致する。 対流、拡散、反応の過程を正確に捉えている。 このことは、燃焼中の反応性の流れをシミュレーションするための効率的なツールとしての量子コンピューティングの可能性を示している。

We report the quantum computing of reacting flows by simulating the Hamiltonian dynamics. The scalar transport equation for reacting flows is transformed into a Hamiltonian system, mapping the dissipative and non-Hermitian problem in physical space to a Hermitian one in a higher-dimensional space. Using this approach, we develop the quantum spectral and finite difference methods for simulating reacting flows in periodic and general conditions, respectively. The present quantum computing algorithms offer a ``one-shot'' solution for a given time without temporal discretization, avoiding iterative quantum state preparation and measurement. We compare computational complexities of the quantum and classical algorithms. The quantum spectral method exhibits exponential acceleration relative to its classical counterpart, and the quantum finite difference method can achieve exponential speedup in high-dimensional problems. The quantum algorithms are validated on quantum computing simulators with the Qiskit package. The validation cases cover one- and two-dimensional reacting flows with a linear source term and periodic or inlet-outlet boundary conditions. The results obtained from the quantum spectral and finite difference methods agree with analytical and classical simulation results. They accurately capture the convection, diffusion, and reaction processes. This demonstrates the potential of quantum computing as an efficient tool for the simulation of reactive flows in combustion.
翻訳日:2024-07-31 00:26:37 公開日:2024-07-28
# 重み付きアンサンブルモデルは強力な継続的な学習者である

Weighted Ensemble Models Are Strong Continual Learners ( http://arxiv.org/abs/2312.08977v3 )

ライセンス: Link先を確認
Imad Eddine Marouf, Subhankar Roy, Enzo Tartaglione, Stéphane Lathuilière, (参考訳) 本研究では,タスクのシーケンス上でモデルを学習することを目的とした連続学習(CL)の問題について検討する。 CLは基本的に、新しいタスク(可塑性)で学習できることと、以前に学んだ概念(安定性)のパフォーマンスを維持することのバランスをとる行為である。 安定性と塑性のトレードオフに対処するため,従来の課題と現在の課題のモデルパラメータを重み付けする手法を提案する。 連続モデル平均化(Continual Model Averaging, CoMA)と呼ばれるこの重み付きアンサンブルモデルでは, 可塑性を利用して, 従来の重み設定から過度に逸脱せず, 安定性を確保しながら, 現在の作業において高い精度を達成している。 また、モデル重みのフィッシャー情報を活用することにより、重みアンサンブル内の各パラメータを選択的に重み付けする改良型CoMA(Continuous Fisher-weighted Model Averaging, CoFiMA)を提案する。 どちらの変種も概念的には単純で実装が容易で、いくつかの標準CLベンチマークで最先端のパフォーマンスを達成するのに効果的である。 コードは、https://github.com/IemProg/CoFiMA.comで入手できる。

In this work, we study the problem of continual learning (CL) where the goal is to learn a model on a sequence of tasks, such that the data from the previous tasks becomes unavailable while learning on the current task data. CL is essentially a balancing act between being able to learn on the new task (i.e., plasticity) and maintaining the performance on the previously learned concepts (i.e., stability). Intending to address the stability-plasticity trade-off, we propose to perform weight-ensembling of the model parameters of the previous and current tasks. This weighted-ensembled model, which we call Continual Model Averaging (or CoMA), attains high accuracy on the current task by leveraging plasticity, while not deviating too far from the previous weight configuration, ensuring stability. We also propose an improved variant of CoMA, named Continual Fisher-weighted Model Averaging (or CoFiMA), that selectively weighs each parameter in the weights ensemble by leveraging the Fisher information of the weights of the model. Both variants are conceptually simple, easy to implement, and effective in attaining state-of-the-art performance on several standard CL benchmarks. Code is available at: https://github.com/IemProg/CoFiMA.
翻訳日:2024-07-31 00:26:37 公開日:2024-07-28
# バランスモード選択によるマルチモーダル・フェデレーション学習におけるモーダルバイアスの超過

Overcome Modal Bias in Multi-modal Federated Learning via Balanced Modality Selection ( http://arxiv.org/abs/2401.00403v2 )

ライセンス: Link先を確認
Yunfeng Fan, Wenchao Xu, Haozhao Wang, Fushuo Huo, Jinyu Chen, Song Guo, (参考訳) 各フェデレートラーニング(FL)ラウンドに参加する適切なクライアントを選択することは、広範囲の分散データを効果的に活用するために重要である。 既存のクライアント選択法は、分散ユニモーダルデータのマイニングを単純に考慮するが、その効果はマルチモーダルFL(MFL)において減少する可能性がある。 実験により,特定の単一モードの局所的なトレーニングが,すべての局所的なモダリティのトレーニングよりもグローバルなモデルに寄与することを明らかにする。 分散多重モードを効果的に活用するために,MFL (BMSFed) のための新しい平衡モード選択フレームワークを提案する。 一方,本研究では,グローバルプロトタイプを集約した局所的不均衡を軽減するため,局所訓練中のモーダルエンハンスメント損失を緩和する手法を提案する。 一方,局所的なモダリティのサブセットを多様に選択し,同時にグローバルなモダリティバランスを実現することを目的としたモダリティ選択を提案する。 音声・視覚・色調・フロントバックデータセットに関する広範な実験は、BMSFがベースラインよりも優れていること、およびマルチモーダルデータエクスプロイトにおける有効性を示している。

Selecting proper clients to participate in each federated learning (FL) round is critical to effectively harness a broad range of distributed data. Existing client selection methods simply consider the mining of distributed uni-modal data, yet, their effectiveness may diminish in multi-modal FL (MFL) as the modality imbalance problem not only impedes the collaborative local training but also leads to a severe global modality-level bias. We empirically reveal that local training with a certain single modality may contribute more to the global model than training with all local modalities. To effectively exploit the distributed multiple modalities, we propose a novel Balanced Modality Selection framework for MFL (BMSFed) to overcome the modal bias. On the one hand, we introduce a modal enhancement loss during local training to alleviate local imbalance based on the aggregated global prototypes. On the other hand, we propose the modality selection aiming to select subsets of local modalities with great diversity and achieving global modal balance simultaneously. Our extensive experiments on audio-visual, colored-gray, and front-back datasets showcase the superiority of BMSFed over baselines and its effectiveness in multi-modal data exploitation.
翻訳日:2024-07-31 00:16:53 公開日:2024-07-28
# イメージセグメンテーションのためのダブルウェルネット

Double-well Net for Image Segmentation ( http://arxiv.org/abs/2401.00456v2 )

ライセンス: Link先を確認
Hao Liu, Jun Liu, Raymond H. Chan, Xue-Cheng Tai, (参考訳) 本研究では,Double-well Netsとして知られる画像セグメンテーションのための2つの新しいディープニューラルネットワークモデルを導入することで,古典的数理モデルとディープニューラルネットワークを統合することを目的とする。 Pottsモデルからインスピレーションを得た私たちのモデルは、ニューラルネットワークを活用して、領域の力関数を表現する。 我々は、よく知られた MBO (Merriman-Bence-Osher) スキームを拡張して、ポッツモデルを解く。 広く認識されているポッツモデルはダブルウェルポテンシャルを用いて近似され、演算子分割法により解かれるが、これはよく知られたMBOスキームの拡張であることが判明した。 次に、Pottsモデルにおける領域力関数を、データ駆動型で画像のマルチスケールな特徴を捉えるように設計されたUNet型ネットワークに置き換え、有効性を高めるために制御変数を導入する。 結果として得られるアルゴリズムは、二重井戸ポテンシャルを最小化する関数によって活性化されるニューラルネットワークである。 画像セグメンテーションのための多くの既存のディープラーニング手法と異なり、提案したダブルウェルネットは強力な数学的基礎である。 これらはネットワーク近似理論から派生したもので、MBOスキームを用いてポッツモデルを大まかに解く。 数学的原理を取り入れることで、ダブルウェルネットはMBOスキームとニューラルネットワークを橋渡し、数学的背景を持つネットワークを設計するための代替の視点を提供する。 包括的実験により、ダブルウェルネットの性能を実証し、最先端のニューラルネットワークと比較して精度と堅牢性を示す。 全体として、我々の研究は、古典的変動モデルとディープニューラルネットワークの強みを組み合わせることで、画像セグメンテーションの分野への貴重な貢献を表している。 ダブルウェルネットは、セグメンテーション性能を高めるために数学的基礎を活用する革新的なアプローチを導入している。

In this study, our goal is to integrate classical mathematical models with deep neural networks by introducing two novel deep neural network models for image segmentation known as Double-well Nets. Drawing inspirations from the Potts model, our models leverage neural networks to represent a region force functional. We extend the well-know MBO (Merriman-Bence-Osher) scheme to solve the Potts model. The widely recognized Potts model is approximated using a double-well potential and then solved by an operator-splitting method, which turns out to be an extension of the well-known MBO scheme. Subsequently, we replace the region force functional in the Potts model with a UNet-type network, which is data-driven and is designed to capture multiscale features of images, and also introduce control variables to enhance effectiveness. The resulting algorithm is a neural network activated by a function that minimizes the double-well potential. What sets our proposed Double-well Nets apart from many existing deep learning methods for image segmentation is their strong mathematical foundation. They are derived from the network approximation theory and employ the MBO scheme to approximately solve the Potts model. By incorporating mathematical principles, Double-well Nets bridge the MBO scheme and neural networks, and offer an alternative perspective for designing networks with mathematical backgrounds. Through comprehensive experiments, we demonstrate the performance of Double-well Nets, showcasing their superior accuracy and robustness compared to state-of-the-art neural networks. Overall, our work represents a valuable contribution to the field of image segmentation by combining the strengths of classical variational models and deep neural networks. The Double-well Nets introduce an innovative approach that leverages mathematical foundations to enhance segmentation performance.
翻訳日:2024-07-31 00:16:53 公開日:2024-07-28
# EraseDiff:拡散モデルにおけるデータ影響の消去

EraseDiff: Erasing Data Influence in Diffusion Models ( http://arxiv.org/abs/2401.05779v3 )

ライセンス: Link先を確認
Jing Wu, Trung Le, Munawar Hayat, Mehrtash Harandi, (参考訳) 本稿では,データ記憶に関する問題に対処するために,拡散モデルのための未学習アルゴリズムであるEraseDiffを紹介する。 提案手法は,非学習課題を制約付き最適化問題として定式化し,保持データに対する拡散モデルの実用性を維持しつつ,忘れられるデータに関連する情報を除去することを目的とする。 これは、生成過程を変更して、地道な装飾手順から逸脱させることによって達成される。 拡散過程に固有の計算複雑性を管理するため,最適化問題を解く一階法を開発した。 大規模な実験と最先端のアルゴリズムとの徹底的な比較は、EraseDiffがモデルの有用性、有効性、効率を効果的に維持していることを示している。

We introduce EraseDiff, an unlearning algorithm designed for diffusion models to address concerns related to data memorization. Our approach formulates the unlearning task as a constrained optimization problem, aiming to preserve the utility of the diffusion model on retained data while removing the information associated with the data to be forgotten. This is achieved by altering the generative process to deviate away from the ground-truth denoising procedure. To manage the computational complexity inherent in the diffusion process, we develop a first-order method for solving the optimization problem, which has shown empirical benefits. Extensive experiments and thorough comparisons with state-of-the-art algorithms demonstrate that EraseDiff effectively preserves the model's utility, efficacy, and efficiency.
翻訳日:2024-07-31 00:16:53 公開日:2024-07-28
# ゼロショットニューラルシーンセグメンテーションのための効率的な特徴予測による3次元ガウスの学習

Learning Segmented 3D Gaussians via Efficient Feature Unprojection for Zero-shot Neural Scene Segmentation ( http://arxiv.org/abs/2401.05925v4 )

ライセンス: Link先を確認
Bin Dou, Tianyu Zhang, Zhaohui Wang, Yongjia Ma, Zejian Yuan, (参考訳) 手動のアノテーションなしで3Dニューラルセグメンテーションフィールドを再構築するゼロショットニューラルシーンセグメンテーションは、シーン理解に有効な方法である。 しかし、既存のモデル、特に効率的な3Dガウス法は、コンパクトなセグメンテーションの結果を生み出すのに苦労している。 この問題は、主に個々のガウスに割り当てられた冗長な学習可能な属性から来ており、ゼロショット生成された原ラベルの3D不整合に対する堅牢性の欠如につながっている。 この問題に対処するため、コンパクトセグメンテッド3Dガウスアン (CoSegGaussians) と名付けられた我々の研究は、高次特徴に基づいてすべてのガウスアンに一般化可能な浅層デコーダを利用するセグメンテーション場としてFeature Unprojection and Fusionモジュールを提案する。 具体的には,学習したガウス幾何学的パラメータを活かしたセマンティック・アウェア・イメージ・ベースの特徴を,提案手法を用いて現場に導入する。 持ち上げられた特徴と空間情報とをマルチスケールアグリゲーションデコーダに入力し、すべてのガウスのセグメンテーションIDを生成する。 さらに,3次元不整合雑音に対するモデルロバスト性を高めるためにCoSeg Lossを設計する。 実験結果から,本モデルがゼロショットセマンティックセグメンテーションタスクのベースラインを超え,最良ベースラインよりも約10%のmIoUの改善が得られた。 コードやその他の結果はhttps://David-Dou.github.io/CoSegGaussians.orgで公開される。

Zero-shot neural scene segmentation, which reconstructs 3D neural segmentation field without manual annotations, serves as an effective way for scene understanding. However, existing models, especially the efficient 3D Gaussian-based methods, struggle to produce compact segmentation results. This issue stems primarily from their redundant learnable attributes assigned on individual Gaussians, leading to a lack of robustness against the 3D-inconsistencies in zero-shot generated raw labels. To address this problem, our work, named Compact Segmented 3D Gaussians (CoSegGaussians), proposes the Feature Unprojection and Fusion module as the segmentation field, which utilizes a shallow decoder generalizable for all Gaussians based on high-level features. Specifically, leveraging the learned Gaussian geometric parameters, semantic-aware image-based features are introduced into the scene via our unprojection technique. The lifted features, together with spatial information, are fed into the multi-scale aggregation decoder to generate segmentation identities for all Gaussians. Furthermore, we design CoSeg Loss to boost model robustness against 3D-inconsistent noises. Experimental results show that our model surpasses baselines on zero-shot semantic segmentation task, improving by ~10% mIoU over the best baseline. Code and more results will be available at https://David-Dou.github.io/CoSegGaussians.
翻訳日:2024-07-31 00:16:53 公開日:2024-07-28
# 量子宇宙論の最終状態:量子後選択効果としての宇宙加速

Final States in Quantum Cosmology: Cosmic Acceleration as a Quantum Post-Selection Effect ( http://arxiv.org/abs/2401.07662v2 )

ライセンス: Link先を確認
Charis Anastopoulos, (参考訳) 標準量子論は、自然統計アンサンブルを前選択と後選択の両方、すなわち初期状態と最終状態の両方に含めることを認めている。 我々は、宇宙論レベルでの最終的な量子状態による確率割り当てを阻止する説得力のある物理的理由は存在しないと論じる。 したがって、量子宇宙論の確率代入における最終状態の影響を解析する。 この目的のために、初期条件と最終条件の両方に従うシステムに対して、有効な古典的な運動方程式を導出する。 注目すべきは、これらの実効方程式は量子論の詳細に依存するのではなく、古典的状態空間の幾何学的特徴にのみ依存するということである。 Friedman-Robertson-Walker宇宙論モデルに適用すると、これらの効果的な方程式は宇宙定数、ダークエネルギー、あるいは修正された重力力学が存在しない場合の宇宙加速を一般化的に記述する。 したがって、宇宙加速は量子後選択効果、すなわちマクロ的な量子現象として現れる。

Standard quantum theory admits naturally statistical ensembles that are both pre-selected and post-selected, i.e., they involve both an initial and a final state. We argue that there is no compelling physical reason to preclude a probability assignment with a final quantum state at the cosmological level. We therefore analyze the implications of a final state in the probability assignment for quantum cosmology. To this end, we derive effective classical equations of motion for systems subject to both initial and final conditions. Remarkably, these effective equations do not depend on the details of the quantum theory, but only on the geometric features of the classical state space. When applied to Friedman-Robertson-Walker cosmological models, these effective equations generically describe cosmic acceleration in the absence of a cosmological constant, dark energy, or modified gravitational dynamics. Therefore, cosmic acceleration emerges as a quantum post-selection effect, that is, a macroscopic quantum phenomenon.
翻訳日:2024-07-31 00:16:53 公開日:2024-07-28
# 量子機械学習におけるセキュリティの優位性:文献レビュー

Predominant Aspects on Security for Quantum Machine Learning: Literature Review ( http://arxiv.org/abs/2401.07774v3 )

ライセンス: Link先を確認
Nicola Franco, Alona Sakhnenko, Leon Stolpmann, Daniel Thuerck, Fabian Petsch, Annika Rüll, Jeanette Miriam Lorenz, (参考訳) 量子機械学習(Quantum Machine Learning, QML)は、計算タスクにおけるブレークスルーの促進を期待して、量子コンピューティングと古典的な機械学習の有望な交差点として登場した。 本稿では,セキュリティ上の懸念と強みがQMLとどのように結びついているのかを,系統的な文献レビューを用いて論じる。 我々は、QMLモデルのセキュリティ、量子アーキテクチャ固有の脆弱性、提案された緩和戦略を分類し、レビューする。 調査によると、QMLは独特な強みを持っているが、古典的なシステムでは見られない新しい攻撃ベクトルも導入されている。 超伝導系のクロストークや、QMLの信頼性を脅かすイオントラップ系の繰り返しシャトル運転など、特定のリスクを指摘した。 しかし、敵対的なトレーニング、量子ノイズの搾取、量子微分プライバシーといったアプローチは、QMLの堅牢性を高める可能性を示している。 本論では,QMLを現実世界のアプリケーションにセキュアに展開するための,継続的な厳密な研究の必要性について論じる。 この研究は、QMLのセキュリティ面をナビゲートすることを目的とした研究者や実践者にとって、基礎的な参考となる。

Quantum Machine Learning (QML) has emerged as a promising intersection of quantum computing and classical machine learning, anticipated to drive breakthroughs in computational tasks. This paper discusses the question which security concerns and strengths are connected to QML by means of a systematic literature review. We categorize and review the security of QML models, their vulnerabilities inherent to quantum architectures, and the mitigation strategies proposed. The survey reveals that while QML possesses unique strengths, it also introduces novel attack vectors not seen in classical systems. We point out specific risks, such as cross-talk in superconducting systems and forced repeated shuttle operations in ion-trap systems, which threaten QML's reliability. However, approaches like adversarial training, quantum noise exploitation, and quantum differential privacy have shown potential in enhancing QML robustness. Our review discuss the need for continued and rigorous research to ensure the secure deployment of QML in real-world applications. This work serves as a foundational reference for researchers and practitioners aiming to navigate the security aspects of QML.
翻訳日:2024-07-31 00:16:53 公開日:2024-07-28
# 拡散モデルにおけるデータ属性:影響推定における時間誘起バイアス

Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation ( http://arxiv.org/abs/2401.09031v3 )

ライセンス: Link先を確認
Tong Xie, Haoyu Li, Andrew Bai, Cho-Jui Hsieh, (参考訳) データ属性メソッドは、モデルの振る舞いをトレーニングデータセットに遡り、‘ブラックボックス’ニューラルネットワークをよりよく理解するための効果的なアプローチを提供する。 従来の研究では、様々な環境でのモデル出力とトレーニングデータの間の定量的なリンクが確立されているが、トレーニングサンプルに関する拡散モデル出力の解釈は未検討のままである。 特に拡散モデルは、過去の文脈における即時的な入出力関係の代わりに一連のタイムステップで動作し、既存のフレームワークを直接拡散モデルに拡張する上で大きな課題となる。 特にDiffusion-TracInは、この時間力学を取り入れ、サンプルの損失勾配ノルムが時間ステップに大きく依存しているのを観察する。 この傾向は、影響推定の顕著なバイアスをもたらし、特に大きなノーム誘導時間ステップで訓練されたサンプルには顕著であり、それらが一般に影響を及ぼす。 この効果を緩和するために、Diffusion-ReTracを、興味のあるサンプルをより対象とするトレーニングサンプルの検索を可能にする再正規化適応として導入し、局所的な影響測定を容易にし、より直感的な可視化を可能にする。 提案手法の有効性を,様々な評価指標と補助的タスクを用いて実証し,一般的な影響力のあるサンプルの量を,元の量の$\frac{1}{3}$に減らした。

Data attribution methods trace model behavior back to its training dataset, offering an effective approach to better understand ''black-box'' neural networks. While prior research has established quantifiable links between model output and training data in diverse settings, interpreting diffusion model outputs in relation to training samples remains underexplored. In particular, diffusion models operate over a sequence of timesteps instead of instantaneous input-output relationships in previous contexts, posing a significant challenge to extend existing frameworks to diffusion models directly. Notably, we present Diffusion-TracIn that incorporates this temporal dynamics and observe that samples' loss gradient norms are highly dependent on timestep. This trend leads to a prominent bias in influence estimation, and is particularly noticeable for samples trained on large-norm-inducing timesteps, causing them to be generally influential. To mitigate this effect, we introduce Diffusion-ReTrac as a re-normalized adaptation that enables the retrieval of training samples more targeted to the test sample of interest, facilitating a localized measurement of influence and considerably more intuitive visualization. We demonstrate the efficacy of our approach through various evaluation metrics and auxiliary tasks, reducing the amount of generally influential samples to $\frac{1}{3}$ of its original quantity.
翻訳日:2024-07-31 00:16:53 公開日:2024-07-28
# 野生のRGBDオブジェクト:RGB-Dビデオによる実世界の3Dオブジェクト学習のスケーリング

RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos ( http://arxiv.org/abs/2401.12592v3 )

ライセンス: Link先を確認
Hongchi Xia, Yang Fu, Sifei Liu, Xiaolong Wang, (参考訳) 野生ではWildRGB-Dと呼ばれる新しいRGB-Dオブジェクトデータセットを導入する。 既存の現実世界のオブジェクト中心のデータセットがRGBキャプチャでのみ提供されるのとは異なり、ディープチャネルの直接キャプチャにより、より優れた3Dアノテーションとより広範な下流アプリケーションが可能になる。 WildRGB-Dは、大規模なカテゴリレベルのRGB-Dオブジェクトビデオで構成されており、iPhoneを使って360度回転させる。 約8500の録音オブジェクトと、46の共通オブジェクトカテゴリにわたる20000 RGB-Dビデオが含まれている。 これらのビデオは、さまざまな背景が散らばっていて、3つの設定でできるだけ多くの現実のシナリオをカバーしています。 (i)1つのビデオの中の1つのオブジェクト (ii)1つのビデオ内の複数のオブジェクト、および (三)一本の動画に静的な手を持つ物体 データセットには、オブジェクトマスク、現実世界のカメラポーズ、RGBDビデオから集約されたポイントクラウドがアノテートされている。 我々は、新しいビュー合成、カメラポーズ推定、オブジェクト6dポーズ推定、オブジェクト表面再構成を含むWildRGB-Dの4つのタスクをベンチマークする。 実験の結果,RGB-D物体の大規模捕獲は,3次元物体の学習を前進させる大きな可能性を秘めていることがわかった。 私たちのプロジェクトページはhttps://wildrgbd.github.io/です。

We introduce a new RGB-D object dataset captured in the wild called WildRGB-D. Unlike most existing real-world object-centric datasets which only come with RGB capturing, the direct capture of the depth channel allows better 3D annotations and broader downstream applications. WildRGB-D comprises large-scale category-level RGB-D object videos, which are taken using an iPhone to go around the objects in 360 degrees. It contains around 8500 recorded objects and nearly 20000 RGB-D videos across 46 common object categories. These videos are taken with diverse cluttered backgrounds with three setups to cover as many real-world scenarios as possible: (i) a single object in one video; (ii) multiple objects in one video; and (iii) an object with a static hand in one video. The dataset is annotated with object masks, real-world scale camera poses, and reconstructed aggregated point clouds from RGBD videos. We benchmark four tasks with WildRGB-D including novel view synthesis, camera pose estimation, object 6d pose estimation, and object surface reconstruction. Our experiments show that the large-scale capture of RGB-D objects provides a large potential to advance 3D object learning. Our project page is https://wildrgbd.github.io/.
翻訳日:2024-07-31 00:07:09 公開日:2024-07-28
# 質量保存-パーセプトロンを用いた物理概念型大規模水文モデリングの解釈に向けて

Towards Interpretable Physical-Conceptual Catchment-Scale Hydrological Modeling using the Mass-Conserving-Perceptron ( http://arxiv.org/abs/2401.14521v4 )

ライセンス: Link先を確認
Yuan-Heng Wang, Hoshin V. Gupta, (参考訳) 本研究は,MCP(Mass-Conserving Perceptron)を基本計算単位とする有向グラフアーキテクチャを用いて,機械学習技術の相似・解釈可能・キャッチメントスケール水理学モデル開発への適用性について検討する。 ここでは、大きなキャッチメントのサンプルにまたがる普遍的な適用可能性(ブレッドス)ではなく、単一の場所でアーキテクチャの複雑さ(深度)に焦点を当てる。 目的は、与えられたキャッチメントの入力状態と出力の振る舞いを説明できる支配的なプロセスを表す最小の表現(細胞状態とフローパスの数)を見つけることであり、特にフローダイナミクスの全範囲(高、中、低)をシミュレートすることである。 3つのセル状態と2つの主要な流れ経路を持つHyMod Likeアーキテクチャは、我々の研究位置においてそのような表現を実現するが、入力バイパス機構の付加によるハイドログラフのタイミングと形状は大幅に改善され、一方、双方向地下水物質交換はベースフローのシミュレーションを著しく向上させる。 本結果は,複数の診断指標をモデル評価に用いることの重要性を実証するとともに,情報理論に基づくトレーニング指標を適切に選択・設計することの必要性を強調した。 本研究では, ニューラル・アーキテクチャー・サーチを用いて, 異なる気候環境下での漁獲量の最小限の表現を適切に決定することにより, 地域規模MPPに基づく水文モデル(大規模サンプルデータを用いた)の解釈の段階を定めている。

We investigate the applicability of machine learning technologies to the development of parsimonious, interpretable, catchment-scale hydrologic models using directed-graph architectures based on the mass-conserving perceptron (MCP) as the fundamental computational unit. Here, we focus on architectural complexity (depth) at a single location, rather than universal applicability (breadth) across large samples of catchments. The goal is to discover a minimal representation (numbers of cell-states and flow paths) that represents the dominant processes that can explain the input-state-output behaviors of a given catchment, with particular emphasis given to simulating the full range (high, medium, and low) of flow dynamics. We find that a HyMod Like architecture with three cell-states and two major flow pathways achieves such a representation at our study location, but that the additional incorporation of an input-bypass mechanism significantly improves the timing and shape of the hydrograph, while the inclusion of bi-directional groundwater mass exchanges significantly enhances the simulation of baseflow. Overall, our results demonstrate the importance of using multiple diagnostic metrics for model evaluation, while highlighting the need for properly selecting and designing the training metrics based on information-theoretic foundations that are better suited to extracting information across the full range of flow dynamics. This study sets the stage for interpretable regional-scale MCP-based hydrological modeling (using large sample data) by using neural architecture search to determine appropriate minimal representations for catchments in different hydroclimatic regimes.
翻訳日:2024-07-31 00:07:09 公開日:2024-07-28
# 線形関数近似を用いた正規化Q-Learning

Regularized Q-Learning with Linear Function Approximation ( http://arxiv.org/abs/2401.15196v2 )

ライセンス: Link先を確認
Jiachen Xi, Alfredo Garcia, Petar Momcilovic, (参考訳) 正規化マルコフ決定プロセスは、意思決定者が情報処理能力に制限されたり、曖昧さに回避されたりする不確実性の下で、シーケンシャルな意思決定のモデルとして機能する。 関数近似では、正規化された MDP に対する学習アルゴリズムの収束性(例えば、ソフトな Q-ラーニング)は、正規化されたベルマン作用素の合成と基底ベクトルのスパンへの射影がノルムに対する収縮ではないため、よく理解されていない。 本稿では,線形関数近似を用いた正規化Q-ラーニングの2段階最適化について考察する。 レベル最適化問題はベルマンの帰納的最適条件を満たす値関数近似を同定することを目的としており、レベル最適化は基底ベクトルのスパンへの射影を見つけることを目的としている。 この定式化は、有限時間収束を保証する単一ループアルゴリズムを動機付けている。 このアルゴリズムは2つの時間スケールで動作する: 状態-作用値の射影の更新は、ベルマンの帰納的最適性方程式の近似解の「より速い」更新に使用されるステップサイズで実装されるため、'slow'である。 特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。 また,提案アルゴリズムから得られたポリシーに対して性能保証を行う。

Regularized Markov Decision Processes serve as models of sequential decision making under uncertainty wherein the decision maker has limited information processing capacity and/or aversion to model ambiguity. With functional approximation, the convergence properties of learning algorithms for regularized MDPs (e.g. soft Q-learning) are not well understood because the composition of the regularized Bellman operator and a projection onto the span of basis vectors is not a contraction with respect to any norm. In this paper, we consider a bi-level optimization formulation of regularized Q-learning with linear functional approximation. The {\em lower} level optimization problem aims to identify a value function approximation that satisfies Bellman's recursive optimality condition and the {\em upper} level aims to find the projection onto the span of basis vectors. This formulation motivates a single-loop algorithm with finite time convergence guarantees. The algorithm operates on two time-scales: updates to the projection of state-action values are `slow' in that they are implemented with a step size that is smaller than the one used for `faster' updates of approximate solutions to Bellman's recursive optimality equation. We show that, under certain assumptions, the proposed algorithm converges to a stationary point in the presence of Markovian noise. In addition, we provide a performance guarantee for the policies derived from the proposed algorithm.
翻訳日:2024-07-31 00:07:09 公開日:2024-07-28
# ContPhy: ビデオからの連続的物理概念学習と推論

ContPhy: Continuum Physical Concept Learning and Reasoning from Videos ( http://arxiv.org/abs/2402.06119v2 )

ライセンス: Link先を確認
Zhicheng Zheng, Xin Yan, Zhenfang Chen, Jingzhou Wang, Qin Zhi Eddie Lim, Joshua B. Tenenbaum, Chuang Gan, (参考訳) 本稿では,機械の物理的常識を評価するための新しいベンチマークであるContinuum Physical Dataset(ContPhy)を紹介する。 ContPhyは、様々なシナリオにわたって、質量や密度などの様々な物理的特性の推論を包含し、対応するダイナミクスを予測することで、既存の物理的推論ベンチマークを補完する。 私たちは、さまざまなAIモデルを評価し、ContPhy上での満足なパフォーマンスを達成するのに依然として苦労していることを発見し、現在のAIモデルは、継続体、特にソフトボディの物理的な常識を欠いていることを示し、提案されたデータセットの価値を説明している。 また、近年の大規模言語モデルと粒子ベースの物理力学モデルを組み合わせたオラクルモデル(ContPRO)を導入し、両方のモデル、正確な動的予測、解釈可能な推論の利点を享受する。 ContPhyは、物理的な世界の理解において、人間と機械の知性の間の隔たりを狭めることによって、さまざまな物理的設定における知覚と推論の進歩を促進することを目的としている。 プロジェクトページ: https://physical-reasoning-project.github.io

We introduce the Continuum Physical Dataset (ContPhy), a novel benchmark for assessing machine physical commonsense. ContPhy complements existing physical reasoning benchmarks by encompassing the inference of diverse physical properties, such as mass and density, across various scenarios and predicting corresponding dynamics. We evaluated a range of AI models and found that they still struggle to achieve satisfactory performance on ContPhy, which shows that the current AI models still lack physical commonsense for the continuum, especially soft-bodies, and illustrates the value of the proposed dataset. We also introduce an oracle model (ContPRO) that marries the particle-based physical dynamic models with the recent large language models, which enjoy the advantages of both models, precise dynamic predictions, and interpretable reasoning. ContPhy aims to spur progress in perception and reasoning within diverse physical settings, narrowing the divide between human and machine intelligence in understanding the physical world. Project page: https://physical-reasoning-project.github.io
翻訳日:2024-07-31 00:07:09 公開日:2024-07-28
# Semi-Mamba-UNet:Semi-Supervised Medical Image SegmentationのためのPixel-Level Contrastive and Pixel-Level Cross-Supervised Visual Mamba-based UNet

Semi-Mamba-UNet: Pixel-Level Contrastive and Pixel-Level Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2402.07245v3 )

ライセンス: Link先を確認
Chao Ma, Ziyang Wang, (参考訳) 医用画像のセグメンテーションは診断、治療計画、医療に不可欠であり、ディープラーニングは有望な進歩を提供する。 特に、畳み込みニューラルネットワーク(CNN)は、局所的な画像の特徴を捉えているのに対して、ViT(Vision Transformer)は、マルチヘッドの自己認識機構を通じて、長距離依存を十分にモデル化している。 彼らの強みにもかかわらず、CNNとViTはどちらも医療画像の長距離依存を効率的に処理する上で困難に直面しており、しばしばかなりの計算資源を必要としている。 この問題は、高コストと専門家アノテーションの可用性の制限と相まって、正確なセグメンテーションを達成する上で大きな障害となる。 これらの課題に対処するために、Semi-Mamba-UNetを導入し、純粋な視覚的なMambaベースのU字型エンコーダデコーダアーキテクチャと従来のCNNベースのUNetを半教師付き学習(SSL)フレームワークに統合する。 この革新的なSSLアプローチは、両方のネットワークを利用して擬似ラベルを生成し、ピクセルレベルで相互に相互に監督する。 さらに,一対のプロジェクタを用いた自己教師型画素レベルのコントラスト学習戦略を導入し,特徴学習能力をさらに強化する。 Semi-Mamba-UNetは2つの公開セグメンテーションデータセットで包括的に評価され、CNNまたはViTベースのUNetをバックボーンネットワークとして他の7つのSSLフレームワークと比較し、提案手法の優れた性能を強調した。 Semi-Mamba-Unetのソースコード、すべてのベースラインSSLフレームワーク、CNNとViTベースのネットワーク、および対応する2つのデータセットが公開されている。

Medical image segmentation is essential in diagnostics, treatment planning, and healthcare, with deep learning offering promising advancements. Notably, the convolutional neural network (CNN) excels in capturing local image features, whereas the Vision Transformer (ViT) adeptly models long-range dependencies through multi-head self-attention mechanisms. Despite their strengths, both the CNN and ViT face challenges in efficiently processing long-range dependencies in medical images, often requiring substantial computational resources. This issue, combined with the high cost and limited availability of expert annotations, poses significant obstacles to achieving precise segmentation. To address these challenges, this study introduces Semi-Mamba-UNet, which integrates a purely visual Mamba-based U-shaped encoder-decoder architecture with a conventional CNN-based UNet into a semi-supervised learning (SSL) framework. This innovative SSL approach leverages both networks to generate pseudo-labels and cross-supervise one another at the pixel level simultaneously, drawing inspiration from consistency regularisation techniques. Furthermore, we introduce a self-supervised pixel-level contrastive learning strategy that employs a pair of projectors to enhance the feature learning capabilities further, especially on unlabelled data. Semi-Mamba-UNet was comprehensively evaluated on two publicly available segmentation dataset and compared with seven other SSL frameworks with both CNN- or ViT-based UNet as the backbone network, highlighting the superior performance of the proposed method. The source code of Semi-Mamba-Unet, all baseline SSL frameworks, the CNN- and ViT-based networks, and the two corresponding datasets are made publicly accessible.
翻訳日:2024-07-30 23:57:25 公開日:2024-07-28
# 公正なグラフ異常検出に向けて:問題,ベンチマークデータセット,評価

Towards Fair Graph Anomaly Detection: Problem, Benchmark Datasets, and Evaluation ( http://arxiv.org/abs/2402.15988v2 )

ライセンス: Link先を確認
Neng Kai Nigel Neo, Yeon-Chang Lee, Yiqiao Jin, Sang-Wook Kim, Srijan Kumar, (参考訳) Fair Graph Anomaly Detection (FairGAD) 問題は、センシティブなサブグループからの個人に対するバイアス予測を避けながら、入力グラフ内の異常ノードを正確に検出することを目的としている。 しかし、現在の文献ではこの問題を包括的に論じておらず、実際のグラフ構造、異常ラベル、センシティブな属性を含む現実的なデータセットも提供していない。 このギャップを埋めるために、FairGAD問題の公式定義を導入し、RedditとTwitterのソーシャルメディアプラットフォームから構築された2つの新しいデータセットを提示する。 これらのデータセットは、それぞれ9,000ノードと47,000ノードに関連付けられた120万と40万のエッジで構成され、政治的傾きを機密属性として、誤情報拡散器を異常ラベルとして活用する。 その結果,FairGADデータセットは,研究コミュニティが使用する合成データセットと大きく異なることがわかった。 そこで本研究では,既存の9つのGAD法および非グラフAD法の性能・公平性のトレードオフについて検討した。 私たちのコードとデータセットはhttps://github.com/nigelnnk/FairGADで公開されています。

The Fair Graph Anomaly Detection (FairGAD) problem aims to accurately detect anomalous nodes in an input graph while avoiding biased predictions against individuals from sensitive subgroups. However, the current literature does not comprehensively discuss this problem, nor does it provide realistic datasets that encompass actual graph structures, anomaly labels, and sensitive attributes. To bridge this gap, we introduce a formal definition of the FairGAD problem and present two novel datasets constructed from the social media platforms Reddit and Twitter. These datasets comprise 1.2 million and 400,000 edges associated with 9,000 and 47,000 nodes, respectively, and leverage political leanings as sensitive attributes and misinformation spreaders as anomaly labels. We demonstrate that our FairGAD datasets significantly differ from the synthetic datasets used by the research community. Using our datasets, we investigate the performance-fairness trade-off in nine existing GAD and non-graph AD methods on five state-of-the-art fairness methods. Our code and datasets are available at https://github.com/nigelnnk/FairGAD
翻訳日:2024-07-30 23:57:25 公開日:2024-07-28
# ポリシー最適化によるオーサシップスタイルのトランスファー

Authorship Style Transfer with Policy Optimization ( http://arxiv.org/abs/2403.08043v2 )

ライセンス: Link先を確認
Shuai Liu, Shantanu Agarwal, Jonathan May, (参考訳) オーサシップスタイルの転送は、ソースの本来の意味を保ちながら、指定されたテキストを指定されたターゲットに書き換えることを目的としている。 既存のアプローチでは、モデルトレーニングのための多くのターゲットスタイルの例が利用可能になっている。 しかし、これらの見落としのケースでは、限られたターゲットスタイルの例が利用可能である。 パラメータ効率変換学習技術とポリシー最適化(PO)アプローチの開発により,軽量POは低リソース型転送の実現可能なアプローチであることが示唆された。 そこで本研究では,低リソーステキストスタイル転送のための単純な2段階チューン・アンド・最適化手法を提案する。 本手法はオーサシップ転送だけでなく,より大規模なネイティブ言語スタイルのタスクにも適用し,どちらの場合においても最先端のベースラインモデルよりも優れています。

Authorship style transfer aims to rewrite a given text into a specified target while preserving the original meaning in the source. Existing approaches rely on the availability of a large number of target style exemplars for model training. However, these overlook cases where a limited number of target style examples are available. The development of parameter-efficient transfer learning techniques and policy optimization (PO) approaches suggest lightweight PO is a feasible approach to low-resource style transfer. In this work, we propose a simple two-stage tune-and-optimize technique for low-resource textual style transfer. We apply our technique to authorship transfer as well as a larger-data native language style task and in both cases find it outperforms state-of-the-art baseline models.
翻訳日:2024-07-30 23:47:39 公開日:2024-07-28
# N2F2:Nested Neural Feature Fieldsを用いた階層的シーン理解

N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields ( http://arxiv.org/abs/2403.10997v2 )

ライセンス: Link先を確認
Yash Bhalgat, Iro Laina, João F. Henriques, Andrew Zisserman, Andrea Vedaldi, (参考訳) 複数のレベルの抽象化で複雑なシーンを理解することは、コンピュータビジョンにおいて非常に難しい課題である。 この問題に対処するため,Nested Neural Feature Fields (N2F2) を導入し, 階層的監視を用いて単一特徴場を学習する手法を提案する。 本手法は, 物理的次元や意味論, あるいはその両方に適した階層の柔軟な定義を可能にし, シーンの包括的かつ曖昧な理解を可能にする。 画像空間の任意のスケールで意味論的に意味のある画素群を提供するために2次元クラス非依存セグメンテーションモデルを利用し、CLIPビジョンエンコーダにこれらのセグメンテーション毎に言語対応の埋め込みを求める。 提案手法は,様々な物理スケールで遅延ボリュームレンダリングを用いてCLIP埋め込みを蒸留し,粗い粒度表現を生成する。 開語彙3次元分節化や局所化といったタスクにおいて,本手法は最先端の特徴体蒸留法よりも優れており,学習したネストした特徴体の有効性が示された。

Understanding complex scenes at multiple levels of abstraction remains a formidable challenge in computer vision. To address this, we introduce Nested Neural Feature Fields (N2F2), a novel approach that employs hierarchical supervision to learn a single feature field, wherein different dimensions within the same high-dimensional feature encode scene properties at varying granularities. Our method allows for a flexible definition of hierarchies, tailored to either the physical dimensions or semantics or both, thereby enabling a comprehensive and nuanced understanding of scenes. We leverage a 2D class-agnostic segmentation model to provide semantically meaningful pixel groupings at arbitrary scales in the image space, and query the CLIP vision-encoder to obtain language-aligned embeddings for each of these segments. Our proposed hierarchical supervision method then assigns different nested dimensions of the feature field to distill the CLIP embeddings using deferred volumetric rendering at varying physical scales, creating a coarse-to-fine representation. Extensive experiments show that our approach outperforms the state-of-the-art feature field distillation methods on tasks such as open-vocabulary 3D segmentation and localization, demonstrating the effectiveness of the learned nested feature field.
翻訳日:2024-07-30 23:47:39 公開日:2024-07-28
# SportsNGEN: リアルなマルチプレイヤースポーツゲームプレイの持続的生成

SportsNGEN: Sustained Generation of Realistic Multi-player Sports Gameplay ( http://arxiv.org/abs/2403.12977v2 )

ライセンス: Link先を確認
Lachlan Thorpe, Lewis Bawden, Karanjot Vendal, John Bronskill, Richard E. Turner, (参考訳) 本稿では,トランスフォーマーデコーダをベースとしたスポーツシミュレーションエンジンであるSportsNGENについて述べる。 プロテニス追跡データの大規模なデータベースをトレーニングすることにより、SportsNGENが生成したシミュレーションが、ラリーの結果を予測し、任意の時点における最良のショット選択を判断し、コーチング決定を通知し、放送報道を高めるシナリオを評価できることを示した。 生成されたシミュレーションとショット分類器とロジックを組み合わせることで、テニスの試合全体をシミュレートすることができる。 そこで我々は,SportsNGENを,シミュレーションの統計値と同一選手間の実戦の統計値とを比較して評価した。 モデル出力サンプリングパラメータは実数論のシミュレーションに不可欠であり,SportsNGENは実データに対して確率論的に校正されていることを示す。 さらに、SportsNGENの汎用バージョンは、そのプレーヤーを含むマッチデータのサブセットを微調整することで、特定のプレイヤーにカスタマイズすることができる。 最後に,同じアプローチがサッカーに有効であることを示す定性的な結果を示す。

We present a transformer decoder based sports simulation engine, SportsNGEN, trained on sports player and ball tracking sequences, that is capable of generating sustained gameplay and accurately mimicking the decision making of real players. By training on a large database of professional tennis tracking data, we demonstrate that simulations produced by SportsNGEN can be used to predict the outcomes of rallies, determine the best shot choices at any point, and evaluate counterfactual or what if scenarios to inform coaching decisions and elevate broadcast coverage. By combining the generated simulations with a shot classifier and logic to start and end rallies, the system is capable of simulating an entire tennis match. We evaluate SportsNGEN by comparing statistics of the simulations with those of real matches between the same players. We show that the model output sampling parameters are crucial to simulation realism and that SportsNGEN is probabilistically well-calibrated to real data. In addition, a generic version of SportsNGEN can be customized to a specific player by fine-tuning on the subset of match data that includes that player. Finally, we show qualitative results indicating the same approach works for football.
翻訳日:2024-07-30 23:47:39 公開日:2024-07-28
# EcoSense:エッジクラウドコラボレーションによる海上船舶検出のためのエネルギー効率の高いインテリジェントセンシング

EcoSense: Energy-Efficient Intelligent Sensing for In-Shore Ship Detection through Edge-Cloud Collaboration ( http://arxiv.org/abs/2403.14027v3 )

ライセンス: Link先を確認
Wenjun Huang, Hanning Chen, Yang Ni, Arghavan Rezvani, Sanggeon Yun, Sungheon Jeon, Eric Pedley, Mohsen Imani, (参考訳) 海洋の物体を海岸で検出することは、システムの展開におけるアルゴリズム的な複雑さと複雑さによる課題を提起する。 本稿では,タスクをオブジェクトの局所化ときめ細かい分類に分割する,エッジクラウド協調センシングシステムを提案する。 オブジェクトは、その推定困難度に基づいて、エッジまたはクラウド内のいずれかに分類される。 このフレームワークは、オブジェクトのローカライゼーション、分類、難易度推定のための低消費電力デバイス調整フロントエンドモデルと、微細な分類のためのトランスフォーマーグラフ畳み込みネットワークベースのバックエンドモデルから構成される。 本システムは,広く使用されている海洋物体検出データセットにおいて,mAP@0.5 +4.3%以上の性能を示し,システムレベルでのデータ伝送量(95.43%)とエネルギー消費(72.7%)の両方を著しく低減する。 提案システムは,様々な組込みシステムプラットフォームと,ドローンの配備を含む実環境シナリオで検証する。

Detecting marine objects inshore presents challenges owing to algorithmic intricacies and complexities in system deployment. We propose a difficulty-aware edge-cloud collaborative sensing system that splits the task into object localization and fine-grained classification. Objects are classified either at the edge or within the cloud, based on their estimated difficulty. The framework comprises a low-power device-tailored front-end model for object localization, classification, and difficulty estimation, along with a transformer-graph convolutional network-based back-end model for fine-grained classification. Our system demonstrates superior performance (mAP@0.5 +4.3%}) on widely used marine object detection datasets, significantly reducing both data transmission volume (by 95.43%) and energy consumption (by 72.7%}) at the system level. We validate the proposed system across various embedded system platforms and in real-world scenarios involving drone deployment.
翻訳日:2024-07-30 23:47:39 公開日:2024-07-28
# InternVideo2:マルチモーダルビデオ理解のための基盤モデルのスケーリング

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding ( http://arxiv.org/abs/2403.15377v3 )

ライセンス: Link先を確認
Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Chenting Wang, Guo Chen, Baoqi Pei, Ziang Yan, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang, (参考訳) InternVideo2はビデオファウンデーションモデル(ViFM)の新たなファミリーで、ビデオ認識、ビデオテキストタスク、ビデオ中心対話の最先端結果を実現する。 私たちのコアデザインは、マスク付きビデオモデリング、クロスモーダルコントラスト学習、および次のトークン予測を統合し、ビデオエンコーダのサイズを6Bパラメータにスケールアップするプログレッシブトレーニングアプローチです。 データレベルでは、ビデオのセグメンテーションと音声・音声のキャプションの生成により、時空間の一貫性を優先する。 これにより、ビデオとテキストのアライメントが改善される。 広範にわたる実験を通じて,60以上のビデオおよびオーディオタスクにおいて,設計を検証し,優れた性能を示す。 特に,我々のモデルは,様々なビデオ関連対話や長いビデオ理解ベンチマークにおいて他者より優れており,より長い文脈を推論し理解する能力を強調している。 コードとモデルはhttps://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/で入手できる。

We introduce InternVideo2, a new family of video foundation models (ViFM) that achieve the state-of-the-art results in video recognition, video-text tasks, and video-centric dialogue. Our core design is a progressive training approach that unifies the masked video modeling, crossmodal contrastive learning, and next token prediction, scaling up the video encoder size to 6B parameters. At the data level, we prioritize spatiotemporal consistency by semantically segmenting videos and generating video-audio-speech captions. This improves the alignment between video and text. Through extensive experiments, we validate our designs and demonstrate superior performance on over 60 video and audio tasks. Notably, our model outperforms others on various video-related dialogue and long video understanding benchmarks, highlighting its ability to reason and comprehend longer contexts. Code and models are available at https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/.
翻訳日:2024-07-30 23:47:39 公開日:2024-07-28
# DragAPart: 人工物体に先立つ部分レベル運動の学習

DragAPart: Learning a Part-Level Motion Prior for Articulated Objects ( http://arxiv.org/abs/2403.15382v2 )

ライセンス: Link先を確認
Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi, (参考訳) DragAPartは、画像と一連のドラッグを入力として与え、ドラッグのアクションに応答する同じオブジェクトの新しいイメージを生成する。 DragAPartは、オブジェクトの再配置に焦点を当てた以前の作業とは異なり、引き出しの開閉のような部分レベルのインタラクションを予測します。 本研究では,この問題を,特定の運動構造や対象カテゴリーに限定されない一般運動モデル学習のプロキシとして研究する。 トレーニング済みの画像生成から始まり、新しい合成データセットであるDrag-a-Moveで微調整します。 ドラッグとデータセットのランダム化のための新しいエンコーディングと組み合わせることで、モデルは実際の画像と異なるカテゴリによく一般化される。 従来の動作制御ジェネレータと比較して、より優れた部分レベルの動作理解を示す。

We introduce DragAPart, a method that, given an image and a set of drags as input, generates a new image of the same object that responds to the action of the drags. Differently from prior works that focused on repositioning objects, DragAPart predicts part-level interactions, such as opening and closing a drawer. We study this problem as a proxy for learning a generalist motion model, not restricted to a specific kinematic structure or object category. We start from a pre-trained image generator and fine-tune it on a new synthetic dataset, Drag-a-Move, which we introduce. Combined with a new encoding for the drags and dataset randomization, the model generalizes well to real images and different categories. Compared to prior motion-controlled generators, we demonstrate much better part-level motion understanding.
翻訳日:2024-07-30 23:47:39 公開日:2024-07-28
# バイオメディカル・ヘルスインフォマティクスにおける大規模言語モデル : 文献分析による考察

Large Language Models in Biomedical and Health Informatics: A Review with Bibliometric Analysis ( http://arxiv.org/abs/2403.16303v4 )

ライセンス: Link先を確認
Huizi Yu, Lizhou Fan, Lingyao Li, Jiayan Zhou, Zihui Ma, Lu Xian, Wenyue Hua, Sijia He, Mingyu Jin, Yongfeng Zhang, Ashvin Gandhi, Xin Ma, (参考訳) 大規模言語モデル(LLM)は、バイオメディカルおよびヘルスインフォマティクス(BHI)において急速に重要なツールとなり、データを分析し、患者を治療し、研究を行う新しい方法を可能にしている。 本研究の目的は、BHIにおけるLLM応用の総合的な概要を提供し、その変容の可能性を強調し、関連する倫理的・実践的課題に対処することである。 我々は2022年1月から2023年12月までに1,698件の調査論文をレビューし、研究テーマと診断カテゴリーで分類した。 さらに,ネットワーク解析を行い,学術的なコラボレーションと研究のダイナミクスをマッピングした。 本研究は,臨床診断支援,患者との相互作用,医療文書分析など,様々なBHIタスクに対するLSMの潜在的な応用が著しく増加したことを明らかにする。 特に,LSMは診断ツールや患者ケアプロトコルの精度向上に有効であることが期待されている。 ネットワーク分析は、BHIにおけるLLM研究の学際的な性質を基盤として、機関間の密集的かつ動的に進化するコラボレーションを強調している。 顕著な傾向は、メンタルヘルスや神経疾患などの特定の疾患カテゴリーの管理にLLMを適用し、パーソナライズされた医療や公衆衛生戦略に影響を与える可能性を示したことである。 LLMは、バイオメディカル研究と医療提供をさらに変革する有望な可能性を秘めている。 有望な一方で、モデル検証の倫理的意味と課題は、臨床環境での利益を最適化するために厳格な精査を要求する。 この調査は、BHIにおけるLSMの現状と将来の可能性を理解するために、研究者、臨床医、政策立案者を含む医療関係者のリソースとして機能する。

Large Language Models (LLMs) have rapidly become important tools in Biomedical and Health Informatics (BHI), enabling new ways to analyze data, treat patients, and conduct research. This study aims to provide a comprehensive overview of LLM applications in BHI, highlighting their transformative potential and addressing the associated ethical and practical challenges. We reviewed 1,698 research articles from January 2022 to December 2023, categorizing them by research themes and diagnostic categories. Additionally, we conducted network analysis to map scholarly collaborations and research dynamics. Our findings reveal a substantial increase in the potential applications of LLMs to a variety of BHI tasks, including clinical decision support, patient interaction, and medical document analysis. Notably, LLMs are expected to be instrumental in enhancing the accuracy of diagnostic tools and patient care protocols. The network analysis highlights dense and dynamically evolving collaborations across institutions, underscoring the interdisciplinary nature of LLM research in BHI. A significant trend was the application of LLMs in managing specific disease categories such as mental health and neurological disorders, demonstrating their potential to influence personalized medicine and public health strategies. LLMs hold promising potential to further transform biomedical research and healthcare delivery. While promising, the ethical implications and challenges of model validation call for rigorous scrutiny to optimize their benefits in clinical settings. This survey serves as a resource for stakeholders in healthcare, including researchers, clinicians, and policymakers, to understand the current state and future potential of LLMs in BHI.
翻訳日:2024-07-30 23:47:39 公開日:2024-07-28
# マトリックス生成物状態を用いたミラー対称性による確率分布の量子状態生成

Quantum State Preparation for Probability Distributions with Mirror Symmetry Using Matrix Product States ( http://arxiv.org/abs/2403.16729v2 )

ライセンス: Link先を確認
Yuichi Sano, Ikko Hamamura, (参考訳) 確率分布を量子状態にロードするための量子回路は、物理学、金融工学、機械学習で使われる量子アルゴリズムにおいて必須のサブルーチンである。 浅い量子回路でこれらを高精度に実装する能力は重要な問題である。 行列積状態を用いたミラー対称性を持つ確率分布のための新しい量子状態生成法を提案する。 ミラー対称性を考慮することにより,確率分布の絡み合いを低減し,行列積状態による近似の精度を向上させる。 その結果,行列積状態を用いた既存手法よりも2桁精度が向上した。 提案手法は, 近接量子ビットゲートを主成分とする浅量子回路と, 量子ビット数による線形スケーラビリティを特徴とし, ノイズの多い量子デバイスには非常に有利である。 また, 実験結果から, テンソルネットワークの近似精度は結合寸法に大きく依存し, 量子ビット数にはほとんど依存しないことが明らかとなった。 本手法は実量子プロセッサ上で10量子ビットと20量子ビットに符号化された正規分布に対して実験的に実証される。

Quantum circuits for loading probability distributions into quantum states are essential subroutines in quantum algorithms used in physics, finance engineering, and machine learning. The ability to implement these with high accuracy in shallow quantum circuits is a critical issue. We propose a novel quantum state preparation method for probability distribution with mirror symmetry using matrix product states. By considering mirror symmetry, our method reduces the entanglement of probability distributions and improves the accuracy of approximations by matrix product states. As a result, we improved the accuracy by two orders of magnitude over existing methods using matrix product states. Our approach, characterized by a shallow quantum circuit primarily comprising nearest-neighbor qubit gates and linear scalability with qubit count, is highly advantageous for noisy quantum devices. Also, our experimental findings reveal that the approximation accuracy in tensor networks depends heavily on the bond dimension, with minimal reliance on the number of qubits. Our method is experimentally demonstrated for a normal distribution encoded into 10 and 20 qubits on a real quantum processor.
翻訳日:2024-07-30 23:47:39 公開日:2024-07-28
# 事前学習型模倣学習法の不確実性を考慮した展開

Uncertainty-Aware Deployment of Pre-trained Language-Conditioned Imitation Learning Policies ( http://arxiv.org/abs/2403.18222v2 )

ライセンス: Link先を確認
Bo Wu, Bruce D. Lee, Kostas Daniilidis, Bernadette Bucher, Nikolai Matni, (参考訳) 多様なタスクやロボットプラットフォームからのデータに基づいて訓練された大規模ロボットポリシーは、汎用ロボットの実現を大いに約束するが、新しい環境条件への信頼性の高い一般化は大きな課題である。 この課題に対処するために、事前訓練された言語条件の模倣学習エージェントの不確実性を考慮したデプロイ手法を提案する。 具体的には、温度スケーリングを用いてこれらのモデルをキャリブレーションし、キャリブレーションされたモデルを利用して、候補行動の局所的な情報を集約することで不確実性を考慮した決定を行う。 本稿では,3つの事前学習モデルを用いてシミュレーションを行い,タスク完了率を大幅に向上させる可能性を示す。 関連するコードはリンクでアクセスできる。 https://github.com/BobWu1998/uncertainty_quant_all.git

Large-scale robotic policies trained on data from diverse tasks and robotic platforms hold great promise for enabling general-purpose robots; however, reliable generalization to new environment conditions remains a major challenge. Toward addressing this challenge, we propose a novel approach for uncertainty-aware deployment of pre-trained language-conditioned imitation learning agents. Specifically, we use temperature scaling to calibrate these models and exploit the calibrated model to make uncertainty-aware decisions by aggregating the local information of candidate actions. We implement our approach in simulation using three such pre-trained models, and showcase its potential to significantly enhance task completion rates. The accompanying code is accessible at the link: https://github.com/BobWu1998/uncertainty_quant_all.git
翻訳日:2024-07-30 23:37:56 公開日:2024-07-28
# インクと個性: LLMの時代における個人化された物語づくり

Ink and Individuality: Crafting a Personalised Narrative in the Age of LLMs ( http://arxiv.org/abs/2404.00026v4 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Raima Islam, Mst Rafia Islam, (参考訳) 個人性とパーソナライゼーションは、個々の作家をユニークにし、その言葉に影響を与えて、読者を効果的にエンゲージし、真偽を伝えていく特徴である。 しかし、LLMベースの筆記アシスタントへの依存度が高まると、創造性と個性は時とともに悪化する。 この傾向が創造性や独特性に悪影響を及ぼすのを、私たちはしばしば見落としています。 本研究は、様々な視点や概念を探求するための簡単な調査と、その地域の過去の研究と合わせて人々の視点を理解しようとする試みによって、これらの懸念を調査するものである。 これらの課題に対処することは、人間とコンピュータのインタラクションシステムを改善し、パーソナライズとパーソナライズのためのアシスタントを書くために不可欠である。

Individuality and personalization comprise the distinctive characteristics that make each writer unique and influence their words in order to effectively engage readers while conveying authenticity. However, our growing reliance on LLM-based writing assistants risks compromising our creativity and individuality over time. We often overlook the negative impacts of this trend on our creativity and uniqueness, despite the possible consequences. This study investigates these concerns by performing a brief survey to explore different perspectives and concepts, as well as trying to understand people's viewpoints, in conjunction with past studies in the area. Addressing these issues is essential for improving human-computer interaction systems and enhancing writing assistants for personalization and individuality.
翻訳日:2024-07-30 23:37:56 公開日:2024-07-28
# LLMs as writing assistants: Exploring Perspectives on Sense of Ownership and Reasoning

LLMs as Writing Assistants: Exploring Perspectives on Sense of Ownership and Reasoning ( http://arxiv.org/abs/2404.00027v4 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Mst Rafia Islam, Raima Islam, (参考訳) 執筆におけるオーナシップの感覚は、思考、時間、貢献の投資を制限し、アウトプットへのアタッチメントにつながります。 しかし、文章アシスタントを使うことは、いくつかのコンテンツが直接の創造ではないため、精神的なジレンマをもたらす。 例えば、すべてのタスクが同等であっても、創造的なタスクでは、LLM(Large Language Models)を信用する傾向があります。 加えて、私たちはLLM生成コンテンツの完全な所有権を主張しないかもしれないが、著者権は自由に主張する。 筆者らは,これらの問題を調査し,その基礎となる認知過程を理解して,筆記支援システムにおける人間とコンピュータの相互作用のより深い知識を得るための簡単な調査を行っている。

Sense of ownership in writing confines our investment of thoughts, time, and contribution, leading to attachment to the output. However, using writing assistants introduces a mental dilemma, as some content isn't directly our creation. For instance, we tend to credit Large Language Models (LLMs) more in creative tasks, even though all tasks are equal for them. Additionally, while we may not claim complete ownership of LLM-generated content, we freely claim authorship. We conduct a short survey to examine these issues and understand underlying cognitive processes in order to gain a better knowledge of human-computer interaction in writing and improve writing aid systems.
翻訳日:2024-07-30 23:37:56 公開日:2024-07-28
# 大規模言語モデルによるコンテンツベースレコメンデーションの強化

Enhancing Content-based Recommendation via Large Language Model ( http://arxiv.org/abs/2404.00236v2 )

ライセンス: Link先を確認
Wentao Xu, Qianqian Xie, Shuo Yang, Jiangxia Cao, Shuchao Pang, (参考訳) 現実世界のアプリケーションでは、ユーザは暗黙のクリック/ライクなインタラクションや明示的なコメント/レビューのインタラクションなど、さまざまなアイテムと対話する際に異なる振る舞いを表現します。 それでも、ほとんどすべてのレコメンデーターは、人のシナジーを見つけるために、暗黙のクリック/ライクなインタラクションによってユーザーの好みを記述する方法に焦点を当てている。 コンテンツベースの明示的なコメント/レビューのインタラクションでは、セマンティックな知識をマイニングしてレコメンダモデルを強化しようとする研究もある。 しかし、(1)コンテンツセマンティクスは普遍的な世界知識であり、どのようにして異なるドメインに力を与えるためにマルチアスペクトセマンティクス情報を抽出するのか。 (2) ユーザ/イテムID機能はレコメンデーションモデルの基本要素であり、IDとコンテンツセマンティックな特徴空間をどのように整合させるか? 本稿では,<plugin> 意味的知識伝達手法 \textbf{LoID} を提案する。 実世界のデータセットをベースラインとしたSOTAによる広範囲な実験を行い、本手法のLoIDを大幅に改善したことを示す。

In real-world applications, users express different behaviors when they interact with different items, including implicit click/like interactions, and explicit comments/reviews interactions. Nevertheless, almost all recommender works are focused on how to describe user preferences by the implicit click/like interactions, to find the synergy of people. For the content-based explicit comments/reviews interactions, some works attempt to utilize them to mine the semantic knowledge to enhance recommender models. However, they still neglect the following two points: (1) The content semantic is a universal world knowledge; how do we extract the multi-aspect semantic information to empower different domains? (2) The user/item ID feature is a fundamental element for recommender models; how do we align the ID and content semantic feature space? In this paper, we propose a `plugin' semantic knowledge transferring method \textbf{LoID}, which includes two major components: (1) LoRA-based large language model pretraining to extract multi-aspect semantic information; (2) ID-based contrastive objective to align their feature spaces. We conduct extensive experiments with SOTA baselines on real-world datasets, the detailed results demonstrating significant improvements of our method LoID.
翻訳日:2024-07-30 23:37:56 公開日:2024-07-28
# RLGNet: 時間的知識グラフ推論のための繰り返しローカル-グローバル履歴ネットワーク

RLGNet: Repeating-Local-Global History Network for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2404.00586v2 )

ライセンス: Link先を確認
Ao Lv, Guige Ouyang, Yongzhong Huang, Yue Chen, Haoran Xie, (参考訳) 時間的知識グラフ(TKG)推論は、過去の情報に基づいて将来の出来事を予測する。 しかし、将来の事象の予測不能のため、この課題は極めて困難である。 この問題に対処するために, RLGNet (Repeating-Local-Global History Network) と呼ばれるアンサンブル学習に基づくマルチスケールハイブリッドアーキテクチャモデルを提案する。 他の分野でのマルチスケール情報の適用に触発されて、TKG推論にマルチスケール情報の概念を導入する。 具体的には、RLGNetは様々なスケールで情報を処理するモジュールを組み合わせることで、異なるレベルの歴史的情報をキャプチャし、統合する。 モデルは3つのモジュールから構成される: 繰り返し履歴モジュールは、履歴データの繰り返しパターンとトレンドを特定することに焦点を当て、ローカル歴史モジュールは、短期的な変更と詳細をキャプチャし、グローバル歴史モジュールは、長期的な変更に関するマクロな視点を提供する。 さらに,シングルステップおよびマルチステップの推論タスクを一般化する上で,従来の単一アーキテクチャモデルの限界に対処するため,ローカルおよびグローバル履歴モジュールに対して,リカレントニューラルネットワーク(RNN)とマルチレイヤパーセプトロン(MLP)に基づくアーキテクチャを採用した。 このハイブリッドアーキテクチャ設計により、モデルはマルチステップとシングルステップの推論機能の両方を補完することができる。 最後に,TKGにおけるノイズ問題に対処するため,最終的な予測結果に対するノイズの影響を低減するために,三つのモジュールの予測を組み合わせたアンサンブル学習戦略を採用する。 6つのベンチマークデータセットの評価において,本手法は,マルチステップおよびシングルステップの推論タスクにおいて,既存のTKG推論モデルを上回っている。

Temporal Knowledge Graph (TKG) reasoning involves predicting future events based on historical information. However, due to the unpredictability of future events, this task is highly challenging. To address this issue, we propose a multi-scale hybrid architecture model based on ensemble learning, called RLGNet (Repeating-Local-Global History Network). Inspired by the application of multi-scale information in other fields, we introduce the concept of multi-scale information into TKG reasoning. Specifically, RLGNet captures and integrates different levels of historical information by combining modules that process information at various scales. The model comprises three modules: the Repeating History Module focuses on identifying repetitive patterns and trends in historical data, the Local History Module captures short-term changes and details, and the Global History Module provides a macro perspective on long-term changes. Additionally, to address the limitations of previous single-architecture models in generalizing across single-step and multi-step reasoning tasks, we adopted architectures based on Recurrent Neural Networks (RNN) and Multi-Layer Perceptrons (MLP) for the Local and Global History Modules, respectively. This hybrid architecture design enables the model to complement both multi-step and single-step reasoning capabilities. Finally, to address the issue of noise in TKGs, we adopt an ensemble learning strategy, combining the predictions of the three modules to reduce the impact of noise on the final prediction results. In the evaluation on six benchmark datasets, our approach generally outperforms existing TKG reasoning models in multi-step and single-step reasoning tasks.
翻訳日:2024-07-30 23:37:56 公開日:2024-07-28
# PosterLlama:Langaugeモデルによるコンテンツ認識レイアウト生成のためのブリッジング設計能力

PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation ( http://arxiv.org/abs/2404.00995v3 )

ライセンス: Link先を確認
Jaejung Seol, Seojun Kim, Jaejun Yoo, (参考訳) ビジュアルレイアウトは、広告、ポスター、Web UIデザインなどのグラフィックデザイン分野において重要な役割を果たす。 生成モデルによるコンテンツ認識レイアウト生成への最近の傾向は、将来性を示しているが、単純な数値最適化として扱うことで、レイアウト設計のセマンティックな複雑さを無視することが多い。 このギャップを埋めるために,レイアウト要素をHTMLコードに再構成し,言語モデルに埋め込まれた豊富な設計知識を活用することで,視覚的かつテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークであるPosterLlamaを紹介した。 さらに、独自の奥行きに基づくポスター強化戦略により、モデルの堅牢性を高める。 これにより、生成したレイアウトがセマンティックにリッチでありながら、限られたデータでも視覚的に魅力的であることを保証する。 複数のベンチマークで評価した結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。 これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。

Visual layout plays a critical role in graphic design fields such as advertising, posters, and web UI design. The recent trend towards content-aware layout generation through generative models has shown promise, yet it often overlooks the semantic intricacies of layout design by treating it as a simple numerical optimization. To bridge this gap, we introduce PosterLlama, a network designed for generating visually and textually coherent layouts by reformatting layout elements into HTML code and leveraging the rich design knowledge embedded within language models. Furthermore, we enhance the robustness of our model with a unique depth-based poster augmentation strategy. This ensures our generated layouts remain semantically rich but also visually appealing, even with limited data. Our extensive evaluations across several benchmarks demonstrate that PosterLlama outperforms existing methods in producing authentic and content-aware layouts. It supports an unparalleled range of conditions, including but not limited to unconditional layout generation, element conditional layout generation, layout completion, among others, serving as a highly versatile user manipulation tool.
翻訳日:2024-07-30 23:37:56 公開日:2024-07-28
# BERTによる在宅プラジャリズム検出システムのための検索ツール

BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System ( http://arxiv.org/abs/2404.01582v2 )

ライセンス: Link先を確認
Jiarong Xian, Jibao Yuan, Peiwei Zheng, Dexian Chen, Nie yuntao, (参考訳) テキストプラジャリズム検出タスクは、あるテキストにプラジャリズムが含まれているか、あるいは他のテキストからコピーされているかを検出することを目的とした、一般的な自然言語処理タスクである。 既存の研究では、高品質なデータセットが欠如しているため、ハイレベルなプラジャリズムの検出は依然として課題である。 本稿では,GPT-3.5をベースとして,多種多様なプラジャリズム手法をカバーする32,927組のテキストプラジャリズム検出データセットを生成し,そのギャップを埋める手法を提案する。 一方,BERT を用いた Faiss に基づく盗作識別手法を提案する。 このモデルの性能は, 精度, 精度, リコール, F1スコアにおいて, 98.86\%, 98.90%, 98.86%, および0.9888よりも優れていた。 最後に、ユーザフレンドリなデモプラットフォームを提供し、ユーザーはテキストライブラリをアップロードし、直感的に盗作分析に参加できる。

Text plagiarism detection task is a common natural language processing task that aims to detect whether a given text contains plagiarism or copying from other texts. In existing research, detection of high level plagiarism is still a challenge due to the lack of high quality datasets. In this paper, we propose a plagiarized text data generation method based on GPT-3.5, which produces 32,927 pairs of text plagiarism detection datasets covering a wide range of plagiarism methods, bridging the gap in this part of research. Meanwhile, we propose a plagiarism identification method based on Faiss with BERT with high efficiency and high accuracy. Our experiments show that the performance of this model outperforms other models in several metrics, including 98.86\%, 98.90%, 98.86%, and 0.9888 for Accuracy, Precision, Recall, and F1 Score, respectively. At the end, we also provide a user-friendly demo platform that allows users to upload a text library and intuitively participate in the plagiarism analysis.
翻訳日:2024-07-30 23:37:56 公開日:2024-07-28
# 敵対的訓練と最近近傍分類器について

On adversarial training and the 1 Nearest Neighbor classifier ( http://arxiv.org/abs/2404.06313v3 )

ライセンス: Link先を確認
Amir Hagai, Yair Weiss, (参考訳) 入力の摂動が小さい深層学習分類器を騙す能力は、学習例に加えて、敵の例に対する損失を最小限に抑える敵の訓練の開発につながる。 逆行訓練は学習した分類器の堅牢性を改善するが、この手順は計算コストが高く、ハイパーパラメータに敏感であり、いまだに他の種類の小さな摂動に弱い分類器を残している可能性がある。 本稿では,1NN(Nearest Neighbor)分類器の性能と比較する。 妥当な仮定の下では、1NN分類器は訓練画像の小さな画像摂動に頑健であることが証明される。 CIFAR10,MNIST,Fashion-MNISTから得られた135種類のバイナリ画像分類問題を用いて実験したところ,1NNは平均対角精度でTRADES(強力な対向訓練アルゴリズム)より優れていることがわかった。 現在の対向ロバスト性リーダーボードから取り出された69のロバストモデルによる追加実験では、1NNはトレーニング中に使用したものとわずかに異なる摂動に対するロバスト性において、ほぼすべてのモデルより優れていることがわかった。 この結果から, 現代の逆行訓練手法は, 単純な1NN分類器の頑健さに欠けていたことが示唆された。 我々のコードは \url{https://github.com/amirhagai/On-Adversarial-Training-And-The-1-Nearest-Neighbor-Classifier} \keywords{Adversarial training} で見ることができます。

The ability to fool deep learning classifiers with tiny perturbations of the input has lead to the development of adversarial training in which the loss with respect to adversarial examples is minimized in addition to the training examples. While adversarial training improves the robustness of the learned classifiers, the procedure is computationally expensive, sensitive to hyperparameters and may still leave the classifier vulnerable to other types of small perturbations. In this paper we compare the performance of adversarial training to that of the simple 1 Nearest Neighbor (1NN) classifier. We prove that under reasonable assumptions, the 1NN classifier will be robust to {\em any} small image perturbation of the training images. In experiments with 135 different binary image classification problems taken from CIFAR10, MNIST and Fashion-MNIST we find that 1NN outperforms TRADES (a powerful adversarial training algorithm) in terms of average adversarial accuracy. In additional experiments with 69 robust models taken from the current adversarial robustness leaderboard, we find that 1NN outperforms almost all of them in terms of robustness to perturbations that are only slightly different from those used during training. Taken together, our results suggest that modern adversarial training methods still fall short of the robustness of the simple 1NN classifier. our code can be found at \url{https://github.com/amirhagai/On-Adversarial-Training-And-The-1-Nearest-Neighbor-Classifier} \keywords{Adversarial training}
翻訳日:2024-07-30 23:27:56 公開日:2024-07-28
# 時系列からの因果発見によるサイバー物理システムのオンライン教師なし異常検出

Explainable Online Unsupervised Anomaly Detection for Cyber-Physical Systems via Causal Discovery from Time Series ( http://arxiv.org/abs/2404.09871v4 )

ライセンス: Link先を確認
Daniele Meli, (参考訳) オンラインで監視されていない異常の検出は、サイバー物理システムの正しい操作と、それらと相互作用する人間の安全性を保証するために不可欠である。 ニューラルネットワークによるディープラーニングに基づく最先端のアプローチは、(異常のない)システムの通常のモデルとセンサー時系列のリアルタイムストリームとの相違を評価し、異常認識において優れたパフォーマンスを達成する。 しかしながら、大規模なトレーニングデータと時間は通常必要であり、説明可能性はまだ、異常の根源を特定し、予測保守性を実装することが課題である。 本稿では,センサデータのリアルタイム取得における因果関係の持続性を評価し,異常を迅速に検出する。 2つのベンチマーク異常検出データセットにおいて、我々の手法は訓練効率が高く、最先端のニューラルネットワークの精度より優れ、10種類の異常の原因を正確に同定する。 コードはhttps://github.com/Isla-lab/causal_anomaly_detectionにある。

Online unsupervised detection of anomalies is crucial to guarantee the correct operation of cyber-physical systems and the safety of humans interacting with them. State-of-the-art approaches based on deep learning via neural networks achieve outstanding performance at anomaly recognition, evaluating the discrepancy between a normal model of the system (with no anomalies) and the real-time stream of sensor time series. However, large training data and time are typically required, and explainability is still a challenge to identify the root of the anomaly and implement predictive maintainance. In this paper, we use causal discovery to learn a normal causal graph of the system, and we evaluate the persistency of causal links during real-time acquisition of sensor data to promptly detect anomalies. On two benchmark anomaly detection datasets, we show that our method has higher training efficiency, outperforms the accuracy of state-of-the-art neural architectures and correctly identifies the sources of >10 different anomalies. The code is at https://github.com/Isla-lab/causal_anomaly_detection.
翻訳日:2024-07-30 23:27:56 公開日:2024-07-28
# JointViT:長尺OCTAにおける酸素飽和レベルのモデリング

JointViT: Modeling Oxygen Saturation Levels with Joint Supervision on Long-Tailed OCTA ( http://arxiv.org/abs/2404.11525v3 )

ライセンス: Link先を確認
Zeyu Zhang, Xuyin Qi, Mingxi Chen, Guangxi Li, Ryan Pham, Ayub Qassim, Ella Berry, Zhibin Liao, Owen Siggs, Robert Mclaughlin, Jamie Craig, Minh-Son To, (参考訳) 血液中の酸素飽和度(SaO2)は健康、特に睡眠関連呼吸障害において重要である。 しかし、SaO2の連続モニタリングは、患者の状況に応じて、時間的および高度に変動する。 近年,光コヒーレンストモグラフィー(OCTA)は目関連病変を迅速かつ効果的にスクリーニングし,睡眠関連疾患の診断の可能性を示している。 このギャップを埋めるために、本稿では3つの重要な貢献について述べる。 まず,視覚変換器アーキテクチャに基づく新しいモデルであるJointViTを提案する。 第2に,データ前処理中のバランス向上手法を導入し,特にOCTAデータセット内の長期分布において,モデルの性能向上を図る。 最後に、OCTAデータセットに関する包括的な実験により、提案手法は他の最先端手法よりも大幅に優れ、全体的な精度は最大12.28%向上した。 この進歩は、将来の睡眠関連疾患の診断におけるOCTAの利用の基礎となる。 プロジェクトWebサイト https://steve-zeyu-zhang.github.io/JointViT

The oxygen saturation level in the blood (SaO2) is crucial for health, particularly in relation to sleep-related breathing disorders. However, continuous monitoring of SaO2 is time-consuming and highly variable depending on patients' conditions. Recently, optical coherence tomography angiography (OCTA) has shown promising development in rapidly and effectively screening eye-related lesions, offering the potential for diagnosing sleep-related disorders. To bridge this gap, our paper presents three key contributions. Firstly, we propose JointViT, a novel model based on the Vision Transformer architecture, incorporating a joint loss function for supervision. Secondly, we introduce a balancing augmentation technique during data preprocessing to improve the model's performance, particularly on the long-tail distribution within the OCTA dataset. Lastly, through comprehensive experiments on the OCTA dataset, our proposed method significantly outperforms other state-of-the-art methods, achieving improvements of up to 12.28% in overall accuracy. This advancement lays the groundwork for the future utilization of OCTA in diagnosing sleep-related disorders. See project website https://steve-zeyu-zhang.github.io/JointViT
翻訳日:2024-07-30 23:27:56 公開日:2024-07-28
# 不明瞭な光子の効率的な蒸留のための一般的なプロトコル

General protocols for the efficient distillation of indistinguishable photons ( http://arxiv.org/abs/2404.14217v3 )

ライセンス: Link先を確認
Jason Saied, Jeffrey Marshall, Namit Anand, Eleanor G. Rieffel, (参考訳) 我々は, 未分化光子を蒸留し, 識別可能性の誤差率を$n$の係数で低減し, わずかに大量の資源を$n$で線形にスケーリングする手法を提案する。 当社の資源要件は, 従来よりも著しく低く, ハードウェア要件も少なく, 大規模蒸留を初めて実験的に実現可能である。 この効率的な識別可能性誤差率の低減は、フォールトトレラント線形光量子計算への直接的な応用をもたらし、光子損失誤差のしきい値が改善され、コード距離が小さくなり、全体的なリソースコストが削減される可能性がある。 我々のプロトコルは有限アーベル群上のフーリエ変換に基づいており、特に離散フーリエ変換やアダマール行列を含む。 この一般的な視点は、蒸留プロトコルに関する以前の結果を統一し、効率的なスキームを多数導入することを可能にする。 我々は、対称性や関連する抑制法則を含むフーリエ変換のリッチな数学的構造を利用して、これらの蒸留プロトコルの性能を解析的および数値的に定量化する。 最後に、我々の研究は、$n$-光子離散フーリエ変換の抑圧法に関するオープンな疑問を解決している。

We introduce state-of-the-art protocols to distill indistinguishable photons, reducing distinguishability error rates by a factor of $n$, while using a modest amount of resources scaling only linearly in $n$. Our resource requirements are both significantly lower and have fewer hardware requirements than previous works, making large-scale distillation experimentally feasible for the first time. This efficient reduction of distinguishability error rates has direct applications to fault-tolerant linear optical quantum computation, potentially leading to improved thresholds for photon loss errors and allowing smaller code distances, thus reducing overall resource costs. Our protocols are based on Fourier transforms on finite abelian groups, special cases of which include the discrete Fourier transform and Hadamard matrices. This general perspective allows us to unify previous results on distillation protocols and introduce a large family of efficient schemes. We utilize the rich mathematical structure of Fourier transforms, including symmetries and related suppression laws, to quantify the performance of these distillation protocols both analytically and numerically. Finally, our work resolves an open question concerning suppression laws for the $n$-photon discrete Fourier transform: the suppression laws are exactly characterized by the well-known Zero Transmission Law if and only if $n$ is a prime power.
翻訳日:2024-07-30 23:27:56 公開日:2024-07-28
# 選択分析のためのディープニューラルネットワーク:勾配正規化による行動規則性の向上

Deep neural networks for choice analysis: Enhancing behavioral regularity with gradient regularization ( http://arxiv.org/abs/2404.14701v2 )

ライセンス: Link先を確認
Siqi Feng, Rui Yao, Stephane Hess, Ricardo A. Daziano, Timothy Brathwaite, Joan Walker, Shenhao Wang, (参考訳) ディープニューラルネットワーク(DNN)は、しばしば行動に不規則なパターンを示し、旅行行動モデリングにおける実践的可能性と理論的妥当性を著しく制限する。 本研究は、需要関数の単調性(需要の法則として知られる)を評価するための新しい指標として、強く弱い行動規則性を提案し、さらに6つの勾配正規化器を用いた制約付き最適化フレームワークを設計し、DNNの行動規則性を高める。 提案手法は, シカゴとロンドンからの旅行調査データに適用され, 大規模対小サンプルシナリオの予測力と行動規則性のトレードオフ, ドメイン内対ドメイン外一般化のトレードオフについて検討した。 その結果、マルチノードロジットのような強力な行動基盤を持つモデルとは異なり、ベンチマークDNNは行動規則性を保証することができないことが示された。 しかし、勾配正則化(GR)は、相対的に高い予測力を維持しながら、DNNの行動正則性を約6ポイント(pp)向上させる。 小サンプルのシナリオでは、GRは大きなサンプルのシナリオよりも有効であり、同時に約20pp、ログライクな振る舞いを約1.7%改善する。 DNNのドメイン内一般化と比較して、GRはドメイン外一般化においてより効果的に機能し、性能の悪いベンチマークDNNの行動規則性を約65 ppで劇的に改善し、モデル転送可能性の向上と予測における応用のための行動規則化の臨界性を示している。 さらに、提案フレームワークは、TasteNetsのような他のNNベースの選択モデルにも適用可能である。 将来の研究では、旅行需要モデルの評価において、ログライクな指標とともに行動規則性を使用して、複雑な機械学習モデルを採用する際の行動規則性をさらに向上する他の方法を検討することができる。

Deep neural networks (DNNs) frequently present behaviorally irregular patterns, significantly limiting their practical potentials and theoretical validity in travel behavior modeling. This study proposes strong and weak behavioral regularities as novel metrics to evaluate the monotonicity of individual demand functions (known as the "law of demand"), and further designs a constrained optimization framework with six gradient regularizers to enhance DNNs' behavioral regularity. The proposed framework is applied to travel survey data from Chicago and London to examine the trade-off between predictive power and behavioral regularity for large vs. small sample scenarios and in-domain vs. out-of-domain generalizations. The results demonstrate that, unlike models with strong behavioral foundations such as the multinomial logit, the benchmark DNNs cannot guarantee behavioral regularity. However, gradient regularization (GR) increases DNNs' behavioral regularity by around 6 percentage points (pp) while retaining their relatively high predictive power. In the small sample scenario, GR is more effective than in the large sample scenario, simultaneously improving behavioral regularity by about 20 pp and log-likelihood by around 1.7%. Comparing with the in-domain generalization of DNNs, GR works more effectively in out-of-domain generalization: it drastically improves the behavioral regularity of poorly performing benchmark DNNs by around 65 pp, indicating the criticality of behavioral regularization for enhancing model transferability and application in forecasting. Moreover, the proposed framework is applicable to other NN-based choice models such as TasteNets. Future studies could use behavioral regularity as a metric along with log-likelihood in evaluating travel demand models, and investigate other methods to further enhance behavioral regularity when adopting complex machine learning models.
翻訳日:2024-07-30 23:27:56 公開日:2024-07-28
# タスク不均衡型連続学習のための動的アンコレッド・プロンプト

Dynamically Anchored Prompting for Task-Imbalanced Continual Learning ( http://arxiv.org/abs/2404.14721v2 )

ライセンス: Link先を確認
Chenxing Hong, Yan Jin, Zhiqi Kang, Yizhou Chen, Mengke Li, Yang Lu, Hanzi Wang, (参考訳) 既存の継続的な学習文献は、タスクがバランスの取れたデータストリームに現れるという強い仮定に大きく依存している。 本研究では,タスクデータの分散が学習プロセス全体にわたって一様でないタスク不均衡連続学習(TICL)シナリオについて検討する。 不安定なタスクは、最近のプロンプトベース連続学習法の観点から、安定性と可塑性のトレードオフを制御するモデルの能力に大きく挑戦している。 そこで本研究では,タスクストリーム内のシフトに動的に適応するための1つの一般的なプロンプトのみを保持するプロンプトベースの手法であるDynamically Anchored Prompting (DAP)を提案する。 この一般的なプロンプトは、TICLの安定性と可塑性のバランスをとるために、ブースティングアンカーと安定化アンカーと呼ばれる2つの特別に設計されたプロンプトアンカーで、プロンプト空間で規則化されている。 注目すべきなのは、DAPはデータストリームにプロンプトを格納するだけでこのバランスを達成しているため、リハーサルのないCLでは大きなメリットがあるということだ。 広範囲な実験により、提案されたDAPは、タスク不均衡な設定下でのベンチマークにおける最先端の手法に対して4.5%から15%の絶対的な改善をもたらすことが示された。 私たちのコードはhttps://github.com/chenxing6666/DAPで利用可能です。

Existing continual learning literature relies heavily on a strong assumption that tasks arrive with a balanced data stream, which is often unrealistic in real-world applications. In this work, we explore task-imbalanced continual learning (TICL) scenarios where the distribution of task data is non-uniform across the whole learning process. We find that imbalanced tasks significantly challenge the capability of models to control the trade-off between stability and plasticity from the perspective of recent prompt-based continual learning methods. On top of the above finding, we propose Dynamically Anchored Prompting (DAP), a prompt-based method that only maintains a single general prompt to adapt to the shifts within a task stream dynamically. This general prompt is regularized in the prompt space with two specifically designed prompt anchors, called boosting anchor and stabilizing anchor, to balance stability and plasticity in TICL. Remarkably, DAP achieves this balance by only storing a prompt across the data stream, therefore offering a substantial advantage in rehearsal-free CL. Extensive experiments demonstrate that the proposed DAP results in 4.5% to 15% absolute improvements over state-of-the-art methods on benchmarks under task-imbalanced settings. Our code is available at https://github.com/chenxing6666/DAP
翻訳日:2024-07-30 23:27:56 公開日:2024-07-28
# 遅延特徴誘導と拡散を先行した極端画像圧縮に向けて

Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior ( http://arxiv.org/abs/2404.18820v3 )

ライセンス: Link先を確認
Zhiyuan Li, Yanhui Zhou, Hao Wei, Chenyang Ge, Jingwen Jiang, (参考訳) 非常に低いビットレート(ピクセル当たり0.1ビット以下(bpp))での画像圧縮は、かなりの情報損失のため重要な課題である。 本研究では,事前学習した拡散モデルの強力な生成能力を利用して,極低ビットレートで現実的な画像再構成を実現する2段階の極端画像圧縮フレームワークを提案する。 第一段階では、拡散空間における画像の潜在表現をガイダンスとして扱い、VAEベースの圧縮手法を用いて画像を圧縮し、最初に圧縮された情報をコンテンツ変数に復号する。 第2段階は、事前訓練された安定拡散を利用して、コンテンツ変数のガイダンスの下で画像を再構成する。 具体的には、コンテンツ情報を注入する小さな制御モジュールを導入し、安定した拡散モデルを固定し、生成能力を維持する。 さらに、コンテンツ変数を拡散空間に合わせるように強制する空間アライメント損失を設計し、最適化に必要な制約を提供する。 広汎な実験により,本手法は極低ビットレートでの視覚性能において,最先端の手法よりも有意に優れていた。

Image compression at extremely low bitrates (below 0.1 bits per pixel (bpp)) is a significant challenge due to substantial information loss. In this work, we propose a novel two-stage extreme image compression framework that exploits the powerful generative capability of pre-trained diffusion models to achieve realistic image reconstruction at extremely low bitrates. In the first stage, we treat the latent representation of images in the diffusion space as guidance, employing a VAE-based compression approach to compress images and initially decode the compressed information into content variables. The second stage leverages pre-trained stable diffusion to reconstruct images under the guidance of content variables. Specifically, we introduce a small control module to inject content information while keeping the stable diffusion model fixed to maintain its generative capability. Furthermore, we design a space alignment loss to force the content variables to align with the diffusion space and provide the necessary constraints for optimization. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art approaches in terms of visual performance at extremely low bitrates.
翻訳日:2024-07-30 23:18:12 公開日:2024-07-28
# リアルタイム進化からハミルトニアンの構造学習

Structure learning of Hamiltonians from real-time evolution ( http://arxiv.org/abs/2405.00082v2 )

ライセンス: Link先を確認
Ainesh Bakshi, Allen Liu, Ankur Moitra, Ewin Tang, (参考訳) e^{-\mathrm{i} Ht}$ を未知の局所ハミルトニアン $H = \sum_{a = 1}^m \lambda_a E_a$ に対して適用できることを考えると、その目標は$H$ を回復することである。 この問題は、相互作用項の$E_a$が与えられ、相互作用強度の$\lambda_a$のみが未知であるという前提の下で既によく理解されている。 しかし、その相互作用構造に関する事前の知識を必要とせずに、局所ハミルトニアンをどの程度効率的に学べるか? 我々は、ハミルトニアン学習に対して、挑戦的な構造学習の変種を解くだけでなく、ハイゼンベルク限定スケーリングのゴールド標準を達成しながら、その領域で他のオープンな問題を解く新しい一般的なアプローチを提案する。 特に、我々のアルゴリズムは、全進化時間$O(\log (n)/\varepsilon)$でハミルトニアンを$\varepsilon=誤差に復元し、(1)ハミルトニアン項を知る必要がなく、(2) クビットと相互作用する項の和がノルムが有界である任意のハミルトニアン$H$にまで拡張し、(3) 定数時間$t$インクリメントで$H$に従って進化し、一定の時間分解を達成する。 応用として、ハミルトニアンは1/\varepsilon^2$の標準極限を破って、精度$\varepsilon$までパワーロー崩壊を示すことも学べる。

We study the problem of Hamiltonian structure learning from real-time evolution: given the ability to apply $e^{-\mathrm{i} Ht}$ for an unknown local Hamiltonian $H = \sum_{a = 1}^m \lambda_a E_a$ on $n$ qubits, the goal is to recover $H$. This problem is already well-understood under the assumption that the interaction terms, $E_a$, are given, and only the interaction strengths, $\lambda_a$, are unknown. But how efficiently can we learn a local Hamiltonian without prior knowledge of its interaction structure? We present a new, general approach to Hamiltonian learning that not only solves the challenging structure learning variant, but also resolves other open questions in the area, all while achieving the gold standard of Heisenberg-limited scaling. In particular, our algorithm recovers the Hamiltonian to $\varepsilon$ error with total evolution time $O(\log (n)/\varepsilon)$, and has the following appealing properties: (1) it does not need to know the Hamiltonian terms; (2) it works beyond the short-range setting, extending to any Hamiltonian $H$ where the sum of terms interacting with a qubit has bounded norm; (3) it evolves according to $H$ in constant time $t$ increments, thus achieving constant time resolution. As an application, we can also learn Hamiltonians exhibiting power-law decay up to accuracy $\varepsilon$ with total evolution time beating the standard limit of $1/\varepsilon^2$.
翻訳日:2024-07-30 23:18:12 公開日:2024-07-28
# GraphSL: グラフソースのローカライゼーションアプローチとベンチマークデータセットのためのオープンソースライブラリ

GraphSL: An Open-Source Library for Graph Source Localization Approaches and Benchmark Datasets ( http://arxiv.org/abs/2405.03724v2 )

ライセンス: Link先を確認
Junxiang Wang, Liang Zhao, (参考訳) グラフソースのローカライゼーション問題を研究するための新しいライブラリであるGraphSLを紹介する。 グラフ拡散は情報ソースからの情報拡散を予測するが、グラフ拡散は情報拡散から情報ソースを予測する。 GraphSLは、情報拡散をシミュレートするための様々なグラフ拡散モデルを探索し、確立されたベンチマークデータセットに対する最先端のソースローカライゼーションアプローチの評価を可能にする。 GraphSLのソースコードはGithub Repository(https://github.com/xianggebenben/GraphSL)で公開されている。 バグレポートとフィードバックはGithubイシューページ(https://github.com/xianggebenben/GraphSL/ Issues)にリンクできる。

We introduce GraphSL, a new library for studying the graph source localization problem. graph diffusion and graph source localization are inverse problems in nature: graph diffusion predicts information diffusions from information sources, while graph source localization predicts information sources from information diffusions. GraphSL facilitates the exploration of various graph diffusion models for simulating information diffusions and enables the evaluation of cutting-edge source localization approaches on established benchmark datasets. The source code of GraphSL is made available at Github Repository (https://github.com/xianggebenben/GraphSL). Bug reports and feedback can be directed to the Github issues page (https://github.com/xianggebenben/GraphSL/issues).
翻訳日:2024-07-30 23:18:12 公開日:2024-07-28
# 企業の責任を負うAIプライオリティ化を促進するための戦略

Strategies for Increasing Corporate Responsible AI Prioritization ( http://arxiv.org/abs/2405.03855v2 )

ライセンス: Link先を確認
Angelina Wang, Teresa Datta, John P. Dickerson, (参考訳) 責任ある人工知能(RAI)は、ますます重要な関心事として認識されている。 しかし、企業RAIの優先順位付けのレベルはペースを保っていない。 本研究では,RAIの優先性を高めるために,企業を歴史的に動機づけてきたものについて,実践者に対して16回の半構造化インタビューを行った。 現れるのは、矛盾する要因とさまざまな要因の複雑な物語ですが、私たちは、採用可能なさまざまな戦略を強調して、それぞれにアクセス可能なアクターを指し示することで、物語に構造をもたらします。 RAI優先化を促進するための保証されたステップはないが、私たちは、実践者が互いに学び合うように、現在のモチベーターの風景を描き、将来性のある方向の選択を私たち自身で進める。

Responsible artificial intelligence (RAI) is increasingly recognized as a critical concern. However, the level of corporate RAI prioritization has not kept pace. In this work, we conduct 16 semi-structured interviews with practitioners to investigate what has historically motivated companies to increase the prioritization of RAI. What emerges is a complex story of conflicting and varied factors, but we bring structure to the narrative by highlighting the different strategies available to employ, and point to the actors with access to each. While there are no guaranteed steps for increasing RAI prioritization, we paint the current landscape of motivators so that practitioners can learn from each other, and put forth our own selection of promising directions forward.
翻訳日:2024-07-30 23:18:12 公開日:2024-07-28
# MasterWeaver: パーソナライズされたテキスト・ツー・イメージ生成のための編集容易性と顔認証

MasterWeaver: Taming Editability and Face Identity for Personalized Text-to-Image Generation ( http://arxiv.org/abs/2405.05806v3 )

ライセンス: Link先を確認
Yuxiang Wei, Zhilong Ji, Jinfeng Bai, Hongzhi Zhang, Lei Zhang, Wangmeng Zuo, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは,参照画像で示される人物の身元を示す新しい画像を生成することを目的とした,パーソナライズされたテキスト・ツー・イメージ生成において大きな成功を収めている。 有望なアイデンティティの忠実さはいくつかのチューニング不要な方法によって達成されているが、通常は過度に適合する問題に悩まされている。 学習されたアイデンティティは、無関係な情報と絡み合う傾向があり、特に顔において、不満足なテキスト制御が生じる。 本研究では,忠実なアイデンティティとフレキシブルな編集性の両方でパーソナライズされた画像を生成するために設計された,テスト時チューニング不要なMasterWeaverを提案する。 具体的には、MasterWeaverはエンコーダを採用して、アイデンティティ機能を抽出し、追加のクロスアテンションを通じて画像生成をステアリングする。 同一性を維持しながら編集性を向上させるため,MasterWeaverの編集方向をオリジナルのT2Iモデルと整合させる訓練用編集方向損失を提案する。 さらに、不整合性学習を容易にし、さらに編集性を向上させるために、顔拡張データセットを構築する。 大規模な実験により、MasterWeaverは、忠実なアイデンティティを持つパーソナライズされたイメージを生成できるだけでなく、テキスト制御性にも優れていることが示された。 私たちのコードはhttps://github.com/csyxwei/MasterWeaver.orgにある。

Text-to-image (T2I) diffusion models have shown significant success in personalized text-to-image generation, which aims to generate novel images with human identities indicated by the reference images. Despite promising identity fidelity has been achieved by several tuning-free methods, they usually suffer from overfitting issues. The learned identity tends to entangle with irrelevant information, resulting in unsatisfied text controllability, especially on faces. In this work, we present MasterWeaver, a test-time tuning-free method designed to generate personalized images with both faithful identity fidelity and flexible editability. Specifically, MasterWeaver adopts an encoder to extract identity features and steers the image generation through additional introduced cross attention. To improve editability while maintaining identity fidelity, we propose an editing direction loss for training, which aligns the editing directions of our MasterWeaver with those of the original T2I model. Additionally, a face-augmented dataset is constructed to facilitate disentangled identity learning, and further improve the editability. Extensive experiments demonstrate that our MasterWeaver can not only generate personalized images with faithful identity, but also exhibit superiority in text controllability. Our code can be found at https://github.com/csyxwei/MasterWeaver.
翻訳日:2024-07-30 23:08:22 公開日:2024-07-28
# 多層ネットワーク上での動的システムの効率的PAC学習性

Efficient PAC Learnability of Dynamical Systems Over Multilayer Networks ( http://arxiv.org/abs/2405.06884v2 )

ライセンス: Link先を確認
Zirou Qiu, Abhijin Adiga, Madhav V. Marathe, S. S. Ravi, Daniel J. Rosenkrantz, Richard E. Stearns, Anil Vullikanti, (参考訳) ネットワーク力学系は、病気や情報の拡散などの現実世界のカスケード現象の形式モデルとして広く用いられている。 従来の研究では、基盤となるネットワークが単一の層を持つ場合、未知の力学系の振る舞いを学習する問題に対処してきた。 本研究では,より現実的で困難なマルチ層ネットワーク上での動的システムの学習可能性について検討する。 まず,学習者が未知のシステムを推論するために,少数の学習例のみを必要とすることを示すための証明可能な保証付き効率的なPAC学習アルゴリズムを提案する。 さらに、モデルの複雑さを測るナタラジャン次元の厳密な解析を行う。 漸近的に、我々のナラジャン次元への有界性は、ほとんどすべての多層グラフに対して厳密である。 本研究から得られた技術と知見は,多層力学系における学習問題の今後の研究の基盤となる。

Networked dynamical systems are widely used as formal models of real-world cascading phenomena, such as the spread of diseases and information. Prior research has addressed the problem of learning the behavior of an unknown dynamical system when the underlying network has a single layer. In this work, we study the learnability of dynamical systems over multilayer networks, which are more realistic and challenging. First, we present an efficient PAC learning algorithm with provable guarantees to show that the learner only requires a small number of training examples to infer an unknown system. We further provide a tight analysis of the Natarajan dimension which measures the model complexity. Asymptotically, our bound on the Nararajan dimension is tight for almost all multilayer graphs. The techniques and insights from our work provide the theoretical foundations for future investigations of learning problems for multilayer dynamical systems.
翻訳日:2024-07-30 23:08:22 公開日:2024-07-28
# 自然の物理的前提下における量子通信の情報容量

Information capacity of quantum communication under natural physical assumptions ( http://arxiv.org/abs/2405.07231v2 )

ライセンス: Link先を確認
Jef Pauwels, Stefano Pironio, Armin Tavakoli, (参考訳) 量子準備と測定のシナリオは、放出された状態に関する様々な物理的仮定の下で研究されている。 ここでは、まず、異なる仮定が概念的および形式的にどのように関連しているかについて議論する。 次に、状態アンサンブルのワンショットアクセス可能な情報に対する制限に対応する、他のすべての緩和に役立つものを特定します。 このことは、これらの様々な物理的仮定の対象となるソースの最適状態判別確率を研究する動機となる。 量子次元、真空成分、任意の一様重なり合い、高次元信号の大きさ、実験者のデバイスに対する信頼度によって制限された状態に対して、一般および厳密な境界を導出する。 この結果は、半デバイス非依存の量子情報処理のより統一された図への第一歩となる。

The quantum prepare-and-measure scenario has been studied under various physical assumptions on the emitted states. Here, we first discuss how different assumptions are conceptually and formally related. We then identify one that can serve as a relaxation of all others, corresponding to a limitation on the one-shot accessible information of the state ensemble. This motivates us to study the optimal state discrimination probability of a source subject to these various physical assumptions. We derive general and tight bounds for states restricted by their quantum dimension, their vacuum component, an arbitrary uniform overlap, the magnitude of higher-dimensional signals and the experimenter's trust in their device. Our results constitute a first step towards a more unified picture of semi-device-independent quantum information processing.
翻訳日:2024-07-30 23:08:22 公開日:2024-07-28
# 擬似乱数列の複雑さ対策に関する調査

A Survey on Complexity Measures of Pseudo-Random Sequences ( http://arxiv.org/abs/2405.08479v3 )

ライセンス: Link先を確認
Chunlei Li, (参考訳) 1960年代に2進数列のコルモゴロフ複雑性が導入されて以降、理論計算機科学や暗号学における実践的関心の中心であるランダム性評価の複雑さ尺度のトピックにおいて、大きな進歩があった。 本調査では, 擬似ランダム列の線形, 二次, 最大次複雑度と, レンペル・ジブ複雑性, 拡張複雑性, 2進複雑性, 相関測定との関係について, 過去40年間の顕著な研究をレビューした。

Since the introduction of the Kolmogorov complexity of binary sequences in the 1960s, there have been significant advancements in the topic of complexity measures for randomness assessment, which are of fundamental importance in theoretical computer science and of practical interest in cryptography. This survey reviews notable research from the past four decades on the linear, quadratic and maximum-order complexities of pseudo-random sequences and their relations with Lempel-Ziv complexity, expansion complexity, 2-adic complexity, and correlation measures.
翻訳日:2024-07-30 23:08:22 公開日:2024-07-28
# 横型テキストから3次元生成のためのフロースコア蒸留法

Flow Score Distillation for Diverse Text-to-3D Generation ( http://arxiv.org/abs/2405.10988v2 )

ライセンス: Link先を確認
Runjie Yan, Kailu Wu, Kaisheng Ma, (参考訳) 最近のテキストから3D生成の進歩は、特にSDS(Score Distillation Sampling)に依存した手法によって顕著な進歩をもたらした。 SDSは印象的な3Dアセットを創出する能力を持っているが、その固有の最大限の探索の本質によって妨げられているため、生成結果の多様性は限られている。 本稿では,Deffusion Implicit Models(DDIM)生成プロセス(\ie PF-ODE)をSDS損失のアナログを用いて簡潔に表現できることを明らかにする。 さらに、SDS を一般化された DDIM 生成過程と見なすこともできる。 この知見に従えば、ノイズ付加段階におけるノイズサンプリング戦略は、生成結果の多様性を著しく制限することを示す。 この制限に対処するため,新しいノイズサンプリング手法を提案し,フロースコア蒸留 (FSD) と呼ばれる3次元テキスト合成手法を提案する。 各種テキスト・画像拡散モデルを用いた検証実験により、FSDは品質を損なうことなく、生成の多様性を大幅に向上することを示した。

Recent advancements in Text-to-3D generation have yielded remarkable progress, particularly through methods that rely on Score Distillation Sampling (SDS). While SDS exhibits the capability to create impressive 3D assets, it is hindered by its inherent maximum-likelihood-seeking essence, resulting in limited diversity in generation outcomes. In this paper, we discover that the Denoise Diffusion Implicit Models (DDIM) generation process (\ie PF-ODE) can be succinctly expressed using an analogue of SDS loss. One step further, one can see SDS as a generalized DDIM generation process. Following this insight, we show that the noise sampling strategy in the noise addition stage significantly restricts the diversity of generation results. To address this limitation, we present an innovative noise sampling approach and introduce a novel text-to-3D method called Flow Score Distillation (FSD). Our validation experiments across various text-to-image Diffusion Models demonstrate that FSD substantially enhances generation diversity without compromising quality.
翻訳日:2024-07-30 23:08:21 公開日:2024-07-28
# 大規模言語モデルのための完全性指向ツール検索に向けて

Towards Completeness-Oriented Tool Retrieval for Large Language Models ( http://arxiv.org/abs/2405.16089v2 )

ライセンス: Link先を確認
Changle Qu, Sunhao Dai, Xiaochi Wei, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Jun Xu, Ji-Rong Wen, (参考訳) 近年,LLM(Large Language Models)と外部ツールの統合は,事前学習データに固有の制約を緩和するための効果的な戦略として注目されている。 しかし、現実世界のシステムには様々なツールが組み込まれており、長さ制限や遅延制限のために全てのツールをLLMに入力することは不可能である。 したがって、ツール拡張LDMの可能性を十分に活用するためには、効果的なツール検索システムを開発することが不可欠である。 既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てており、しばしば冗長で類似したツールの検索に繋がる。 したがって、これらの手法はLLMが遭遇する多面的問題に対処するために必要な、多様なツールの完全なセットを提供できない。 本稿では,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデルに依存しないコラボレーティブ・ラーニング・ベースのツール検索手法であるCOLTを提案する。 具体的には、まずPLMに基づく検索モデルを微調整し、セマンティックラーニング段階におけるクエリとツール間のセマンティックな関係を抽出する。 その後、クエリ、シーン、ツール間での3つの二部グラフを構築し、協調学習段階におけるツール間の複雑な協調関係を捉えるために、デュアルビューグラフ協調学習フレームワークを導入する。 オープンベンチマークと新たに導入されたToolLensデータセットに関する大規模な実験は、COLTが優れたパフォーマンスを実現していることを示している。 特に,提案したモデルフレームワークを用いたBERT-mini (11M) の性能は,30倍のパラメータを持つBERT-large (340M) よりも優れていた。 さらに、ツール検索の今後の研究を促進するために、ツールレンスを公開します。

Recently, integrating external tools with Large Language Models (LLMs) has gained significant attention as an effective strategy to mitigate the limitations inherent in their pre-training data. However, real-world systems often incorporate a wide array of tools, making it impractical to input all tools into LLMs due to length limitations and latency constraints. Therefore, to fully exploit the potential of tool-augmented LLMs, it is crucial to develop an effective tool retrieval system. Existing tool retrieval methods primarily focus on semantic matching between user queries and tool descriptions, frequently leading to the retrieval of redundant, similar tools. Consequently, these methods fail to provide a complete set of diverse tools necessary for addressing the multifaceted problems encountered by LLMs. In this paper, we propose a novel modelagnostic COllaborative Learning-based Tool Retrieval approach, COLT, which captures not only the semantic similarities between user queries and tool descriptions but also takes into account the collaborative information of tools. Specifically, we first fine-tune the PLM-based retrieval models to capture the semantic relationships between queries and tools in the semantic learning stage. Subsequently, we construct three bipartite graphs among queries, scenes, and tools and introduce a dual-view graph collaborative learning framework to capture the intricate collaborative relationships among tools during the collaborative learning stage. Extensive experiments on both the open benchmark and the newly introduced ToolLens dataset show that COLT achieves superior performance. Notably, the performance of BERT-mini (11M) with our proposed model framework outperforms BERT-large (340M), which has 30 times more parameters. Furthermore, we will release ToolLens publicly to facilitate future research on tool retrieval.
翻訳日:2024-07-30 23:08:21 公開日:2024-07-28
# 多点優先最適化を用いたスタイル伝達

Style Transfer with Multi-iteration Preference Optimization ( http://arxiv.org/abs/2406.11581v2 )

ライセンス: Link先を確認
Shuai Liu, Jonathan May, (参考訳) 近年のテキストスタイルの転送技術は、強化学習と優先最適化の変種として、そのアプローチを特徴付けている。 本研究では、これらの手法と、主に(非神経)統計機械翻訳(以前は「チューニング」と呼ばれていた)のために開発された最適化手法のクラスとの関係について考察する。 過去のこれらの手法に触発されて、我々は確立された選好最適化アプローチを改善し、探索と最適化の繰り返しを取り入れ、"ホップ"と"フィーア"のサンプリング戦略に従うことで、対照的な例を選択する。 しかし,機械翻訳とスタイル転送の違いを認識して,並列データの欠如と多目的報酬の必要性に対処するために,新しい擬似並列生成法と動的重み付き報酬集計法により,我々のフレームワークを更に調整する。 2つの一般的なテキストスタイル転送データセットを用いて,本モデルの評価を行った。 自動評価と人的評価の結果から,最先端のベースラインと比較して,モデルの有効性と優位性を示す。

Numerous recent techniques for text style transfer characterize their approaches as variants of reinforcement learning and preference optimization. In this work, we consider the relationship between these approaches and a class of optimization approaches developed primarily for (non-neural) statistical machine translation, formerly known as `tuning'. Inspired by these techniques from the past, we improve upon established preference optimization approaches, incorporating multiple iterations of exploration and optimization, and choosing contrastive examples by following a `hope' vs `fear' sampling strategy. Cognizant of the difference between machine translation and style transfer, however, we further tailor our framework with a new pseudo-parallel generation method and a dynamic weighted reward aggregation method to tackle the lack of parallel data and the need for a multi-objective reward. We evaluate our model on two commonly used text style transfer datasets. Through automatic and human evaluation results we show the effectiveness and the superiority of our model compared to state-of-the-art baselines.
翻訳日:2024-07-30 22:48:36 公開日:2024-07-28
# ベクトル量子化のない自己回帰画像生成

Autoregressive Image Generation without Vector Quantization ( http://arxiv.org/abs/2406.11838v2 )

ライセンス: Link先を確認
Tianhong Li, Yonglong Tian, He Li, Mingyang Deng, Kaiming He, (参考訳) 従来の知恵では、画像生成のための自己回帰モデルは一般にベクトル量子化トークンを伴っている。 離散値空間はカテゴリー分布の表現を容易にするが、自己回帰モデリングは必要ではない。 本研究では,拡散法を用いて確率分布の確率分布をモデル化し,連続値空間に自己回帰モデルを適用することを提案する。 カテゴリー的クロスエントロピー損失を使用するのではなく、拡散損失関数を定義し、各確率をモデル化する。 このアプローチは、離散値トークン化器の必要性を排除する。 本研究は,標準的な自己回帰モデルや一般化マスク自己回帰(MAR)変異など,幅広い症例で有効性を評価する。 ベクトル量子化を除去することにより、画像生成装置は、シーケンスモデリングの速度優位性を享受しながら、強い結果が得られる。 この作業が、他の継続的な価値のあるドメインやアプリケーションで自動回帰生成の使用を動機付けることを願っています。 コードは、https://github.com/LTH14/marで入手できる。

Conventional wisdom holds that autoregressive models for image generation are typically accompanied by vector-quantized tokens. We observe that while a discrete-valued space can facilitate representing a categorical distribution, it is not a necessity for autoregressive modeling. In this work, we propose to model the per-token probability distribution using a diffusion procedure, which allows us to apply autoregressive models in a continuous-valued space. Rather than using categorical cross-entropy loss, we define a Diffusion Loss function to model the per-token probability. This approach eliminates the need for discrete-valued tokenizers. We evaluate its effectiveness across a wide range of cases, including standard autoregressive models and generalized masked autoregressive (MAR) variants. By removing vector quantization, our image generator achieves strong results while enjoying the speed advantage of sequence modeling. We hope this work will motivate the use of autoregressive generation in other continuous-valued domains and applications. Code is available at: https://github.com/LTH14/mar
翻訳日:2024-07-30 22:48:36 公開日:2024-07-28
# DPO:3次元物体検出におけるテスト時間適応のための二重摂動最適化

DPO: Dual-Perturbation Optimization for Test-time Adaptation in 3D Object Detection ( http://arxiv.org/abs/2406.13891v2 )

ライセンス: Link先を確認
Zhuoxiao Chen, Zixin Wang, Yadan Luo, Sen Wang, Zi Huang, (参考訳) LiDARをベースとした3Dオブジェクト検出は、近年目覚ましい進歩を遂げている。 しかし、実世界における訓練された3D検出器の展開は、テストデータの分布が異なる気象条件、オブジェクトサイズ、 \textit{etc} によってトレーニングデータから著しくずれている場合、不満足なパフォーマンスをもたらすことが多い。 この性能劣化の重要な要因は、事前訓練されたモデルの一般化可能性の低下である。 このようなシャープさは、テスト中に遭遇すると、小さなデータバリエーションであっても、大幅なパフォーマンス低下を引き起こす可能性がある。 上記の課題に対処するために, \textbf{\underline{T}est-\underline{t}ime \underline{A}daptation in \underline{3}D \underline{O}bject \underline{D}etection (TTA-3OD)} に対する \textbf{dual-perturbation Optimization (DPO)} を提案する。 我々は、平らなロスランドスケープを耕作するシャープさを最小限に抑え、小さなデータ変動に対するモデルレジリエンスを確保することにより、適応プロセスの一般化を向上する。 試験点雲の固有変動をフルに把握するために、入力されたBEV特徴に対して逆摂動を導入し、ノイズの多い試験環境をより良くシミュレートする。 二重摂動戦略は信頼できる監視信号に依存しているため、信頼性の高いハンガリーのマッカーを用いて摂動に敏感な擬似ラベルをフィルタリングする。 また,不正確な擬似ラベルからの誤りの蓄積を回避するために,適応処理を停止させることにより早期ハンガリー語のカットオフを導入する。 特にWaymo $\rightarrow$ KITTIにおいて、提案されたDPOが従来の最先端のアプローチを大幅に上回り、最も競争力のあるベースラインである$\text{AP}_\text{3D}$の57.72\%を上回り、完全に監督された上限の91\%に達することを示した。

LiDAR-based 3D object detection has seen impressive advances in recent times. However, deploying trained 3D detectors in the real world often yields unsatisfactory performance when the distribution of the test data significantly deviates from the training data due to different weather conditions, object sizes, \textit{etc}. A key factor in this performance degradation is the diminished generalizability of pre-trained models, which creates a sharp loss landscape during training. Such sharpness, when encountered during testing, can precipitate significant performance declines, even with minor data variations. To address the aforementioned challenges, we propose \textbf{dual-perturbation optimization (DPO)} for \textbf{\underline{T}est-\underline{t}ime \underline{A}daptation in \underline{3}D \underline{O}bject \underline{D}etection (TTA-3OD)}. We minimize the sharpness to cultivate a flat loss landscape to ensure model resiliency to minor data variations, thereby enhancing the generalization of the adaptation process. To fully capture the inherent variability of the test point clouds, we further introduce adversarial perturbation to the input BEV features to better simulate the noisy test environment. As the dual perturbation strategy relies on trustworthy supervision signals, we utilize a reliable Hungarian matcher to filter out pseudo-labels sensitive to perturbations. Additionally, we introduce early Hungarian cutoff to avoid error accumulation from incorrect pseudo-labels by halting the adaptation process. Extensive experiments across three types of transfer tasks demonstrate that the proposed DPO significantly surpasses previous state-of-the-art approaches, specifically on Waymo $\rightarrow$ KITTI, outperforming the most competitive baseline by 57.72\% in $\text{AP}_\text{3D}$ and reaching 91\% of the fully supervised upper bound.
翻訳日:2024-07-30 22:48:36 公開日:2024-07-28
# 視覚・言語モデルにおけるマルチモーダルハロシン化雪玉の探索と緩和

Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models ( http://arxiv.org/abs/2407.00569v2 )

ライセンス: Link先を確認
Weihong Zhong, Xiaocheng Feng, Liang Zhao, Qiming Li, Lei Huang, Yuxuan Gu, Weitao Ma, Yuan Xu, Bing Qin, (参考訳) 視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。 自然な懸念は、マルチモーダル相互作用の間、生成された幻覚がLVLMの次の世代に影響を与える可能性があることである。 先述した幻覚に関する質問を提示した場合、LVLMは、地上の視覚情報が存在するとしても、誤解され、誤った反応をするのか? そこで我々はMMHalSnowball (MMHalSnowball) というフレームワークを提案し,LVLMが学習した幻覚的会話の中で,特定の視覚的質問に答えることが求められている。 我々の実験は、オープンソースのLVLMの性能が少なくとも311\%低下していることを示し、LVLMは生成した幻覚を受け入れる傾向があり、邪魔なしにはサポートできないという誤った主張をすることを示している。 この現象をマルチモーダル・ハロシン化スノーボールと呼ぶ。 これを軽減するために,残差視覚入力からの出力分布を補正し,視覚情報に直接アクセス可能なモデルを提供するResidual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。 実験により,雪玉型多モード幻覚の2,4 %以上を低減できることを確認した。

Though advanced in understanding visual information with human languages, Large Vision-Language Models (LVLMs) still suffer from multimodal hallucinations. A natural concern is that during multimodal interaction, the generated hallucinations could influence the LVLMs' subsequent generation. Thus, we raise a question: When presented with a query relevant to the previously generated hallucination, will LVLMs be misled and respond incorrectly, even though the ground visual information exists? To answer this, we propose a framework called MMHalSnowball to evaluate LVLMs' behaviors when encountering generated hallucinations, where LVLMs are required to answer specific visual questions within a curated hallucinatory conversation. Crucially, our experiment shows that the performance of open-source LVLMs drops by at least $31\%$, indicating that LVLMs are prone to accept the generated hallucinations and make false claims that they would not have supported without distractions. We term this phenomenon Multimodal Hallucination Snowballing. To mitigate this, we further propose a training-free method called Residual Visual Decoding, where we revise the output distribution of LVLMs with the one derived from the residual visual input, providing models with direct access to the visual information. Experiments show that our method can mitigate more than $24\%$ of the snowballed multimodal hallucination while maintaining capabilities.
翻訳日:2024-07-30 22:48:36 公開日:2024-07-28
# BVI-RLV: フル登録データセットと低照度ビデオ強調のためのベンチマーク

BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement ( http://arxiv.org/abs/2407.03535v2 )

ライセンス: Link先を確認
Ruirui Lin, Nantheera Anantrasirichai, Guoxi Huang, Joanne Lin, Qi Sun, Alexandra Malyugina, David R Bull, (参考訳) 低照度ビデオはしばしば時空間的不整合ノイズを示し、コンピュータビジョンアプリケーションにおける可視性と性能を損なう。 このようなコンテンツをディープラーニングで強化する上で重要な課題のひとつは、トレーニングデータの不足である。 本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる,新しい低照度映像データセットを提案する。 我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたる画素ワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。 畳み込みニューラルネットワーク、トランスフォーマー、拡散モデル、状態空間モデル(mamba)の4つの異なる技術に基づくベンチマークを提供する。 実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。 私たちのデータセットとベンチマークへのリンクはhttps://doi.org/10.21227/mzny-8c77で公開されています。

Low-light videos often exhibit spatiotemporal incoherent noise, compromising visibility and performance in computer vision applications. One significant challenge in enhancing such content using deep learning is the scarcity of training data. This paper introduces a novel low-light video dataset, consisting of 40 scenes with various motion scenarios under two distinct low-lighting conditions, incorporating genuine noise and temporal artifacts. We provide fully registered ground truth data captured in normal light using a programmable motorized dolly and refine it via an image-based approach for pixel-wise frame alignment across different light levels. We provide benchmarks based on four different technologies: convolutional neural networks, transformers, diffusion models, and state space models (mamba). Our experimental results demonstrate the significance of fully registered video pairs for low-light video enhancement (LLVE) and the comprehensive evaluation shows that the models trained with our dataset outperform those trained with the existing datasets. Our dataset and links to benchmarks are publicly available at https://doi.org/10.21227/mzny-8c77.
翻訳日:2024-07-30 22:48:36 公開日:2024-07-28
# 病的セマンティックス-H&E-IHC仮想染色のための保存学習

Pathological Semantics-Preserving Learning for H&E-to-IHC Virtual Staining ( http://arxiv.org/abs/2407.03655v2 )

ライセンス: Link先を確認
Fuqiang Chen, Ranran Zhang, Boyun Zheng, Yiwen Sun, Jiahui He, Wenjian Qin, (参考訳) 従来のヘマトキシリン・エオシン(H&E)染色は細胞の形態や分布を明らかにするのに限られるが、免疫組織化学的(IHC)染色は分子レベルでのタンパク質の活性化を正確にかつ特異的に可視化する。 仮想染色技術は高効率IHC検査のソリューションとして登場し、H&E画像を直接IHC画像に変換する。 しかし, 仮想染色は, 病的意味論のマイニングが不十分で, 病的意味論の空間的ミスアライメントが不十分なため, 課題となっている。 これらの課題に対処するために,分子レベルでのセマンティック情報を直接組み込んで,空間的不整合に拘わらずセマンティックス相互作用を促進できるPPStain(Pathological Semantics-Preserving Learning Method for Virtual Staining)を提案する。 具体的には、PSPStainは2つの新しい学習戦略から構成される。 1)Focal Optical Density(FOD)マップを用いたPALS(Protein-Aware Learning Strategy)は,分子レベルの意味情報を表すタンパク質発現レベルのコヒーレンスを維持している。 2) プロトタイプ・一貫性学習戦略 (PCLS) は, 原型一貫性学習による画像間のセマンティックな相互作用を促進する。 臨床的に関連のある3つの指標と画像品質のための2つの指標を用いて,PSPStainを2つの公開データセットで評価した。 広範囲にわたる実験の結果,PSPStainは現状のH&E-to-IHC仮想染色法より優れており,実際の染色と仮想染色のステージングとの間には高い病理学的相関が示されている。

Conventional hematoxylin-eosin (H&E) staining is limited to revealing cell morphology and distribution, whereas immunohistochemical (IHC) staining provides precise and specific visualization of protein activation at the molecular level. Virtual staining technology has emerged as a solution for highly efficient IHC examination, which directly transforms H&E-stained images to IHC-stained images. However, virtual staining is challenged by the insufficient mining of pathological semantics and the spatial misalignment of pathological semantics. To address these issues, we propose the Pathological Semantics-Preserving Learning method for Virtual Staining (PSPStain), which directly incorporates the molecular-level semantic information and enhances semantics interaction despite any spatial inconsistency. Specifically, PSPStain comprises two novel learning strategies: 1) Protein-Aware Learning Strategy (PALS) with Focal Optical Density (FOD) map maintains the coherence of protein expression level, which represents molecular-level semantic information; 2) Prototype-Consistent Learning Strategy (PCLS), which enhances cross-image semantic interaction by prototypical consistency learning. We evaluate PSPStain on two public datasets using five metrics: three clinically relevant metrics and two for image quality. Extensive experiments indicate that PSPStain outperforms current state-of-the-art H&E-to-IHC virtual staining methods and demonstrates a high pathological correlation between the staging of real and virtual stains.
翻訳日:2024-07-30 22:48:36 公開日:2024-07-28
# 量子軌道に沿った量子エントロピー生成のための厳密な公式

An Exact Formula for Quantum Entropy Production along Quantum Trajectories ( http://arxiv.org/abs/2407.06378v2 )

ライセンス: Link先を確認
John E. Gough, Nina H. Amini, (参考訳) 連続的な測定を行う量子系の条件状態に対するフォン・ノイマンエントロピーの変化率の正確な式を与える。 ここでは、非可換テイラー級数展開を与えるPaychaのフォーミュラ {Paycha} を用いる。

We give an exact formula for the rate of change of the von Neumann entropy for the conditional state of a quantum system undergoing continuous measurement. Here we employ Paycha's Formula \cite{Paycha} which gives the noncommutative Taylor series development.
翻訳日:2024-07-30 20:51:41 公開日:2024-07-28
# LLaVA-NeXTインターリーブ:大規模マルチモーダルモデルにおけるマルチイメージ・ビデオ・3次元処理

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models ( http://arxiv.org/abs/2407.07895v2 )

ライセンス: Link先を確認
Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li, (参考訳) ビジュアル・インストラクション・チューニングはLMM(Large Multimodal Models)の能力向上に大きく貢献している。 しかし、既存のオープンLMMは、主にシングルイメージタスクに焦点を合わせており、それらのマルチイメージシナリオへの応用は、まだ検討されていない。 さらに、以前のLMM研究では、異なるシナリオに別々に取り組み、新たな機能を持つクロスシナリオを一般化することは不可能である。 この目的のために,LMMにおけるマルチイメージ,マルチフレーム(ビデオ),マルチビュー(3D),マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを導入する。 これらの機能を実現するために、インターリーブされたデータフォーマットを一般的なテンプレートとみなし、1,177.6kのサンプルでM4-Instructデータセットをコンパイルし、14のタスクと41のデータセットで4つのプライマリドメインにまたがる。 また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。 大規模な実験を通じて、LLaVA-NeXT-Interleaveは、マルチイメージ、ビデオ、および3Dベンチマークにおいて、シングルイメージタスクのパフォーマンスを維持しながら、主要な結果を達成する。 さらに、当社のモデルは、例えば、異なる設定やモダリティ間でタスクを転送するといった、いくつかの新興機能も備えています。 コードはhttps://github.com/LLaVA-VL/LLaVA-NeXTで入手できる。

Visual instruction tuning has made considerable strides in enhancing the capabilities of Large Multimodal Models (LMMs). However, existing open LMMs largely focus on single-image tasks, their applications to multi-image scenarios remains less explored. Additionally, prior LMM research separately tackles different scenarios, leaving it impossible to generalize cross scenarios with new emerging capabilities. To this end, we introduce LLaVA-NeXT-Interleave, which simultaneously tackles Multi-image, Multi-frame (video), Multi-view (3D), and Multi-patch (single-image) scenarios in LMMs. To enable these capabilities, we regard the interleaved data format as a general template and compile the M4-Instruct dataset with 1,177.6k samples, spanning 4 primary domains with 14 tasks and 41 datasets. We also curate the LLaVA-Interleave Bench to comprehensively evaluate the multi-image performance of LMMs. Through extensive experiments, LLaVA-NeXT-Interleave achieves leading results in multi-image, video, and 3D benchmarks, while maintaining the performance of single-image tasks. Besides, our model also exhibits several emerging capabilities, e.g., transferring tasks across different settings and modalities. Code is available at https://github.com/LLaVA-VL/LLaVA-NeXT
翻訳日:2024-07-30 20:51:41 公開日:2024-07-28
# 人工知能モデルのための厳格かつ費用対効果のある臨床試験の確立

Establishing Rigorous and Cost-effective Clinical Trials for Artificial Intelligence Models ( http://arxiv.org/abs/2407.08554v2 )

ライセンス: Link先を確認
Wanling Gao, Yunyou Huang, Dandan Cui, Zhuoming Yu, Wenjing Liu, Xiaoshuang Liang, Jiahui Zhao, Jiyue Xie, Hao Li, Li Ma, Ning Ye, Yumiao Kang, Dingfeng Luo, Peng Pan, Wei Huang, Zhongmou Liu, Jizhong Hu, Gangyuan Zhao, Chongrong Jiang, Fan Huang, Tianyi Wei, Suqin Tang, Bingjie Xia, Zhifei Zhang, Jianfeng Zhan, (参考訳) 人工知能(AI)と医学における臨床実践の間には、厳格で費用対効果の高い評価手法が欠如していることが主な原因である。 最先端および最先端のAIモデル評価は、医療データセットの研究室研究や、患者中心または患者中心のコントロールを持たない直接臨床試験に限られる。 さらに、AIとの共同作業において臨床医が果たす重要な役割は、その臨床実践への影響を決定する上で重要なものであり、しばしば見過ごされがちである。 臨床におけるAIモデルに対する厳密で費用対効果の高い評価手法の重要性を強調し,Dual-Cinician-centered AI randomized control trial (DC-AI RCTs) と仮想クリニックベースのin-silico trial (VC-MedAIs) をDC-AI RCTの効果的なプロキシとして取り上げる。 125名の臨床医を対象とする14の医療センターにおける2段階のDC-AI RCTから7500件の診断記録を活用した結果, DC-AI RCTの必要性とVC-MedAIの有効性が示された。 特に、VC-MedAIはヒトの臨床医と互換性があり、今後のDC-AI RCTからの洞察と結論を複製している。 我々は、DC-AI RCTとVC-MedAIを中心的な進歩として、臨床実践におけるAIモデルの革新的かつ変革的な評価手法を提示し、プリクリニカルな設定ミラーリング手法を提供し、コスト効率と迅速な開発パラダイムを再構築する。 治験登録:ChiCTR2400086816。

A profound gap persists between artificial intelligence (AI) and clinical practice in medicine, primarily due to the lack of rigorous and cost-effective evaluation methodologies. State-of-the-art and state-of-the-practice AI model evaluations are limited to laboratory studies on medical datasets or direct clinical trials with no or solely patient-centered controls. Moreover, the crucial role of clinicians in collaborating with AI, pivotal for determining its impact on clinical practice, is often overlooked. For the first time, we emphasize the critical necessity for rigorous and cost-effective evaluation methodologies for AI models in clinical practice, featuring patient/clinician-centered (dual-centered) AI randomized controlled trials (DC-AI RCTs) and virtual clinician-based in-silico trials (VC-MedAI) as an effective proxy for DC-AI RCTs. Leveraging 7500 diagnosis records from two-step inaugural DC-AI RCTs across 14 medical centers with 125 clinicians, our results demonstrate the necessity of DC-AI RCTs and the effectiveness of VC-MedAI. Notably, VC-MedAI performs comparably to human clinicians, replicating insights and conclusions from prospective DC-AI RCTs. We envision DC-AI RCTs and VC-MedAI as pivotal advancements, presenting innovative and transformative evaluation methodologies for AI models in clinical practice, offering a preclinical-like setting mirroring conventional medicine, and reshaping development paradigms in a cost-effective and fast-iterative manner. Chinese Clinical Trial Registration: ChiCTR2400086816.
翻訳日:2024-07-30 20:51:41 公開日:2024-07-28
# MaskMoE:Mixture-of-ExpertsにおけるタスクのルーティングによるToken-Level学習の促進

MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts ( http://arxiv.org/abs/2407.09816v2 )

ライセンス: Link先を確認
Zhenpeng Su, Zijia Lin, Xue Bai, Xing Wu, Yizhe Xiong, Haoran Lian, Guangyuan Ma, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu, (参考訳) モデルのサイズを拡大すると、その能力は向上するが、計算の複雑さは大幅に増大する。 Mixture-of-Experts Model (MoE)は、トレーニングや推論コストを大幅に増加させることなく、モデルサイズをスケールアップ可能にすることで、この問題に対処する。 期待された結果にもかかわらず、MoEモデルはいくつかの課題に直面している。 主に動的ルーティング手法では、トレーニングトークンが複数の専門家に分散しているため、特に希少なトークンでは不適合になる可能性がある。 さらに、固定されたルーティングメソッドはその問題を緩和できるが、表現の多様性に妥協する。 本稿では, トークンレベルの学習を円滑に行うために, \textbf{M}ixture-\textbf{o}f-\textbf{E}xpertsモデル内に, ルーティング型 \textbf{mask}ing 技術を用いることで, トークンレベルの学習を向上する手法である \textbf{MaskMoE} を提案する。 MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。 実験結果から,提案手法は従来のMixture-of-Expertsモデルよりもパープレキシティ(PPL)と下流タスク性能の両面で優れていることが示された。

Scaling the size of a model enhances its capabilities but significantly increases computation complexity. Mixture-of-Experts models (MoE) address the issue by allowing model size to scale up without substantially increasing training or inference costs. Despite their promising results, MoE models encounter several challenges. Primarily, for dynamic routing methods, the dispersion of training tokens across multiple experts can lead to underfitting, particularly for infrequent tokens. Additionally, while fixed routing methods can mitigate that issue, they compromise on the diversity of representations. In this paper, we propose \textbf{MaskMoE}, a method designed to enhance token-level learning by employing a routing \textbf{mask}ing technique within the \textbf{M}ixture-\textbf{o}f-\textbf{E}xperts model. MaskMoE is capable of maintaining representation diversity while achieving more comprehensive training. Experimental results demonstrate that our method outperforms previous dominant Mixture-of-Experts models in terms of both perplexity (PPL) and downstream task performance.
翻訳日:2024-07-30 20:41:58 公開日:2024-07-28
# BUSClean:医療用AIのための乳房超音波画像前処理と知識抽出のためのオープンソースソフトウェア

BUSClean: Open-source software for breast ultrasound image pre-processing and knowledge extraction for medical AI ( http://arxiv.org/abs/2407.11316v2 )

ライセンス: Link先を確認
Arianna Bunnell, Kailee Hung, John A. Shepherd, Peter Sadowski, (参考訳) 医療画像のための人工知能(AI)の開発は、数十万の画像からなる大規模な臨床データセットのキュレーションとクリーニングを要求する。 マンモグラフィーのようないくつかのモダリティは、高度に標準化されたイメージングを含んでいる。 対照的に、乳房超音波画像(BUS)は、スキャンモード、ソノグラフアノテーション、追加のビューなど、スキャンメタデータによって示されない多くの不規則性を含むことができる。 臨床BUSデータセットを自動処理するオープンソースソフトウェアソリューションを提案する。 このアルゴリズムは、ソノグラフアノテーションからBUSスキャンフィルタリング、クリーニング、知識抽出を行う。 モジュラーデザインにより、ユーザーは新しい設定に適応できる。 430の臨床的BUS画像の内部試験データセットの実験は、あらゆる種類のテキストアノテーションの検出において、95%の感度と98%の特異性、98%の感度と特異性、血液フローハイライト、代替スキャンモード、または無効スキャンによるスキャンの検出において達成される。 A case study on a completely external, public dataset of BUS scans found that BUSClean identified text annotations and scan with blood flow highlighting with 88.6% and 90.9% sensitivity and 98.3% and 99.9% specificity。 ケーススタディに特有のキャリパーの種類を考慮に入れた病変キャリパー検出法の適応は、新しいデータ分布におけるBUSCleanの使用を意図し、病変キャリパー検出の性能を43.3%、93.3%のアウト・オブ・ザ・ボックスから92.1%、92.3%の感度と特異性に向上させる。 ソースコード、サンプルノート、サンプルデータはhttps://github.com/hawaii-ai/bus-cleaning.comで公開されている。

Development of artificial intelligence (AI) for medical imaging demands curation and cleaning of large-scale clinical datasets comprising hundreds of thousands of images. Some modalities, such as mammography, contain highly standardized imaging. In contrast, breast ultrasound imaging (BUS) can contain many irregularities not indicated by scan metadata, such as enhanced scan modes, sonographer annotations, or additional views. We present an open-source software solution for automatically processing clinical BUS datasets. The algorithm performs BUS scan filtering, cleaning, and knowledge extraction from sonographer annotations. Its modular design enables users to adapt it to new settings. Experiments on an internal testing dataset of 430 clinical BUS images achieve >95% sensitivity and >98% specificity in detecting every type of text annotation, >98% sensitivity and specificity in detecting scans with blood flow highlighting, alternative scan modes, or invalid scans. A case study on a completely external, public dataset of BUS scans found that BUSClean identified text annotations and scans with blood flow highlighting with 88.6% and 90.9% sensitivity and 98.3% and 99.9% specificity, respectively. Adaptation of the lesion caliper detection method to account for a type of caliper specific to the case study demonstrates intended use of BUSClean in new data distributions and improved performance in lesion caliper detection from 43.3% and 93.3% out-of-the-box to 92.1% and 92.3% sensitivity and specificity, respectively. Source code, example notebooks, and sample data are available at https://github.com/hawaii-ai/bus-cleaning.
翻訳日:2024-07-30 20:41:58 公開日:2024-07-28
# 変圧器と2D-CNNによる電力負荷系列のグローバルおよび局所的特徴の学習:位相空間再構成を取り入れた画像に基づく多段階予測手法

Learning Global and Local Features of Power Load Series Through Transformer and 2D-CNN: An Image-based Multi-step Forecasting Approach Incorporating Phase Space Reconstruction ( http://arxiv.org/abs/2407.11553v2 )

ライセンス: Link先を確認
Zihan Tang, Tianyao Ji, Wenhu Tang, (参考訳) 現代の電力システムは進化を続けており、エネルギー管理において正確な電力負荷予測が重要な問題となっている。 位相空間再構成法はシステム力学の観点から電力負荷の内部カオス性を効果的に維持することができ、短期予測のための有望な知識ベース前処理法である。 電力負荷の非定常特性をモデル化するPSR手法の能力をフル活用するために,従来のPSR予測手法を適用して汎用的なマルチステップ予測手法を構築することの難しさを解決するために,ニューラルネットワークを微妙に統合してエンド・ツー・エンドの学習システムを構築することで,新しい多段階予測手法を提案する。 まず, 位相軌跡の有用な特徴について詳述する。 数学的導出を通じて、PSRと他の時系列前処理法であるパッチセグメンテーションの等価な特徴を初めて示す。 この知識に基づいて、画像に基づくモデリングの視点を導入する。 その後、画像のグローバルパターンとローカルパターンの抽出にTransformer Encoderと2D-CNNを用いる新しいディープラーニングモデル、すなわちPSR-GALIENを設計し、効率的な相関モデルにMLPベースの予測器を用いる。 次に、PSR-GALIENの有効性を検証するために、5つの実世界のベンチマークデータセットで広範な実験を行う。 その結果,6つの最先端ディープラーニングモデルと比較して,PSR-GALIENの予測性能はこれらのベースラインを一貫して上回り,日中・日中両方の予測シナリオにおいて精度が優れていることがわかった。 同時に、その予測結果の属性を可視化に基づく手法で説明することができ、解釈可能性を大幅に向上させることができる。

As modern power systems continue to evolve, accurate power load forecasting remains a critical issue in energy management. The phase space reconstruction method can effectively retain the inner chaotic property of power load from a system dynamics perspective and thus is a promising knowledge-based preprocessing method for short-term forecasting. In order to fully utilize the capability of PSR method to model the non-stationary characteristics within power load, and to solve the problem of the difficulty in applying traditional PSR prediction methods to form a general multi-step forecasting scheme, this study proposes a novel multi-step forecasting approach by delicately integrating the PSR with neural networks to establish an end-to-end learning system. Firstly, the useful features in the phase trajectory are discussed in detail. Through mathematical derivation, the equivalent characterization of the PSR and another time series preprocessing method, patch segmentation, is demonstrated for the first time. Based on this knowledge, an image-based modeling perspective is introduced. Subsequently, a novel deep learning model, namely PSR-GALIEN, is designed, in which the Transformer Encoder and 2D-CNN are employed for the extraction of the global and local patterns in the image, and a MLP-based predictor is used for the efficient correlation modeling. Then, extensive experiments are conducted on five real-world benchmark datasets to verify the effectiveness of the PSR-GALIEN. The results show that, compared with six state-of-the-art deep learning models, the forecasting performance of PSR-GALIEN consistently surpasses these baselines, achieving superior accuracy in both intra-day and day-ahead forecasting scenarios. At the same time, the attributions of its forecasting results can be explained through the visualization-based method, which significantly increases the interpretability.
翻訳日:2024-07-30 20:41:58 公開日:2024-07-28
# 大規模言語モデル(LLM)を用いたグラフの学習 : モデルロバストネスの深層化

Learning on Graphs with Large Language Models(LLMs): A Deep Dive into Model Robustness ( http://arxiv.org/abs/2407.12068v2 )

ライセンス: Link先を確認
Kai Guo, Zewen Liu, Zhikai Chen, Hongzhi Wen, Wei Jin, Jiliang Tang, Yi Chang, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。 近年,テキスト属性を持つグラフの学習を向上し,有望な性能を示すLLMベースのパイプラインがいくつか開発されている。 しかし、グラフは敵攻撃の影響を受けやすいことがよく知られており、LLMがグラフ上での学習において堅牢性を示すかどうかは不明である。 このギャップに対処するため,本研究は,グラフに対する敵対的攻撃の文脈におけるLLMの可能性を探究することを目的としている。 具体的には, LLMs-as-Enhancers と LLMs-as-Predictors という2次元のグラフ構造とテキストの摂動に対する頑健性について検討する。 より広範な実験により,LLM-as-EnhancersとLLM-as-Predictorsは,浅層モデルと比較して,構造的およびテキスト的攻撃に対して優れた堅牢性を有することが明らかとなった。 さらに、我々のベンチマークライブラリを公開して、迅速かつ公平な評価を容易にし、この分野で進行中の革新的な研究を促進するようにしました。

Large Language Models (LLMs) have demonstrated remarkable performance across various natural language processing tasks. Recently, several LLMs-based pipelines have been developed to enhance learning on graphs with text attributes, showcasing promising performance. However, graphs are well-known to be susceptible to adversarial attacks and it remains unclear whether LLMs exhibit robustness in learning on graphs. To address this gap, our work aims to explore the potential of LLMs in the context of adversarial attacks on graphs. Specifically, we investigate the robustness against graph structural and textual perturbations in terms of two dimensions: LLMs-as-Enhancers and LLMs-as-Predictors. Through extensive experiments, we find that, compared to shallow models, both LLMs-as-Enhancers and LLMs-as-Predictors offer superior robustness against structural and textual attacks.Based on these findings, we carried out additional analyses to investigate the underlying causes. Furthermore, we have made our benchmark library openly available to facilitate quick and fair evaluations, and to encourage ongoing innovative research in this field.
翻訳日:2024-07-30 20:41:58 公開日:2024-07-28
# 言語モデルのドメイン特化事前学習:医学領域における比較研究

Domain-Specific Pretraining of Language Models: A Comparative Study in the Medical Field ( http://arxiv.org/abs/2407.14076v2 )

ライセンス: Link先を確認
Tobias Kerner, (参考訳) LLMが単一のドメインで特定のタスクに使用されるケースは多い。 これらは通常、より一般的ではなく、よりドメイン固有の知識を必要とする。 高機能で汎用的なGPT-4やClaude-3-opusのような言語モデルは、そのようなタスクによく使用されるが、非常に大きく、プロプライエタリでない場合でもローカルでは実行できない。 センシティブなデータを扱う場合、これは問題になる可能性がある。 本稿では、ドメイン固有および混合ドメイン事前学習を、特定の言語モデルに対する一般的な事前学習よりも効率的な方法として論じる。 専門的な言語モデルのベンチマーク結果を汎用言語モデルと比較し、特に医療領域におけるドメイン固有の事前訓練に関する作業について考察する。

There are many cases where LLMs are used for specific tasks in a single domain. These usually require less general, but more domain-specific knowledge. Highly capable, general-purpose state-of-the-art language models like GPT-4 or Claude-3-opus can often be used for such tasks, but they are very large and cannot be run locally, even if they were not proprietary. This can be a problem when working with sensitive data. This paper focuses on domain-specific and mixed-domain pretraining as potentially more efficient methods than general pretraining for specialized language models. We will take a look at work related to domain-specific pretraining, specifically in the medical area, and compare benchmark results of specialized language models to general-purpose language models.
翻訳日:2024-07-30 20:31:59 公開日:2024-07-28
# DiffX: クロスモーダルな生成モデルにレイアウトをガイドする

DiffX: Guide Your Layout to Cross-Modal Generative Modeling ( http://arxiv.org/abs/2407.15488v2 )

ライセンス: Link先を確認
Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang, (参考訳) 拡散モデルは言語駆動とレイアウト駆動の画像生成において大きな進歩を遂げている。 しかし、ほとんどの拡散モデルは可視RGB画像生成に限られている。 実際、世界の人間の知覚は、色調コントラスト、熱照明、深度情報など、様々な視点で富んでいる。 本稿ではDiffXと呼ばれる一般レイアウト誘導型クロスモーダル ``RGB+X'' 生成のための新しい拡散モデルを提案する。 まず,手動補正により補足された画像キャプションにLLaVAを用いて,テキスト記述によるクロスモーダル画像データセットを構築する。 特に、DiffXは単純だが効果的なクロスモーダル生成モデリングパイプラインを示し、このパイプラインはモダリティ共有された潜在空間における拡散とデノゲーションプロセスを実行し、Dual Path Variational AutoEncoder (DP-VAE) によって促進される。 さらに,レイアウトとテキスト条件をリンクするゲート型クロスアテンション機構を組み込んだ共同モダリティ埋め込みを導入する。 一方、Long-CLIPは長いキャプションの埋め込みに使われ、ユーザーガイダンスを改善している。 広範な実験を通じて、DiffXは3つのRGB+Xデータセット(FLIR、MFNet、COME15K)にわたるクロスモーダル生成の堅牢性と柔軟性を示す。 また、 ``RGB+X+Y'' あるいはより多様なモダリティを適応的に生成する可能性も示している。 私たちのコードとクロスモーダルなイメージデータセットはhttps://github.com/zeyuwang-zju/DiffX.comで公開されています。

Diffusion models have made significant strides in language-driven and layout-driven image generation. However, most diffusion models are limited to visible RGB image generation. In fact, human perception of the world is enriched by diverse viewpoints, including chromatic contrast, thermal illumination, and depth information. In this paper, we introduce a novel diffusion model for general layout-guided cross-modal ``RGB+X'' generation, called DiffX. Firstly, we construct the cross-modal image datasets with text description by using LLaVA for image captioning, supplemented by manual corrections. Notably, DiffX presents a simple yet effective cross-modal generative modeling pipeline, which conducts diffusion and denoising processes in the modality-shared latent space, facilitated by our Dual Path Variational AutoEncoder (DP-VAE). Moreover, we introduce the joint-modality embedder, which incorporates a gated cross-attention mechanism to link layout and text conditions. Meanwhile, the advanced Long-CLIP is employed for long caption embedding to improve user guidance. Through extensive experiments, DiffX demonstrates robustness and flexibility in cross-modal generation across three RGB+X datasets: FLIR, MFNet, and COME15K, guided by various layout types. It also shows the potential for adaptive generation of ``RGB+X+Y'' or more diverse modalities. Our code and constructed cross-modal image datasets are available at https://github.com/zeyuwang-zju/DiffX.
翻訳日:2024-07-30 20:31:59 公開日:2024-07-28
# 熱伝導率に及ぼすフォノン散乱効果の量子計算

Quantum Computing for Phonon Scattering Effects on Thermal Conductivity ( http://arxiv.org/abs/2407.15808v2 )

ライセンス: Link先を確認
Xiangjun Tan, (参考訳) 近年の研究では、複数のフォノン散乱過程が材料の熱伝導率に大きく影響を与え、フォノンモードの複雑さがエスカレートするにつれて、古典的なシミュレーションにおいて重要な計算課題が生じることが示されている。 本研究では,これらの課題に対処するための量子シミュレーションの可能性について検討し,ノイズ中間スケール量子時代(NISQ)量子計算能力と熱伝導率計算を最適化するための量子誤差緩和技術を用いて検討した。 変分量子固有解法(VQE)アルゴリズムを用いて,ボルツマン輸送方程式(BTE)に基づくフォノン-フォノンの寄与をシミュレートする。 提案手法では,マルチフォノン散乱系をフェミオンスピン演算子にマッピングし,回路精度と深さのバランスをとるために,カスタマイズアンザッツを作成する必要がある。 ボソニック作用素を用いてフォック空間内にシステムを構築し、量子計算に適したパウリ作用素の和に変換する。 脱分極と非単体雑音の影響に対処することにより、ノイズの影響をベンチマークし、誤差軽減戦略を実装し、NISQ時代の量子シミュレーションのより効率的なモデルを開発する。

Recent investigations have demonstrated that multi-phonon scattering processes substantially influence the thermal conductivity of materials, posing significant computational challenges for classical simulations as the complexity of phonon modes escalates. This study examines the potential of quantum simulations to address these challenges, utilizing Noisy Intermediate Scale Quantum era (NISQ) quantum computational capabilities and quantum error mitigation techniques to optimize thermal conductivity calculations. Employing the Variational Quantum Eigensolver (VQE) algorithm, we simulate phonon-phonon contributions based on the Boltzmann Transport Equation (BTE). Our methodology involves mapping multi-phonon scattering systems to fermionic spin operators, necessitating the creation of a customized ansatz to balance circuit accuracy and depth. We construct the system within Fock space using bosonic operators and transform the Hamiltonian into the sum of Pauli operators suitable for quantum computation. By addressing the impact of depolarization and non-unitary noise effects, we benchmark the noise influence and implement error mitigation strategies to develop a more efficient model for quantum simulations in the NISQ era.
翻訳日:2024-07-30 20:31:59 公開日:2024-07-28
# コード中心のソフトウェア脆弱性の自動評価: どれくらいの距離にあるか? C/C++における実証的研究

Automated Code-centric Software Vulnerability Assessment: How Far Are We? An Empirical Study in C/C++ ( http://arxiv.org/abs/2407.17053v3 )

ライセンス: Link先を確認
Anh The Nguyen, Triet Huynh Minh Le, M. Ali Babar, (参考訳) 背景: C言語とC++言語は、実際に広く使われているため、ソフトウェア工学の研究において重要な役割を担っている。 機械学習(ML)とディープラーニング(DL)技術を使って、これらの言語で書かれたソースコードのソフトウェア脆弱性(SV)を検出する。 しかし,これらの手法を機能レベルのSV評価に適用することは,ほとんど研究されていない。 SVアセスメントは、セキュリティ欠陥の悪用性、影響、深刻さに関する詳細な情報を提供するため、ますます重要になっている。 Aims: C/C++における関数レベルのSV評価において,MLモデルとDLモデルの性能を調査・比較するための最初の実証的研究を行い,その多くをSV検出に用いた。 方法:9,993個の脆弱なC/C++関数を用いて,CVSS(Common Vulnerability Scoring System)に基づいて,SV評価のための6つの多クラスMLモデルと5つの多クラスDLモデルの性能評価を行った。 さらに、共通の脆弱なコードを利用して、単一のモデルで全てのSV評価出力を同時に予測できるマルチタスク学習について検討し、このモデルの有効性と効率を元のマルチクラスモデルと比較する。 結果: ML は,関数レベルの SV 評価のためのマルチクラス DL モデルと比較して,学習時間を大幅に短縮した,整合性や性能が向上していることが示唆された。 マルチタスク学習を利用することで、DLモデルは大幅に改善され、平均してマシューズ相関係数(MCC)は8-22%増加した。 結論: C/C++における関数レベルのSV評価にデータ駆動技術を用いるプラクティスを精査する。 これにより、この領域における将来の仕事の強力な基盤が確立できる。

Background: The C and C++ languages hold significant importance in Software Engineering research because of their widespread use in practice. Numerous studies have utilized Machine Learning (ML) and Deep Learning (DL) techniques to detect software vulnerabilities (SVs) in the source code written in these languages. However, the application of these techniques in function-level SV assessment has been largely unexplored. SV assessment is increasingly crucial as it provides detailed information on the exploitability, impacts, and severity of security defects, thereby aiding in their prioritization and remediation. Aims: We conduct the first empirical study to investigate and compare the performance of ML and DL models, many of which have been used for SV detection, for function-level SV assessment in C/C++. Method: Using 9,993 vulnerable C/C++ functions, we evaluated the performance of six multi-class ML models and five multi-class DL models for the SV assessment at the function level based on the Common Vulnerability Scoring System (CVSS). We further explore multi-task learning, which can leverage common vulnerable code to predict all SV assessment outputs simultaneously in a single model, and compare the effectiveness and efficiency of this model type with those of the original multi-class models. Results: We show that ML has matching or even better performance compared to the multi-class DL models for function-level SV assessment with significantly less training time. Employing multi-task learning allows the DL models to perform significantly better, with an average of 8-22% increase in Matthews Correlation Coefficient (MCC). Conclusions: We distill the practices of using data-driven techniques for function-level SV assessment in C/C++, including the use of multi-task DL to balance efficiency and effectiveness. This can establish a strong foundation for future work in this area.
翻訳日:2024-07-30 20:22:03 公開日:2024-07-28
# HumanVid: カメラ制御可能な人間のイメージアニメーションのためのデミスティファイトトレーニングデータ

HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation ( http://arxiv.org/abs/2407.17438v2 )

ライセンス: Link先を確認
Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin, (参考訳) 人間の画像アニメーションは、キャラクタ写真からビデオを生成し、ユーザーが制御し、ビデオや映画制作の可能性を解き放つ。 最近のアプローチでは、高品質なトレーニングデータを使用して印象的な結果が得られるが、これらのデータセットがアクセスできないことは、公正で透明なベンチマークを妨げている。 さらに、これらの手法は2次元の人間の動きを優先し、ビデオにおけるカメラの動きの重要性を見落とし、限られた制御と不安定な映像生成につながる。 トレーニングデータをデミスティフィケートするために,人工現実データと合成データを組み合わせた人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを提案する。 実世界のデータについては、インターネットから著作権のない実世界のビデオの膨大なコレクションをコンパイルします。 慎重に設計されたルールベースのフィルタリング戦略により、高品質なビデオが確実に含まれ、結果として1080P解像度で20万本もの人間中心のビデオが集められる。 ヒトとカメラの動作アノテーションは2次元ポーズ推定器とSLAMに基づく手法を用いて達成される。 合成データについては,2300件の著作権のない3Dアバター資産を収集し,既存の3D資産を拡大する。 特に,ルールに基づくカメラ軌跡生成手法を導入し,実世界のデータにはほとんど見つからない,多種多様な高精度なカメラモーションアノテーションを合成パイプラインに組み込むことを可能にした。 HumanVidの有効性を検証するため,カメラ制御可能なヒューマンアニメーションのベースラインモデルCamAnimateを構築し,人間とカメラの両方の動きを条件とする。 広範にわたる実験を通じて、人間のポーズとカメラの動きを制御し、新しいベンチマークを設定できるようなシンプルなHumanVidのベースライントレーニングが、最先端のパフォーマンスを実現することを実証した。 コードとデータはhttps://github.com/zhenzhiwang/HumanVid/.comで公開される。

Human image animation involves generating videos from a character photo, allowing user control and unlocking potential for video and movie production. While recent approaches yield impressive results using high-quality training data, the inaccessibility of these datasets hampers fair and transparent benchmarking. Moreover, these approaches prioritize 2D human motion and overlook the significance of camera motions in videos, leading to limited control and unstable video generation. To demystify the training data, we present HumanVid, the first large-scale high-quality dataset tailored for human image animation, which combines crafted real-world and synthetic data. For the real-world data, we compile a vast collection of copyright-free real-world videos from the internet. Through a carefully designed rule-based filtering strategy, we ensure the inclusion of high-quality videos, resulting in a collection of 20K human-centric videos in 1080P resolution. Human and camera motion annotation is accomplished using a 2D pose estimator and a SLAM-based method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets to augment existing available 3D assets. Notably, we introduce a rule-based camera trajectory generation method, enabling the synthetic pipeline to incorporate diverse and precise camera motion annotation, which can rarely be found in real-world data. To verify the effectiveness of HumanVid, we establish a baseline model named CamAnimate, short for Camera-controllable Human Animation, that considers both human and camera motions as conditions. Through extensive experimentation, we demonstrate that such simple baseline training on our HumanVid achieves state-of-the-art performance in controlling both human pose and camera motions, setting a new benchmark. Code and data will be publicly available at https://github.com/zhenzhiwang/HumanVid/.
翻訳日:2024-07-30 20:22:03 公開日:2024-07-28
# エビデンスベースのソフトウェアエンジニアリングにおけるジェネレーティブAI:ホワイトペーパー

Generative AI in Evidence-Based Software Engineering: A White Paper ( http://arxiv.org/abs/2407.17440v2 )

ライセンス: Link先を確認
Matteo Esposito, Andrea Janes, Davide Taibi, Valentina Lenarduzzi, (参考訳) コンテキスト。 1年足らずで、実践者や研究者は、生成人工知能の迅速かつ広範な実装を目撃した。 実践者や研究者が提案する新しいモデルの日次提供により、迅速な採用が可能になった。 テキストGAI機能により、研究者は世界中で新しい生成シナリオを探索し、すべての時間を要するテキスト生成と分析タスクを簡素化し、急ぐことができる。 モチベーション。 デジタル図書館による情報へのアクセシビリティ向上に伴い,我々の分野における出版物の増加により,組織的な文献レビューや地図作成研究は,この課題から,証拠ベースソフトウェア工学におけるGAIの役割を探求し,考察した。 今後の方向。 現在の調査に基づいて、EBSE研究者を効果的に支援する包括的モデルスイートの作成と実証検証を行う。

Context. In less than a year practitioners and researchers witnessed a rapid and wide implementation of Generative Artificial Intelligence. The daily availability of new models proposed by practitioners and researchers has enabled quick adoption. Textual GAIs capabilities enable researchers worldwide to explore new generative scenarios simplifying and hastening all timeconsuming text generation and analysis tasks. Motivation. The exponentially growing number of publications in our field with the increased accessibility to information due to digital libraries makes conducting systematic literature reviews and mapping studies an effort and timeinsensitive task Stemmed from this challenge we investigated and envisioned the role of GAIs in evidencebased software engineering. Future Directions. Based on our current investigation we will follow up the vision with the creation and empirical validation of a comprehensive suite of models to effectively support EBSE researchers
翻訳日:2024-07-30 20:22:03 公開日:2024-07-28
# 金融市場におけるビッグデータと機械学習に基づくリスクモニタリングシステムの設計と最適化

Design and Optimization of Big Data and Machine Learning-Based Risk Monitoring System in Financial Markets ( http://arxiv.org/abs/2407.19352v1 )

ライセンス: Link先を確認
Liyang Wang, Yu Cheng, Xingxin Gu, Zhizhong Wu, (参考訳) 金融市場の複雑化とデータ量の増加により、従来のリスクモニタリング手法は現代の金融機関にとってもはや十分ではない。 本稿では,ビッグデータと機械学習に基づくリスク監視システムの設計と最適化を行う。 4層アーキテクチャを構築することで、大規模な財務データと高度な機械学習アルゴリズムを効果的に統合する。 このシステムで採用されている主な技術は、Long Short-Term Memory(LSTM)ネットワーク、Random Forest、Gradient Boosting Trees、およびリアルタイムデータ処理プラットフォームApache Flinkである。 調査の結果、このシステムはリスク管理の効率と正確性を大幅に向上させ、特にマーケットクラッシュリスクの特定と警告に優れていた。

With the increasing complexity of financial markets and rapid growth in data volume, traditional risk monitoring methods no longer suffice for modern financial institutions. This paper designs and optimizes a risk monitoring system based on big data and machine learning. By constructing a four-layer architecture, it effectively integrates large-scale financial data and advanced machine learning algorithms. Key technologies employed in the system include Long Short-Term Memory (LSTM) networks, Random Forest, Gradient Boosting Trees, and real-time data processing platform Apache Flink, ensuring the real-time and accurate nature of risk monitoring. Research findings demonstrate that the system significantly enhances efficiency and accuracy in risk management, particularly excelling in identifying and warning against market crash risks.
翻訳日:2024-07-30 18:41:57 公開日:2024-07-28
# 深部ニューラルネットワークにおける特徴学習のバネブロック理論

A spring-block theory of feature learning in deep neural networks ( http://arxiv.org/abs/2407.19353v1 )

ライセンス: Link先を確認
Cheng Shi, Liming Pan, Ivan Dokmanić, (参考訳) ディープラーニングにおける中心的な疑問は、ディープニューラルネットワーク(DNN)が機能をどのように学習するかである。 DNN層は徐々にデータを低次元の規則的な幾何学に分解する。 非線型性、ノイズ、学習率、幅、深さ、その他多くのパラメータの集合効果は、顕微鏡神経力学から構築された第一原理理論を導出した。 ここでは、浅い層や深い層がより効果的に特徴を学習する場所を示すノイズ非直線位相図を示す。 そこで我々は,この位相図を正確に再現した特徴学習のマクロ力学的理論を提案し,なぜ,DNN が 'lazy'' であり 'active' であるのか,また,機能学習の層上での分布をテスト精度で関連づけた。

A central question in deep learning is how deep neural networks (DNNs) learn features. DNN layers progressively collapse data into a regular low-dimensional geometry. This collective effect of non-linearity, noise, learning rate, width, depth, and numerous other parameters, has eluded first-principles theories which are built from microscopic neuronal dynamics. Here we present a noise-non-linearity phase diagram that highlights where shallow or deep layers learn features more effectively. We then propose a macroscopic mechanical theory of feature learning that accurately reproduces this phase diagram, offering a clear intuition for why and how some DNNs are ``lazy'' and some are ``active'', and relating the distribution of feature learning over layers with test accuracy.
翻訳日:2024-07-30 18:41:57 公開日:2024-07-28
# LLMエージェントの創発的セキュリティとプライバシ:ケーススタディによる調査

The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies ( http://arxiv.org/abs/2407.19354v1 )

ライセンス: Link先を確認
Feng He, Tianqing Zhu, Dayong Ye, Bo Liu, Wanlei Zhou, Philip S. Yu, (参考訳) LLM(Large Language Models)の急速な開発に触発されて、LLMエージェントは複雑なタスクを実行するように進化してきた。 LLMエージェントは様々な領域に広く適用され、大量のデータを処理して人間と対話し、タスクを実行する。 LLMエージェントの幅広い応用は商業的価値を示しているが、セキュリティやプライバシーの脆弱性も明らかにしている。 現段階では、LLMエージェントのセキュリティとプライバシに関する包括的な研究が必要である。 この調査は、LLMエージェントが直面しているプライバシーとセキュリティの問題を包括的に概観することを目的としている。 まず LLM エージェントの基本的な知識を導入し,脅威の分類と分析を行う。 次に、これらの脅威が人間、環境、その他のエージェントに与える影響について議論する。 その後,既存の防衛戦略を概観し,今後の動向を探る。 さらに、調査にはさまざまなケーススタディが組み込まれており、より理解しやすいものになっている。 これらの重要なセキュリティとプライバシの問題を強調することで、この調査はLLMエージェントのセキュリティとプライバシの向上に向けた将来の研究を刺激し、将来のアプリケーションにおける信頼性と信頼性を高めることを目指している。

Inspired by the rapid development of Large Language Models (LLMs), LLM agents have evolved to perform complex tasks. LLM agents are now extensively applied across various domains, handling vast amounts of data to interact with humans and execute tasks. The widespread applications of LLM agents demonstrate their significant commercial value; however, they also expose security and privacy vulnerabilities. At the current stage, comprehensive research on the security and privacy of LLM agents is highly needed. This survey aims to provide a comprehensive overview of the newly emerged privacy and security issues faced by LLM agents. We begin by introducing the fundamental knowledge of LLM agents, followed by a categorization and analysis of the threats. We then discuss the impacts of these threats on humans, environment, and other agents. Subsequently, we review existing defensive strategies, and finally explore future trends. Additionally, the survey incorporates diverse case studies to facilitate a more accessible understanding. By highlighting these critical security and privacy issues, the survey seeks to stimulate future research towards enhancing the security and privacy of LLM agents, thereby increasing their reliability and trustworthiness in future applications.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# 臨床成績予測のためのベスト予測課題の選択学習

Learning to Select the Best Forecasting Tasks for Clinical Outcome Prediction ( http://arxiv.org/abs/2407.19359v1 )

ライセンス: Link先を確認
Yuan Xue, Nan Du, Anne Mottram, Martin Seneviratne, Andrew M. Dai, (参考訳) 本稿では,自己管理型患者軌道予測学習ルールをメタオブジェクト上でメタトレーニングすることで,その後の臨床結果予測よりも患者表現の有用性を直接最適化するメタ学習を提案する。 このメタオブジェクトは、後続の監督タスクに対するラベル付けされていない臨床測定予測から生成された表現の有用性を直接ターゲットとする。 メタ学習は、ターゲットのリスク予測に直接使用することができ、利用可能な限られたサンプルを使用して、モデルのパフォーマンスをさらに微調整することができる。 本手法の有効性を,実際のオープンソース患者EHRデータセットMIMIC-IIIを用いて検証した。 注視に基づく患者状態表現アプローチは、直接教師付き学習と全観測軌道予測の両方と比較して、低いリソースで目標リスクを予測する上で、はるかに優れたパフォーマンスが得られることを実証することができる。

We propose to meta-learn an a self-supervised patient trajectory forecast learning rule by meta-training on a meta-objective that directly optimizes the utility of the patient representation over the subsequent clinical outcome prediction. This meta-objective directly targets the usefulness of a representation generated from unlabeled clinical measurement forecast for later supervised tasks. The meta-learned can then be directly used in target risk prediction, and the limited available samples can be used for further fine-tuning the model performance. The effectiveness of our approach is tested on a real open source patient EHR dataset MIMIC-III. We are able to demonstrate that our attention-based patient state representation approach can achieve much better performance for predicting target risk with low resources comparing with both direct supervised learning and pretraining with all-observation trajectory forecast.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# Defogger: 差分プライバシーで保護された感性データのデータ探索のためのビジュアル分析アプローチ

Defogger: A Visual Analysis Approach for Data Exploration of Sensitive Data Protected by Differential Privacy ( http://arxiv.org/abs/2407.19364v1 )

ライセンス: Link先を確認
Xumeng Wang, Shuangcheng Jiao, Chris Bryan, (参考訳) 差分プライバシーは個々のプライバシのセキュリティを保証するが、プライバシー予算の制限によって探索の柔軟性が損なわれ、データ要求の騒々しいフィードバックが混乱を招くため、データ探索プロセスに課題をもたらす。 本研究では,本研究の基盤となる要件や利用可能な探査戦略を含む,対応する探査シナリオについて解説する。 そこで本研究では,探索戦略の定式化に向けた視覚解析手法を提案する。 提案手法は,ユーザの探索意図に応じて多様な探索戦略を提案するために,強化学習モデルを適用した。 相関パターンの不確かさを表す新しいビジュアルデザインを,提案手法をサポートするために試作システムに統合した。 最後に,ユーザスタディと2つのケーススタディを実装した。 その結果,本手法がユーザの探索意図を満たす戦略開発に有効であることが確認された。

Differential privacy ensures the security of individual privacy but poses challenges to data exploration processes because the limited privacy budget incapacitates the flexibility of exploration and the noisy feedback of data requests leads to confusing uncertainty. In this study, we take the lead in describing corresponding exploration scenarios, including underlying requirements and available exploration strategies. To facilitate practical applications, we propose a visual analysis approach to the formulation of exploration strategies. Our approach applies a reinforcement learning model to provide diverse suggestions for exploration strategies according to the exploration intent of users. A novel visual design for representing uncertainty in correlation patterns is integrated into our prototype system to support the proposed approach. Finally, we implemented a user study and two case studies. The results of these studies verified that our approach can help develop strategies that satisfy the exploration intent of users.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# 複数環境でのシームレスWebサイトフィンガープリント

Seamless Website Fingerprinting in Multiple Environments ( http://arxiv.org/abs/2407.19365v1 )

ライセンス: Link先を確認
Chuxu Song, Zining Fan, Hao Wang, Richard Martin, (参考訳) Webサイトフィンガープリント(WF)攻撃は、機械学習分類器を使用して、パケットサイズ、方向、インターバルタイムなどのネットワークトラフィックフローのパターンを分析することによって、匿名接続上で訪れたウェブサイトを識別する。 以前の研究では、WF攻撃は高い分類精度を達成できた。 しかし、いくつかの問題は既存のWFアプローチが実際に実現可能かどうかを疑問視し、再探索を動機付けている。 Torのパフォーマンス上の問題とブラウジングエクスペリエンスの低下により、VPNがプライバシー保護を弱めているにもかかわらず、大多数のユーザはVPN(Virtual Private Networking)を選択した。 Web技術が進歩するにつれて、他の多くの過去の仮定はますます非現実的になっている。 私たちの仕事は、先行技術のいくつかの重要な制限に対処します。 まず,個々のWebページではなく,Webサイト全体を分類するアプローチを提案する。 サイトレベルの分類では、広告、マルチメディア、シングルページアプリケーションを含むすべてのサイトコンポーネントからのトラフィックを使用する。 第二に、我々の畳み込みニューラルネットワーク(CNN)は、ページ境界を見つけるためにヒューリスティックスを必要とする以前の作業とは対照的に、TCPストリームの任意の時点からのジッタと500個の連続パケットのみを使用する。 私たちのシームレスなアプローチは、盗聴者攻撃モデルをリアルにする。 制御されたブラウザからのトレースを用いて、CNNが観測したトラフィックを90%以上の精度でWebサイトに表示する。 トレーニングデータにネットワーク位置、性能、クライアントの計算能力のばらつきが欠けている場合には、分類精度が大幅に低下するので、トレーニングトラフィックの品質が重要となる。 ドメイン適応を用いてベースCNNの有効性を向上し,ネットワーク位置などの無関係な特徴を抑えることができた。 最後に、シームレスなWF攻撃に対するいくつかの防御戦略を評価する。

Website fingerprinting (WF) attacks identify the websites visited over anonymized connections by analyzing patterns in network traffic flows, such as packet sizes, directions, or interval times using a machine learning classifier. Previous studies showed WF attacks achieve high classification accuracy. However, several issues call into question whether existing WF approaches are realizable in practice and thus motivate a re-exploration. Due to Tor's performance issues and resulting poor browsing experience, the vast majority of users opt for Virtual Private Networking (VPN) despite VPNs weaker privacy protections. Many other past assumptions are increasingly unrealistic as web technology advances. Our work addresses several key limitations of prior art. First, we introduce a new approach that classifies entire websites rather than individual web pages. Site-level classification uses traffic from all site components, including advertisements, multimedia, and single-page applications. Second, our Convolutional Neural Network (CNN) uses only the jitter and size of 500 contiguous packets from any point in a TCP stream, in contrast to prior work requiring heuristics to find page boundaries. Our seamless approach makes eavesdropper attack models realistic. Using traces from a controlled browser, we show our CNN matches observed traffic to a website with over 90% accuracy. We found the training traffic quality is critical as classification accuracy is significantly reduced when the training data lacks variability in network location, performance, and clients' computational capability. We enhanced the base CNN's efficacy using domain adaptation, allowing it to discount irrelevant features, such as network location. Lastly, we evaluate several defensive strategies against seamless WF attacks.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# ディープラーニングによるブラックスクールデルタヘッジの強化

Enhancing Black-Scholes Delta Hedging via Deep Learning ( http://arxiv.org/abs/2407.19367v1 )

ライセンス: Link先を確認
Chunhui Qiao, Xiangwei Wan, (参考訳) 本稿では,ニューラルネットワークを応用して,ヒージング関数とインプリッドブラックスコールズデルタの間の残差を学習する,オプションのための深いデルタヒージングフレームワークを提案する。 このアプローチはこれらの残留物のスムーズな特性を活用し、ディープラーニング性能を向上させる。 10年間の日次S&P 500指数データを用いて,平均2乗1ステップのヘッジ誤差を損失関数として用いた残差の学習が,ヒージング関数を直接学習するよりも,ヒージング性能を100%以上向上させることを示した。 残差を学習する際に入力機能を追加することで、呼び出しよりもヘッジパフォーマンスが向上する。 さらに,3年間のデータによる残差の学習は,10年間のデータを直接学習する際の過度な性能と一致し,本手法が要求するデータ量が少なくなることを証明した。

This paper proposes a deep delta hedging framework for options, utilizing neural networks to learn the residuals between the hedging function and the implied Black-Scholes delta. This approach leverages the smoother properties of these residuals, enhancing deep learning performance. Utilizing ten years of daily S&P 500 index option data, our empirical analysis demonstrates that learning the residuals, using the mean squared one-step hedging error as the loss function, significantly improves hedging performance over directly learning the hedging function, often by more than 100%. Adding input features when learning the residuals enhances hedging performance more for puts than calls, with market sentiment being less crucial. Furthermore, learning the residuals with three years of data matches the hedging performance of directly learning with ten years of data, proving that our method demands less data.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# ClickDiff: 拡散モデルを用いた制御可能なグラフ生成のためのセマンティックコンタクトマップ作成

ClickDiff: Click to Induce Semantic Contact Map for Controllable Grasp Generation with Diffusion Models ( http://arxiv.org/abs/2407.19370v1 )

ライセンス: Link先を確認
Peiming Li, Ziyi Wang, Mengyuan Liu, Hong Liu, Chen Chen, (参考訳) Grasp生成は、指定されたオブジェクトとの複雑なハンドオブジェクトインタラクションを作成することを目的としている。 従来のハンドジェネレーションのアプローチは、主にシーン制約下での可視性と多様性に焦点を当ててきたが、接触のような細粒度のハンドオブジェクトの相互作用を見落とし、不正確な、望ましくない把握をもたらす傾向にある。 これらの課題に対処するために、制御可能なグリップ生成タスクを提案し、きめ細かなセマンティックコンタクトマップ(SCM)を利用した制御可能な条件生成モデルであるClickDiffを導入する。 特に,対話型グリップを合成する際には,ユーザが特定またはアルゴリズムで予測したセマンティック・コンタクトマップを用いて,グリップ合成を正確に制御することができる。 具体的には、接触監督制約を最適に活用し、複雑な手の構造を正確にモデル化するために、デュアルジェネレーションフレームワークを提案する。 このフレームワーク内では、セマンティック・コンディショナリ・モジュールは、きめ細かい接触情報に基づいて適切なコンタクトマップを生成する一方、コンタクト・コンディショナリ・モジュールは、オブジェクトポイント・クラウドの横にあるコンタクトマップを使用して、現実的な把握を生成する。 制御可能なグリップ生成に適用可能な評価基準を評価する。 GRAB および ARCTIC を用いた一元的および二元的生成実験は,提案手法の有効性を検証し,従来見つからなかったオブジェクトであっても,ClickDiff の有効性とロバスト性を示す。 私たちのコードはhttps://github.com/adventurer-w/ClickDiff.comで公開されています。

Grasp generation aims to create complex hand-object interactions with a specified object. While traditional approaches for hand generation have primarily focused on visibility and diversity under scene constraints, they tend to overlook the fine-grained hand-object interactions such as contacts, resulting in inaccurate and undesired grasps. To address these challenges, we propose a controllable grasp generation task and introduce ClickDiff, a controllable conditional generation model that leverages a fine-grained Semantic Contact Map (SCM). Particularly when synthesizing interactive grasps, the method enables the precise control of grasp synthesis through either user-specified or algorithmically predicted Semantic Contact Map. Specifically, to optimally utilize contact supervision constraints and to accurately model the complex physical structure of hands, we propose a Dual Generation Framework. Within this framework, the Semantic Conditional Module generates reasonable contact maps based on fine-grained contact information, while the Contact Conditional Module utilizes contact maps alongside object point clouds to generate realistic grasps. We evaluate the evaluation criteria applicable to controllable grasp generation. Both unimanual and bimanual generation experiments on GRAB and ARCTIC datasets verify the validity of our proposed method, demonstrating the efficacy and robustness of ClickDiff, even with previously unseen objects. Our code is available at https://github.com/adventurer-w/ClickDiff.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# 相関時間-事象予測のための深部状態空間生成モデル

Deep State-Space Generative Model For Correlated Time-to-Event Predictions ( http://arxiv.org/abs/2407.19371v1 )

ライセンス: Link先を確認
Yuan Xue, Denny Zhou, Nan Du, Andrew M. Dai, Zhen Xu, Kun Zhang, Claire Cui, (参考訳) 複数種類の臨床的に重要な事象の相互依存関係を捕捉することは、正確な将来の事象予測だけでなく、治療計画の改善にも重要である。 本研究では,患者の潜伏状態の時間的ダイナミクスを明示的にモデル化することにより,関連性のある臨床事象(腎不全,死亡など)の相互作用を捉えるための潜伏状態空間生成モデルを提案する。 本研究は,これらの患者状態に基づいて,より精度のよい患者の生存率分布を推定するために,新たな一般離散時間型ハザードレート関数の定式化を更に進める。 実EMRデータに対する広範囲な評価は,提案モデルが様々な最先端のベースラインと良好に比較できることを示している。 さらに, 死亡率と臓器不全の関連性について有意な知見が得られた。

Capturing the inter-dependencies among multiple types of clinically-critical events is critical not only to accurate future event prediction, but also to better treatment planning. In this work, we propose a deep latent state-space generative model to capture the interactions among different types of correlated clinical events (e.g., kidney failure, mortality) by explicitly modeling the temporal dynamics of patients' latent states. Based on these learned patient states, we further develop a new general discrete-time formulation of the hazard rate function to estimate the survival distribution of patients with significantly improved accuracy. Extensive evaluations over real EMR data show that our proposed model compares favorably to various state-of-the-art baselines. Furthermore, our method also uncovers meaningful insights about the latent correlations among mortality and different types of organ failures.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# 統計的推論によるデータ共有の不確かさの定量化

Uncertainty Quantification of Data Shapley via Statistical Inference ( http://arxiv.org/abs/2407.19373v1 )

ライセンス: Link先を確認
Mengmeng Wu, Zhihong Liu, Xiang Li, Ruoxi Jia, Xiangyu Chang, (参考訳) 意思決定においてデータがますます重要な役割を担っているため、データ市場の台頭は、データバリュエーションの重要性の高まりを浮き彫りにしている。 機械学習の世界では、Data Shapleyはデータバリュエーションに広く受け入れられている方法だ。 しかし、Data Shapleyの制限は固定データセットの仮定であり、データは常に進化し拡張する現実世界のアプリケーションの動的な性質とは対照的である。 本稿では,データ共有化と無限次U統計の関係を確立し,データ共有化の不確実性とデータ分散の変化をU統計の観点から定量化することにより,この制限に対処する。 我々は,データ評価の統計的推測を行い,評価のための信頼区間を求める。 我々は,この不確実性を推定し,適用可能な状況に対するレコメンデーションを提供するために,二つの異なるアルゴリズムを構築した。 また, 各種データセットに対する一連の実験を行い, 漸近的正規性を検証するとともに, 本手法で実現した実用的な取引シナリオを提案する。

As data plays an increasingly pivotal role in decision-making, the emergence of data markets underscores the growing importance of data valuation. Within the machine learning landscape, Data Shapley stands out as a widely embraced method for data valuation. However, a limitation of Data Shapley is its assumption of a fixed dataset, contrasting with the dynamic nature of real-world applications where data constantly evolves and expands. This paper establishes the relationship between Data Shapley and infinite-order U-statistics and addresses this limitation by quantifying the uncertainty of Data Shapley with changes in data distribution from the perspective of U-statistics. We make statistical inferences on data valuation to obtain confidence intervals for the estimations. We construct two different algorithms to estimate this uncertainty and provide recommendations for their applicable situations. We also conduct a series of experiments on various datasets to verify asymptotic normality and propose a practical trading scenario enabled by this method.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# デンマークのDPAがヘルシンガー市の学校でGoogle ChromebookとGoogle Workspaceの使用を禁止

Danish DPA Banned the Use of Google Chromebooks and Google Workspace in Schools in Helsingor Municipality ( http://arxiv.org/abs/2407.19377v1 )

ライセンス: Link先を確認
Marcelo Corrales Compagnucci, (参考訳) 2022年7月14日、デンマークのデータ保護庁はヘルシンガー市に対する報復令を出した。 市町村の小学校では、Google ChromebookとGoogle Workspaceを教育に使用することを禁じた。 デンマークのDPAはそのような処理を禁止し、一般データ保護規則(GDPR)に準拠するまで、関連するデータ転送を米国(米国)に停止した。 停電はすぐに発効し、市は2022年8月3日までに処理を中止し、既に転送されたデータを削除した。 最後に、2022年8月18日の新たな決定で、デンマークのDPAは、Google ChromebookとWorkspaceの使用を禁止した。 デンマークのDPA(Danish DPA)の視点で、市は例えば、生徒の権利と自由に関するリスクを評価し、減らしたことを文書化しなかった。 第2節は、シュレムス2世の統治後、展開する出来事に関する背景を提供する。 第3節ではデンマークのDPA事件の起源と事実について論じている。 第4節ではデンマークのDPA決定の理由と批判的な結果について検討している。 最後に、第5節は、デンマークの自治体がこの事件から生じる影響に基づいて従わなければならないいくつかの一般的な勧告で締めくくっている。

On July 14th, 2022, the Danish Data Protection Authority issued a reprimand against Helsingor Municipality. It imposed a general ban on using Google Chromebooks and Google Workspace for education in primary schools in the Municipality. The Danish DPA banned such processing and suspended any related data transfers to the United States (U.S.) until it is brought in line with the General Data Protection Regulation (GDPR). The suspension took effect immediately, and the Municipality had until August 3rd, 2022, to withdraw and terminate the processing, as well as delete data already transferred. Finally, in a new decision on August 18th, 2022, the Danish DPA has ratified the ban to the use of Google Chromebooks and Workspace. In the eyes of the Danish DPA, the Municipality failed for example to document that they have assessed and reduced the relevant risks to the rights and freedoms of the pupils. This article is structured as follows: section II provides the background concerning the unfolding events after the Schrems II ruling. Section III discusses the origins and facts of the Danish DPA case. Section IV examines the reasoning and critical findings of the Danish DPA decision. Finally, section V concludes with some general recommendations the Danish municipalities must follow based on the ensuing effects stemming from this case.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# 医用決定変換器を応用した臨床医のセプシス治療の枠組み

Empowering Clinicians with Medical Decision Transformers: A Framework for Sepsis Treatment ( http://arxiv.org/abs/2407.19380v1 )

ライセンス: Link先を確認
Aamer Abdul Rahman, Pranav Agarwal, Rita Noumeir, Philippe Jouvet, Vincent Michalski, Samira Ebrahimi Kahou, (参考訳) オフライン強化学習は、臨床的意思決定支援など、安全クリティカルな環境での課題の解決を約束している。 しかし、その応用は、臨床医の解釈可能性や相互作用性の欠如によって制限されている。 これらの課題に対処するため、我々は、敗血症治療推奨のための目標条件強化学習パラダイムに基づく、新規で汎用的なフレームワークであるMeDT(Medicical decision transformer)を提案する。 MeDTは、決定トランスフォーマーアーキテクチャを使用して、薬物投与推奨のポリシーを学ぶ。 オフライントレーニング中、MeDTは収集された治療軌跡を使用して、既知の治療結果、標的視力スコア、過去の治療決定、および現在および過去の医療状態を含む各時間ステップの投与治療を予測する。 この分析により、MeDTは患者の医療履歴、治療決定、結果、安定性に対する短期的な影響の複雑な依存関係を捉えることができる。 提案した条件付けでは,スパース報酬問題に対処し,クリニカルモデル間相互作用の促進と意思決定の強化を図る。 トレーニング後、MeDTは、望ましいポジティブな結果(生存)と、ユーザーが特定した短期的安定性の改善を条件にすることで、適切な治療勧告を生成することができる。 我々はMIMIC-IIIデータセットからのデータに対する厳密な実験を行い、外部評価を用いて、MeDTが既存のオフライン強化学習手法よりも優れた、あるいは競争力のある介入を推奨し、より解釈可能な、パーソナライズされた、クリニック指向のアプローチを可能にすることを実証する。

Offline reinforcement learning has shown promise for solving tasks in safety-critical settings, such as clinical decision support. Its application, however, has been limited by the lack of interpretability and interactivity for clinicians. To address these challenges, we propose the medical decision transformer (MeDT), a novel and versatile framework based on the goal-conditioned reinforcement learning paradigm for sepsis treatment recommendation. MeDT uses the decision transformer architecture to learn a policy for drug dosage recommendation. During offline training, MeDT utilizes collected treatment trajectories to predict administered treatments for each time step, incorporating known treatment outcomes, target acuity scores, past treatment decisions, and current and past medical states. This analysis enables MeDT to capture complex dependencies among a patient's medical history, treatment decisions, outcomes, and short-term effects on stability. Our proposed conditioning uses acuity scores to address sparse reward issues and to facilitate clinician-model interactions, enhancing decision-making. Following training, MeDT can generate tailored treatment recommendations by conditioning on the desired positive outcome (survival) and user-specified short-term stability improvements. We carry out rigorous experiments on data from the MIMIC-III dataset and use off-policy evaluation to demonstrate that MeDT recommends interventions that outperform or are competitive with existing offline reinforcement learning methods while enabling a more interpretable, personalized and clinician-directed approach.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# SU(3)に基づく絡み合ったクトリットの不等式

An Inequality for Entangled Qutrits in SU(3) basis ( http://arxiv.org/abs/2407.19381v1 )

ライセンス: Link先を確認
Surajit Sen, Tushar Kanti Dey, (参考訳) 素粒子物理学の表現論から、SU(2) と SU(3) 群の2つの基本表現のテンソル積は、物理的状態の所望のスペクトルを得るために分解できることがよく知られている。 本稿では,2つの非局所量子ビットと量子ビットの場合には,それぞれに絡み合った状態の完全なスペクトルを導出する。 クォート系について、それらの性質の研究は、通常のベル-CHSH型2.sqrt{2}$不等式に加えて、新しい$\sqrt{2}$不等式の存在を明らかにする。

It is well-known from the representation theory of particle physics that the tensor product of two fundamental representation of SU(2) and SU(3) group can be decomposed to obtain the desired spectrum of the physical states. In this paper, we apply this tenet in case of two {\it non-local} qubits and qutrits, which leads the complete spectrum of their entangled states in their respective basis. For qutrit system, the study of their properties reveals the existence of a new $\sqrt{2}$ inequality, in addition to usual Bell-CHSH type $2\sqrt{2}$ inequality, which is significant from the experimental point of view.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# マルチモーダルイメージングゲノミクス変換器:統合失調症分類のための画像とゲノムバイオマーカーの統合

Multi-modal Imaging Genomics Transformer: Attentive Integration of Imaging with Genomic Biomarkers for Schizophrenia Classification ( http://arxiv.org/abs/2407.19385v1 )

ライセンス: Link先を確認
Nagur Shareef Shaik, Teja Krishna Cherukuri, Vince D. Calhoun, Dong Hye Ye, (参考訳) 統合失調症(SZ)は、様々な認知障害、脳の構造、機能、遺伝的要因の異常を特徴とする重度の脳障害である。 その複雑な症状と他の精神疾患との重なり合いは、従来の診断方法に挑戦し、精度を向上させるために先進的なシステムを必要とする。 既存の研究は、主にSZ診断のための構造的、機能的MRIなどの画像データに焦点を当てている。 遺伝性SZ形質を同定する可能性にもかかわらず、ゲノム機能の統合にはあまり焦点が当てられていない。 本研究では,SZ関連神経解剖学的・コネクトーム異常を捉えるために,ゲノミクスを構造的・機能的画像データと注意深く統合するマルチモーダルイメージングゲノミクストランス(MIGTrans)を提案する。 MIGTransは86.05%(+/-0.02)の精度でSZ分類性能を改善した。

Schizophrenia (SZ) is a severe brain disorder marked by diverse cognitive impairments, abnormalities in brain structure, function, and genetic factors. Its complex symptoms and overlap with other psychiatric conditions challenge traditional diagnostic methods, necessitating advanced systems to improve precision. Existing research studies have mostly focused on imaging data, such as structural and functional MRI, for SZ diagnosis. There has been less focus on the integration of genomic features despite their potential in identifying heritable SZ traits. In this study, we introduce a Multi-modal Imaging Genomics Transformer (MIGTrans), that attentively integrates genomics with structural and functional imaging data to capture SZ-related neuroanatomical and connectome abnormalities. MIGTrans demonstrated improved SZ classification performance with an accuracy of 86.05% (+/- 0.02), offering clear interpretations and identifying significant genomic locations and brain morphological/connectivity patterns associated with SZ.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# FIARSE:重要度を考慮したサブモデル抽出によるモデル不均一なフェデレーション学習

FIARSE: Model-Heterogeneous Federated Learning via Importance-Aware Submodel Extraction ( http://arxiv.org/abs/2407.19389v1 )

ライセンス: Link先を確認
Feijie Wu, Xingchen Wang, Yaqing Wang, Tianci Liu, Lu Su, Jing Gao, (参考訳) FL(Federated Learning)では、クライアントの様々な計算能力の調整が課題となり、大域的なモデルトレーニングにおいて制約のあるリソースを持つ者の参加を制限することがしばしばある。 この問題に対処するため、サブモデル抽出によるモデル不均一性の概念が登場し、各クライアントの計算能力とモデルの複雑さを一致させる調整されたソリューションを提供する。 本研究では,モデルパラメータの重要度に基づいて,動的にサブモデルを調整する新しい手法であるFederated Importance-Aware Submodel extract (FIARSE)を提案する。 提案手法は,既存手法と比較して,サブモデル抽出の理論的基盤を提供し,パラメータの重要度を決定するために,モデルパラメータ自身以外の追加情報の必要性を排除し,クライアントのオーバーヘッドを大幅に低減する。 提案したFIARSEの優れた性能を示すため,様々なデータセットを用いて大規模な実験を行った。

In federated learning (FL), accommodating clients' varied computational capacities poses a challenge, often limiting the participation of those with constrained resources in global model training. To address this issue, the concept of model heterogeneity through submodel extraction has emerged, offering a tailored solution that aligns the model's complexity with each client's computational capacity. In this work, we propose Federated Importance-Aware Submodel Extraction (FIARSE), a novel approach that dynamically adjusts submodels based on the importance of model parameters, thereby overcoming the limitations of previous static and dynamic submodel extraction methods. Compared to existing works, the proposed method offers a theoretical foundation for the submodel extraction and eliminates the need for additional information beyond the model parameters themselves to determine parameter importance, significantly reducing the overhead on clients. Extensive experiments are conducted on various datasets to showcase superior performance of the proposed FIARSE.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# AndroCon: Androidの位置情報サービス

AndroCon: Conning Location Services in Android ( http://arxiv.org/abs/2407.19392v1 )

ライセンス: Link先を確認
Soham Nag, Smruti R. Sarangi, (参考訳) モバイルデバイスのハッカーは、環境検知、人間の活動識別、インテリアフロアマッピングをしばしばターゲットとしている。 マイクやカメラなどの過度な信号に加えて、WiFiやBluetoothなどの秘密チャンネルやGPS信号の強化も、この情報収集に使われている。 これまでは、受信専用衛星GPSセンサーは信号強度と位置情報のみに依存していた。 本稿は,Android 7以降のアプリに正確な位置許可付きでアクセス可能な半処理GPSデータ(39機能)を,環境検知,人間活動認識,屋内空間マッピング(99%以上の精度)のための高精度な漏洩チャネルとして使用できることを示す。 本報告では,携帯端末から4万平方秒にわたって半処理されたGPSデータを用いた縦断的研究について述べる。 1年で1km。 データは航空機、クルーズ船、高度の高い場所から取得された。 重要な情報を保持するため、全衛星GPS信号を解析し、相互相関分析を用いて最適な特性を選択する。 われわれの研究であるAndroConは、lin-ear判別分析、無香のカルマンフィルター、勾配向上、ランダムな森林学習を組み合わせて、正確な環境と人間の活動センサーを提供する。 AndroConでは、基本的なMLアルゴリズムが、離散的で説明可能な結果に使用される。 地下鉄にいるとき、誰かがモバイルデバイスの前で手を振っているとき、階段の前で手を振っているとき、あるいは(必ずしも携帯を持っていないときなど、困難な状況を容易に認識できます。 これは現在、衛星GPSによるセンシングに関する最も広範な研究である。

Mobile device hackers often target ambient sensing, human activity identification, and interior floor mapping. In addition to overt signals like microphones and cameras, covert channels like WiFi, Bluetooth, and augmented GPS signal strengths have been employed to gather this information. Until date, passive, receive-only satellite GPS sensing relied solely on signal strength and location information. This paper demonstrates that semi-processed GPS data (39 features) accessible to apps since Android 7 with precise location permissions can be used as a highly accurate leaky channel for sensing ambient, recognising human activity, and mapping indoor spaces (99%+ accuracy). This report describes a longitudinal research that used semi-processed GPS readings from mobile devices throughout a 40,000 sq. km region for a year. Data was acquired from aeroplanes, cruise ships, and high-altitude places. To retain crucial information, we analyse all satellite GPS signals and select the best characteristics using cross-correlation analysis. Our work, AndroCon, combines lin-ear discriminant analysis, unscented Kalman filtering, gradient boosting, and random forest learning to provide an accurate ambient and human activity sensor. At AndroCon, basic ML algorithms are used for discreet and somewhat explainable outcomes. We can readily recognise challenging situations, such as being in a subway, when someone is waving a hand in front of a mobile device, in front of a stairway, or with others present (not always carrying phones). This is the most extensive study on satellite GPS-based sensing as of yet.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# スキルベース学習における質問応答強化のための認知AIと生成モデルの統合

Integrating Cognitive AI with Generative Models for Enhanced Question Answering in Skill-based Learning ( http://arxiv.org/abs/2407.19393v1 )

ライセンス: Link先を確認
Rochan H. Madhusudhana, Rahul K. Dass, Jeanette Luu, Ashok K. Goel, (参考訳) オンライン学習では、学習者に迅速かつ正確なフィードバックを提供する能力が不可欠である。 スキルベースの学習では、学習者はスキルの根底にある概念やメカニズムを理解して、効果的に適用できる必要がある。 ビデオはオンライン学習において一般的なツールであるが、教えられているスキルを理解したり評価したりすることはできない。 さらに、生成AI手法はテキストコーパスからの回答の検索と検索に有効であるが、これらの手法が真の理解を示すかどうかは不明である。 これにより、スキルの説明や問題解決を支援する能力が制限される。 本稿では,認知AIと生成AIを融合してこれらの課題に対処する手法を提案する。 我々は、構造化知識表現、TMK(Task-Method-Knowledge)モデルを用いて、オンライン知識ベースのAIコースで教えられたスキルをエンコードする。 学習者のスキルに関する質問に応えて,大規模言語モデル,チャット・オブ・ソート(Chain-of-Thought),イテレーティブ・リファインメント(Iterative Refinement)などの手法を活用して,理性的な説明を生成するための枠組みを概説する。

In online learning, the ability to provide quick and accurate feedback to learners is crucial. In skill-based learning, learners need to understand the underlying concepts and mechanisms of a skill to be able to apply it effectively. While videos are a common tool in online learning, they cannot comprehend or assess the skills being taught. Additionally, while Generative AI methods are effective in searching and retrieving answers from a text corpus, it remains unclear whether these methods exhibit any true understanding. This limits their ability to provide explanations of skills or help with problem-solving. This paper proposes a novel approach that merges Cognitive AI and Generative AI to address these challenges. We employ a structured knowledge representation, the TMK (Task-Method-Knowledge) model, to encode skills taught in an online Knowledge-based AI course. Leveraging techniques such as Large Language Models, Chain-of-Thought, and Iterative Refinement, we outline a framework for generating reasoned explanations in response to learners' questions about skills.
翻訳日:2024-07-30 18:32:13 公開日:2024-07-28
# 視覚変換器における奥行きの畳み込み

Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets ( http://arxiv.org/abs/2407.19394v1 )

ライセンス: Link先を確認
Tianxiao Zhang, Wenju Xu, Bo Luo, Guanghui Wang, (参考訳) Vision Transformer (ViT)はTransformerのエンコーダを利用して、イメージをパッチに分割することでグローバル情報をキャプチャし、様々なコンピュータビジョンタスクで優れたパフォーマンスを達成する。 しかし、ViTの自己注意機構は、画像やビデオの隣り合うピクセル間の固有の関係を見渡すことで、グローバルなコンテキストを最初から捉えている。 トランスフォーマーは主に、細かなローカルの詳細を無視しながら、グローバル情報に焦点を当てている。 その結果、ViTは画像やビデオデータセットのトレーニング中に誘導バイアスを欠いている。 対照的に、畳み込みニューラルネットワーク(CNN)は、局所的なフィルタに依存するため、固有の帰納バイアスを持ち、より少ないデータでViTよりも効率的で高速に収束する。 本稿では,トランスフォーマーブロック全体をバイパスして,ローカルおよびグローバル両方の情報を最小限のオーバーヘッドで捕捉する,軽量なDepth-Wise ConvolutionモジュールをViTモデルのショートカットとして提案する。 さらに、Depth-Wise Convolutionモジュールをパラメータセーブのために複数のTransformerブロックに適用し、異なるカーネルで独立した並列Depth-Wise Convolutionモジュールを組み込むことにより、ローカル情報の取得を促進する。 提案手法は,画像分類のためのCIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNet, オブジェクト検出およびインスタンスセグメント化のためのCOCOにおいて評価され, 画像分類, オブジェクト検出, インスタンスセグメント化におけるViTモデルの性能を大幅に向上させる。 ソースコードはhttps://github.com/ZTX-100/Efficient_ViT_with_DWでアクセスできる。

The Vision Transformer (ViT) leverages the Transformer's encoder to capture global information by dividing images into patches and achieves superior performance across various computer vision tasks. However, the self-attention mechanism of ViT captures the global context from the outset, overlooking the inherent relationships between neighboring pixels in images or videos. Transformers mainly focus on global information while ignoring the fine-grained local details. Consequently, ViT lacks inductive bias during image or video dataset training. In contrast, convolutional neural networks (CNNs), with their reliance on local filters, possess an inherent inductive bias, making them more efficient and quicker to converge than ViT with less data. In this paper, we present a lightweight Depth-Wise Convolution module as a shortcut in ViT models, bypassing entire Transformer blocks to ensure the models capture both local and global information with minimal overhead. Additionally, we introduce two architecture variants, allowing the Depth-Wise Convolution modules to be applied to multiple Transformer blocks for parameter savings, and incorporating independent parallel Depth-Wise Convolution modules with different kernels to enhance the acquisition of local information. The proposed approach significantly boosts the performance of ViT models on image classification, object detection and instance segmentation by a large margin, especially on small datasets, as evaluated on CIFAR-10, CIFAR-100, Tiny-ImageNet and ImageNet for image classification, and COCO for object detection and instance segmentation. The source code can be accessed at https://github.com/ZTX-100/Efficient_ViT_with_DW.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# NAVIX: JAX による MiniGrid 環境のスケーリング

NAVIX: Scaling MiniGrid Environments with JAX ( http://arxiv.org/abs/2407.19396v1 )

ライセンス: Link先を確認
Eduardo Pignatelli, Jarek Liesen, Robert Tjarko Lange, Chris Lu, Pablo Samuel Castro, Laura Toni, (参考訳) 深層強化学習(Deep Reinforcement Learning, ディープRL)研究が大規模世界の解決に向けて進むにつれ, 効率的な環境シミュレーションが迅速な実験に欠かせないものとなった。 しかし、既存のほとんどの環境は高いスループットにスケールするのに苦労し、意味のある進歩を取り戻せます。 インタラクションは通常CPU上で計算され、複数のマシンでタスクを分散する際の処理速度と通信オーバーヘッドが遅いため、トレーニング速度とスループットが制限される。 結局のところ、Deep RLトレーニングはCPUバインドであり、バッチ化され、高速でスケーラブルな環境の開発は、進歩のフロンティアとなっている。 最もよく使われている強化学習(RL)環境のうち、MiniGridは、探索、カリキュラム学習、表現学習、多様性、メタラーニング、クレジット割り当て、言語条件付きRLに関するいくつかの研究の基盤であり、上述した制限に悩まされている。 本稿では、JAX における MiniGrid の再実装である NAVIX を紹介します。 NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。 これは実験時間を1週間から15分に短縮し、より高速な設計イテレーションとよりスケーラブルなRLモデル開発を促進する。

As Deep Reinforcement Learning (Deep RL) research moves towards solving large-scale worlds, efficient environment simulations become crucial for rapid experimentation. However, most existing environments struggle to scale to high throughput, setting back meaningful progress. Interactions are typically computed on the CPU, limiting training speed and throughput, due to slower computation and communication overhead when distributing the task across multiple machines. Ultimately, Deep RL training is CPU-bound, and developing batched, fast, and scalable environments has become a frontier for progress. Among the most used Reinforcement Learning (RL) environments, MiniGrid is at the foundation of several studies on exploration, curriculum learning, representation learning, diversity, meta-learning, credit assignment, and language-conditioned RL, and still suffers from the limitations described above. In this work, we introduce NAVIX, a re-implementation of MiniGrid in JAX. NAVIX achieves over 200 000x speed improvements in batch mode, supporting up to 2048 agents in parallel on a single Nvidia A100 80 GB. This reduces experiment times from one week to 15 minutes, promoting faster design iterations and more scalable RL model development.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# X線画像における領域適応肺結節検出

Domain Adaptive Lung Nodule Detection in X-ray Image ( http://arxiv.org/abs/2407.19397v1 )

ライセンス: Link先を確認
Haifeng Zhao, Lixiang Jiang, Leilei Ma, Dengdi Sun, Yanping Fu, (参考訳) 異なる医療センターの医療画像は様々なデータ分布を示しており、トレーニングと適用フェーズのドメインシフトによって肺結節の検出に適応する上で重要な課題となっている。 従来の教師なしドメイン適応検出手法は、しばしばこのシフトに苦慮し、最適以下の結果をもたらす。 これらの課題を克服するために,教師の自己学習とコントラスト学習を活用した,肺結節検出のための新しい領域適応アプローチを提案する。 まず、結節表現を洗練させ、結節と背景の区別を強化する階層的コントラスト学習戦略を提案する。 第二に、異なるドメインをまたいだ対角学習を通じて、ドメイン不変の特徴を捉えるために、nodule-level domain-invariant feature learning (NDL)モジュールを導入する。 また,肺結節検出研究の進展を支援するために,X線画像の注釈付きデータセットを提案する。 複数のX線データセットで行った大規模な実験は、ドメインシフトの影響を緩和するためのアプローチの有効性を示した。

Medical images from different healthcare centers exhibit varied data distributions, posing significant challenges for adapting lung nodule detection due to the domain shift between training and application phases. Traditional unsupervised domain adaptive detection methods often struggle with this shift, leading to suboptimal outcomes. To overcome these challenges, we introduce a novel domain adaptive approach for lung nodule detection that leverages mean teacher self-training and contrastive learning. First, we propose a hierarchical contrastive learning strategy to refine nodule representations and enhance the distinction between nodules and background. Second, we introduce a nodule-level domain-invariant feature learning (NDL) module to capture domain-invariant features through adversarial learning across different domains. Additionally, we propose a new annotated dataset of X-ray images to aid in advancing lung nodule detection research. Extensive experiments conducted on multiple X-ray datasets demonstrate the efficacy of our approach in mitigating domain shift impacts.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# IDEA: グラフニューラルネットワークの未学習認定フレームワーク

IDEA: A Flexible Framework of Certified Unlearning for Graph Neural Networks ( http://arxiv.org/abs/2407.19398v1 )

ライセンス: Link先を確認
Yushun Dong, Binchi Zhang, Zhenyu Lei, Na Zou, Jundong Li, (参考訳) グラフニューラルネットワーク(GNN)は、ますます多くのアプリケーションにデプロイされている。 しかし、トレーニングに使用されるグラフデータには、関係する個人の機密情報が含まれている可能性がある。 トレーニングが完了すると、GNNは通常、これらの情報を学習可能なパラメータにエンコードする。 その結果、トレーニングされたGNNがデプロイされ、潜在的な攻撃者に対して公開されると、プライバシリークが発生する可能性がある。 このような脅威に直面したGNNの機械学習は、訓練されたGNNから特定の個人情報を削除することを目的とした、新たな技術になりつつある。 これらの技術の中で、情報除去の有効性の確固たる理論的保証を提供するため、認定されていない未学習が際立っている。 それでも、GNNの既存の認定アンラーニングメソッドのほとんどは、ノードとエッジアンラーニングリクエストのみを扱うように設計されている。 一方、これらのアプローチは通常、GNNの特定の設計または特別に設計された訓練目的のために調整されている。 これらの欠点は柔軟性を著しく損なう。 本稿では,GNNのための柔軟で認定されたアンラーニングを実現するための,IDEAというフレームワークを提案する。 具体的には、まずグラフ上で4種類の未学習要求をインスタンス化し、次に、これらの未学習要求を多様なGNN上で柔軟に処理するための近似手法を提案する。 さらに,提案手法の有効性を検証として理論的に保証する。 既存の選択肢とは異なり、IDEAは認定されていない学習を実行するための特定のGNNや最適化目的のために設計されておらず、簡単に一般化できる。 実世界のデータセットに関する大規模な実験は、複数の重要な視点でIDEAの優位性を示している。

Graph Neural Networks (GNNs) have been increasingly deployed in a plethora of applications. However, the graph data used for training may contain sensitive personal information of the involved individuals. Once trained, GNNs typically encode such information in their learnable parameters. As a consequence, privacy leakage may happen when the trained GNNs are deployed and exposed to potential attackers. Facing such a threat, machine unlearning for GNNs has become an emerging technique that aims to remove certain personal information from a trained GNN. Among these techniques, certified unlearning stands out, as it provides a solid theoretical guarantee of the information removal effectiveness. Nevertheless, most of the existing certified unlearning methods for GNNs are only designed to handle node and edge unlearning requests. Meanwhile, these approaches are usually tailored for either a specific design of GNN or a specially designed training objective. These disadvantages significantly jeopardize their flexibility. In this paper, we propose a principled framework named IDEA to achieve flexible and certified unlearning for GNNs. Specifically, we first instantiate four types of unlearning requests on graphs, and then we propose an approximation approach to flexibly handle these unlearning requests over diverse GNNs. We further provide theoretical guarantee of the effectiveness for the proposed approach as a certification. Different from existing alternatives, IDEA is not designed for any specific GNNs or optimization objectives to perform certified unlearning, and thus can be easily generalized. Extensive experiments on real-world datasets demonstrate the superiority of IDEA in multiple key perspectives.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# アジア言語のための単語セグメンテーション--中国語、韓国語、日本語

Word Segmentation for Asian Languages: Chinese, Korean, and Japanese ( http://arxiv.org/abs/2407.19400v1 )

ライセンス: Link先を確認
Matthew Rho, Yexin Tian, Qin Chen, (参考訳) 本稿では,アジア言語,特に中国語,韓国語,日本語の単語セグメンテーションへの様々なアプローチについて概説する。 各言語について、単語分割を扱うアプローチが異なる。 また、各手法に対する特定の利点と欠点についての分析も含んでいます。 また、この分野には将来的な仕事の場もある。

We provide a detailed overview of various approaches to word segmentation of Asian Languages, specifically Chinese, Korean, and Japanese languages. For each language, approaches to deal with word segmentation differs. We also include our analysis about certain advantages and disadvantages to each method. In addition, there is room for future work in this field.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# 分散システムにおけるAI推論のための完全セキュリティとプライバシ

Complete Security and Privacy for AI Inference in Decentralized Systems ( http://arxiv.org/abs/2407.19401v1 )

ライセンス: Link先を確認
Hongyang Zhang, Yue Zhao, Claudio Angione, Harry Yang, James Buban, Ahmad Farhan, Fielding Johnston, Patrick Colangelo, (参考訳) データセキュリティとモデルの整合性の必要性は、医療、ファイナンス、セキュリティなど、データ駆動ドメインにおけるAIとMLの急速な採用によって強調されている。 大規模なモデルは、病気の診断や財務予測といったタスクには不可欠ですが、繊細でスケーラビリティに欠ける傾向があります。 分散システムは、ワークロードを分散し、中央の障害点を減らすことで、この問題を解決します。 しかし、異なるノードにまたがるデータやプロセスは、特に機密情報に関わる場合、不正アクセスの危険にさらされる可能性がある。 Nesaはこれらの課題を、複数のテクニックを使って包括的なフレームワークで解決し、データとモデル出力を保護する。 これには、安全なモデル検証のためのゼロ知識証明が含まれる。 このフレームワークはまた、ノード間の一貫性のあるアウトプットに対するコンセンサスベースの検証チェックを導入し、モデルの整合性を確認する。 Split Learningは、モデルを異なるノードによって処理されたセグメントに分割して、データプライバシを提供する。 ハードウェアベースのセキュリティでは、セキュアゾーン内のデータと計算を保護するために、信頼できる実行環境が使用される。 ネサの最先端の証明と原則は、このフレームワークの有効性を示し、人工知能を安全に民主化するための有望なアプローチである。

The need for data security and model integrity has been accentuated by the rapid adoption of AI and ML in data-driven domains including healthcare, finance, and security. Large models are crucial for tasks like diagnosing diseases and forecasting finances but tend to be delicate and not very scalable. Decentralized systems solve this issue by distributing the workload and reducing central points of failure. Yet, data and processes spread across different nodes can be at risk of unauthorized access, especially when they involve sensitive information. Nesa solves these challenges with a comprehensive framework using multiple techniques to protect data and model outputs. This includes zero-knowledge proofs for secure model verification. The framework also introduces consensus-based verification checks for consistent outputs across nodes and confirms model integrity. Split Learning divides models into segments processed by different nodes for data privacy by preventing full data access at any single point. For hardware-based security, trusted execution environments are used to protect data and computations within secure zones. Nesa's state-of-the-art proofs and principles demonstrate the framework's effectiveness, making it a promising approach for securely democratizing artificial intelligence.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# NVC-1B:大規模ニューラルビデオ符号化モデル

NVC-1B: A Large Neural Video Coding Model ( http://arxiv.org/abs/2407.19402v1 )

ライセンス: Link先を確認
Xihua Sheng, Chuanbo Tang, Li Li, Dong Liu, Feng Wu, (参考訳) 新興の大規模モデルは自然言語処理とコンピュータビジョンの分野で顕著な進歩を遂げた。 しかし、ニューラルビデオ符号化のための大きなモデルはまだ探索されていない。 本稿では,大規模なニューラルビデオ符号化モデルの構築方法について検討する。 小さなベースラインモデルに基づいて,モーションエンコーダ・デコーダ,モーションエンコーダ・デコーダ・コンテクストエンコーダ・デコーダ・コンテクストエンコーダ・デコーダ・コンテクストエントロピー・モデル,時間的コンテキストマイニング・モジュールなどの異なる符号化部品のモデルサイズを徐々にスケールアップし,映像圧縮性能に対するモデルサイズの影響を分析する。 次に、CNN、混合CNN-Transformer、Transformerアーキテクチャなどの異なるアーキテクチャを用いて、ニューラルビデオ符号化モデルを実装し、ビデオ圧縮性能に対するモデルアーキテクチャの影響を分析する。 調査の結果に基づいて、我々は10億以上のパラメーターを持つ最初のニューラルビデオ符号化モデル -- NVC-1B -- を設計した。 実験結果から,提案する大規模モデルでは,小型のベースラインモデルよりも映像圧縮性能が向上し,最先端の圧縮効率が向上することが示された。 我々は、大規模なモデルがビデオコーディング技術を次のレベルに引き上げることを期待している。

The emerging large models have achieved notable progress in the fields of natural language processing and computer vision. However, large models for neural video coding are still unexplored. In this paper, we try to explore how to build a large neural video coding model. Based on a small baseline model, we gradually scale up the model sizes of its different coding parts, including the motion encoder-decoder, motion entropy model, contextual encoder-decoder, contextual entropy model, and temporal context mining module, and analyze the influence of model sizes on video compression performance. Then, we explore to use different architectures, including CNN, mixed CNN-Transformer, and Transformer architectures, to implement the neural video coding model and analyze the influence of model architectures on video compression performance. Based on our exploration results, we design the first neural video coding model with more than 1 billion parameters -- NVC-1B. Experimental results show that our proposed large model achieves a significant video compression performance improvement over the small baseline model, and represents the state-of-the-art compression efficiency. We anticipate large models may bring up the video coding technologies to the next level.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# 論理蒸留:計画と意思決定のための関数によるコード関数からの学習

Logic Distillation: Learning from Code Function by Function for Planning and Decision-making ( http://arxiv.org/abs/2407.19405v1 )

ライセンス: Link先を確認
Dong Chen, Shilin Zhang, Fei Gao, Yueting Zhuang, Siliang Tang, Qidong Liu, Mingliang Xu, (参考訳) 大規模言語モデル(LLM)は、その強力な論理的推論能力のために注目を集めている。 一般に、有償インターフェースを必要とするより大きなLLM(L-LLMs)は、様々なデバイスにデプロイできる小さなLLM(S-LLMs)よりもはるかに優れた性能を示す。 知識蒸留(KD)は、L-LLMの能力でS-LLMを増強することを目的としており、S-LLMは単にL-LLMの出力を模倣するだけであり、強力な論理的推論能力を得ることができない。 その結果、S-LLMは論理的推論能力を必要とする計画や意思決定のタスクでは役に立たない。 これらの課題に対処するため,我々は論理蒸留(LD)と呼ばれる新しいフレームワークを提案する。 LDは当初、複雑な命令を離散関数にインスタンス化するためにL-LLMを使用し、関数ベースを確立するためにそれらの使い方を説明している。 その後、関数ベースに基づいて、LDがS-LLMを微調整し、L-LLMが計画と意思決定に使用するロジックを学習する。 テスト中、LDはレトリバーを使用して、S-LLMによって選択され、呼び出される命令と現在の状態に基づいて、上位$K$の関連関数を識別する。 最終的に、S-LLMは計画と意思決定の結果、機能によって得られる。 関連する実験は、LDの助けを借りて、S-LLMは、L-LLMに匹敵する、あるいは超える、計画と意思決定のタスクにおいて、卓越した結果を達成できることを示した。

Large language models (LLMs) have garnered increasing attention owing to their powerful logical reasoning capabilities. Generally, larger LLMs (L-LLMs) that require paid interfaces exhibit significantly superior performance compared to smaller LLMs (S-LLMs) that can be deployed on a variety of devices. Knowledge distillation (KD) aims to empower S-LLMs with the capabilities of L-LLMs, while S-LLMs merely mimic the outputs of L-LLMs, failing to get the powerful logical reasoning capabilities. Consequently, S-LLMs are helpless when it comes to planning and decision-making tasks that require logical reasoning capabilities. To tackle the identified challenges, we propose a novel framework called Logic Distillation (LD). Initially, LD employs L-LLMs to instantiate complex instructions into discrete functions and illustrates their usage to establish a function base. Subsequently, based on the function base, LD fine-tunes S-LLMs to learn the logic employed by L-LLMs in planning and decision-making. During testing, LD utilizes a retriever to identify the top-$K$ relevant functions based on instructions and current states, which will be selected and invoked by S-LLMs. Ultimately, S-LLMs yield planning and decision-making outcomes, function by function. Relevant experiments demonstrate that with the assistance of LD, S-LLMs can achieve outstanding results in planning and decision-making tasks, comparable to, or even surpassing, those of L-LLMs.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# ソーシャルメディア上での新型コロナウイルスワクチンに対する態度安定に対する道徳的・感情的な影響

Moral and emotional influences on attitude stability towards COVID-19 vaccines on social media ( http://arxiv.org/abs/2407.19406v1 )

ライセンス: Link先を確認
Samantha C. Phillips, Lynnette Hui Xian Ng, Wenqi Zhou, Kathleen M. Carley, (参考訳) 効果的な公衆衛生メッセージングは、先行者を理解することから、影響を受けやすい不安定な態度に恩恵を受ける。 本研究は、新型コロナウイルスワクチンに対する態度の道徳的基盤と感情的基盤の関係とスタンスの変化について検討する。 新型コロナウイルス(COVID-19)ワクチンに関するツイートの感情的な言葉は、怒りや驚きを除いて、投稿者のスタンスの変化に大きく関連している。 道徳的価値観に関連する新型コロナウイルスワクチンの態度の強さは、基礎によって異なる。 最も注目すべきは、自由はスタンスの変化がほとんどあるいは少ないユーザによって一貫して使用され、公平さと正当性はより変化のあるユーザによって使用されることである。 我々の研究は、建設的な予防接種型メッセージングを設計し、受容的なオーディエンスを特定することに意味がある。

Effective public health messaging benefits from understanding antecedents to unstable attitudes that are more likely to be influenced. This work investigates the relationship between moral and emotional bases for attitudes towards COVID-19 vaccines and variance in stance. Evaluating nearly 1 million X users over a two month period, we find that emotional language in tweets about COVID-19 vaccines is largely associated with more variation in stance of the posting user, except anger and surprise. The strength of COVID-19 vaccine attitudes associated with moral values varies across foundations. Most notably, liberty is consistently used by users with no or less variation in stance, while fairness and sanctity are used by users with more variation. Our work has implications for designing constructive pro-vaccine messaging and identifying receptive audiences.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# 電子線トモグラフィーによる近方等方性サブアングストローム3次元位相コントラストイメージング

Near-Isotropic Sub-Ångstrom 3D Resolution Phase Contrast Imaging Achieved by End-to-End Ptychographic Electron Tomography ( http://arxiv.org/abs/2407.19407v1 )

ライセンス: Link先を確認
Shengboy You, Andrey Romanov, Philipp Pelz, (参考訳) 透過電子顕微鏡を用いた3次元原子分解能イメージングは、困難な実験を必要とするユニークな能力である。 線形電子トモグラフィ法は、高い傾き範囲を必要とするウェッジ効果の欠如によって制限される。 マルチスライス・ピストロームは横方向の深いサブ{\AA}ngstrom分解能を達成できるが、深さ分解能は2ナノメートルから3ナノメートルに制限される。 本稿では,4D-STEMデータセットから直接試料の静電ポテンシャル体積を再構築するエンド・ツー・エンド手法を提案する。 マルチスライス・マルチスライス・ポチクロマトグラフィーは各トモグラフィの傾き角度で複数のスライスを復元し、欠落したくさび効果を補正する。 このアルゴリズムは最初、Pt@$\mathrm{Al_2O_3}$ core-shell nano Particleでシミュレーションされ、重い原子と軽い原子の両方が90度の傾斜範囲に制限された4D-STEM傾斜級数から3Dで回収される。 また, このアルゴリズムを実験的に実証し, サブ{\AA}ngstrom分解能を持つTeナノ粒子を回収した。

Three-dimensional atomic resolution imaging using transmission electron microscopes is a unique capability that requires challenging experiments. Linear electron tomography methods are limited by the missing wedge effect, requiring a high tilt range. Multislice ptychography can achieve deep sub-{\AA}ngstrom resolution in the transverse direction, but the depth resolution is limited to 2 to 3 nanometers. In this paper, we propose and demonstrate an end-to-end approach to reconstructing the electrostatic potential volume of the sample directly from the 4D-STEM datasets. End-to-end multi-slice ptychographic tomography recovers several slices at each tomography tilt angle and compensates for the missing wedge effect. The algorithm is initially tested in simulation with a Pt@$\mathrm{Al_2O_3}$ core-shell nanoparticle, where both heavy and light atoms are recovered in 3D from an unaligned 4D-STEM tilt series with a restricted tilt range of 90 degrees. We also demonstrate the algorithm experimentally, recovering a Te nanoparticle with sub-{\AA}ngstrom resolution.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# LLAVADI: マルチモーダルな大規模言語モデルの蒸留について

LLAVADI: What Matters For Multimodal Large Language Models Distillation ( http://arxiv.org/abs/2407.19409v1 )

ライセンス: Link先を確認
Shilin Xu, Xiangtai Li, Haobo Yuan, Lu Qi, Yunhai Tong, Ming-Hsuan Yang, (参考訳) 近年のMLLM(Multimodal Large Language Models)の急増は、視覚的理解を大規模言語モデルに統合することで、汎用インテリジェンスを実現するための驚くべき可能性を示している。 本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。 その代わり、我々は知識蒸留による小規模MLLMの育成に重点を置いており、これはマルチモーダル蒸留の観点からの第一歩である。 本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関する広範な研究である。 これらの結果から,トークンとロジットのアライメントは,教師と学生のフレームワークにおいて重要な役割を担っていることが明らかとなった。 また,本研究から興味深い観察結果が得られた。 異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。 私たちのコードとモデルは、さらなる研究のために公開されます。

The recent surge in Multimodal Large Language Models (MLLMs) has showcased their remarkable potential for achieving generalized intelligence by integrating visual understanding into Large Language Models.Nevertheless, the sheer model size of MLLMs leads to substantial memory and computational demands that hinder their widespread deployment. In this work, we do not propose a new efficient model structure or train small-scale MLLMs from scratch. Instead, we focus on what matters for training small-scale MLLMs through knowledge distillation, which is the first step from the multimodal distillation perspective. Our extensive studies involve training strategies, model choices, and distillation algorithms in the knowledge distillation process. These results show that joint alignment for both tokens and logit alignment plays critical roles in teacher-student frameworks. In addition, we draw a series of intriguing observations from this study. By evaluating different benchmarks and proper strategy, even a 2.7B small-scale model can perform on par with larger models with 7B or 13B parameters. Our code and models will be publicly available for further research.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# AdaCoder: プログラム型視覚質問応答のための適応型プロンプト圧縮

AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering ( http://arxiv.org/abs/2407.19410v1 )

ライセンス: Link先を確認
Mahiro Ukai, Shuhei Kurita, Atsushi Hashimoto, Yoshitaka Ushiku, Nakamasa Inoue, (参考訳) 視覚的な質問応答は、視覚的に入力された自然言語の質問に対する応答を提供することを目的としている。 近年,大規模言語モデル (LLM) を通じて質問に答える実行可能なプログラムを生成するビジュアルプログラムモデル (VPM) が研究の関心を集めている。 しかし、LLMに適切なコードを生成するのに十分なAPI使用の詳細を提供するには、長いインプットプロンプトが必要になることが多い。 この制限に対処するため、VPMの適応的なプロンプト圧縮フレームワークであるAdaCoderを提案する。 AdaCoderは圧縮フェーズと推論フェーズの2つのフェーズで動作する。 圧縮フェーズでは、Python言語のすべてのAPI定義をコードスニペットで記述したプリプロンプトが与えられたら、それぞれ特定の質問タイプに依存する圧縮プレプロンプトのセットが生成される。 推論フェーズでは、入力された質問が与えられた場合、AdaCoderは質問タイプを予測し、適切な圧縮プレプロンプトを選択して質問に答えるコードを生成する。 特に、AdaCoderは、単一の凍結LDMと事前定義されたプロンプトを採用しており、追加のトレーニングの必要性を否定し、GPTやClaudeのような異なる強力なブラックボックスLSM間で適応性を維持する。 実験では、AdaCoderをViperGPTに適用し、トークン長を71.1%削減し、視覚的質問応答の性能を維持または改善することを示した。

Visual question answering aims to provide responses to natural language questions given visual input. Recently, visual programmatic models (VPMs), which generate executable programs to answer questions through large language models (LLMs), have attracted research interest. However, they often require long input prompts to provide the LLM with sufficient API usage details to generate relevant code. To address this limitation, we propose AdaCoder, an adaptive prompt compression framework for VPMs. AdaCoder operates in two phases: a compression phase and an inference phase. In the compression phase, given a preprompt that describes all API definitions in the Python language with example snippets of code, a set of compressed preprompts is generated, each depending on a specific question type. In the inference phase, given an input question, AdaCoder predicts the question type and chooses the appropriate corresponding compressed preprompt to generate code to answer the question. Notably, AdaCoder employs a single frozen LLM and pre-defined prompts, negating the necessity of additional training and maintaining adaptability across different powerful black-box LLMs such as GPT and Claude. In experiments, we apply AdaCoder to ViperGPT and demonstrate that it reduces token length by 71.1%, while maintaining or even improving the performance of visual question answering.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# アイデンティティ駆動型階層型ロールプレイングエージェント

Identity-Driven Hierarchical Role-Playing Agents ( http://arxiv.org/abs/2407.19412v1 )

ライセンス: Link先を確認
Libo Sun, Siyuan Wang, Xuanjing Huang, Zhongyu Wei, (参考訳) ロールプレイングを実現するために大きな言語モデル(LLM)を利用することは、近年大きな注目を集めている。 主な実装方法は、洗練されたプロンプトの活用とロール固有のデータセットの微調整である。 しかし, これらの手法は, それぞれ, 精度が低く, 柔軟性が限られている。 柔軟性と精度のバランスをとるために,階層的アイデンティティ・ロール・プレイング・フレームワーク(HIRPF)を構築し,複数のアイデンティティの組み合わせを用いて複雑な文字を構成する。 本稿では,このフレームワークのためのID対話データセットを開発し,スケール評価とオープン状況評価を含む評価ベンチマークを提案する。 実証実験の結果,アイデンティティレベルロールシミュレーションのモデル化におけるフレームワークの顕著な有効性を示し,社会シミュレーションへの応用の可能性を明らかにした。

Utilizing large language models (LLMs) to achieve role-playing has gained great attention recently. The primary implementation methods include leveraging refined prompts and fine-tuning on role-specific datasets. However, these methods suffer from insufficient precision and limited flexibility respectively. To achieve a balance between flexibility and precision, we construct a Hierarchical Identity Role-Playing Framework (HIRPF) based on identity theory, constructing complex characters using multiple identity combinations. We develop an identity dialogue dataset for this framework and propose an evaluation benchmark including scale evaluation and open situation evaluation. Empirical results indicate the remarkable efficacy of our framework in modeling identity-level role simulation, and reveal its potential for application in social simulation.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# Appformer: プログレッシブなマルチモーダルデータ融合と特徴抽出を活用したモバイルアプリ利用予測の新しいフレームワーク

Appformer: A Novel Framework for Mobile App Usage Prediction Leveraging Progressive Multi-Modal Data Fusion and Feature Extraction ( http://arxiv.org/abs/2407.19414v1 )

ライセンス: Link先を確認
Chuike Sun, Junzhou Chen, Yue Zhao, Hao Han, Ruihai Jing, Guang Tan, Di Wu, (参考訳) 本稿では,自動アテンション機構によるシーケンシャルデータ処理におけるTransformerライクなアーキテクチャの効率性から着想を得た,新しいモバイルアプリケーション予測フレームワークであるAppformerについて述べる。 マルチモーダルデータプログレッシブフュージョンモジュールと高度な特徴抽出モジュールを組み合わせることで、Appformerは、ユーザのプライバシを維持しながら、マルチモーダルデータフュージョンとデータマイニング技術の相乗効果を活用する。 このフレームワークは、ベースステーションに関連付けられたPoints of Interest(POI)を採用し、それらを包括的な比較実験によって最適化し、最も効果的なクラスタリング方法を特定する。 これらの洗練された入力は、モーダルデータ融合の初期フェーズにシームレスに統合され、時間単位は単語埋め込みによってエンコードされ、その後後段にマージされる。 特徴抽出モジュールは、時系列分析に特化したトランスフォーマーのようなアーキテクチャを採用しており、包括的機能を完全に排除している。 核融合モジュールからの出力を慎重に微調整し、高Calibreでマルチモーダルな特徴の抽出を容易にし、堅牢で効率的な抽出プロセスを保証する。 大規模な実験的検証がAppformerの有効性を確認し、モバイルアプリの利用予測における最先端(SOTA)メトリクスを獲得し、この分野における顕著な進歩を示す。

This article presents Appformer, a novel mobile application prediction framework inspired by the efficiency of Transformer-like architectures in processing sequential data through self-attention mechanisms. Combining a Multi-Modal Data Progressive Fusion Module with a sophisticated Feature Extraction Module, Appformer leverages the synergies of multi-modal data fusion and data mining techniques while maintaining user privacy. The framework employs Points of Interest (POIs) associated with base stations, optimizing them through comprehensive comparative experiments to identify the most effective clustering method. These refined inputs are seamlessly integrated into the initial phases of cross-modal data fusion, where temporal units are encoded via word embeddings and subsequently merged in later stages. The Feature Extraction Module, employing Transformer-like architectures specialized for time series analysis, adeptly distils comprehensive features. It meticulously fine-tunes the outputs from the fusion module, facilitating the extraction of high-calibre, multi-modal features, thus guaranteeing a robust and efficient extraction process. Extensive experimental validation confirms Appformer's effectiveness, attaining state-of-the-art (SOTA) metrics in mobile app usage prediction, thereby signifying a notable progression in this field.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# 動画音楽検索から始める:クロスモーダル検索のためのイントラ・モーダル・ロス

Start from Video-Music Retrieval: An Inter-Intra Modal Loss for Cross Modal Retrieval ( http://arxiv.org/abs/2407.19415v1 )

ライセンス: Link先を確認
Zeyu Chen, Pengfei Zhang, Kai Ye, Wei Dong, Xin Feng, Yana Zhang, (参考訳) 急成長するショートビデオ産業は、ビデオ音楽検索技術の進歩を加速し、コンテンツ制作者がビデオに適切な音楽を選ぶのを助ける。 ビデオ対音楽検索のためのセルフ教師付きトレーニングでは、データセット内のビデオと音楽サンプルは、同じビデオワークから分離されるため、すべて1対1の一致である。 これは実際の状況と一致しない。 実際には、ビデオは異なる音楽をバックグラウンド音楽として使用することができ、異なるビデオのバックグラウンド音楽として使用することができる。 ペアにない多くのビデオや音楽は互換性があり、データセットの偽陰性ノイズにつながる可能性がある。 新たなイントラ・モーダル(II)損失を解法として提案する。 エンコーダの前後の2つのモードにおける特徴分布のばらつきを低減させることにより、IIの損失は、コストと手間のかかる方法で除去することなく、そのようなノイズへの過度な適合を低減できる。 ビデオ音楽検索フレームワークであるII-CLVM(Contrastive Learning for Video-Music Retrieval)は、II Lossを取り入れ、YouTube8Mデータセット上で最先端のパフォーマンスを達成する。 フレームワークII-CLVTMは、マルチモーダルなビデオ情報(動画のテキストなど)を用いて音楽を取得する際に、より良いパフォーマンスを示す。 実験により,II損失は検索タスクにおける偽陰性雑音の問題を効果的に軽減できることが示された。 実験により,II損失は多種多様な一様・一様・多様検索タスクを改善し,少ないトレーニングサンプルで良好な検索モデルが得られることが示された。

The burgeoning short video industry has accelerated the advancement of video-music retrieval technology, assisting content creators in selecting appropriate music for their videos. In self-supervised training for video-to-music retrieval, the video and music samples in the dataset are separated from the same video work, so they are all one-to-one matches. This does not match the real situation. In reality, a video can use different music as background music, and a music can be used as background music for different videos. Many videos and music that are not in a pair may be compatible, leading to false negative noise in the dataset. A novel inter-intra modal (II) loss is proposed as a solution. By reducing the variation of feature distribution within the two modalities before and after the encoder, II loss can reduce the model's overfitting to such noise without removing it in a costly and laborious way. The video-music retrieval framework, II-CLVM (Contrastive Learning for Video-Music Retrieval), incorporating the II Loss, achieves state-of-the-art performance on the YouTube8M dataset. The framework II-CLVTM shows better performance when retrieving music using multi-modal video information (such as text in videos). Experiments are designed to show that II loss can effectively alleviate the problem of false negative noise in retrieval tasks. Experiments also show that II loss improves various self-supervised and supervised uni-modal and cross-modal retrieval tasks, and can obtain good retrieval models with a small amount of training samples.
翻訳日:2024-07-30 18:22:10 公開日:2024-07-28
# UniGAP:ノード分類タスクにおけるオーバースムース化を緩和するための普遍的で適応的なグラフアップサンプリングアプローチ

UniGAP: A Universal and Adaptive Graph Upsampling Approach to Mitigate Over-Smoothing in Node Classification Tasks ( http://arxiv.org/abs/2407.19420v1 )

ライセンス: Link先を確認
Xiaotang Wang, Yun Zhu, Haizhou Shi, Yongchao Liu, Chuntao Hong, (参考訳) グラフ領域では、メッセージパッシングニューラルネットワーク(MPNN)やグラフトランスフォーマーに基づくディープグラフネットワークは、しばしばノード機能の過度な平滑化を引き起こし、表現能力を制限する。 ノードとエッジの操作を含む多くのアップサンプリング技術がこの問題を軽減するために提案されている。 しかし、これらの手法は、しばしば広範囲な手作業を必要とし、その結果、最適以下の性能と普遍的な統合戦略が欠如する。 本研究では,グラフデータに対する普遍的かつ適応的なグラフアップサンプリング手法であるUniGAPを紹介する。 グラフアップサンプリングのための普遍的なフレームワークを提供し、ほとんどの現在のメソッドを変種として包含する。 さらに、UniGAPは既存のGNNとシームレスかつ適応的に統合できるプラグインコンポーネントとして機能し、パフォーマンスを高め、オーバースムーシング問題を緩和する。 広範な実験を通じて、UniGAPは、さまざまなデータセットやメトリクスにわたるヒューリスティックなデータ拡張手法よりも大幅に改善されていることを示す。 グラフ構造がUniGAPでどのように進化するかを分析し、過度なスムース化が起こる主要なボトルネックを特定し、UniGAPがこの問題にどう対処するかを洞察する。 最後に,UniGAPと大規模言語モデル(LLM)を組み合わせることで,下流の性能をさらに向上する可能性を示す。 私たちのコードは、https://github.com/wangxiaotang0906/UniGAPで利用可能です。

In the graph domain, deep graph networks based on Message Passing Neural Networks (MPNNs) or Graph Transformers often cause over-smoothing of node features, limiting their expressive capacity. Many upsampling techniques involving node and edge manipulation have been proposed to mitigate this issue. However, these methods often require extensive manual labor, resulting in suboptimal performance and lacking a universal integration strategy. In this study, we introduce UniGAP, a universal and adaptive graph upsampling technique for graph data. It provides a universal framework for graph upsampling, encompassing most current methods as variants. Moreover, UniGAP serves as a plug-in component that can be seamlessly and adaptively integrated with existing GNNs to enhance performance and mitigate the over-smoothing problem. Through extensive experiments, UniGAP demonstrates significant improvements over heuristic data augmentation methods across various datasets and metrics. We analyze how graph structure evolves with UniGAP, identifying key bottlenecks where over-smoothing occurs, and providing insights into how UniGAP addresses this issue. Lastly, we show the potential of combining UniGAP with large language models (LLMs) to further improve downstream performance. Our code is available at: https://github.com/wangxiaotang0906/UniGAP
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# 勾配関連障害の緩和における物理インフォームドニューラルネットワークの改善

Improved physics-informed neural network in mitigating gradient related failures ( http://arxiv.org/abs/2407.19421v1 )

ライセンス: Link先を確認
Pancheng Niu, Yongming Chen, Jun Guo, Yuqian Zhou, Minfu Feng, Yanchao Shi, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、基本的な物理原理を高度なデータ駆動技術と統合し、科学計算の大幅な進歩を推進している。 しかし、PINNは勾配流の剛性に悩まされ、予測能力を制限している。 本稿では,勾配関連障害を軽減するために改良されたPINN(I-PINN)を提案する。 I-PINNの中核は、ニューラルネットワークの各強みとアーキテクチャの改善と、アップパー境界を含む適応重みを組み合わせることである。 I-PINNにより,少なくとも1桁の精度向上と収束の促進を実現し,ベースラインモデルに対する余分な計算複雑性を導入することなく実現した。 様々なベンチマークによる数値実験は、I-PINNの精度の向上と一般化を示している。 サポート対象のデータとコードはhttps://github.com/PanChengN/I-PINN.gitでアクセスでき、より広範な研究参加を可能にする。

Physics-informed neural networks (PINNs) integrate fundamental physical principles with advanced data-driven techniques, driving significant advancements in scientific computing. However, PINNs face persistent challenges with stiffness in gradient flow, which limits their predictive capabilities. This paper presents an improved PINN (I-PINN) to mitigate gradient-related failures. The core of I-PINN is to combine the respective strengths of neural networks with an improved architecture and adaptive weights containingupper bounds. The capability to enhance accuracy by at least one order of magnitude and accelerate convergence, without introducing extra computational complexity relative to the baseline model, is achieved by I-PINN. Numerical experiments with a variety of benchmarks illustrate the improved accuracy and generalization of I-PINN. The supporting data and code are accessible at https://github.com/PanChengN/I-PINN.git, enabling broader research engagement.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# 認知行動療法における人工知能の統合に関する総説

A Generic Review of Integrating Artificial Intelligence in Cognitive Behavioral Therapy ( http://arxiv.org/abs/2407.19422v1 )

ライセンス: Link先を確認
Meng Jiang, Qing Zhao, Jianqiang Li, Fan Wang, Tianyu He, Xinyan Cheng, Bing Xiang Yang, Grace W. K. Ho, Guanghui Fu, (参考訳) 認知行動療法 (Cognitive Behavioral Therapy, CBT) は、不適応な認知と行動パターンを変更することで心理的問題を緩和するための確立された介入である。 しかし、CBTの配信はリソースの制限やアクセスの障壁によって制限されることが多い。 人工知能(AI)の進歩は、CBTのデジタルトランスフォーメーションを技術的に支援している。 特に、事前学習モデル(PTM)と大規模言語モデル(LLM)の出現は、CBTデリバリをサポートし、拡張し、最適化し、自動化する大きな可能性を秘めている。 本稿では,AIのCBT介入への統合に関する文献をレビューする。 まずはCBTの概要から始める。 次に,前処理,治療プロセス,後処理など,さまざまな段階にわたるCBTへのAIの統合について紹介する。 次に、いくつかのCBT関連タスクに関連するデータセットを要約した。 最後に、CBTにAIを適用する際のメリットと現在の制限について論じる。 我々は、AI強化CBTの長期的な有効性と臨床的有用性について、さらなる調査と検証の必要性を強調し、今後の研究の鍵となる分野を提案する。 CBTの実践を変革するAIの変革的ポテンシャルは、よりアクセスしやすく、効率的でパーソナライズされたメンタルヘルス介入の新しい時代を告げるものだ。

Cognitive Behavioral Therapy (CBT) is a well-established intervention for mitigating psychological issues by modifying maladaptive cognitive and behavioral patterns. However, delivery of CBT is often constrained by resource limitations and barriers to access. Advancements in artificial intelligence (AI) have provided technical support for the digital transformation of CBT. Particularly, the emergence of pre-training models (PTMs) and large language models (LLMs) holds immense potential to support, augment, optimize and automate CBT delivery. This paper reviews the literature on integrating AI into CBT interventions. We begin with an overview of CBT. Then, we introduce the integration of AI into CBT across various stages: pre-treatment, therapeutic process, and post-treatment. Next, we summarized the datasets relevant to some CBT-related tasks. Finally, we discuss the benefits and current limitations of applying AI to CBT. We suggest key areas for future research, highlighting the need for further exploration and validation of the long-term efficacy and clinical utility of AI-enhanced CBT. The transformative potential of AI in reshaping the practice of CBT heralds a new era of more accessible, efficient, and personalized mental health interventions.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# 光学におけるパラシャットナム・ベリー相:ヘリカル光ファイバの偏光伝播

Parachatnam-Berry Phase in Optics: Polarization Propagation in Helical Optical Fibers ( http://arxiv.org/abs/2407.19425v1 )

ライセンス: Link先を確認
Igor Kuzmenko, Y. B. Band, Yshai Avishai, (参考訳) パラチャットナム・ベリー相(パラチャットナム・ベリーせい、英: Parachatnam-Berry phase)は、光学系における光の偏光に関連する幾何学的位相である。 そこで本研究では, 単モード光ファイバーで伝搬する単モード光線に対して, 環状ヘリックス形状に有意な応力誘起複屈折傷を負わずにPBPの発生を基礎とする物理原理を考察する。 ヘリカルファイバーの曲率とねじれが偏光ベクトルと関連するBPの回転に及ぼす影響を考察する。 ヘリカルファイバーに入る光の初期偏光状態に対する光の偏光ベクトルとストークスパラメータの解析解、光の周期的輸送のための光のPBPの解析式、PBPに依存する初期および最終ビームの重ね合わせの強度、および、ヘリカルファイバーの形状と材料特性を規定するパラメータのゆらぎの影響を議論する。 また, 単位球上にプロットされたヘリックスの接ベクトルによって置換された固体角とBPPの関係についても検討した。

The Parachatnam-Berry phase (PBP) is a geometric phase associated with the polarization of light propagating in optical systems. Here, we investigate the physical principles underlying the occurrence of PBP for a single-mode light beam propagating in a single-mode optical fiber with no significant stress-induced birefringence wound into a circular helix configuration. We discuss the effects of curvature and torsion of the helical fiber on the rotation of the polarization vector and the associated PBP. We find the analytic solution for the polarization vector and Stokes parameters of the light for any initial polarization state of the light entering the helical fiber, the analytic expression for the PBP of the light for periodic transport of the light, the intensity of a superposition of the initial and final beams which depends on the PBP, and we discuss the effects of fluctuations of the parameters specifying the geometry and the material characteristics of the helical fiber on the PBP. We also discuss the relationship between the PBP and the solid angle subtended by the tangent vector of the helix plotted on the unit sphere.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# 観測変数と測定誤差を持つ線形モデルの因果発見

Causal Discovery in Linear Models with Unobserved Variables and Measurement Error ( http://arxiv.org/abs/2407.19426v1 )

ライセンス: Link先を確認
Yuqin Yang, Mohamed Nafea, Negar Kiyavash, Kun Zhang, AmirEmad Ghassami, (参考訳) 因果構造学習の課題では, 未観測の共通原因の存在と測定誤差の存在が, 最も限定的な課題である。 いずれの課題も無視することは、興味のある変数間の急激な因果関係を検出するのに繋がる。 本稿では,これら2つの課題を同時に解決できるシステムにおける因果発見の問題について検討する。 直接観測される変数、直接観測されないが、誤差で測定される変数、対応する測定値、観察され、測定されない変数の4種類の変数を含む線形モデルを考察する。 分離性条件下でのそのようなモデルの識別可能性(つまり、観測変数に関連する独立な外因性雑音項を示す行列)の程度を、忠実性の仮定の2つのバージョンと共に特徴付け、観察的等価性の概念を提案する。 本稿では,同値なモデルのグラフィカルなキャラクタリゼーションと,同値なモデルを返すリカバリアルゴリズムを提案する。

The presence of unobserved common causes and the presence of measurement error are two of the most limiting challenges in the task of causal structure learning. Ignoring either of the two challenges can lead to detecting spurious causal links among variables of interest. In this paper, we study the problem of causal discovery in systems where these two challenges can be present simultaneously. We consider linear models which include four types of variables: variables that are directly observed, variables that are not directly observed but are measured with error, the corresponding measurements, and variables that are neither observed nor measured. We characterize the extent of identifiability of such model under separability condition (i.e., the matrix indicating the independent exogenous noise terms pertaining to the observed variables is identifiable) together with two versions of faithfulness assumptions and propose a notion of observational equivalence. We provide graphical characterization of the models that are equivalent and present a recovery algorithm that could return models equivalent to the ground truth.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# 街頭官僚の実践の文脈における自動意思決定システムの影響

The influence of Automated Decision-Making systems in the context of street-level bureaucrats' practices ( http://arxiv.org/abs/2407.19427v1 )

ライセンス: Link先を確認
Manuel Portela, A. Paula Rodriguez Müller, Luca Tangi, (参考訳) デジタルガバナンスの時代には、公共行政において、個人・協力作業における自動化の利用が増加している(Tangi et al , 2022)。 効率性とコスト削減の約束にもかかわらず、自動化はガバナンススキームに新たな課題をもたらす可能性がある。 地域、国、地方自治体は自動意思決定システム(ADMS)の影響を規制し、測定するための措置を講じている。 本研究は、欧州の行政機関におけるADMSの利用と採用に焦点を当て、これらの制度が街頭官僚の役割、任務、義務をいかに変えてきたかを理解する。 我々は,ADMSを数年間使用した3つの行政機関のストリートレベルの官僚に,日常業務に組み込んだ質的研究を行った。 我々の研究の結果は、協力的な仕事、組織的な設定、官僚の能力、ADMSの実施によって市民により良いサービスを提供する能力がいかに有効または制限されるか、という5つの次元の分析である。

In an era of digital governance, the use of automation for individual and cooperative work is increasing in public administrations (Tangi et al., 2022). Despite the promises of efficiency and cost reduction, automation could bring new challenges to the governance schemes. Regional, national, and local governments are taking measures to regulate and measure the impact of automated decision-making systems (ADMS). This research focuses on the use and adoption of ADMS in European public administrations to understand how these systems have been transforming the roles, tasks, and duties of street-level bureaucrats. We conducted a qualitative study in which we interviewed street-level bureaucrats from three administrations who had used an ADMS for several years, which was embedded in their daily work routines. The outcome of our research is an analysis of five dimensions of how collaborative work, the organizational settings, the capacities of bureaucrats and the implementation of the ADMS enable or limit the capacities for offering better services towards the citizens.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# ブロックチェーンを用いた軌道予測の強化のための再帰駆動型非同期フェデレーション学習

Reputation-Driven Asynchronous Federated Learning for Enhanced Trajectory Prediction with Blockchain ( http://arxiv.org/abs/2407.19428v1 )

ライセンス: Link先を確認
Weiliang Chen, Li Jia, Yang Zhou, Qianqian Ren, (参考訳) フェデレーション学習とブロックチェーンを組み合わせることで、自動運転アプリケーションにおけるセキュアなデータ共有が実現される。 それでも、車両生成データの粒度と複雑さの増大により、データ品質監査の欠如は、軌道予測タスクにおける多党間の不信を懸念する。 本稿では,グラフニューラルネットワークツールを用いた解釈可能な評価定量化機構に基づく非同期フェデレーション学習データ共有手法を提案する。 データプロバイダは、冗長なデータを削減しつつ、セキュリティを確保するために、差分プライバシー制約の下でデータ構造を共有する。 評価レベルによって車両を分類する深層強化学習を実装し,フェデレート学習の集約効率を最適化する。 実験結果から,提案手法は軌道予測タスクの安全性を向上するだけでなく,予測精度も向上することが示された。

Federated learning combined with blockchain empowers secure data sharing in autonomous driving applications. Nevertheless, with the increasing granularity and complexity of vehicle-generated data, the lack of data quality audits raises concerns about multi-party mistrust in trajectory prediction tasks. In response, this paper proposes an asynchronous federated learning data sharing method based on an interpretable reputation quantization mechanism utilizing graph neural network tools. Data providers share data structures under differential privacy constraints to ensure security while reducing redundant data. We implement deep reinforcement learning to categorize vehicles by reputation level, which optimizes the aggregation efficiency of federated learning. Experimental results demonstrate that the proposed data sharing scheme not only reinforces the security of the trajectory prediction task but also enhances prediction accuracy.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# FTF-ER:連続グラフ学習のための特徴トポロジー融合に基づく体験再生法

FTF-ER: Feature-Topology Fusion-Based Experience Replay Method for Continual Graph Learning ( http://arxiv.org/abs/2407.19429v1 )

ライセンス: Link先を確認
Jinhui Pang, Changqing Lin, Xiaoshuai Hao, Rong Yin, Zixuan Wang, Zhihui Zhang, Jinglin He, Huang Tai Sheng, (参考訳) 連続グラフ学習(CGL)は,静的GNNを動的タスクフローシナリオに拡張することを目的とした,重要かつ困難なタスクである。 主要なCGL手法の1つとして、経験再生(ER)法が優れた性能のために広く注目を集めている。 しかし,既存のER法では特徴量やトポロジ的関連性によるサンプルの同定に重点を置いており,包括的なグラフデータの利用を制限している。 さらに、トポロジベースのER手法では、局所的なトポロジ情報のみを考慮し、バッファに隣接ノードを追加することで、グローバルなトポロジ情報を無視し、メモリオーバーヘッドを増大させる。 これらのギャップを埋めるため,我々はFTF-ER(Feature-Topology Fusion-based Experience Replay)と呼ばれる新しい手法を提案する。 具体的には,グラフデータ全体の利用を最大化するために,特徴情報と大域的トポロジ情報の両方を含む極めて相補的な手法を提案する。 さらに,グローバルなトポロジ情報を活用するために,ノードのトポロジ的重要性を計算する新しいモジュールとしてホッジポテンシャルスコア(HPS)を提案する。 HPSは、グラフ上のホッジ分解によるグローバルノードランキングを導出し、近隣のサンプリングと比較してより正確なグローバルトポロジ情報を提供する。 隣接するサンプリングを除外することで、HPSはトポロジカル情報を取得するためのバッファストレージコストを大幅に削減し、同時にトレーニング時間を短縮する。 最先端の手法と比較して、FTF-ERは、OGB-Arxivデータセット上でのAAが3.6%、AFが7.1%の大幅な改善を実現し、クラスインクリメンタルな学習環境での優れたパフォーマンスを示している。

Continual graph learning (CGL) is an important and challenging task that aims to extend static GNNs to dynamic task flow scenarios. As one of the mainstream CGL methods, the experience replay (ER) method receives widespread attention due to its superior performance. However, existing ER methods focus on identifying samples by feature significance or topological relevance, which limits their utilization of comprehensive graph data. In addition, the topology-based ER methods only consider local topological information and add neighboring nodes to the buffer, which ignores the global topological information and increases memory overhead. To bridge these gaps, we propose a novel method called Feature-Topology Fusion-based Experience Replay (FTF-ER) to effectively mitigate the catastrophic forgetting issue with enhanced efficiency. Specifically, from an overall perspective to maximize the utilization of the entire graph data, we propose a highly complementary approach including both feature and global topological information, which can significantly improve the effectiveness of the sampled nodes. Moreover, to further utilize global topological information, we propose Hodge Potential Score (HPS) as a novel module to calculate the topological importance of nodes. HPS derives a global node ranking via Hodge decomposition on graphs, providing more accurate global topological information compared to neighbor sampling. By excluding neighbor sampling, HPS significantly reduces buffer storage costs for acquiring topological information and simultaneously decreases training time. Compared with state-of-the-art methods, FTF-ER achieves a significant improvement of 3.6% in AA and 7.1% in AF on the OGB-Arxiv dataset, demonstrating its superior performance in the class-incremental learning setting.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# 熱赤外物体追跡のためのプログレッシブ領域適応

Progressive Domain Adaptation for Thermal Infrared Object Tracking ( http://arxiv.org/abs/2407.19430v1 )

ライセンス: Link先を確認
Qiao Li, Kanlun Tan, Qiao Liu, Di Yuan, Xin Li, Yunpeng Liu, (参考訳) 大規模ラベル付きサーモ赤外線(TIR)トレーニングデータセットが不足しているため、既存のTIRトラッカーのほとんどはRGBデータセットで直接トレーニングされている。 しかし、RGBデータセットでトレーニングされたトラッキング手法は、ドメインシフトの問題により、TIRデータの大幅な低下に悩まされる。 そこで本研究では,RGBトラッキングから学習した有用な知識をTIRトラッキングに転送する,TIR追跡のためのプログレッシブドメイン適応フレームワークを提案する。 このフレームワークは、大規模なTIRデータの時間と労働集約的なラベル付けを必要とせずに、大規模ラベル付きRGBデータセットをフル活用する。 具体的には,まず,機能レベルでの領域ギャップを粗く抑えるために,対向型グローバルドメイン適応モジュールを提案する。 第2に、クラスタリングに基づくサブドメイン適応法を設計し、RGBおよびTIRデータセットの特徴分布を微調整する。 これら2つのドメイン適応モジュールは、2つのドメイン間の相違を徐々に排除し、プログレッシブトレーニングを通じてドメイン不変のきめ細かい特徴を学習する。 さらに、提案したドメイン適応フレームワークをトレーニングするために、ラベルなしのTIRイメージが148万以上ある大規模なTIRデータセットを収集します。 5つのTIR追跡ベンチマーク実験の結果,提案手法は6%近い成功率を示し,その有効性を示した。

Due to the lack of large-scale labeled Thermal InfraRed (TIR) training datasets, most existing TIR trackers are trained directly on RGB datasets. However, tracking methods trained on RGB datasets suffer a significant drop-off in TIR data due to the domain shift issue. To this end, in this work, we propose a Progressive Domain Adaptation framework for TIR Tracking (PDAT), which transfers useful knowledge learned from RGB tracking to TIR tracking. The framework makes full use of large-scale labeled RGB datasets without requiring time-consuming and labor-intensive labeling of large-scale TIR data. Specifically, we first propose an adversarial-based global domain adaptation module to reduce domain gap on the feature level coarsely. Second, we design a clustering-based subdomain adaptation method to further align the feature distributions of the RGB and TIR datasets finely. These two domain adaptation modules gradually eliminate the discrepancy between the two domains, and thus learn domain-invariant fine-grained features through progressive training. Additionally, we collect a largescale TIR dataset with over 1.48 million unlabeled TIR images for training the proposed domain adaptation framework. Experimental results on five TIR tracking benchmarks show that the proposed method gains a nearly 6% success rate, demonstrating its effectiveness.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# FINER++: 意図しない神経表現を活性化する可変周期関数のファミリーを構築する

FINER++: Building a Family of Variable-periodic Functions for Activating Implicit Neural Representation ( http://arxiv.org/abs/2407.19434v1 )

ライセンス: Link先を確認
Hao Zhu, Zhen Liu, Qi Zhang, Jingde Fu, Weibing Deng, Zhan Ma, Yanwen Guo, Xun Cao, (参考訳) Inlicit Neural Representation (INR)は、ニューラルネットワークを利用して、入力を対応する属性にマッピングする。 しかし、現在のINR技術は「周波数」特定スペクトルバイアスとキャパシティ・コンバージェンスギャップに悩まされており、複数の「周波数」を持つ複雑な信号を表す場合に不完全な性能をもたらす。 この2つの特徴は、現在のアクティベーション関数における定義ドメインの利用を増大させることで扱えることを示し、FINER++フレームワークは、既存の周期的/非周期的アクティベーション関数を変数周期的関数に拡張することによって提案する。 異なる範囲のニューラルネットワークのバイアスを初期化することにより、可変周期関数の様々な周波数のサブ関数が活性化するために選択される。 これにより、支持周波数セットを柔軟に調整することができ、信号表現の性能が向上する。 本稿では, アクティベーション関数のバックボーンが異なるFINER++の一般化と機能(Sine, Gauss., Wavelet)と, 様々なタスク(2D画像適合性, 3D符号付き距離場表現, 5Dニューラルラジアンスフィールド最適化, ストリーム可能なINR伝送)を実証し, 既存のINRを改善することを示す。 プロジェクトページ: {https://liuzhen0212.github.io/finerpp/}

Implicit Neural Representation (INR), which utilizes a neural network to map coordinate inputs to corresponding attributes, is causing a revolution in the field of signal processing. However, current INR techniques suffer from the "frequency"-specified spectral bias and capacity-convergence gap, resulting in imperfect performance when representing complex signals with multiple "frequencies". We have identified that both of these two characteristics could be handled by increasing the utilization of definition domain in current activation functions, for which we propose the FINER++ framework by extending existing periodic/non-periodic activation functions to variable-periodic ones. By initializing the bias of the neural network with different ranges, sub-functions with various frequencies in the variable-periodic function are selected for activation. Consequently, the supported frequency set can be flexibly tuned, leading to improved performance in signal representation. We demonstrate the generalization and capabilities of FINER++ with different activation function backbones (Sine, Gauss. and Wavelet) and various tasks (2D image fitting, 3D signed distance field representation, 5D neural radiance fields optimization and streamable INR transmission), and we show that it improves existing INRs. Project page: {https://liuzhen0212.github.io/finerpp/}
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# ASI-Seg:サージオンインテンション理解によるオーディオ駆動型手術器具セグメンテーション

ASI-Seg: Audio-Driven Surgical Instrument Segmentation with Surgeon Intention Understanding ( http://arxiv.org/abs/2407.19435v1 )

ライセンス: Link先を確認
Zhen Chen, Zongming Zhang, Wenwu Guo, Xingjian Luo, Long Bai, Jinlin Wu, Hongliang Ren, Hongbin Liu, (参考訳) 手術器具のセグメンテーションは外科的シーン理解に不可欠であり、外科的安全性を促進する。 既存のアルゴリズムは、入力画像内の予め定義されたカテゴリのすべての機器を直接検出し、外科医の意図に従って特定の機器を分割する能力に欠けていた。 手術の異なる段階では、外科医は様々な好みを示し、異なる手術器具に焦点を合わせている。 したがって、外科医の意図に固執する機器分割アルゴリズムは、無関係な機器からの逸脱を最小限に抑え、外科医を支援することができる。 最近のSegment Anything Model (SAM)は、プロンプトに従ってオブジェクトをセグメント化する機能を示しているが、手動によるプロンプトのアノテーションは手術中は実用的ではない。 手術室におけるこれらの制限に対処するため,外科医の音声コマンドを解析することにより,必要な手術器具を正確に区分けする,ASI-Segという音声駆動型手術器具セグメンテーションフレームワークを提案する。 具体的には、音声コマンドからセグメンテーションの意図を解釈し、セグメンテーションを容易にするための関連機器の詳細を検索する意図指向のマルチモーダル融合を提案する。 さらに,必要な手術器具のASI-Segセグメントをガイドするために,必要機器と無関係機器とを効果的に区別するコントラスト学習プロンプトエンコーダを考案した。 そこで,ASI-Segは手術室のワークフローを促進し,外科医に対する目標支援と認知負荷の低減を実現した。 ASI-Segフレームワークを検証するために大規模な実験が行われ、意味的セグメンテーションと意図的セグメンテーションの両方において、古典的な最先端および医学的なSAMに対して顕著な優位性を示す。 ソースコードはhttps://github.com/Zonmgin-Zhang/ASI-Segで入手できる。

Surgical instrument segmentation is crucial in surgical scene understanding, thereby facilitating surgical safety. Existing algorithms directly detected all instruments of pre-defined categories in the input image, lacking the capability to segment specific instruments according to the surgeon's intention. During different stages of surgery, surgeons exhibit varying preferences and focus toward different surgical instruments. Therefore, an instrument segmentation algorithm that adheres to the surgeon's intention can minimize distractions from irrelevant instruments and assist surgeons to a great extent. The recent Segment Anything Model (SAM) reveals the capability to segment objects following prompts, but the manual annotations for prompts are impractical during the surgery. To address these limitations in operating rooms, we propose an audio-driven surgical instrument segmentation framework, named ASI-Seg, to accurately segment the required surgical instruments by parsing the audio commands of surgeons. Specifically, we propose an intention-oriented multimodal fusion to interpret the segmentation intention from audio commands and retrieve relevant instrument details to facilitate segmentation. Moreover, to guide our ASI-Seg segment of the required surgical instruments, we devise a contrastive learning prompt encoder to effectively distinguish the required instruments from the irrelevant ones. Therefore, our ASI-Seg promotes the workflow in the operating rooms, thereby providing targeted support and reducing the cognitive load on surgeons. Extensive experiments are performed to validate the ASI-Seg framework, which reveals remarkable advantages over classical state-of-the-art and medical SAMs in both semantic segmentation and intention-oriented segmentation. The source code is available at https://github.com/Zonmgin-Zhang/ASI-Seg.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# X-Fake:シミュレートされたSAR画像の実用性評価と説明をジャグリングする

X-Fake: Juggling Utility Evaluation and Explanation of Simulated SAR Images ( http://arxiv.org/abs/2407.19436v1 )

ライセンス: Link先を確認
Zhongling Huang, Yihan Zhuang, Zipei Zhong, Feng Xu, Gong Cheng, Junwei Han, (参考訳) SAR画像シミュレーションは、ディープラーニングアルゴリズムの訓練データ不足を補う大きな可能性を秘めているため、多くの注目を集めている。 その結果,シミュレートされたSAR画像の品質評価は実用化に不可欠である。 現在の文献は、主に人間の観察者の知覚に依存する評価に画像品質評価技術を使用している。 しかし、SARのユニークなイメージング機構のため、これらの手法は完全には有効ではない評価結果が得られる可能性がある。 実データと模擬データの分散不整合性は、シミュレーションSAR画像の有用性に影響を与える主な障害である。 そこで本研究では,X-Fake で表されるSAR画像の擬似的説明を初めて行う,信頼性の高い実用性評価フレームワークを提案する。 確率的評価器と因果説明器を一体化し、信頼できる実用性評価を実現する。 本研究では,確率的ベイズ深度モデルを用いて評価器を構築し,実データに基づく後部分布の学習を行う。 定量的に、シミュレーションデータの予測された不確実性は、分布の相違を反映することができる。 因果説明器をイントロスペクティブな変分自動エンコーダで構築し,高分解能な反事実を生成する。 IntroVAEの潜伏コードは、最終的に評価指標と事前情報で最適化され、結果、シミュレーションされたデータの不正確な詳細が明らかになる。 提案手法は、電磁モデルから得られた4つのシミュレーションSAR画像データセットと、生成人工知能アプローチに基づいて検証される。 提案するX-Fakeフレームワークは,他のIQA手法よりも実用性が高いことを示す。 さらに,本研究の結果から,生成した反事実的説明は信頼性が高く,アプリケーションにおけるデータ有用性をさらに向上させる可能性が示唆された。

SAR image simulation has attracted much attention due to its great potential to supplement the scarce training data for deep learning algorithms. Consequently, evaluating the quality of the simulated SAR image is crucial for practical applications. The current literature primarily uses image quality assessment techniques for evaluation that rely on human observers' perceptions. However, because of the unique imaging mechanism of SAR, these techniques may produce evaluation results that are not entirely valid. The distribution inconsistency between real and simulated data is the main obstacle that influences the utility of simulated SAR images. To this end, we propose a novel trustworthy utility evaluation framework with a counterfactual explanation for simulated SAR images for the first time, denoted as X-Fake. It unifies a probabilistic evaluator and a causal explainer to achieve a trustworthy utility assessment. We construct the evaluator using a probabilistic Bayesian deep model to learn the posterior distribution, conditioned on real data. Quantitatively, the predicted uncertainty of simulated data can reflect the distribution discrepancy. We build the causal explainer with an introspective variational auto-encoder to generate high-resolution counterfactuals. The latent code of IntroVAE is finally optimized with evaluation indicators and prior information to generate the counterfactual explanation, thus revealing the inauthentic details of simulated data explicitly. The proposed framework is validated on four simulated SAR image datasets obtained from electromagnetic models and generative artificial intelligence approaches. The results demonstrate the proposed X-Fake framework outperforms other IQA methods in terms of utility. Furthermore, the results illustrate that the generated counterfactual explanations are trustworthy, and can further improve the data utility in applications.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# 対話型AIマルチエージェントインターオペラビリティ, エージェント自然言語マルチモーダル通信のためのユニバーサルオープンAPI

Conversational AI Multi-Agent Interoperability, Universal Open APIs for Agentic Natural Language Multimodal Communications ( http://arxiv.org/abs/2407.19438v1 )

ライセンス: Link先を確認
Diego Gosmar, Deborah A. Dahl, Emmett Coin, (参考訳) 本稿では,Open Voice Interoperability Initiative(Linux Foundation AI and Data,略称OVON)によって提案される新しいアーキテクチャについて述べる。 この新しいアプローチは、主要なコンポーネントとともに、標準的なマルチモーダルAIエージェンシー(あるいはエージェントAI)通信を展開する上での重要なメリットとユースケースを説明している。 自然言語に基づくUniversal APIから始まるこのフレームワークは、チャットボット、ボイスボット、ビデオボット、ヒューマンエージェントなど、さまざまな会話型AIエージェント間の相互運用を可能にする。 さらに、特定のサービスを提供するエージェントを効率的に検索し、自然言語ベースのAPIの拡張を通じてアクセス可能な標準のManifestパブリッシュを通じてこれらのサービスに関する正確な情報を取得するように設計された、新しいDiscovery仕様フレームワークが導入された。 このコントリビューションの主な目的は、さまざまなプラットフォームにわたるAIインタラクションの能力とスケーラビリティを著しく向上させることである。 相互運用可能な会話型AIアシスタントのための新しいアーキテクチャは、オープンリポジトリを介して複製可能でアクセスしやすいように設計されている。

This paper analyses Conversational AI multi-agent interoperability frameworks and describes the novel architecture proposed by the Open Voice Interoperability initiative (Linux Foundation AI and DATA), also known briefly as OVON (Open Voice Network). The new approach is illustrated, along with the main components, delineating the key benefits and use cases for deploying standard multi-modal AI agency (or agentic AI) communications. Beginning with Universal APIs based on Natural Language, the framework establishes and enables interoperable interactions among diverse Conversational AI agents, including chatbots, voicebots, videobots, and human agents. Furthermore, a new Discovery specification framework is introduced, designed to efficiently look up agents providing specific services and to obtain accurate information about these services through a standard Manifest publication, accessible via an extended set of Natural Language-based APIs. The main purpose of this contribution is to significantly enhance the capabilities and scalability of AI interactions across various platforms. The novel architecture for interoperable Conversational AI assistants is designed to generalize, being replicable and accessible via open repositories.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# 人工知能に対するビジネスと規制の対応--ダイナミックレギュレーション、イノベーション・エコシステム、ディスラプティブ・テクノロジーの戦略的管理

Business and Regulatory Responses to Artificial Intelligence: Dynamic Regulation, Innovation Ecosystems and the Strategic Management of Disruptive Technology ( http://arxiv.org/abs/2407.19439v1 )

ライセンス: Link先を確認
Mark Fenwick, Erik P. M. Vermeulen, Marcelo Corrales Compagnucci, (参考訳) ディスラプティブな新しいAI技術に対する効果的な反応を特定して実装することは、AIを自分たちのオペレーションに統合しようとするビジネスや、AI関連のイノベーションを地域経済の成長を達成するためのメカニズムとして活用しようとしている規制当局にとって、非常に難しい。 これらのビジネス上の課題と規制上の課題は、AIの幅広い範囲と、そのような技術とその将来的な発展と影響を取り巻く複数の不確実性を考えると、特に重要である。 この記事では、Fintechの例を中心に、AIの課題を満たすための2つの有望な戦略を特定します。 第一に、ダイナミックな規制は、規制サンドボックスやその他の規制アプローチの形で、責任あるAI関連のイノベーションのためのスペースを提供することを目的としている。 実証的研究は、フィンテック規制により積極的なアプローチを採用する司法管轄区域がより大きな投資を引き付ける可能性があることを示す予備的な証拠を提供する。 第2の戦略は、いわゆるイノベーションエコシステムに関するものだ。 このようなエコシステムは、確立した企業とAIにフォーカスしたスタートアップとの創造的なパートナーシップの機会を与えられる場合に最も効果的であり、イノベーションを成功させるエコシステムのこの側面は、しばしば既存の議論で見過ごされる、と論じられている。 この記事では、これらの2つの戦略が相互に結びついていて、優れたイノベーションエコシステムの育成と合理化の両方において、より大きな投資が重要な要素であること、そして、よく機能するエコシステムがより多くの資金を引き付けることを示唆している。 したがって、これらの戦略間のシナジーは、AI関連の活動の地域的ハブとなるための競争力のあるエッジを持つ司法権を与えることができる。

Identifying and then implementing an effective response to disruptive new AI technologies is enormously challenging for any business looking to integrate AI into their operations, as well as regulators looking to leverage AI-related innovation as a mechanism for achieving regional economic growth. These business and regulatory challenges are particularly significant given the broad reach of AI, as well as the multiple uncertainties surrounding such technologies and their future development and effects. This article identifies two promising strategies for meeting the AI challenge, focusing on the example of Fintech. First, dynamic regulation, in the form of regulatory sandboxes and other regulatory approaches that aim to provide a space for responsible AI-related innovation. An empirical study provides preliminary evidence to suggest that jurisdictions that adopt a more proactive approach to Fintech regulation can attract greater investment. The second strategy relates to so-called innovation ecosystems. It is argued that such ecosystems are most effective when they afford opportunities for creative partnerships between well-established corporations and AI-focused startups and that this aspect of a successful innovation ecosystem is often overlooked in the existing discussion. The article suggests that these two strategies are interconnected, in that greater investment is an important element in both fostering and signaling a well-functioning innovation ecosystem and that a well-functioning ecosystem will, in turn, attract more funding. The resulting synergies between these strategies can, therefore, provide a jurisdiction with a competitive edge in becoming a regional hub for AI-related activity.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# ディープニューラルネットワークのための競合型適応型ReLU

Competition-based Adaptive ReLU for Deep Neural Networks ( http://arxiv.org/abs/2407.19441v1 )

ライセンス: Link先を確認
Junjia Chen, Zhibin Pan, (参考訳) 活性化関数はディープニューラルネットワークに非線形性をもたらす。 ほとんどの一般的なアクティベーション関数は、負の値をブロックしたり抑制したりしながら、正の値を通すことができる。 正の値と負の値も同様に重要であり、アクティベーションを競う必要があるという考えから、我々は新しいコンペティションベースの適応ReLU(CAReLU)を提案した。 CARELUは、正の値と負の値の競合結果に基づいて入力値をスケールする。 スケーリング戦略を調整するための2つのパラメータを定義し、他のネットワークパラメータと一様にトレーニングすることができる。 画像分類,超解像,自然言語処理におけるCARELUの有効性を検証する。 実験では,本手法は他の広く用いられているアクティベーション関数よりも優れた性能を示した。 ResNet-18のReLUをアクティベーション関数に置き換える場合、CIFAR-100データセットの分類精度を向上させる。 正の値と負の値の競合結果の有効性および新しい視点は、CAReLUを有望な活性化関数にする。

Activation functions introduce nonlinearity into deep neural networks. Most popular activation functions allow positive values to pass through while blocking or suppressing negative values. From the idea that positive values and negative values are equally important, and they must compete for activation, we proposed a new Competition-based Adaptive ReLU (CAReLU). CAReLU scales the input values based on the competition results between positive values and negative values. It defines two parameters to adjust the scaling strategy and can be trained uniformly with other network parameters. We verify the effectiveness of CAReLU on image classification, super-resolution, and natural language processing tasks. In the experiment, our method performs better than other widely used activation functions. In the case of replacing ReLU in ResNet-18 with our proposed activation function, it improves the classification accuracy on the CIFAR-100 dataset. The effectiveness and the new perspective on the utilization of competition results between positive values and negative values make CAReLU a promising activation function.
翻訳日:2024-07-30 18:12:26 公開日:2024-07-28
# 複合光渦結び目

Complex optical vortex knots ( http://arxiv.org/abs/2407.19443v1 )

ライセンス: Link先を確認
Benjamin Bode, (参考訳) 複素光学場の零強度の曲線は結び目と結び目を形成することができる: 光渦結び目(英語版)。 理論的な構成と実験は、これまでもトーラス結び目やレニスケート結び目のごく小さな族に限られてきた。 ここでは、任意の結び目やリンクの形をした光渦を生成できるであろう数学的構成について述べる。 この主張は、knot テーブル内のすべての knot $K$ に対して、複素体 $\Psi:\mathbb{R}^3\to\mathbb{C}$ を交差させ、その零点が K$ の形の連結成分を持つような同軸波動方程式を満たすことによって支持する。 これらの磁場は、既知の例をはるかに超えた結び目を持つ光渦を持つ準軸状態の光ビームを記述する。

The curves of zero intensity of a complex optical field can form knots and links: optical vortex knots. Both theoretical constructions and experiments have so far been restricted to the very small families of torus knots or lemniscate knots. Here we describe a mathematical construction that presumably allows us to generate optical vortices in the shape of any given knot or link. We support this claim by producing for every knot $K$ in the knot table up to 8 crossings a complex field $\Psi:\mathbb{R}^3\to\mathbb{C}$ that satisfies the paraxial wave equation and whose zeros have a connected component in the shape of $K$. These fields thus describe optical beams in the paraxial regime with knotted optical vortices that go far beyond previously known examples.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# 非凸ロバスト行列の一般閾値関数による残余1次解析

Leave-One-Out Analysis for Nonconvex Robust Matrix Completion with General Thresholding Functions ( http://arxiv.org/abs/2407.19446v1 )

ライセンス: Link先を確認
Tianming Wang, Ke Wei, (参考訳) 本研究では,基礎となる低ランク行列の部分的な成分がスパースノイズによって破損するという,ロバスト行列完備化(RMC)の問題について検討する。 この問題に対する既存の非凸法の解析は、アルゴリズムにおいて明示的だが経験的に冗長な正規化を必要とするか、あるいは分析においてサンプル分割を必要とする。 本稿では、低ランク部分の投影勾配ステップとスパースノイズ部分のしきい値ステップとを交互に交互に行う、単純で効率的な非凸法について考察する。 低階行列完備化のためのアウトアウト解析から着想を得て,ソフトスレッショニングやSCADなど,一般の閾値関数に対して線形収束を達成できることが確認された。 我々の知る限りでは、これはRCCの非凸法に関する最初の一対一解析である。 さらに,この結果を低階行列補完に適用すると,特異値投影法における既存の結果のサンプリング複雑性が向上する。

We study the problem of robust matrix completion (RMC), where the partially observed entries of an underlying low-rank matrix is corrupted by sparse noise. Existing analysis of the non-convex methods for this problem either requires the explicit but empirically redundant regularization in the algorithm or requires sample splitting in the analysis. In this paper, we consider a simple yet efficient nonconvex method which alternates between a projected gradient step for the low-rank part and a thresholding step for the sparse noise part. Inspired by leave-one out analysis for low rank matrix completion, it is established that the method can achieve linear convergence for a general class of thresholding functions, including for example soft-thresholding and SCAD. To the best of our knowledge, this is the first leave-one-out analysis on a nonconvex method for RMC. Additionally, when applying our result to low rank matrix completion, it improves the sampling complexity of existing result for the singular value projection method.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# 英国における看護コンセントと健康データ処理のための新しいオプトアウトシステム

Nudging Consent and the New Opt Out System to the Processing of Health Data in England ( http://arxiv.org/abs/2407.19447v1 )

ライセンス: Link先を確認
Janos Meszaros, Chih-hsing Ho, Marcelo Corrales Compagnucci, (参考訳) 本章では、イングランドにおけるオプトアウト制度の改訂と健康データ二次利用の課題について考察する。 このデータの解析は、科学や治療、新薬の発見に非常に有用かもしれない。 このため、イギリス政府は2013年にケア・データ・プログラムを設立した。 このプロジェクトの目的は、研究・政策計画のための全国中央データベースの構築であった。 しかし、個人データの処理は適切な公的な関与なしに計画された。 調査によると、Google DeepMindのようなIT企業は、他の機密データにアクセスでき、データ保護法に従わなかった。 2018年5月以降、政府は国民の信頼を取り戻すため、国家データオプトアウトシステムを開始した。 それでも、以前のオプトアウトシステムと比較して、NDがオプトアウトした証拠はない。 二次的なデータの使用も、患者が選択できるものもない。 唯一の悪名高い違いは、これらの選択肢が患者に伝達され、フレーム化される方法にあるようだ。 一番重要なのは、新しいNDオプトアウト(オプトアウト)オプションであるタイプ1オプトアウト(オプトアウト)オプションが2020年に削除されるということです。 行動法・経済学文学(ナッジ理論)によれば、イングランドのオプトアウト制度などのデフォルトルールは非常に強力である。 この章で分析された重要な疑問は、英国政府が1型オプトアウトの推進をやめることが望ましいかどうか、そしてこれが一種のハード・パタニストと見なされるかどうかである。

This chapter examines the challenges of the revised opt out system and the secondary use of health data in England. The analysis of this data could be very valuable for science and medical treatment as well as for the discovery of new drugs. For this reason, the UK government established the care.data program in 2013. The aim of the project was to build a central nationwide database for research and policy planning. However, the processing of personal data was planned without proper public engagement. Research has suggested that IT companies, such as in the Google DeepMind deal case, had access to other kinds of sensitive data and failed to comply with data protection law. Since May 2018, the government has launched the national data opt out system with the hope of regaining public trust. Nevertheless, there are no evidence of significant changes in the ND opt out, compared to the previous opt out system. Neither in the use of secondary data, nor in the choices that patients can make. The only notorious difference seems to be in the way that these options are communicated and framed to the patients. Most importantly, according to the new ND opt out, the type 1 opt out option, which is the only choice that truly stops data from being shared outside direct care, will be removed in 2020. According to the Behavioral Law and Economics literature (Nudge Theory), default rules, such as the revised opt out system in England, are very powerful, because people tend to stick to the default choices made readily available to them. The crucial question analyzed in this chapter is whether it is desirable for the UK government to stop promoting the type 1 opt outs, and whether this could be seen as a kind of hard paternalism.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# 哲学的決定論的生成モデル

Piecewise deterministic generative models ( http://arxiv.org/abs/2407.19448v1 )

ライセンス: Link先を確認
Andrea Bertazzi, Alain Oliviero-Durmus, Dario Shariatian, Umut Simsekli, Eric Moulines, (参考訳) 本稿では, 決定論的マルコフ過程(PDMP)に基づく新しい生成モデルについて紹介する。 拡散と同様に、そのようなマルコフ過程はPDMPの時間反転も認める。 本稿では,Zig-Zag法,Buncy Particle Sampler法,Randomized Hamiltonian Monte Carlo法という3つのPDMP法について述べる。 これら3つの事例について,ジャンプ前後におけるPDMPの条件密度に応じて,対応する時間反転のジャンプ率とカーネルが明示的表現を認めていることを示す。 これらの結果に基づいて,これらの特徴を学習するための効率的な訓練手順を提案し,逆過程を概ねシミュレートする手法を検討する。 最後に、ベース分布が標準$d$D$次元ガウス分布である場合に、データ分布と結果のモデルの総変動距離の有界性を与える。 数値シミュレーションの証明は、このモデルのさらなる研究を支援する。

We introduce a novel class of generative models based on piecewise deterministic Markov processes (PDMPs), a family of non-diffusive stochastic processes consisting of deterministic motion and random jumps at random times. Similarly to diffusions, such Markov processes admit time reversals that turn out to be PDMPs as well. We apply this observation to three PDMPs considered in the literature: the Zig-Zag process, Bouncy Particle Sampler, and Randomised Hamiltonian Monte Carlo. For these three particular instances, we show that the jump rates and kernels of the corresponding time reversals admit explicit expressions depending on some conditional densities of the PDMP under consideration before and after a jump. Based on these results, we propose efficient training procedures to learn these characteristics and consider methods to approximately simulate the reverse process. Finally, we provide bounds in the total variation distance between the data distribution and the resulting distribution of our model in the case where the base distribution is the standard $d$-dimensional Gaussian distribution. Promising numerical simulations support further investigations into this class of models.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# \textsc{Perm}:マルチスタイル3次元ヘアモデリングのためのパラメトリック表現

\textsc{Perm}: A Parametric Representation for Multi-Style 3D Hair Modeling ( http://arxiv.org/abs/2407.19451v1 )

ライセンス: Link先を確認
Chengan He, Xin Sun, Zhixin Shu, Fujun Luan, Sören Pirk, Jorge Alejandro Amador Herrera, Dominik L. Michels, Tuanfeng Y. Wang, Meng Zhang, Holly Rushmeier, Yi Zhou, (参考訳) 本稿では,人間の3次元毛髪の学習パラメトリックモデルである「textsc{Perm}」について紹介する。 グローバルヘア形状と局所ストランド詳細を共同でモデル化する以前の研究とは異なり、周波数領域におけるPCAベースのストランド表現を用いてそれらを分離し、より正確な編集と出力制御を可能にすることを提案する。 具体的には, ヘアテクスチャを低周波・高周波ヘア構造に適合・分解するために, ストランド表現を利用する。 これらの分解されたテクスチャは、後に異なる生成モデルでパラメータ化され、ヘアモデリングプロセスの一般的な段階をエミュレートする。 本研究は,3次元ヘアパラメータ化,ヘアスタイル補間,単一視野ヘア再構成,ヘアコンディショニングなどのタスクにおいて,その柔軟性と優位性を示す。 コードとデータは以下の通りです。

We present \textsc{Perm}, a learned parametric model of human 3D hair designed to facilitate various hair-related applications. Unlike previous work that jointly models the global hair shape and local strand details, we propose to disentangle them using a PCA-based strand representation in the frequency domain, thereby allowing more precise editing and output control. Specifically, we leverage our strand representation to fit and decompose hair geometry textures into low- to high-frequency hair structures. These decomposed textures are later parameterized with different generative models, emulating common stages in the hair modeling process. We conduct extensive experiments to validate the architecture design of \textsc{Perm}, and finally deploy the trained model as a generic prior to solve task-agnostic problems, further showcasing its flexibility and superiority in tasks such as 3D hair parameterization, hairstyle interpolation, single-view hair reconstruction, and hair-conditioned image generation. Our code and data will be available at: \url{https://github.com/c-he/perm}.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# FIND:拡散モデルに対する政策最適化による微調整初期雑音分布

FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models ( http://arxiv.org/abs/2407.19453v1 )

ライセンス: Link先を確認
Changgu Chen, Libing Yang, Xiaoyan Yang, Lianggangxu Chen, Gaoqi He, CHangbo Wang, Yang Li, (参考訳) 近年、大規模な事前学習拡散モデルが画像生成や映像生成において際立った能力を発揮している。 しかし、既存のモデルはトレーニングデータセットで一般的に見られる視覚オブジェクトを生成する傾向があり、これはユーザの入力プロンプトから分岐する。 不正確な生成結果の背後にある根本的な理由は、プロンプトに対応する初期雑音分布の特定の間隔からサンプリングすることの難しさにある。 さらに、拡散過程が複数の段階を含むことを考えると、初期分布を直接最適化することは困難である。 本稿では、初期分布を直接最適化し、生成したコンテンツをユーザインプットプロンプトと整合させることにより、事前学習した拡散ネットワークの強力なポテンシャルを解放するFIND(Fincent-tuning Initial Noise Distribution)フレームワークを提案する。 この目的のために,まず1ステップのマルコフ決定プロセスとして拡散分極手順を再構成し,初期分布を直接最適化するためにポリシー最適化を利用する。 また,最適化時のトレーニング安定性を確保するため,動的報酬校正モジュールを提案する。 さらに、ネットワークトレーニングに履歴データを活用するための比率クリッピングアルゴリズムを導入し、最適化された分布が元の方針から逸脱しすぎないようにし、過度な最適化の規模を抑える。 テキスト・ツー・イメージ・タスクとテキスト・ツー・ビデオタスクの両方において,提案手法の有効性を実証し,プロンプトと生成されたコンテンツ間の整合性を実現するためのSOTA手法を超越した実験を行った。 提案手法はSOTA法よりも10倍高速である。 私たちのホームページは \url{https://github.com/vpx-ecnu/FIND-website} で閲覧できます。

In recent years, large-scale pre-trained diffusion models have demonstrated their outstanding capabilities in image and video generation tasks. However, existing models tend to produce visual objects commonly found in the training dataset, which diverges from user input prompts. The underlying reason behind the inaccurate generated results lies in the model's difficulty in sampling from specific intervals of the initial noise distribution corresponding to the prompt. Moreover, it is challenging to directly optimize the initial distribution, given that the diffusion process involves multiple denoising steps. In this paper, we introduce a Fine-tuning Initial Noise Distribution (FIND) framework with policy optimization, which unleashes the powerful potential of pre-trained diffusion networks by directly optimizing the initial distribution to align the generated contents with user-input prompts. To this end, we first reformulate the diffusion denoising procedure as a one-step Markov decision process and employ policy optimization to directly optimize the initial distribution. In addition, a dynamic reward calibration module is proposed to ensure training stability during optimization. Furthermore, we introduce a ratio clipping algorithm to utilize historical data for network training and prevent the optimized distribution from deviating too far from the original policy to restrain excessive optimization magnitudes. Extensive experiments demonstrate the effectiveness of our method in both text-to-image and text-to-video tasks, surpassing SOTA methods in achieving consistency between prompts and the generated content. Our method achieves 10 times faster than the SOTA approach. Our homepage is available at \url{https://github.com/vpx-ecnu/FIND-website}.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# 三元認証方式による複数要素認証の代替

An Alternative to Multi-Factor Authentication with a Triple-Identity Authentication Scheme ( http://arxiv.org/abs/2407.19459v1 )

ライセンス: Link先を確認
Suyun Borjigin, (参考訳) 全てのユーザ認証方式は、ユーザ名、パスワード、ハッシュ値の3つのログイン認証を含むが、そのうちの1つだけがユーザーIDに関連付けられている。 しかし、このアイデンティティはシステム全体を保護するのに十分な堅牢性を持っていないが、ログインエントリ(ユーザ名とパスワードフォーム)は効果的に保護されていない。 さらに、マルチファクタ認証を追加するシステムの余分な要素は、サイバースペースで送信され、ユーザが操作する。 2つのログインフォームにより多くのIDを使用すれば、すべてのログインクレデンシャルを関連付けることができ、対応する識別子がサイバースペースに送信されず、ユーザによって操作されない場合、そのようなシステムはサードパーティのサービスに頼ることなく、より堅牢になる。 この目的のために、ユーザ名とログインパスワードのIDをそれぞれ定義したデュアルパスワードログイン認証システム内に、トリプルID認証方式を設計する。 そのため、従来のサーバ検証に加えて、ユーザ名とパスワードフォームの識別子を順次検証することができる。 三元認証では、識別子はユーザーや第三者のサービスに介さずにシステムによって完全に管理され、隠蔽され、コミュニケーション不能で、アクセス不能で、個人情報から独立している。 そのため、オンライン攻撃では役に立たない。

Every user authentication scheme involves three login credentials, i.e. a username, a password and a hash value, but only one of them is associated with a user identity. However, this identity is actually not robust enough to protect the whole system, while the login entries (i.e., the username and password forms) have not been effectively protected. Furthermore, the extra factor in a system adding multi-factor authentication is transmitted in cyberspace and operated by users. If more identities can be employed for the two login forms to associate with all login credentials, and if the corresponding identifiers are not transmitted in cyberspace and operated by users, such a system can be more robust even without relying on a third-party service. To this end, a triple-identity authentication scheme is designed within a dual-password login-authentication system, which defines identities for the username and the login password, respectively. Therefore, in addition to the traditional server verification, the system can verify the identifiers at the username and password forms in succession. In the triple-identity authentication, the identifiers are entirely managed by the system without involvement of users or a third-party service, and they are concealed, incommunicable, inaccessible and independent of personal information. Thus, they are useless in online attacks.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# 超音波トレークグラフィーにおける組織組織インプットのためのホワイトマター形状誘導スコアベース拡散モデル

White Matter Geometry-Guided Score-Based Diffusion Model for Tissue Microstructure Imputation in Tractography Imaging ( http://arxiv.org/abs/2407.19460v1 )

ライセンス: Link先を確認
Yui Lo, Yuqian Chen, Fan Zhang, Dongnan Liu, Leo Zekelman, Suheyla Cetin-Karayumak, Yogesh Rathi, Weidong Cai, Lauren J. O'Donnell, (参考訳) 白質トラクトグラフィーのパーセレーションは、疾患予測、解剖学的トラクトセグメンテーション、外科的脳マッピング、非画像的表現型分類などの解剖学的特徴を提供する。 しかし、個々の解剖学的変動や神経画像スキャンデータの品質など、様々な要因により、パーセレーションが必ずしも100%の精度に達するとは限らない。 パーセルの特定に失敗すると、微細構造データ値の欠如が問題となり、大規模な脳データセットを分析する下流タスクでは特に困難である。 本研究では,組織微細構造をインプットする新しいディープラーニングモデル,White Matter Geometry-Guided Diffusion(WMG-Diff)モデルを提案する。 具体的には,拡散磁気共鳴イメージング (dMRI) のための組織微細構造をインプットするディープスコアベース誘導拡散モデルを提案する。 第2に,ホワイトマター・アトラス幾何的関係誘導型復調関数を提案し,その逆の復調過程を主観的レベルに導く。 第3に、9342名の被験者からなる大規模なデータセット上で、モデルをトレーニングし、評価する。 組織微細構造解析と下流非画像表現型予測タスクの総合的な実験により,提案したWMG-Diffが最先端の手法より優れていることが示された。

Parcellation of white matter tractography provides anatomical features for disease prediction, anatomical tract segmentation, surgical brain mapping, and non-imaging phenotype classifications. However, parcellation does not always reach 100% accuracy due to various factors, including inter-individual anatomical variability and the quality of neuroimaging scan data. The failure to identify parcels causes a problem of missing microstructure data values, which is especially challenging for downstream tasks that analyze large brain datasets. In this work, we propose a novel deep-learning model to impute tissue microstructure: the White Matter Geometry-guided Diffusion (WMG-Diff) model. Specifically, we first propose a deep score-based guided diffusion model to impute tissue microstructure for diffusion magnetic resonance imaging (dMRI) tractography fiber clusters. Second, we propose a white matter atlas geometric relationship-guided denoising function to guide the reverse denoising process at the subject-specific level. Third, we train and evaluate our model on a large dataset with 9342 subjects. Comprehensive experiments for tissue microstructure imputation and a downstream non-imaging phenotype prediction task demonstrate that our proposed WMG-Diff outperforms state-of-the-art methods.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# マルチモーダル表現によるタオバオディスプレイ広告の強化--課題,アプローチ,展望

Enhancing Taobao Display Advertising with Multimodal Representations: Challenges, Approaches and Insights ( http://arxiv.org/abs/2407.19467v1 )

ライセンス: Link先を確認
Xiang-Rong Sheng, Feifan Yang, Litong Gong, Biao Wang, Zhangming Chan, Yujing Zhang, Yueyao Cheng, Yong-Nan Zhu, Tiezheng Ge, Han Zhu, Yuning Jiang, Jian Xu, Bo Zheng, (参考訳) モデル精度を向上させるためのマルチモーダルデータの可能性は認識されているが、タオオディスプレイ広告システムを含む多くの大規模産業推薦システムは、モデル内のスパースID機能に大きく依存している。 本研究では,マルチモーダルデータを利用したレコメンデーション精度の向上に向けたアプローチについて検討する。 産業システムにとって効果的かつ費用効率のよい方法で、マルチモーダルデータを採用する上で重要な課題を特定することから始めます。 これらの課題に対処するために、以下の2段階のフレームワークを導入します。 1)意味的類似性を捉えるためのマルチモーダル表現の事前訓練 2)これらの表現を既存のIDベースモデルと統合する。 さらに、マルチモーダル表現の展開を容易にするために設計された本運用システムのアーキテクチャについて詳述する。 2023年中頃のマルチモーダル表現の統合以降,Taobaoディスプレイ広告システムにおいて,大幅な性能向上が見られた。 私たちが収集した洞察は,システム内のマルチモーダルデータを活用する実践者にとって,貴重なリソースになると思います。

Despite the recognized potential of multimodal data to improve model accuracy, many large-scale industrial recommendation systems, including Taobao display advertising system, predominantly depend on sparse ID features in their models. In this work, we explore approaches to leverage multimodal data to enhance the recommendation accuracy. We start from identifying the key challenges in adopting multimodal data in a manner that is both effective and cost-efficient for industrial systems. To address these challenges, we introduce a two-phase framework, including: 1) the pre-training of multimodal representations to capture semantic similarity, and 2) the integration of these representations with existing ID-based models. Furthermore, we detail the architecture of our production system, which is designed to facilitate the deployment of multimodal representations. Since the integration of multimodal representations in mid-2023, we have observed significant performance improvements in Taobao display advertising system. We believe that the insights we have gathered will serve as a valuable resource for practitioners seeking to leverage multimodal data in their systems.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# MVPbev: テスト時間制御性と一般化性を備えたBEVからの多視点画像生成

MVPbev: Multi-view Perspective Image Generation from BEV with Test-time Controllability and Generalizability ( http://arxiv.org/abs/2407.19468v1 )

ライセンス: Link先を確認
Buyu Liu, Kai Wang, Yansong Liu, Jun Bao, Tingting Han, Jun Yu, (参考訳) 本研究は,Bird-Eye-View(BEV)セマンティクスを与えられたテキストプロンプトから多視点RGB生成を実現することを目的としている。 レイアウトの一貫性を無視し、詳細なテキストプロンプトを処理できない、あるいは見えない視点に一般化できない以前の方法とは異なり、MVPbevは2段階の設計で異なる視点ビューの横断的な一貫したイメージを同時に生成し、オブジェクトレベルの制御とテスト時に新しいビュー生成を可能にする。 具体的には、MVPbevはまず、カメラパラメータによる視点ビューにBEVセマンティクスを付与し、モデルが見えない視点ポイントに一般化する権限を与える。 次に、重なり合うビューw.r.t.クロスビューホモグラフィー間の局所的な一貫性を明示するために、特殊初期化および非雑音化プロセスを導入するマルチビューアテンションモジュールを導入する。 最後に、MVPbevは、事前トレーニングされたテキスト-画像拡散モデルを精査することで、テスト時のインスタンスレベル制御を可能にする。 我々のNuScenesに関する広範な実験により,本手法は数千のトレーニングサンプルを用いたテキスト記述から高解像度のフォトリアリスティック画像を生成することができることを示した。 さらに,新しい評価指標と包括的人間分析の助けを借りて,一般化可能性と制御可能性の観点から,本手法の進歩を実証する。 我々のコード、データ、モデルは \url{https://github.com/kkaiwwana/MVPbev} で見ることができる。

This work aims to address the multi-view perspective RGB generation from text prompts given Bird-Eye-View(BEV) semantics. Unlike prior methods that neglect layout consistency, lack the ability to handle detailed text prompts, or are incapable of generalizing to unseen view points, MVPbev simultaneously generates cross-view consistent images of different perspective views with a two-stage design, allowing object-level control and novel view generation at test-time. Specifically, MVPbev firstly projects given BEV semantics to perspective view with camera parameters, empowering the model to generalize to unseen view points. Then we introduce a multi-view attention module where special initialization and de-noising processes are introduced to explicitly enforce local consistency among overlapping views w.r.t. cross-view homography. Last but not least, MVPbev further allows test-time instance-level controllability by refining a pre-trained text-to-image diffusion model. Our extensive experiments on NuScenes demonstrate that our method is capable of generating high-resolution photorealistic images from text descriptions with thousands of training samples, surpassing the state-of-the-art methods under various evaluation metrics. We further demonstrate the advances of our method in terms of generalizability and controllability with the help of novel evaluation metrics and comprehensive human analysis. Our code, data, and model can be found in \url{https://github.com/kkaiwwana/MVPbev}.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# パーソナライズされたランク付けのための解釈可能な三重項の重要性

Interpretable Triplet Importance for Personalized Ranking ( http://arxiv.org/abs/2407.19469v1 )

ライセンス: Link先を確認
Bowei He, Chen Ma, (参考訳) パーソナライズされたアイテムランキングは、レコメンデーションシステムのパフォーマンスに寄与する重要な要素である。 代表的アプローチとして、ペアワイズランキングは、(\textit{user}, \textit{ positive item}, \textit{ negative item})三つ組を構成することで、ユーザの暗黙のフィードバックでランキングを直接最適化する。 いくつかの最近の研究は、全ての三つ子を平等に扱うことは、最良の効果を得られないことに気付いた。 それらはそれぞれ、ネガティブな項目、ユーザとイタムのペア、トリプレットに異なる重要性のスコアを割り当てる。 しかし、生成された重要度はほとんどが根拠がなく、解釈が難しい。 そこで本研究では,3重項の重要度を解釈可能な方法で測定する,形状的価値に基づく方法であるtextit{Triplet Shapley}を提案する。 三重項の数が膨大であるため、元のShapley値計算をモンテカルロ近似に変換し、近似の不偏性も保証する。 MC近似を安定化するために,制御共変量に基づく手法を採用する。 最後に,三重項Shapley値を用いて重要な三重項の再サンプリングを誘導し,モデルの学習に役立てる。 古典行列因数分解とグラフニューラルネットワークに基づくレコメンデーションモデルを含む6つの公開データセットに対して、大規模な実験を行う。 実験結果とその後の分析により,我々のモデルは最先端の手法よりも一貫して優れていることが示された。

Personalized item ranking has been a crucial component contributing to the performance of recommender systems. As a representative approach, pairwise ranking directly optimizes the ranking with user implicit feedback by constructing (\textit{user}, \textit{positive item}, \textit{negative item}) triplets. Several recent works have noticed that treating all triplets equally may hardly achieve the best effects. They assign different importance scores to negative items, user-item pairs, or triplets, respectively. However, almost all the generated importance scores are groundless and hard to interpret, thus far from trustworthy and transparent. To tackle these, we propose the \textit{Triplet Shapley} -- a Shapely value-based method to measure the triplet importance in an interpretable manner. Due to the huge number of triplets, we transform the original Shapley value calculation to the Monte Carlo (MC) approximation, where the guarantee for the approximation unbiasedness is also provided. To stabilize the MC approximation, we adopt a control covariates-based method. Finally, we utilize the triplet Shapley value to guide the resampling of important triplets for benefiting the model learning. Extensive experiments are conducted on six public datasets involving classical matrix factorization- and graph neural network-based recommendation models. Empirical results and subsequent analysis show that our model consistently outperforms the state-of-the-art methods.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# 属性に基づく説明の評価の整合性について

On the Evaluation Consistency of Attribution-based Explanations ( http://arxiv.org/abs/2407.19471v1 )

ライセンス: Link先を確認
Jiarui Duan, Haoling Li, Haofei Zhang, Hao Jiang, Mengqi Xue, Li Sun, Mingli Song, Jie Song, (参考訳) 属性に基づく説明は近年注目を集めており、textit{eXplanable Artificial Intelligence}~(XAI)への主要なアプローチとして現れている。 しかし、先行文献における一貫した構成の欠如と体系的な調査は、既存の方法論の包括的な評価を妨げている。 本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームである {Meta-Rank} を紹介する。 現在、Meta-Rankは6つの有名なモデルアーキテクチャを4つの多様なデータセット上で用いて、8つの模範的属性法を評価しており、それぞれが \textit{Most Relevant First} (MoRF) と \textit{Least Relevant First} (LeRF) の評価プロトコルを使用している。 大規模な実験を通じて、我々のベンチマークは属性評価の取り組みに関する3つの洞察を明らかにした。 1) 異なる条件下での帰属方法の評価は,異なる性能ランキングを得ることができる。 2) 多数の事例において矛盾するが,同一の訓練経路に沿って異なるチェックポイントにまたがる顕著な整合性を示す。 3) より異質なモデルやデータセットに拡張された場合,一貫した評価の試みは,ベースラインに匹敵するものではない。 この領域における今後の研究は、幅広いモデルやデータセットを含む厳密な評価を行い、様々な属性手法の実証的成功の背景にある仮定を再評価することの必要性を浮き彫りにしている。 我々のコードは \url{https://github.com/TreeThree-R/Meta-Rank} で公開されている。

Attribution-based explanations are garnering increasing attention recently and have emerged as the predominant approach towards \textit{eXplanable Artificial Intelligence}~(XAI). However, the absence of consistent configurations and systematic investigations in prior literature impedes comprehensive evaluations of existing methodologies. In this work, we introduce {Meta-Rank}, an open platform for benchmarking attribution methods in the image domain. Presently, Meta-Rank assesses eight exemplary attribution methods using six renowned model architectures on four diverse datasets, employing both the \textit{Most Relevant First} (MoRF) and \textit{Least Relevant First} (LeRF) evaluation protocols. Through extensive experimentation, our benchmark reveals three insights in attribution evaluation endeavors: 1) evaluating attribution methods under disparate settings can yield divergent performance rankings; 2) although inconsistent across numerous cases, the performance rankings exhibit remarkable consistency across distinct checkpoints along the same training trajectory; 3) prior attempts at consistent evaluation fare no better than baselines when extended to more heterogeneous models and datasets. Our findings underscore the necessity for future research in this domain to conduct rigorous evaluations encompassing a broader range of models and datasets, and to reassess the assumptions underlying the empirical success of different attribution methods. Our code is publicly available at \url{https://github.com/TreeThree-R/Meta-Rank}.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# 市販のCNNとViTを併用した音声認識のためのもうひとつの驚くべきベースライン

Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition ( http://arxiv.org/abs/2407.19472v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Kevin Hernandez-Diaz, Prayag Tiwari, Josef Bigun, (参考訳) 本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。 これらのアーキテクチャは、設計されたもの以外の様々なコンピュータビジョンタスクにおいて大きな成功を収めた。 この研究は、既成の畳み込みニューラルネットワーク(CNN)を用いた以前の研究に基づいており、最近提案されたビジョントランスフォーマー(ViT)を含むように拡張している。 汎用オブジェクト分類の訓練を受けているにもかかわらず、CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。 また,CNN と ViT が相補的であることも実証した。 さらに,これらの事前学習モデルのごく一部で精度が向上し,より少ないパラメータで,移動体などの資源制限環境に適したモデルが得られることを示す。 この効率性は、従来の手作りの機能も追加すれば向上する。

We apply pre-trained architectures, originally developed for the ImageNet Large Scale Visual Recognition Challenge, for periocular recognition. These architectures have demonstrated significant success in various computer vision tasks beyond the ones for which they were designed. This work builds on our previous study using off-the-shelf Convolutional Neural Network (CNN) and extends it to include the more recently proposed Vision Transformers (ViT). Despite being trained for generic object classification, middle-layer features from CNNs and ViTs are a suitable way to recognize individuals based on periocular images. We also demonstrate that CNNs and ViTs are highly complementary since their combination results in boosted accuracy. In addition, we show that a small portion of these pre-trained models can achieve good accuracy, resulting in thinner models with fewer parameters, suitable for resource-limited environments such as mobiles. This efficiency improves if traditional handcrafted features are added as well.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# Visual Riddles: 大規模ビジョンと言語モデルのための常識と世界知識の挑戦

Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models ( http://arxiv.org/abs/2407.19474v1 )

ライセンス: Link先を確認
Nitzan Bitton-Guetta, Aviv Slobodkin, Aviya Maimon, Eliya Habba, Royi Rassin, Yonatan Bitton, Idan Szpektor, Amir Globerson, Yuval Elovici, (参考訳) 誰かが腕を掻く様子を想像してみてください。 しかし、近くに蚊を見つけると、すぐに人の不快感が説明され、さらなる情報の必要性が軽減される。 この例は、視覚的手がかりが私たちの認知スキルにどのように挑戦するかを示し、視覚的シナリオを解釈する複雑さを示しています。 これらのスキルを研究するために,視覚と言語モデルをテストするためのベンチマークであるVisual Riddlesを紹介した。 ベンチマークは400の視覚的謎で構成されており、それぞれが様々なテキスト・画像モデル、質問、接地真実回答、テキスト・ヒント、属性によって生成されるユニークなイメージを特徴としている。 Gemini-Pro-1.5は40%の精度で、既存のモデルは82倍の精度で人間のパフォーマンスにかなり遅れている。 私たちのベンチマークには,評価をスケーラブルにするための自動評価タスクが付属しています。 これらの知見は、複雑な視覚シナリオの解釈における視覚と言語モデルの能力を高めるための貴重なリソースとして、Visual Riddlesの可能性を浮き彫りにしている。

Imagine observing someone scratching their arm; to understand why, additional context would be necessary. However, spotting a mosquito nearby would immediately offer a likely explanation for the person's discomfort, thereby alleviating the need for further information. This example illustrates how subtle visual cues can challenge our cognitive skills and demonstrates the complexity of interpreting visual scenarios. To study these skills, we present Visual Riddles, a benchmark aimed to test vision and language models on visual riddles requiring commonsense and world knowledge. The benchmark comprises 400 visual riddles, each featuring a unique image created by a variety of text-to-image models, question, ground-truth answer, textual hint, and attribution. Human evaluation reveals that existing models lag significantly behind human performance, which is at 82\% accuracy, with Gemini-Pro-1.5 leading with 40\% accuracy. Our benchmark comes with automatic evaluation tasks to make assessment scalable. These findings underscore the potential of Visual Riddles as a valuable resource for enhancing vision and language models' capabilities in interpreting complex visual scenarios.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# 心電図と復調因子を用いた痛み強度推定のためのマルチタスクニューラルネットワーク

Multi-task Neural Networks for Pain Intensity Estimation using Electrocardiogram and Demographic Factors ( http://arxiv.org/abs/2407.19475v1 )

ライセンス: Link先を確認
Stefanos Gkikas, Chariklia Chatzaki, Manolis Tsiknakis, (参考訳) 痛みは複雑な現象であり、様々な形で患者によって発現・発現される。 即時かつ客観的な認識は、信頼性が高く偏見のない医療システムを達成するために非常に重要である。 本研究は, 心電図による心電図信号を用いて, 異なる集団群間における痛み知覚の変動の存在を明らかにした。 この知見を生かして、年齢と性別情報を利用した痛みの自動推定のための新しいマルチタスクニューラルネットワークを導入し、他のアプローチと比較してその優位性を示す。

Pain is a complex phenomenon which is manifested and expressed by patients in various forms. The immediate and objective recognition of it is a great of importance in order to attain a reliable and unbiased healthcare system. In this work, we elaborate electrocardiography signals revealing the existence of variations in pain perception among different demographic groups. We exploit this insight by introducing a novel multi-task neural network for automatic pain estimation utilizing the age and the gender information of each individual, and show its advantages compared to other approaches.
翻訳日:2024-07-30 18:02:25 公開日:2024-07-28
# 低エネルギー物質励起における空洞媒介相互作用の一般理論

General theory of cavity-mediated interactions between low-energy matter excitations ( http://arxiv.org/abs/2407.19478v1 )

ライセンス: Link先を確認
Carlos J. Sánchez Martínez, Frieder Lindel, Francisco J. García-Vidal, Johannes Feist, (参考訳) 超伝導、強磁性、強磁性などの低エネルギー物質特性のキャビティ量子力学技術による操作は、これらの多体集合現象を強化する方法として提案されている。 本研究では, 共振器外結合と共振器共振器共振器共振器共振器による低エネルギー物質励起と共振器共振器共振器共振器の有効相互作用について検討する。 物質の全偏極密度と磁化密度を考慮した双極子近似を超越して、従来の研究を拡張した。 さらに、しばしば無視される反磁性相互作用を包含し、空洞に対しては、非局所性および非相互性を持つ一般的な線形吸収媒体を検討する。 この一般的なシナリオにおいても、自由度の物質間の効果的な空洞誘起相互作用は静電気的および静磁的性質であることを示す。 このことは、低エネルギーの仮定が成立する物質系の空洞工学におけるマルチモード記述の必要性を裏付けるものである。 本研究は, 一般的な光環境が拡張低エネルギー物質励起に与える影響を理論的に研究するための枠組みを提供する。

The manipulation of low-energy matter properties such as superconductivity, ferromagnetism and ferroelectricity via cavity quantum electrodynamics engineering has been suggested as a way to enhance these many-body collective phenomena. In this work, we investigate the effective interactions between low-energy matter excitations induced by the off-resonant coupling with cavity electromagnetic modes. We extend previous work by going beyond the dipole approximation accounting for the full polarization and magnetization densities of matter. We further include the often neglected diamagnetic interaction and, for the cavity, we consider general linear absorbing media with possibly non-local and non-reciprocal response. We demonstrate that, even in this general scenario, the effective cavity-induced interactions between the matter degrees of freedom are of electrostatic and magnetostatic nature. This confirms the necessity of a multimode description for cavity engineering of matter systems where the low-energy assumption holds. Our findings provide a theoretical framework for studying the influence of general optical environments on extended low-energy matter excitations.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# パワーバランスを破る - Ethereumのリワードメカニズムに対するコミット攻撃

Breaking the Balance of Power: Commitment Attacks on Ethereum's Reward Mechanism ( http://arxiv.org/abs/2407.19479v1 )

ライセンス: Link先を確認
Roozbeh Sarenche, Ertem Nusret Tas, Barnabe Monnot, Caspar Schwarz-Schilling, Bart Preneel, (参考訳) 無許可で大規模なブロックチェーン(Ethereumなど)のバリデータは、通常、ペイオフ最大化、合理的アクターである。 Ethereumは、正確でタイムリーな投票を行うバリデータに対する報酬のような、プロトコール内のインセンティブに依存して、正直な振る舞いを誘発し、ブロックチェーンをセキュアにする。 しかし、ブロックプロジェクタが最大抽出可能な値(MEV)をキャプチャする機会のような外部インセンティブは、検証者が正直なプロトコルへの参加から逸脱するように誘惑する可能性がある。 Ethereumのコンセンサスメカニズムの中核部分であるLCD GHOSTに対する一連のコミットメント攻撃を示す。 我々は,Ethereumの報酬システムをタイムリーな投票のために操作することにより,一つの敵ブロック提案者が長距離チェーン再構築を組織化できることを実証する。 これらの攻撃は、提案者と有権者の間の力のバランスを阻害する: 信頼できる脅威を活用することで、敵の提案者は、以前のスロットから有権者を説得して、誠実な連鎖と矛盾するブロックを支援することができ、敵にコストを掛けずにチェーンの再編成を可能にする。 これに対し,提案者権限に対するチェックとして,有権者の役割を回復する新たな報酬機構を導入する。 提案した緩和策は、より公平でより分散化された -- これらの攻撃の文脈だけでなく、Ethereumの実装にも実用的です。

Validators in permissionless, large-scale blockchains (e.g., Ethereum) are typically payoff-maximizing, rational actors. Ethereum relies on in-protocol incentives, like rewards for validators delivering correct and timely votes, to induce honest behavior and secure the blockchain. However, external incentives, such as the block proposer's opportunity to capture maximal extractable value (MEV), may tempt validators to deviate from honest protocol participation. We show a series of commitment attacks on LMD GHOST, a core part of Ethereum's consensus mechanism. We demonstrate how a single adversarial block proposer can orchestrate long-range chain reorganizations by manipulating Ethereum's reward system for timely votes. These attacks disrupt the intended balance of power between proposers and voters: by leveraging credible threats, the adversarial proposer can coerce voters from previous slots into supporting blocks that conflict with the honest chain, enabling a chain reorganization at no cost to the adversary. In response, we introduce a novel reward mechanism that restores the voters' role as a check against proposer power. Our proposed mitigation is fairer and more decentralized -- not only in the context of these attacks -- but also practical for implementation in Ethereum.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# ガウス過程回帰(Gaussian Process Regression)を用いて、イオン化の天体物理パラメータについて何が学べるか?

What can we learn about Reionization astrophysical parameters using Gaussian Process Regression? ( http://arxiv.org/abs/2407.19481v1 )

ライセンス: Link先を確認
Purba Mukherjee, Antara Dey, Supratik Pal, (参考訳) イオン化は、宇宙の進化史において最も理解されていない過程の1つであり、それは主に、我々がこれまであまり明確な考えを持っていない多くの天体物理学的な過程が同時に起こるためである。 本稿では、ガウス過程回帰(GPR)法を用いて、イオン化履歴を学習し、天体物理パラメータを推測する。 HFFと初期のJWSTデータを用いて紫外光度密度関数を再構成する。 再イオン化の再構築史から、この時代における大域的な差分輝度温度の変動が計算された。 我々は,SARASの機器仕様とLyman-$\alpha$イオン化分数データ,Planck光深度測定,UV光度データを組み合わせて,グローバル21cm信号のMCMC解析を行う。 解析の結果、GPRは従来の手法よりもモデルに依存しない方法で天体物理パラメータを推定できることがわかった。 さらに,再イオン化の歴史を再構築した21cmのパワースペクトルを解析し,今後の21cmミッションSKAとプランクとライマン$アルファ$森林データを組み合わせることで,宇宙物理パラメータと6つの宇宙論的パラメータの合同MCMC分析を行うことで,再イオン化のパラメータのバウンドを改善する方法を示す。 その結果,GPRに基づく再構成技術は堅牢な学習プロセスとなり,そこから得られた天体物理パラメータの推測は非常に信頼性が高く,今後の分析に利用できることがわかった。

Reionization is one of the least understood processes in the evolution history of the Universe, mostly because of the numerous astrophysical processes occurring simultaneously about which we do not have a very clear idea so far. In this article, we use the Gaussian Process Regression (GPR) method to learn the reionization history and infer the astrophysical parameters. We reconstruct the UV luminosity density function using the HFF and early JWST data. From the reconstructed history of reionization, the global differential brightness temperature fluctuation during this epoch has been computed. We perform MCMC analysis of the global 21-cm signal using the instrumental specifications of SARAS, in combination with Lyman-$\alpha$ ionization fraction data, Planck optical depth measurements and UV luminosity data. Our analysis reveals that GPR can help infer the astrophysical parameters in a model-agnostic way than conventional methods. Additionally, we analyze the 21-cm power spectrum using the reconstructed history of reionization and demonstrate how the future 21-cm mission SKA, in combination with Planck and Lyman-$\alpha$ forest data, improves the bounds on the reionization astrophysical parameters by doing a joint MCMC analysis for the astrophysical parameters plus 6 cosmological parameters for $\Lambda$CDM model. The results make the GPR-based reconstruction technique a robust learning process and the inferences on the astrophysical parameters obtained therefrom are quite reliable that can be used for future analysis.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# RLCoder: リポジトリレベルのコード補完のための強化学習

RLCoder: Reinforcement Learning for Repository-Level Code Completion ( http://arxiv.org/abs/2407.19487v1 )

ライセンス: Link先を確認
Yanlin Wang, Yanli Wang, Daya Guo, Jiachi Chen, Ruikai Zhang, Yuchi Ma, Zibin Zheng, (参考訳) Repositoryレベルのコード補完は、指定されたリポジトリのコンテキスト内で未完成のコードスニペットのためのコードを生成することを目的としている。 既存のアプローチは主に、入力シーケンス長の制限による検索強化された生成戦略に依存している。 しかし、BM25のような従来の語彙ベースの検索手法は、コードセマンティクスを捉えるのに苦労する一方で、モデルベースの検索手法は、トレーニングのためのラベル付きデータがないため、課題に直面している。 そこで提案するRLCoderは,ラベル付きデータを必要とせずに,検索者がコード補完に有用なコンテンツを取得することができる新しい強化学習フレームワークである。 具体的には、検索したコンテンツを追加のコンテキストとして提供した場合、対象コードの難易度に基づいて検索したコンテンツの有用性を反復的に評価し、検索パラメータを更新するためのフィードバックを提供する。 この反復的なプロセスにより、レトリバーはその成功と失敗から学び、関連性のある高品質なコンテンツを取得する能力を徐々に改善する。 全ての状況がコードファイル以上の情報を必要としているわけではなく、すべての検索コンテキストが生成に有用であるわけではないことを考慮し、検索者がいつ、どの候補を自律的に保持するかを判断できるように、停止信号機構も導入する。 大規模な実験結果によると、RLCoderはCrossCodeEvalとRepoEvalの最先端メソッドを一貫して上回り、従来の方法よりも12.2%のEM改善を実現している。 さらに、実験により、我々のフレームワークは様々なプログラミング言語にまたがって一般化し、RepoCoderのような従来の手法をさらに改善できることが示されている。 私たちはhttps://github.com/DeepSoftwareAnalytics/RLCoderでコードとデータを提供します。

Repository-level code completion aims to generate code for unfinished code snippets within the context of a specified repository. Existing approaches mainly rely on retrieval-augmented generation strategies due to limitations in input sequence length. However, traditional lexical-based retrieval methods like BM25 struggle to capture code semantics, while model-based retrieval methods face challenges due to the lack of labeled data for training. Therefore, we propose RLCoder, a novel reinforcement learning framework, which can enable the retriever to learn to retrieve useful content for code completion without the need for labeled data. Specifically, we iteratively evaluate the usefulness of retrieved content based on the perplexity of the target code when provided with the retrieved content as additional context, and provide feedback to update the retriever parameters. This iterative process enables the retriever to learn from its successes and failures, gradually improving its ability to retrieve relevant and high-quality content. Considering that not all situations require information beyond code files and not all retrieved context is helpful for generation, we also introduce a stop signal mechanism, allowing the retriever to decide when to retrieve and which candidates to retain autonomously. Extensive experimental results demonstrate that RLCoder consistently outperforms state-of-the-art methods on CrossCodeEval and RepoEval, achieving 12.2% EM improvement over previous methods. Moreover, experiments show that our framework can generalize across different programming languages and further improve previous methods like RepoCoder. We provide the code and data at https://github.com/DeepSoftwareAnalytics/RLCoder.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# 重み付き確率過程によって駆動される量子系における異常拡散

Anomalous diffusion in quantum system driven by heavy-tailed stochastic processes ( http://arxiv.org/abs/2407.19489v1 )

ライセンス: Link先を確認
Chenyue Guo, (参考訳) 本稿では,ホッピングと待ち行列からなる,確率的に駆動される非平衡量子系について検討する。 2つのホッピングプロセス間の待ち時間は、重い尾の分布を満たす。 ウェーブパケットの2乗幅を計算することで, 過拡散, 過拡散, 標準拡散運動を含む重み付き状態において系が変化しない場合に, 様々な異常輸送現象が出現することを示した。 サブ拡散は、待ちプロセス中にシステムが進化した時にのみ起こる。 これらすべての輸送挙動はエルゴディディティの崩壊を伴い、確率的駆動機構によって引き起こされる複雑な力学を浮き彫りにする。

In this paper, we study a stochastically driven non-equilibrium quantum system where the driving protocols consist of hopping and waiting processes. The waiting times between two hopping processes satisfy a heavy-tailed distribution. By calculating the squared width of the wavepackets, our findings demonstrate the emergence of various anomalous transport phenomenons when the system remains unchanged within the heavy-tailed regime, including superdiffusive, subdiffusive, and standard diffusive motion. Only subdiffusion occurs when the system has evolved during the waiting process. All these transport behaviors are accompanied by a breakdown of ergodicity, highlighting the complex dynamics induced by the stochastic driving mechanism.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# モーダルエミュレーションによるマルチモーダル群カウント

Multi-modal Crowd Counting via Modal Emulation ( http://arxiv.org/abs/2407.19491v1 )

ライセンス: Link先を確認
Chenhao Wang, Xiaopeng Hong, Zhiheng Ma, Yupeng Wei, Yabin Wang, Xiaopeng Fan, (参考訳) マルチモーダル・クラウドカウントは,混み合ったシーンの人数を推定するために,マルチモーダル・キューを使用する重要なタスクである。 異なるモード間のギャップを克服するために,効率的なモーダルエミュレーション,アライメント,融合を可能にするモーダルエミュレーションに基づくマルチモーダルクラウドカウントフレームワークを提案する。 フレームワークは2つのキーコンポーネントで構成されている: \emph{multi-modal inference} パスと \emph{cross-modal emulation} パス。 前者は、ハイブリッドマルチモーダルアテンションモジュールを使用して、グローバルおよびローカル情報を抽出し、効率的なマルチモーダル融合を実現する。 後者はアテンションプロンプトを使用して、異なるモダリティを調整し、マルチモーダルアライメントを強化する。 また、2つのパスの出力を整列させ、モダリティ間の意味的ギャップを埋めるために、効率的なモダリティ整合損失を用いるモダリティ整合モジュールも導入する。 RGB-ThermalとRGB-Depthの計数データセットの大規模な実験は、従来の手法に比べて優れた性能を示している。 コードはhttps://github.com/Mr-Monday/Multi-modal-Crowd-Counting-via-Modal-Emulationで公開されている。

Multi-modal crowd counting is a crucial task that uses multi-modal cues to estimate the number of people in crowded scenes. To overcome the gap between different modalities, we propose a modal emulation-based two-pass multi-modal crowd-counting framework that enables efficient modal emulation, alignment, and fusion. The framework consists of two key components: a \emph{multi-modal inference} pass and a \emph{cross-modal emulation} pass. The former utilizes a hybrid cross-modal attention module to extract global and local information and achieve efficient multi-modal fusion. The latter uses attention prompting to coordinate different modalities and enhance multi-modal alignment. We also introduce a modality alignment module that uses an efficient modal consistency loss to align the outputs of the two passes and bridge the semantic gap between modalities. Extensive experiments on both RGB-Thermal and RGB-Depth counting datasets demonstrate its superior performance compared to previous methods. Code available at https://github.com/Mr-Monday/Multi-modal-Crowd-Counting-via-Modal-Emulation.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# Heads Up eXperience (HUX):人間のコンピュータ環境インタラクションのためのAIコンパニオン

Heads Up eXperience (HUX): Always-On AI Companion for Human Computer Environment Interaction ( http://arxiv.org/abs/2407.19492v1 )

ライセンス: Link先を確認
Sukanth K, Sudhiksha Kandavel Rajan, Rajashekhar V S, Gowdham Prabhakar, (参考訳) 現在のパーソナルスマートデバイスはデジタルドメインでは優れていますが、ヒューマン環境のインタラクションにおいてユーザを支援するには不足しています。 本稿では,このギャップを埋めるように設計されたAIシステムであるHeads Up eXperience(HUX)を提案する。 ユーザの視線を追跡し、周囲の環境を分析し、言語コンテキストを解釈することにより、システムはマルチモーダルデータをキャプチャし、拡張し、リアルタイムタスク固有の状況における全体論的コンテキスト解釈とメモリストレージを提供する。 この包括的なアプローチは、ユーザとHUX AIの間のより自然な、共感的でインテリジェントなインタラクションを可能にし、人間のコンピュータ環境インタラクションの道を開く。 HUX AIは、スマートグラスと拡張現実ヘッドセットへの展開を念頭に置いて、日々の生活のための個人的で有用なAIコンパニオンになることを目指している。 デジタルアシスタントと拡張された物理世界インタラクションを統合することで、この技術は、パーソナルスマートデバイスの未来への道を歩む、個人とプロの両方の分野において、人間とAIのコラボレーションに革命をもたらす可能性を秘めている。

While current personal smart devices excel in digital domains, they fall short in assisting users during human environment interaction. This paper proposes Heads Up eXperience (HUX), an AI system designed to bridge this gap, serving as a constant companion across the extended reality (XR) environments. By tracking the user's eye gaze, analyzing the surrounding environment, and interpreting verbal contexts, the system captures and enhances multi-modal data, providing holistic context interpretation and memory storage in real-time task specific situations. This comprehensive approach enables more natural, empathetic and intelligent interactions between the user and HUX AI, paving the path for human computer environment interaction. Intended for deployment in smart glasses and extended reality headsets, HUX AI aims to become a personal and useful AI companion for daily life. By integrating digital assistance with enhanced physical world interactions, this technology has the potential to revolutionize human-AI collaboration in both personal and professional spheres paving the way for the future of personal smart devices.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# Official-NV:マルチモーダルフェイクニュース検出のためのニュースビデオデータセット

Official-NV: A News Video Dataset for Multimodal Fake News Detection ( http://arxiv.org/abs/2407.19493v1 )

ライセンス: Link先を確認
Yihao Wang, Lizhi Chen, Zhong Qian, Peifeng Li, (参考訳) ニュースメディア、特にビデオニュースメディアは、日常のあらゆる側面に浸透しており、フェイクニュースのリスクも生じている。 そのため、最近、マルチモーダルフェイクニュース検出が注目されている。 しかし、ビデオモダルのための偽ニュース検出データセットの数は少なく、これらのデータセットはユーザーがアップロードした非公式なビデオで構成されているので、役に立たないデータが多すぎる。 そこで本論文では,新華社における公式ニュースビデオからなるOffic-NVというデータセットについて述べる。 我々は新華社で動画をクロールし、LLM生成と手動修正を用いてデータセットを拡張した。 さらに,本論文で提示したデータセットをベースラインモデルを用いてベンチマークし,マルチモーダルフェイクニュース検出におけるOffic-NVの利点を実証した。

News media, especially video news media, have penetrated into every aspect of daily life, which also brings the risk of fake news. Therefore, multimodal fake news detection has recently received more attention. However, the number of fake news detection data sets for video modal is small, and these data sets are composed of unofficial videos uploaded by users, so there is too much useless data. To solve this problem, we present in this paper a dataset named Official-NV, which consists of officially published news videos on Xinhua. We crawled videos on Xinhua, and then extended the data set using LLM generation and manual modification. In addition, we benchmarked the data set presented in this paper using a baseline model to demonstrate the advantage of Official-NV in multimodal fake news detection.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# 空間時間パノラマグラフによる骨格に基づくグループ活動認識

Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph ( http://arxiv.org/abs/2407.19497v1 )

ライセンス: Link先を確認
Zhengcen Li, Xinle Chang, Yueran Li, Jingyong Su, (参考訳) グループアクティビティ認識は、ビデオから集合的なアクティビティを理解することを目的としている。 既存のソリューションは主にRGBのモダリティに依存しており、背景のバリエーション、オクルージョン、動きのぼやけ、計算オーバーヘッドなどの課題に直面している。 一方、現在のキーポイントベースの手法は、人間の動きの軽量で情報的な表現を提供するが、正確な個々のアノテーションと特別な相互作用推論モジュールを必要とする。 これらの制約に対処するために,複数人の骨格とオブジェクトを包含したパノラマグラフを設計し,グループ活動をカプセル化し,RGBビデオの効果的な代替手段を提供する。 このパノラマグラフにより、グラフ畳み込みネットワーク(GCN)は、空間的時間的グラフ畳み込みを通じて、個人内、対人的、対人的対話的モデリングを統一することができる。 実際に,ポーズ推定と追跡アルゴリズムを用いて骨格座標を抽出し,多人数パノラマGCN(Multi-person Panoramic GCN)を用いてグループ活動を予測するパイプラインを開発した。 VolleyballとNBAデータセットの大規模な実験は、MP-GCNが最先端のパフォーマンスを精度と効率の両方で達成していることを示している。 特に,提案手法は推定2次元キーポイントのみを入力として利用することにより,RGBベースの手法よりも優れる。 コードはhttps://github.com/mgiant/MP-GCNで入手できる。

Group Activity Recognition aims to understand collective activities from videos. Existing solutions primarily rely on the RGB modality, which encounters challenges such as background variations, occlusions, motion blurs, and significant computational overhead. Meanwhile, current keypoint-based methods offer a lightweight and informative representation of human motions but necessitate accurate individual annotations and specialized interaction reasoning modules. To address these limitations, we design a panoramic graph that incorporates multi-person skeletons and objects to encapsulate group activity, offering an effective alternative to RGB video. This panoramic graph enables Graph Convolutional Network (GCN) to unify intra-person, inter-person, and person-object interactive modeling through spatial-temporal graph convolutions. In practice, we develop a novel pipeline that extracts skeleton coordinates using pose estimation and tracking algorithms and employ Multi-person Panoramic GCN (MP-GCN) to predict group activities. Extensive experiments on Volleyball and NBA datasets demonstrate that the MP-GCN achieves state-of-the-art performance in both accuracy and efficiency. Notably, our method outperforms RGB-based approaches by using only estimated 2D keypoints as input. Code is available at https://github.com/mgiant/MP-GCN
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# 浅量子回路を用いた期待値推定の最適化

Optimization for expectation value estimation with shallow quantum circuits ( http://arxiv.org/abs/2407.19499v1 )

ライセンス: Link先を確認
Bujiao Wu, Yuxuan Yan, Fuchuan Wei, Zhenhuan Liu, (参考訳) 量子情報科学における基本的な課題は、忠実性、分子エネルギー、相関関数などの量子状態の線形特性を推定することである。 古典的な影は、多くの独立した観測可能な天体を同時に推定する効率性から、一般的な道具として現れてきた。 しかし、ターゲットオブザーバブルの情報や量子デバイスの制約を利用せず、少数のオブザーバブルを推定することに注力する多くの実践シナリオでは非効率である。 この非効率性に対処するために、浅いパラメータ化量子回路を用いて観測可能な任意の観測値の期待値を推定するために、サンプリング複雑性を最適化するフレームワークを提案する。 この枠組みでは、観測可能なターゲットを複数の観測可能な線形結合に分解し、浅い回路と対角化することができる。 この分解法を用いて,観測対象の予測値を推定するために重要サンプリングアルゴリズムを適用する。 スパースハミルトニアンと2つの純状態の内積の基底エネルギーを推定することにより,アルゴリズムの性能を数値的に示す。 さらに、与えられた浅量子回路を用いて観測可能なターゲットを推定するために必要なサンプル複雑性の基本的な下限を導出し、量子学習タスクにおける浅量子回路の能力の理解を深める。

Estimating linear properties of quantum states, such as fidelities, molecular energies, and correlation functions, is a fundamental task in quantum information science. The classical shadow has emerged as a prevalent tool due to its efficiency in estimating many independent observables simultaneously. However, it does not utilize the information of the target observable and the constraints of quantum devices, making it inefficient in many practical scenarios where the focus is on estimating a select few observables. To address this inefficiency, we propose a framework that optimizes sample complexity for estimating the expectation value of any observable using a shallow parameterized quantum circuit. Within this framework, we introduce a greedy algorithm that decomposes the target observable into a linear combination of multiple observables, each of which can be diagonalized with the shallow circuit. Using this decomposition, we then apply an importance sampling algorithm to estimate the expectation value of the target observable. We numerically demonstrate the performance of our algorithm by estimating the ground energy of a sparse Hamiltonian and the inner product of two pure states, highlighting the advantages compared to some conventional methods. Additionally, we derive the fundamental lower bound for the sample complexity required to estimate a target observable using a given shallow quantum circuit, thereby enhancing our understanding of the capabilities of shallow circuits in quantum learning tasks.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# WeCromCL: 転写のみの教師付きテキストスポッティングのためのクロスモーダルコントラスト学習

WeCromCL: Weakly Supervised Cross-Modality Contrastive Learning for Transcription-only Supervised Text Spotting ( http://arxiv.org/abs/2407.19507v1 )

ライセンス: Link先を確認
Jingjing Wu, Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Fanglin Chen, Guangming Lu, Wenjie Pei, (参考訳) 転写のみのSupervised Text Spottingは、テキストスポッターを文字のみに依存して学習することを目的としている。 このタスクの要点は、位置アノテーションなしで各文字をシーンテキストイメージに配置することにある。 本研究では、この課題を、弱教師付きクロスモダリティコントラスト学習問題として定式化し、弱教師付きでシーンイメージ内の各転写を検出できるWeCromCLと呼ばれるシンプルなモデルの設計を行う。 WeCromCLは、画像全体とテキスト記述間の全体論的意味的相関をモデル化することに焦点を当てた、一般的なクロスモーダルコントラスト学習法とは異なり、シーン画像におけるテキスト転写とその関連領域間の文字単位の整合性をモデル化し、弱い教師付きで転写のアンカーポイントを検出する。 WeCromCLによって検出されたアンカーポイントは、テキストスポッティングの学習をガイドする擬似位置ラベルとしてさらに使用される。 4つの挑戦的なベンチマークに関する大規模な実験は、我々のモデルが他の方法よりも優れていることを示す。 コードはリリースされる。

Transcription-only Supervised Text Spotting aims to learn text spotters relying only on transcriptions but no text boundaries for supervision, thus eliminating expensive boundary annotation. The crux of this task lies in locating each transcription in scene text images without location annotations. In this work, we formulate this challenging problem as a Weakly Supervised Cross-modality Contrastive Learning problem, and design a simple yet effective model dubbed WeCromCL that is able to detect each transcription in a scene image in a weakly supervised manner. Unlike typical methods for cross-modality contrastive learning that focus on modeling the holistic semantic correlation between an entire image and a text description, our WeCromCL conducts atomistic contrastive learning to model the character-wise appearance consistency between a text transcription and its correlated region in a scene image to detect an anchor point for the transcription in a weakly supervised manner. The detected anchor points by WeCromCL are further used as pseudo location labels to guide the learning of text spotting. Extensive experiments on four challenging benchmarks demonstrate the superior performance of our model over other methods. Code will be released.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# EPD: EgoPlan Challenge ICML 2024

EPD: Long-term Memory Extraction, Context-awared Planning and Multi-iteration Decision @ EgoPlan Challenge ICML 2024 ( http://arxiv.org/abs/2407.19510v1 )

ライセンス: Link先を確認
Letian Shi, Qi Lv, Xiang Deng, Liqiang Nie, (参考訳) 本稿では,ICML 2024におけるEgoPlan Challengeの解決策について述べる。 実世界の自己中心型タスク計画問題に対処するために,長期記憶抽出,コンテキスト対応計画,多項目決定という3つの段階からなる新しい計画枠組みを導入する。 タスク目標、タスク進捗、現在の観測を前提として、抽出モデルはまず、進捗映像からタスク関連メモリ情報を抽出し、複雑な長ビデオから要約されたメモリ情報に変換する。 プランニングモデルは、メモリ情報のコンテキストと現在の観測から得られるきめ細かい視覚情報を組み合わせて次の行動を予測する。 最後に、多項目意思決定を通じて、決定モデルはタスク状況と現状を包括的に理解し、最も現実的な計画決定を行う。 EgoPlan-Testのセットでは、EPDは1,584のエゴセントリックなタスク計画問題に対して53.85%の計画精度を達成した。 すべてのコードはhttps://github.com/Kkskkskr/EPDで公開しています。

In this technical report, we present our solution for the EgoPlan Challenge in ICML 2024. To address the real-world egocentric task planning problem, we introduce a novel planning framework which comprises three stages: long-term memory Extraction, context-awared Planning, and multi-iteration Decision, named EPD. Given the task goal, task progress, and current observation, the extraction model first extracts task-relevant memory information from the progress video, transforming the complex long video into summarized memory information. The planning model then combines the context of the memory information with fine-grained visual information from the current observation to predict the next action. Finally, through multi-iteration decision-making, the decision model comprehensively understands the task situation and current state to make the most realistic planning decision. On the EgoPlan-Test set, EPD achieves a planning accuracy of 53.85% over 1,584 egocentric task planning questions. We have made all codes available at https://github.com/Kkskkkskr/EPD .
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# AIを用いたスライディング画像解析による頸部前立腺検診の大規模化

Large-scale cervical precancerous screening via AI-assisted cytology whole slide image analysis ( http://arxiv.org/abs/2407.19512v1 )

ライセンス: Link先を確認
Honglin Li, Yusuan Sun, Chenglu Zhu, Yunlong Zhang, Shichuan Zhang, Zhongyi Shui, Pingyi Chen, Jingxiong Li, Sunyi Zheng, Can Cui, Lin Yang, (参考訳) 頸部がんは婦人科における主要な悪性腫瘍であり続けており、世界規模で女性の健康に永続的な脅威をもたらしている。 細胞診による早期スクリーニングは、このがんの進行を予防し生存率を向上させるために重要であるが、病理医の単回検査は、WSI内でレビューする必要がある膨大な数の細胞のために必然的に偽陰性に陥る。 コンピュータ支援自動診断モデルは、病理学者にとって強力な補完となりうるが、その効果は、広範かつ詳細なアノテーションの曖昧さと、限定的な解釈可能性と堅牢性によって妨げられる。 これらの要因は臨床現場での実用性や信頼性を著しく損なう。 これらの課題に対処するため、我々は、頚部細胞診の包括的データ(STRIDE)に基づいて構築された、スケーラブルなロバストおよび解釈診断技術であるAIアプローチを開発した。 STRIDEは、エンドツーエンドのトレーニング戦略を通じて、患者レベルのラベルと少数のセルレベルのラベルを統合することで、限られたアノテーションのボトルネックに対処する。 細胞診のスライド作成とイメージングの実際の領域シフトに対する堅牢性をさらに向上するため、STRIDEは染色とイメージングのバリエーションを模倣するカラー対向サンプルトレーニングを採用している。 最後に、臨床環境における信頼度に対する病理医レベルの解釈可能性を達成するために、STRIDEは、細胞画像の特徴とテキスト記述アライメントによって、病理医の診断過程をシミュレートする説明的テキスト記述を生成することができる。 頚部細胞診患者からの341,889個のWSIと0.1億個の細胞をデータセットとして183の医療センターで広範な実験と評価を行い、STRIDEはこれまでの最先端技術よりも顕著に優れていることを示した。

Cervical Cancer continues to be the leading gynecological malignancy, posing a persistent threat to women's health on a global scale. Early screening via cytology Whole Slide Image (WSI) diagnosis is critical to prevent this Cancer progression and improve survival rate, but pathologist's single test suffers inevitable false negative due to the immense number of cells that need to be reviewed within a WSI. Though computer-aided automated diagnostic models can serve as strong complement for pathologists, their effectiveness is hampered by the paucity of extensive and detailed annotations, coupled with the limited interpretability and robustness. These factors significantly hinder their practical applicability and reliability in clinical settings. To tackle these challenges, we develop an AI approach, which is a Scalable Technology for Robust and Interpretable Diagnosis built on Extensive data (STRIDE) of cervical cytology. STRIDE addresses the bottleneck of limited annotations by integrating patient-level labels with a small portion of cell-level labels through an end-to-end training strategy, facilitating scalable learning across extensive datasets. To further improve the robustness to real-world domain shifts of cytology slide-making and imaging, STRIDE employs color adversarial samples training that mimic staining and imaging variations. Lastly, to achieve pathologist-level interpretability for the trustworthiness in clinical settings, STRIDE can generate explanatory textual descriptions that simulates pathologists' diagnostic processes by cell image feature and textual description alignment. Conducting extensive experiments and evaluations in 183 medical centers with a dataset of 341,889 WSIs and 0.1 billion cells from cervical cytology patients, STRIDE has demonstrated a remarkable superiority over previous state-of-the-art techniques.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# DNA組立近赤外量子エミッタの巨大パーセル拡張とラムシフト

Giant Purcell broadening and Lamb shift for DNA-assembled near-infrared quantum emitters ( http://arxiv.org/abs/2407.19513v1 )

ライセンス: Link先を確認
Sachin Verlekar, Maria Sanz-Paz, Mario Zapata-Herrera, Mauricio Pilo-Pais, Karol Kolataj, Ruben Esteban, Javier Aizpurua, Guillermo Acuna, Christophe Galland, (参考訳) 個々の分子によって放出される光を制御することは、超高分解能バイオイメージングや分子センシングから量子ナノフォトニクスまで、多くの新しいナノ技術に寄与する。 例えば、DNA折り紙の助けを借りてプラズモンナノキャビティ内に単一の分子を正確に配置することで、局所的なフォトニック環境を変更することで分子放出を調整できる。 ここでは、このスケーラブルなアプローチを用いて、市販のフルオロフォアが巨大なPurcell因子とLambシフトを経験し、最近スキャニングチップ実験で報告された値に匹敵する値に達したことを示す。 プラズモニックモードの工学により、ゼロフォノンライン(ZPL)から遠く離れたキャビティ媒介の蛍光が、素発光器の蛍光線幅より2桁も大きく、近赤外線に届くように調整できる。 本研究は,光子放射の不明瞭化,ナノスケール超高速量子光源の発達,単一分子キャビティ-QEDへの探求などにおいて,発光線幅が励起状態寿命に支配される状況を示すものである。 将来的には、標準有機源の性能が低下する赤外線波長で効率的な量子エミッタを設計できるかもしれない。

Controlling the light emitted by individual molecules is instrumental to a number of novel nanotechnologies ranging from super-resolution bio-imaging and molecular sensing to quantum nanophotonics. Molecular emission can be tailored by modifying the local photonic environment, for example by precisely placing a single molecule inside a plasmonic nanocavity with the help of DNA origami. Here, using this scalable approach, we show that commercial fluorophores experience giant Purcell factors and Lamb shifts, reaching values on par with those recently reported in scanning tip experiments. Engineering of plasmonic modes enables cavity-mediated fluorescence far detuned from the zero-phonon-line (ZPL) - at detunings that are up to two orders of magnitude larger than the fluorescence linewidth of the bare emitter and reach into the near-infrared. Our results evidence a regime where the emission linewidth is dominated by the excited state lifetime, as required for indistinguishable photon emission, baring relevance to the development of nanoscale, ultrafast quantum light sources and to the quest toward single-molecule cavity-QED. In the future, this approach may also allow to design efficient quantum emitters at infrared wavelengths, where standard organic sources have a reduced performance.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# 遠隔・対話型マルチモーダル学習

Detached and Interactive Multimodal Learning ( http://arxiv.org/abs/2407.19514v1 )

ライセンス: Link先を確認
Yunfeng Fan, Wenchao Xu, Haozhao Wang, Junhong Liu, Song Guo, (参考訳) 近年,Multimodal Learning (MML) は,マルチモーダルデータ内の包括的補完情報を通じて,単一モーダル制限を補うことで大きな関心を集めている。 しかし、従来のMML手法では、一般的に統一的な学習目標を持つ共同学習フレームワークを使用し、フィードバックは特定のモダリティから主に得られ、他者の潜在能力を完全に制限する、モダリティ競争問題につながる可能性がある。 本論文では,モダリティ競争を回避することを目的として,モダリティ間の相補的な情報を学習する新しいMMLフレームワークであるDI-MMLを紹介する。 具体的には、DI-MMLは、個別の学習目的で各モダリティエンコーダを個別に訓練することで競争に対処する。 さらに、共通特徴空間を定義し、モダリティレベルの知識伝達を容易にするために次元分離された一方向コントラスト(DUC)損失を利用する共有分類器による相互モーダル相互作用を奨励する。 さらに、サンプルペアの信頼性の変動を考慮し、推論中にインスタンスレベルで補完情報を効果的に活用する確実なロジット重み付け戦略を考案する。 音声・視覚・フロー画像・前面画像の総合的な実験により,提案手法の優れた性能を示す。 コードはhttps://github.com/fanyunfeng-bit/DI-MMLで公開されている。

Recently, Multimodal Learning (MML) has gained significant interest as it compensates for single-modality limitations through comprehensive complementary information within multimodal data. However, traditional MML methods generally use the joint learning framework with a uniform learning objective that can lead to the modality competition issue, where feedback predominantly comes from certain modalities, limiting the full potential of others. In response to this challenge, this paper introduces DI-MML, a novel detached MML framework designed to learn complementary information across modalities under the premise of avoiding modality competition. Specifically, DI-MML addresses competition by separately training each modality encoder with isolated learning objectives. It further encourages cross-modal interaction via a shared classifier that defines a common feature space and employing a dimension-decoupled unidirectional contrastive (DUC) loss to facilitate modality-level knowledge transfer. Additionally, to account for varying reliability in sample pairs, we devise a certainty-aware logit weighting strategy to effectively leverage complementary information at the instance level during inference. Extensive experiments conducted on audio-visual, flow-image, and front-rear view datasets show the superior performance of our proposed method. The code is released at https://github.com/fanyunfeng-bit/DI-MML.
翻訳日:2024-07-30 17:52:40 公開日:2024-07-28
# 複雑なSQLワークロードによるテキストからSQL生成のためのLLMの評価

Evaluating LLMs for Text-to-SQL Generation With Complex SQL Workload ( http://arxiv.org/abs/2407.19517v1 )

ライセンス: Link先を確認
Limin Ma, Ken Pu, Ying Zhu, (参考訳) 本研究では、複雑なSQLベンチマークであるTPC-DSと、既存のテキスト間SQLベンチマークであるBIRDとSpiderの比較分析を行う。 その結果,TPC-DSクエリは,他の2つのベンチマークと比較すると,構造的複雑さが著しく高いことがわかった。 このことは、現実的なシナリオを効果的にシミュレートするより複雑なベンチマークの必要性を浮き彫りにする。 この比較を容易にするために、構造的複雑性のいくつかの尺度を考案し、これらを3つのベンチマークすべてに適用した。 この研究の結果は、より洗練されたテキスト-SQLベンチマークの開発における将来の研究を導くことができる。 我々は11の異なる言語モデル(LLM)を用いて、TPC-DSベンチマークが提供するクエリ記述に基づいてSQLクエリを生成した。 プロンプトエンジニアリングプロセスには、TPC-DS仕様とTPC-DSのデータベーススキーマに概説されたクエリ記述が組み込まれている。 以上の結果から,現在最先端のAIモデルは,正確な意思決定クエリを生成するには不十分であることが示唆された。 我々は,TPC-DSゴールド・スタンダード・クエリと生成されたクエリの比較を,クエリ機能に基づいたファジィ構造マッチング手法を用いて行った。 その結果、実世界のアプリケーションでは、生成したクエリの精度が不十分であることが判明した。

This study presents a comparative analysis of the a complex SQL benchmark, TPC-DS, with two existing text-to-SQL benchmarks, BIRD and Spider. Our findings reveal that TPC-DS queries exhibit a significantly higher level of structural complexity compared to the other two benchmarks. This underscores the need for more intricate benchmarks to simulate realistic scenarios effectively. To facilitate this comparison, we devised several measures of structural complexity and applied them across all three benchmarks. The results of this study can guide future research in the development of more sophisticated text-to-SQL benchmarks. We utilized 11 distinct Language Models (LLMs) to generate SQL queries based on the query descriptions provided by the TPC-DS benchmark. The prompt engineering process incorporated both the query description as outlined in the TPC-DS specification and the database schema of TPC-DS. Our findings indicate that the current state-of-the-art generative AI models fall short in generating accurate decision-making queries. We conducted a comparison of the generated queries with the TPC-DS gold standard queries using a series of fuzzy structure matching techniques based on query features. The results demonstrated that the accuracy of the generated queries is insufficient for practical real-world application.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# 空間的・意味的データを用いた単眼鍵フレーム視覚SLAMにおける短期的再局在問題の解法

Solving Short-Term Relocalization Problems In Monocular Keyframe Visual SLAM Using Spatial And Semantic Data ( http://arxiv.org/abs/2407.19518v1 )

ライセンス: Link先を確認
Azmyin Md. Kamal, Nenyi K. N. Dadson, Donovan Gegg, Corina Barbalata, (参考訳) Monocular Keyframe Visual Simultaneous Localization and Mapping (MKVSLAM)フレームワークでは、インクリメンタルな位置追跡が失敗すると、グローバルなポーズを短時間のウィンドウ(短期的な再ローカライゼーションとしても知られる)で回収する必要がある。 この能力は、移動ロボットにとって、信頼性の高いナビゲーション、正確なマップの構築、そして人間の協力者に関する正確な行動を持つことが不可欠である。 本稿では,単眼カメラシステムを用いた移動ロボットのロバストな短期的再ローカライズ機能の開発に焦点をあてる。 環境中で検出されたオブジェクトのセマンティック情報とカメラの空間情報とを含む、新しいマルチモーダル・キーフレームディスクリプタが導入された。 この記述子を用いることで、マルチステージ鍵フレームフィルタリングアルゴリズムとして定式化された新しいキーフレームベースのPlace Recognition (KPR)法が提案され、MKVSLAMシステムのための新しい再ローカライゼーションパイプラインとなる。 提案手法は複数の屋内GPSが否定したデータセットに対して評価され,単語のバッグ・オブ・ワード・アプローチと比較して正確なポーズ・リカバリを示す。

In Monocular Keyframe Visual Simultaneous Localization and Mapping (MKVSLAM) frameworks, when incremental position tracking fails, global pose has to be recovered in a short-time window, also known as short-term relocalization. This capability is crucial for mobile robots to have reliable navigation, build accurate maps, and have precise behaviors around human collaborators. This paper focuses on the development of robust short-term relocalization capabilities for mobile robots using a monocular camera system. A novel multimodal keyframe descriptor is introduced, that contains semantic information of objects detected in the environment and the spatial information of the camera. Using this descriptor, a new Keyframe-based Place Recognition (KPR) method is proposed that is formulated as a multi-stage keyframe filtering algorithm, leading to a new relocalization pipeline for MKVSLAM systems. The proposed approach is evaluated over several indoor GPS denied datasets and demonstrates accurate pose recovery, in comparison to a bag-of-words approach.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# Ego-VPA:パラメータ効率適応によるエゴセントリックビデオ理解

Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation ( http://arxiv.org/abs/2407.19520v1 )

ライセンス: Link先を確認
Tz-Ying Wu, Kyle Min, Subarna Tripathi, Nuno Vasconcelos, (参考訳) ビデオ理解は一般的に、新しいドメインに適応する際に大きなバックボーンを微調整する必要がある。 本稿では,エゴセントリックなビデオ基礎モデル(Ego-VFM)をビデオ言語事前学習に基づいて活用し,エゴセントリックなビデオタスク,すなわちEgo-VPAに対するパラメータ効率の適応を提案する。 ベースプロンプトを使用して、各ビデオフレーム/テキスト機能に局所的なスパース近似を用い、選択したベースプロンプトを使用して、ビデオ/テキストプロンプトを合成する。 ベースプロンプトはフレームとモダリティ間で共有されるので、コンテキスト融合とクロスモーダル転送を効率的な方法でモデル化する。 実験の結果、Ego-VPAは軽量適応(学習可能なパラメータは0.84%しかありません)に優れており、ベースラインよりも大幅に改善され、完全な微調整の性能に到達しています。

Video understanding typically requires fine-tuning the large backbone when adapting to new domains. In this paper, we leverage the egocentric video foundation models (Ego-VFMs) based on video-language pre-training and propose a parameter-efficient adaptation for egocentric video tasks, namely Ego-VPA. It employs a local sparse approximation for each video frame/text feature using the basis prompts, and the selected basis prompts are used to synthesize video/text prompts. Since the basis prompts are shared across frames and modalities, it models context fusion and cross-modal transfer in an efficient fashion. Experiments show that Ego-VPA excels in lightweight adaptation (with only 0.84% learnable parameters), largely improving over baselines and reaching the performance of full fine-tuning.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# 対話型タスク分散生成からのロバストな高速適応

Robust Fast Adaptation from Adversarially Explicit Task Distribution Generation ( http://arxiv.org/abs/2407.19523v1 )

ライセンス: Link先を確認
Cheems Wang, Yiqin Lv, Yixiu Mao, Yun Qu, Yi Xu, Xiangyang Ji, (参考訳) メタラーニングは、いくつかの例からタスク間でスキルを伝達する実践的な学習パラダイムである。 それにもかかわらず、タスク分布シフトの存在はメタ学習者の一般化能力を弱める傾向にあり、特にタスク分布が手作業で手作りされている場合や、典型的なシナリオを十分にカバーできない単純な事前に基づいている場合である。 本稿では,タスク識別子上に配置されたタスク分布を明示的に生成するタスク分布について考察する。 我々のアプローチは、スタックルバーグゲームのモデルとして解釈できるが、明示的な生成モデルから問題解決時のタスク構造を明らかにするだけでなく、最悪の場合の適応ロバスト性も理論的に増大させる。 この研究は、特にメタラーニングにおけるタスク分散シフトの扱いにおいて実践的な意味を持ち、この分野の理論的洞察に寄与する。 本手法は,タスクサブポピュレーションシフトの存在下でのロバスト性を実証し,大規模な実験においてSOTAベースラインよりも高い性能を示した。 このプロジェクトはhttps://sites.google.com/view/ar-metalearn.comで入手できる。

Meta-learning is a practical learning paradigm to transfer skills across tasks from a few examples. Nevertheless, the existence of task distribution shifts tends to weaken meta-learners' generalization capability, particularly when the task distribution is naively hand-crafted or based on simple priors that fail to cover typical scenarios sufficiently. Here, we consider explicitly generative modeling task distributions placed over task identifiers and propose robustifying fast adaptation from adversarial training. Our approach, which can be interpreted as a model of a Stackelberg game, not only uncovers the task structure during problem-solving from an explicit generative model but also theoretically increases the adaptation robustness in worst cases. This work has practical implications, particularly in dealing with task distribution shifts in meta-learning, and contributes to theoretical insights in the field. Our method demonstrates its robustness in the presence of task subpopulation shifts and improved performance over SOTA baselines in extensive experiments. The project is available at https://sites.google.com/view/ar-metalearn.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# VersusDebias: SLMベースのプロンプトエンジニアリングとジェネレーティブ・アドバイザリーによるテキスト・ツー・イメージモデルのためのユニバーサルゼロショットデバイアス

VersusDebias: Universal Zero-Shot Debiasing for Text-to-Image Models via SLM-Based Prompt Engineering and Generative Adversary ( http://arxiv.org/abs/2407.19524v1 )

ライセンス: Link先を確認
Hanjun Luo, Ziye Deng, Haoyu Huang, Xuecheng Liu, Ruizhe Chen, Zuozhu Liu, (参考訳) テキスト・ツー・イメージ・モデルの急速な発展に伴い、人口集団に対する人間の画像生成のバイアスがますます関心を惹きつける。 既存の手法は、一定のプロンプトを持つ特定のモデルに基づいて設計されており、実用シーンにおけるテキスト・ツー・イメージ(T2I)モデルの高速更新や可変プロンプトの傾向に適応できない。 さらに、幻覚の可能性を考慮することができず、期待された結果と実際の結果の間に偏りが生じる。 この問題に対処するために、我々は、T2Iモデルにおけるバイアスの新しい普遍的脱バイアスフレームワークであるVersusDebiasを紹介した。 自己適応型GAMは、T2Iモデルから幻覚の影響を減少させるプロンプト毎に特別な属性アレイを生成する。 SLMはプロンプトエンジニアリングを使用してT2Iモデルのデバイアスドプロンプトを生成し、異なるモデルのゼロショットデバイアス機能とカスタム最適化を提供する。 大規模な実験は、VersusDebiasの性、人種、年齢など、複数の保護された属性にわたる任意のモデルのバイアスを同時に修正する能力を実証している。 さらにVersusDebiasは、ゼロショットと少数ショットの両方の状況において既存の手法よりも優れており、その異常な実用性を示している。 私たちの仕事は、再現性を確保するために、オープンに研究コミュニティにアクセスできます。

With the rapid development of Text-to-Image models, biases in human image generation against demographic groups social attract more and more concerns. Existing methods are designed based on certain models with fixed prompts, unable to accommodate the trend of high-speed updating of Text-to-Image (T2I) models and variable prompts in practical scenes. Additionally, they fail to consider the possibility of hallucinations, leading to deviations between expected and actual results. To address this issue, we introduce VersusDebias, a novel and universal debiasing framework for biases in T2I models, consisting of one generative adversarial mechanism (GAM) and one debiasing generation mechanism using a small language model (SLM). The self-adaptive GAM generates specialized attribute arrays for each prompts for diminishing the influence of hallucinations from T2I models. The SLM uses prompt engineering to generate debiased prompts for the T2I model, providing zero-shot debiasing ability and custom optimization for different models. Extensive experiments demonstrate VersusDebias's capability to rectify biases on arbitrary models across multiple protected attributes simultaneously, including gender, race, and age. Furthermore, VersusDebias outperforms existing methods in both zero-shot and few-shot situations, illustrating its extraordinary utility. Our work is openly accessible to the research community to ensure the reproducibility.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# 会話型LLMの人間のアライメントに及ぼす復号法の影響

Impact of Decoding Methods on Human Alignment of Conversational LLMs ( http://arxiv.org/abs/2407.19526v1 )

ライセンス: Link先を確認
Shaz Furniturewala, Kokil Jaidka, Yashvardhan Sharma, (参考訳) チャットボットシステムに組み込むには、Large Language Model (LLM) は人間の会話の慣行に合わせる必要がある。 しかし、主にウェブスクラッドデータに基づいて訓練されることで、既存のLLMは実際の人間の音声よりも情報テキストに近い声が得られる。 本稿では,ビームサーチ,トップKサンプリング,ヌクレスサンプリングなど,LLM生成と人間の会話のアライメントに対する復号法の効果について検討する。 物質, スタイル, 心理指標の配向の新たな尺度を提案し, 2つの会話データセットを用いて実験を行った。 その結果,ビームサーチではビームのアライメントが小さく,Nucleus SmplingではPの値が低くなるという微妙な洞察を得た。 また、タスク指向のデータセットとオープンエンドのデータセットはアライメントの観点から異なるパフォーマンスを示し、インタラクションのコンテキストを考慮することの重要性を示している。

To be included into chatbot systems, Large language models (LLMs) must be aligned with human conversational conventions. However, being trained mainly on web-scraped data gives existing LLMs a voice closer to informational text than actual human speech. In this paper, we examine the effect of decoding methods on the alignment between LLM-generated and human conversations, including Beam Search, Top K Sampling, and Nucleus Sampling. We present new measures of alignment in substance, style, and psychometric orientation, and experiment with two conversation datasets. Our results provide subtle insights: better alignment is attributed to fewer beams in Beam Search and lower values of P in Nucleus Sampling. We also find that task-oriented and open-ended datasets perform differently in terms of alignment, indicating the significance of taking into account the context of the interaction.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# Serafim PT*エンコーダファミリーを用いたポルトガル語のオープン文埋め込み

Open Sentence Embeddings for Portuguese with the Serafim PT* encoders family ( http://arxiv.org/abs/2407.19527v1 )

ライセンス: Link先を確認
Luís Gomes, António Branco, João Silva, João Rodrigues, Rodrigo Santos, (参考訳) 文エンコーダは入力のセマンティクスをエンコードし、分類、クラスタリング、検索などの重要な下流アプリケーションを可能にする。 本稿では,様々な大きさのポルトガル語用オープンソース文エンコーダであるSerafim PT*を,様々なハードウェア/計算予算に適合させる。 各モデルは最先端のパフォーマンスを示し、パーミッシブ・ライセンスの下で公開されており、商用および研究目的の両方に使用することができる。 文エンコーダの他に,トップパフォーマンスエンコーダを支援する学習目標とパラメータの選択基準について,体系的な研究と授業を行った。

Sentence encoder encode the semantics of their input, enabling key downstream applications such as classification, clustering, or retrieval. In this paper, we present Serafim PT*, a family of open-source sentence encoders for Portuguese with various sizes, suited to different hardware/compute budgets. Each model exhibits state-of-the-art performance and is made openly available under a permissive license, allowing its use for both commercial and research purposes. Besides the sentence encoders, this paper contributes a systematic study and lessons learned concerning the selection criteria of learning objectives and parameters that support top-performing encoders.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# モタモット:ベンガル政治感性分析における変圧器モデルによる大規模言語モデルの優位性を明らかにするデータセット

Motamot: A Dataset for Revealing the Supremacy of Large Language Models over Transformer Models in Bengali Political Sentiment Analysis ( http://arxiv.org/abs/2407.19528v1 )

ライセンス: Link先を確認
Fatema Tuj Johora Faria, Mukaffi Bin Moin, Rabeya Islam Mumu, Md Mahabubul Alam Abir, Abrar Nawar Alfy, Mohammad Shafiul Alam, (参考訳) 感情分析は、人々の感情や様々なトピックに関する意見を特定し分類するプロセスである。 政治的感情を分析することは、特に選挙期間中の世論過程の複雑さを理解するために重要である。 投票者の好み、態度、現在の傾向について重要な情報を提供する。 本研究ではバングラデシュ選挙における政治的感情分析について検討し、特にプレトレーニング言語モデル(PLM)と大規模言語モデル(LLM)が複雑な感情特性をいかに効果的に捉えているかを検討する。 本研究は,様々なオンライン新聞ポータルから得られた肯定的・否定的な感情を付加した7,058件の「モタモット」データセットを作成し,政治的感情分析のための総合的な資料を作成することに焦点を当てた。 我々は,Gemini 1.5 Pro や GPT 3.5 Turbo などの LLM とともに BanglaBERT, Bangla BERT Base, XLM-RoBERTa, mBERT, sahajBERT など様々な PLM の性能評価を行った。 さらに、政治感情分析手法の理解を深めるために、ゼロショットと少数ショットの学習戦略を検討する。 以上の結果からBanglaBERTの推奨精度は88.10%であった。 しかし、LSMの探索により、さらに有望な結果が明らかとなった。 Gemini 1.5 ProはFew-Shot学習技術の適用により96.33%の精度を達成し、GPT 3.5 Turboの性能は94%を突破した。 この比較では、ジェミニ1.5 Proが優れたパフォーマーとしての地位を誇っている。

Sentiment analysis is the process of identifying and categorizing people's emotions or opinions regarding various topics. Analyzing political sentiment is critical for understanding the complexities of public opinion processes, especially during election seasons. It gives significant information on voter preferences, attitudes, and current trends. In this study, we investigate political sentiment analysis during Bangladeshi elections, specifically examining how effectively Pre-trained Language Models (PLMs) and Large Language Models (LLMs) capture complex sentiment characteristics. Our study centers on the creation of the "Motamot" dataset, comprising 7,058 instances annotated with positive and negative sentiments, sourced from diverse online newspaper portals, forming a comprehensive resource for political sentiment analysis. We meticulously evaluate the performance of various PLMs including BanglaBERT, Bangla BERT Base, XLM-RoBERTa, mBERT, and sahajBERT, alongside LLMs such as Gemini 1.5 Pro and GPT 3.5 Turbo. Moreover, we explore zero-shot and few-shot learning strategies to enhance our understanding of political sentiment analysis methodologies. Our findings underscore BanglaBERT's commendable accuracy of 88.10% among PLMs. However, the exploration into LLMs reveals even more promising results. Through the adept application of Few-Shot learning techniques, Gemini 1.5 Pro achieves an impressive accuracy of 96.33%, surpassing the remarkable performance of GPT 3.5 Turbo, which stands at 94%. This underscores Gemini 1.5 Pro's status as the superior performer in this comparison.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# モデルに基づく強化学習におけるコードブックの解釈可能性

The Interpretability of Codebooks in Model-Based Reinforcement Learning is Limited ( http://arxiv.org/abs/2407.19532v1 )

ライセンス: Link先を確認
Kenneth Eaton, Jonathan Balloch, Julia Kim, Mark Riedl, (参考訳) 深層強化学習システムの解釈可能性は、オペレーターが環境とどのように相互作用するかを理解するのに役立つ。 ベクトル量子化メソッド(コードブックメソッドとも呼ばれる)は、ニューラルネットワークの潜在空間を識別する。 モデルに基づく強化学習において,ベクトル量子化が解釈可能性をもたらすかどうかを検討する。 強化学習環境 Crafter で実施した実験により,ベクトル量子化モデルの符号は不整合であり,一意性は保証されず,概念の絡み合いに限定的な影響を及ぼすことが示された。 我々は、なぜベクトル量子化がモデル解釈可能性に根本的な欠陥があるのかについての洞察を共有している。

Interpretability of deep reinforcement learning systems could assist operators with understanding how they interact with their environment. Vector quantization methods -- also called codebook methods -- discretize a neural network's latent space that is often suggested to yield emergent interpretability. We investigate whether vector quantization in fact provides interpretability in model-based reinforcement learning. Our experiments, conducted in the reinforcement learning environment Crafter, show that the codes of vector quantization models are inconsistent, have no guarantee of uniqueness, and have a limited impact on concept disentanglement, all of which are necessary traits for interpretability. We share insights on why vector quantization may be fundamentally insufficient for model interpretability.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# 旅行メールマン:ユーザ中心再限定のためのトポロジ的最適化手法

The Traveling Mailman: Topological Optimization Methods for User-Centric Redistricting ( http://arxiv.org/abs/2407.19535v1 )

ライセンス: Link先を確認
Nelson A. Colón Vargas, (参考訳) 本研究では,US Postal Service ネットワークを用いた地域間接続性評価手法を提案する。 我々は、地域境界がコミュニティの整合性に与える影響を評価するために、トポロジカルデータ分析とマルコフ・チェイン・モンテカルロ法を組み合わせる。 アイオワ州をケーススタディとして、KMeansクラスタリングと確率的再バランスを用いて地区計画を作成し、洗練する。 提案手法は, ゆるやかな条件下でのアイオワ州の公式計画よりも, カットエッジが少なく, コンパクトな形状の計画を生成する。 正式な計画ほど破壊的な計画を見つける可能性が低いことは、既存の境界における潜在的な非効率性を示唆している。 ガウス混合モデル解析により、地区景観における3つの異なる分布が明らかになった。 このフレームワークは、より公平な政治的表現のためのコミュニティの相互作用をより正確に反映する。

This study introduces a new districting approach using the US Postal Service network to measure community connectivity. We combine Topological Data Analysis with Markov Chain Monte Carlo methods to assess district boundaries' impact on community integrity. Using Iowa as a case study, we generate and refine districting plans using KMeans clustering and stochastic rebalancing. Our method produces plans with fewer cut edges and more compact shapes than the official Iowa plan under relaxed conditions. The low likelihood of finding plans as disruptive as the official one suggests potential inefficiencies in existing boundaries. Gaussian Mixture Model analysis reveals three distinct distributions in the districting landscape. This framework offers a more accurate reflection of community interactions for fairer political representation.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# ユニタリ作用素、量子グラフおよび量子チャネルの縮約

Contraction of unitary operators, quantum graphs and quantum channels ( http://arxiv.org/abs/2407.19536v1 )

ライセンス: Link先を確認
L. L. Salcedo, (参考訳) 有限次元複素ヒルベルト空間におけるユニタリ作用素が与えられたとき、その部分空間へのユニタリ縮約が定義される。 量子グラフへの応用について論じる。 この収縮によって、より単純なグラフを組み立てることで、新しい量子グラフの散乱行列が生成されるかが示される。 量子チャネルの収縮も定義される。 収縮したユニタリ作用素に対応する量子ゲートの実装について検討するが、明示的な構成は示さない。 明示的な実装が与えられる量子チャネルの収縮に関して状況は異なる。

Given a unitary operator in a finite dimensional complex Hilbert space, its unitary contraction to a subspace is defined. The application to quantum graphs is discussed. It is shown how the contraction allows to generate the scattering matrices of new quantum graphs from assembling of simpler graphs. The contraction of quantum channels is also defined. The implementation of the quantum gates corresponding to the contracted unitary operator is investigated, although no explicit construction is presented. The situation is different for the contraction of quantum channels for which explicit implementations are given.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# 知識蒸留とランダムデータ消去によるロバストなマルチモーダルシーケンス診断予測の不完全性の克服

Overcoming Uncertain Incompleteness for Robust Multimodal Sequential Diagnosis Prediction via Knowledge Distillation and Random Data Erasing ( http://arxiv.org/abs/2407.19540v1 )

ライセンス: Link先を確認
Heejoon Koo, (参考訳) 本報告では,欠席頻度の不明な患者診断の予測精度を高めるための新しいフレームワークであるNECHO v2について述べる。 まず、不完全なデータの下で、不確実なモダリティ表現の優位性を扱うためにNECHOを変更する。 次に,修正NECHOを教師と学生の両方に活用して,体系的な知識蒸留を開発する。 モダリティ的に対照的で階層的な蒸留、トランスフォーマー表現のランダム蒸留、他の蒸留も含み、表現を厳密かつ効果的に整列させる。 また,教師の訓練と蒸留の双方において,個々のデータポイントのランダムな消去を利用して,来訪情報のないシナリオを軽快にシミュレートし,効果的な知識伝達を促進する。 その結果、NECHO v2は、マルチモーダル医療データ上のバランスの取れた状態と不均衡な状態の両方において、マルチモーダルシーケンシャルな診断予測の優位性を示すことにより、自己検証を行う。

In this paper, we present NECHO v2, a novel framework designed to enhance the predictive accuracy of multimodal sequential patient diagnoses under uncertain missing visit sequences, a common challenge in clinical settings. Firstly, we modify NECHO to handle uncertain modality representation dominance under the imperfect data. Next, we develop a systematic knowledge distillation by employing the modified NECHO as both teacher and student. It encompasses a modality-wise contrastive and hierarchical distillation, transformer representation random distillation, along with other distillations to align representations tightly and effectively. We also utilise random erasing on individual data points within sequences during both training and distillation of teacher to lightly simulate scenario with missing visit information to foster effective knowledge transfer. As a result, NECHO v2 verifies itself by showing superiority in multimodal sequential diagnosis prediction on both balanced and imbalanced incomplete settings on multimodal healthcare data.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# UniVoxel: シーン表現の統一ボクセル化による高速逆レンダリング

UniVoxel: Fast Inverse Rendering by Unified Voxelization of Scene Representation ( http://arxiv.org/abs/2407.19542v1 )

ライセンス: Link先を確認
Shuang Wu, Songlin Tang, Guangming Lu, Jianzhuang Liu, Wenjie Pei, (参考訳) 典型的な逆レンダリング手法は、幾何学、材料、照明を別々にモデル化することで暗黙のニューラルシーン表現を学習することに焦点を当てており、最適化には重要な計算が必要である。 本研究は,UniVoxelと呼ばれるシーン表現の明示的な学習のための統一ボクセル化フレームワークを設計し,幾何学,材料,照明のモデリングを共同で行うことにより,逆レンダリングを大幅に高速化する。 そこで本研究では,画像の形状,材料,照明が,軽量ニューラルネットワークを介して一元的に学習できるため,シーンを潜在容積表現に符号化することを提案する。 特に、UniVoxelの本質的な設計は、局所球状ガウスを利用して入射光放射を表現し、統一されたボキセル化フレームワークへのモデリング照明のシームレスな統合を可能にすることである。 このような斬新な設計により、UniVoxelは、高価なマルチバウンス線トレーシングを使わずに、直接照明、間接照明、および光の可視性を効率的にモデル化することができる。 多様なシーンをカバーする複数のベンチマーク実験により、UniVoxelは他の手法と比較して最適化効率が大幅に向上し、シーンごとのトレーニング時間を数時間から18分に短縮し、良好な再構築品質を実現した。 コードはhttps://github.com/freemantom/UniVoxel.comで入手できる。

Typical inverse rendering methods focus on learning implicit neural scene representations by modeling the geometry, materials and illumination separately, which entails significant computations for optimization. In this work we design a Unified Voxelization framework for explicit learning of scene representations, dubbed UniVoxel, which allows for efficient modeling of the geometry, materials and illumination jointly, thereby accelerating the inverse rendering significantly. To be specific, we propose to encode a scene into a latent volumetric representation, based on which the geometry, materials and illumination can be readily learned via lightweight neural networks in a unified manner. Particularly, an essential design of UniVoxel is that we leverage local Spherical Gaussians to represent the incident light radiance, which enables the seamless integration of modeling illumination into the unified voxelization framework. Such novel design enables our UniVoxel to model the joint effects of direct lighting, indirect lighting and light visibility efficiently without expensive multi-bounce ray tracing. Extensive experiments on multiple benchmarks covering diverse scenes demonstrate that UniVoxel boosts the optimization efficiency significantly compared to other methods, reducing the per-scene training time from hours to 18 minutes, while achieving favorable reconstruction quality. Code is available at https://github.com/freemantom/UniVoxel.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# XLIP:医療用言語画像事前学習のためのクロスモーダル・アテンション・マスクド・モデリング

XLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training ( http://arxiv.org/abs/2407.19546v1 )

ライセンス: Link先を確認
Biao Wu, Yutong Xie, Zeyu Zhang, Minh Hieu Phan, Qi Chen, Ling Chen, Qi Wu, (参考訳) 医療分野におけるVLP(Vision-and-Language Pretraining)は、画像テキストペアのコントラスト学習を利用して、タスク間の効果的な伝達を実現する。 しかし、現在のVLPアプローチでは、医療領域に適用する場合、マスク付きモデリング戦略が2つの課題に直面している。 第一に、現在のモデルは、医療データの不足のため、重要な病理的特徴を正確に再構築するのに苦労している。 第二に、ほとんどのメソッドはペア化された画像テキストまたはイメージのみのデータのみを採用しており、ペア化されたデータとペアなしのデータの組み合わせを利用できない。 そこで本稿では,XLIP(Masked modelling for Medical Language-Image Pre-Training)フレームワークを提案する。 まず、マルチモーダルな特徴の相互作用によって、病理的視覚的およびテキスト的トークンを再構築し、医療的特徴を改善することを学ぶ、AttMIM(AttMIM)とエンティティ駆動型マスキング言語モデリングモジュール(EntMLM)を紹介する。 AttMIMモジュールは、テキスト機能に非常に反応する画像機能の一部をマスクする。 これにより、XLIPは医療効率において、非常に類似した画像データの再構成を改善することができる。 第2に、XLIPは、病原性プロンプトを導入してマルチモーダル学習を強化するために、不適切なデータを大まかに活用する。 実験結果から,XLIPは5つのデータセットに対してゼロショットおよび微調整による分類性能のSOTAを実現することがわかった。 私たちのコードはhttps://github.com/White65534/XLIPで利用可能です。

Vision-and-language pretraining (VLP) in the medical field utilizes contrastive learning on image-text pairs to achieve effective transfer across tasks. Yet, current VLP approaches with the masked modelling strategy face two challenges when applied to the medical domain. First, current models struggle to accurately reconstruct key pathological features due to the scarcity of medical data. Second, most methods only adopt either paired image-text or image-only data, failing to exploit the combination of both paired and unpaired data. To this end, this paper proposes a XLIP (Masked modelling for medical Language-Image Pre-training) framework to enhance pathological learning and feature learning via unpaired data. First, we introduce the attention-masked image modelling (AttMIM) and entity-driven masked language modelling module (EntMLM), which learns to reconstruct pathological visual and textual tokens via multi-modal feature interaction, thus improving medical-enhanced features. The AttMIM module masks a portion of the image features that are highly responsive to textual features. This allows XLIP to improve the reconstruction of highly similar image data in medicine efficiency. Second, our XLIP capitalizes unpaired data to enhance multimodal learning by introducing disease-kind prompts. The experimental results show that XLIP achieves SOTA for zero-shot and fine-tuning classification performance on five datasets. Our code will be available at https://github.com/White65534/XLIP
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# 時間的特徴:拡散モデル量子化のためのフレームワーク

Temporal Feature Matters: A Framework for Diffusion Model Quantization ( http://arxiv.org/abs/2407.19547v1 )

ライセンス: Link先を確認
Yushi Huang, Ruihao Gong, Xianglong Liu, Jing Liu, Yuhang Li, Jiwen Lu, Dacheng Tao, (参考訳) Diffusionモデルは画像生成に広く使われており、長期の推論時間と高いメモリ要求により、その適用性に大きな課題に直面している。 トレーニング後の効率的な量子化(PTQ)は、従来のモデルでこれらの問題に対処するために不可欠である。 これらのモデルとは異なり、拡散モデルは効果的なマルチラウンド・デノジングのために時間ステップ$t$に批判的に依存する。 典型的には、有限集合 $\{1, \ldots, T\}$ から$t$ は、サンプリングデータから完全に独立な複数の加群によって超感度時間的特徴に符号化される。 しかし、既存のPTQメソッドはこれらのモジュールを個別に最適化しない。 代わりに、それらは不適切な再建目的と複雑な校正方法を採用し、時間的特徴の著しい乱れと軌跡の認知に繋がる。 1)〜TIBベースの保守:我々の革新的な時間情報ブロック~(TIB)定義に基づき、時間情報認識再構成〜(TIAR)と有限セット校正〜(FSC)を効率よく整合させるために開発する。 2)~Cacheベースのメンテナンス: 関連するモジュールの間接的かつ複雑な最適化の代わりに、時間的特徴の量子化処理とキャッシュが、エラーを最小限に抑えるために開発されている。 3) 障害対応選択: 時間的特徴誤差を利用して、より優れたメンテナンスのためのきめ細かい選択を導出する。 このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。 各種データセットおよび拡散モデルに対する広範囲な試験により,優れた結果が得られた。 特に,本手法は4ビット量子化下での完全精度モデルの性能と密接に一致している。 さらに、量子化されたSD-XLモデルは、CPU上で2.20$\times$とGPU上で5.76$\times$のハードウェアアクセラレーションを達成する。

The Diffusion models, widely used for image generation, face significant challenges related to their broad applicability due to prolonged inference times and high memory demands. Efficient Post-Training Quantization (PTQ) is crucial to address these issues in traditional models. Unlike those models, diffusion models critically rely on the time-step $t$ for effective multi-round denoising. Typically, $t$ from the finite set $\{1, \ldots, T\}$ is encoded into a hypersensitive temporal feature by several modules, entirely independent of the sampling data. However, existing PTQ methods do not optimize these modules individually. Instead, they employ unsuitable reconstruction objectives and complex calibration methods, leading to significant disturbances in the temporal feature and denoising trajectory. To address these challenges, we introduce a novel quantization framework: 1)~TIB-based Maintenance: Based on our innovative Temporal Information Block~(TIB) definition, Temporal Information-aware Reconstruction~(TIAR) and Finite Set Calibration~(FSC) are developed to efficiently align full precision temporal features. 2)~Cache-based Maintenance: Instead of indirect and complex optimization for the related modules, pre-computing and caching quantized counterparts of temporal features are developed to minimize errors. 3)~Disturbance-aware Selection: Employ temporal feature errors to guide a fine-grained selection for superior maintenance. This framework preserves most of the temporal information and ensures high-quality end-to-end generation. Extensive testing on various datasets and diffusion models confirms our superior results. Notably, our approach closely matches the performance of the full-precision model under 4-bit quantization. Furthermore, the quantized SD-XL model achieves hardware acceleration of 2.20$\times$ on CPU and 5.76$\times$ on GPU demonstrating its efficiency.
翻訳日:2024-07-30 17:42:21 公開日:2024-07-28
# Cycle3D:ジェネレーション・リコンストラクション・サイクルによる高品質で一貫性のあるイメージ・ツー・3D生成

Cycle3D: High-quality and Consistent Image-to-3D Generation via Generation-Reconstruction Cycle ( http://arxiv.org/abs/2407.19548v1 )

ライセンス: Link先を確認
Zhenyu Tang, Junwu Zhang, Xinhua Cheng, Wangbo Yu, Chaoran Feng, Yatian Pang, Bin Lin, Li Yuan, (参考訳) 近年の3次元大規模再構成モデルでは、まずマルチビュー拡散モデルを用いてマルチビュー画像を生成し、次にフィードフォワードモデルを用いて3次元コンテンツを再構成するが、多次元拡散モデルはしばしば低品質で矛盾した画像を生成し、最終的な3次元再構成の品質に悪影響を及ぼす。 そこで本研究では,多段階拡散過程において,2次元拡散に基づく生成モジュールとフィードフォワード3次元再構成モジュールを循環的に利用する,Cycle3Dという統合3次元生成フレームワークを提案する。 具体的には、高品質なテクスチャを生成するために2次元拡散モデルを適用し、再構成モデルはマルチビューの一貫性を保証する。 大規模な実験により,最先端のベースラインと比較して,高品質で一貫性のある3Dコンテンツを作成する方法が優れていることが示された。

Recent 3D large reconstruction models typically employ a two-stage process, including first generate multi-view images by a multi-view diffusion model, and then utilize a feed-forward model to reconstruct images to 3D content.However, multi-view diffusion models often produce low-quality and inconsistent images, adversely affecting the quality of the final 3D reconstruction. To address this issue, we propose a unified 3D generation framework called Cycle3D, which cyclically utilizes a 2D diffusion-based generation module and a feed-forward 3D reconstruction module during the multi-step diffusion process. Concretely, 2D diffusion model is applied for generating high-quality texture, and the reconstruction model guarantees multi-view consistency.Moreover, 2D diffusion model can further control the generated content and inject reference-view information for unseen views, thereby enhancing the diversity and texture consistency of 3D generation during the denoising process. Extensive experiments demonstrate the superior ability of our method to create 3D content with high-quality and consistency compared with state-of-the-art baselines.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# クラス認識周波数変換によるドメイン適応の改善

Improving Domain Adaptation Through Class Aware Frequency Transformation ( http://arxiv.org/abs/2407.19551v1 )

ライセンス: Link先を確認
Vikash Kumar, Himanshu Patil, Rohit Lal, Anirban Chakraborty, (参考訳) 本研究では、周波数変換を用いて、ソースとターゲットドメイン(それぞれ合成画像と実画像)間のドメインシフトを減らし、ドメイン適応タスクを解く方法について検討する。 Unsupervised Domain Adaptation (UDA)アルゴリズムのほとんどは、小さなドメインギャップの仮定の下で境界分布をマッチングすることにより、ラベル付きソースと非ラベル付きターゲットドメイン間のグローバルなドメインシフトを減らすことに重点を置いている。 UDAのパフォーマンスは、ソースとターゲットの分布の領域ギャップが大きい場合に低下する。 そこで本研究では,従来の画像処理手法であるクラスAware Frequency Transformation(CAFT)をベースとした,擬似ラベルに基づく一貫した低周波スワップを用いた新しい手法を提案する。 提案手法は、最先端のディープラーニングベース手法と比較すると、計算効率が良く、既存のUDAアルゴリズムに簡単に接続でき、その性能を向上させることができる。 さらに、ターゲットの擬似ラベルを清潔でノイズの多いセットにフィルタリングするための、トップ2クラス予測確率(ADT2P)の絶対差に基づく新しいアプローチを提案する。 クリーンな擬似ラベルを持つサンプルは、教師なし学習アルゴリズムの性能を向上させるために使用できる。 フレームワーク全体をCAFT++と名付けます。 私たちは、多くのパブリックドメイン適応データセットで異なるUDAアルゴリズムの上位で、同じことを評価します。 大規模な実験の結果、CAFT++はすべての人気のあるベンチマークで大幅なパフォーマンス向上を達成できることがわかった。

In this work, we explore the usage of the Frequency Transformation for reducing the domain shift between the source and target domain (e.g., synthetic image and real image respectively) towards solving the Domain Adaptation task. Most of the Unsupervised Domain Adaptation (UDA) algorithms focus on reducing the global domain shift between labelled source and unlabelled target domains by matching the marginal distributions under a small domain gap assumption. UDA performance degrades for the cases where the domain gap between source and target distribution is large. In order to bring the source and the target domains closer, we propose a novel approach based on traditional image processing technique Class Aware Frequency Transformation (CAFT) that utilizes pseudo label based class consistent low-frequency swapping for improving the overall performance of the existing UDA algorithms. The proposed approach, when compared with the state-of-the-art deep learning based methods, is computationally more efficient and can easily be plugged into any existing UDA algorithm to improve its performance. Additionally, we introduce a novel approach based on absolute difference of top-2 class prediction probabilities (ADT2P) for filtering target pseudo labels into clean and noisy sets. Samples with clean pseudo labels can be used to improve the performance of unsupervised learning algorithms. We name the overall framework as CAFT++. We evaluate the same on the top of different UDA algorithms across many public domain adaptation datasets. Our extensive experiments indicate that CAFT++ is able to achieve significant performance gains across all the popular benchmarks.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# AI生成画像検出のためのCLIPの逆ロバスト性探索

Exploring the Adversarial Robustness of CLIP for AI-generated Image Detection ( http://arxiv.org/abs/2407.19553v1 )

ライセンス: Link先を確認
Vincenzo De Rosa, Fabrizio Guillaro, Giovanni Poggi, Davide Cozzolino, Luisa Verdoliva, (参考訳) 近年、AI生成画像の検出や悪意のある目的での使用を防止するために、多くの法医学的検知器が提案されている。 畳み込みニューラルネットワーク(CNN)はこの分野で長い間支配的なアーキテクチャであり、激しい研究の対象となっている。 しかし、最近提案されたTransformerベースの検出器は、特に一般化の点において、CNNベースの検出器と一致するか、さらに優れていることが示されている。 本稿では,視覚変換器のバックボーンに依存するコントラスト言語-画像事前学習(CLIP)法に着目し,その性能をCNN法と比較し,AI生成画像検出器の対角的ロバスト性について検討する。 種々の条件下で異なる敵攻撃に対するロバスト性について検討し、数値結果と周波数領域パターンの両方を解析する。 CLIPベースの検出器は、CNNベースの検出器と同様に、ホワイトボックス攻撃に対して脆弱である。 しかし、攻撃はCNNベースのメソッドとCLIPベースのメソッド間で簡単に伝達できない。 また、周波数領域における逆方向雑音パターンの異なる分布により、このことが確認される。 全体として、この分析はより効果的な戦略を開発するのに役立つ法医学的検出器の特性に関する新たな洞察を提供する。

In recent years, many forensic detectors have been proposed to detect AI-generated images and prevent their use for malicious purposes. Convolutional neural networks (CNNs) have long been the dominant architecture in this field and have been the subject of intense study. However, recently proposed Transformer-based detectors have been shown to match or even outperform CNN-based detectors, especially in terms of generalization. In this paper, we study the adversarial robustness of AI-generated image detectors, focusing on Contrastive Language-Image Pretraining (CLIP)-based methods that rely on Visual Transformer backbones and comparing their performance with CNN-based methods. We study the robustness to different adversarial attacks under a variety of conditions and analyze both numerical results and frequency-domain patterns. CLIP-based detectors are found to be vulnerable to white-box attacks just like CNN-based detectors. However, attacks do not easily transfer between CNN-based and CLIP-based methods. This is also confirmed by the different distribution of the adversarial noise patterns in the frequency domain. Overall, this analysis provides new insights into the properties of forensic detectors that can help to develop more effective strategies.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# Diffie-Hellmanの写真:VoWiFiの商用展開のキー交換

Diffie-Hellman Picture Show: Key Exchange Stories from Commercial VoWiFi Deployments ( http://arxiv.org/abs/2407.19556v1 )

ライセンス: Link先を確認
Gabriel Karl Gegenhuber, Florian Holzbauer, Philipp Frenzel, Edgar Weippl, Adrian Dabrowski, (参考訳) Voice over Wi-Fi (VoWiFi)は、IPsecトンネルを使用して、加入者の携帯電話(User Equipment, UE)からインターネット接続エンドポイントであるEvolved Packet Data Gateway (ePDG)を介して、Mobile Network Operator(MNO)コアネットワークにIPベースの電話を配信する。 IPsecトンネルはフェーズで設定される。 第1フェーズは暗号アルゴリズムとパラメータを交渉し、インターネット鍵交換プロトコルを介して鍵交換を行い、第2フェーズ(上記の暗号化で保護されている)は認証を行う。 安全でないキー交換は、後段とデータのセキュリティと機密性を危険にさらす。 本稿では、携帯電話や世界中の商用ネットワークで見られるフェーズ1設定と実装について分析する。 UE側では、大手メーカーの最近の5Gベースバンドチップセットを特定しました。 MNO側では、13のオペレーター(推定1億4000万人の加入者数)を3大陸で特定しましたが、すべて同じグローバルな10個のプライベートキーセットを使用しており、ランダムに提供しています。 これらの秘密鍵は、すべてのオペレーターのVoWiFiユーザーの共有鍵の解読を可能にする。 これらのオペレーターは共通のメーカーからコアネットワークをデプロイした。

Voice over Wi-Fi (VoWiFi) uses a series of IPsec tunnels to deliver IP-based telephony from the subscriber's phone (User Equipment, UE) into the Mobile Network Operator's (MNO) core network via an Internet-facing endpoint, the Evolved Packet Data Gateway (ePDG). IPsec tunnels are set up in phases. The first phase negotiates the cryptographic algorithm and parameters and performs a key exchange via the Internet Key Exchange protocol, while the second phase (protected by the above-established encryption) performs the authentication. An insecure key exchange would jeopardize the later stages and the data's security and confidentiality. In this paper, we analyze the phase 1 settings and implementations as they are found in phones as well as in commercially deployed networks worldwide. On the UE side, we identified a recent 5G baseband chipset from a major manufacturer that allows for fallback to weak, unannounced modes and verified it experimentally. On the MNO side -- among others -- we identified 13 operators (totaling an estimated 140 million subscribers) on three continents that all use the same globally static set of ten private keys, serving them at random. Those not-so-private keys allow the decryption of the shared keys of every VoWiFi user of all those operators. All these operators deployed their core network from one common manufacturer.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# ニューラル確率ボルテラ方程式:経路依存力学の学習

Neural stochastic Volterra equations: learning path-dependent dynamics ( http://arxiv.org/abs/2407.19557v1 )

ライセンス: Link先を確認
David J. Prömel, David Scheffels, (参考訳) 確率ボルテラ方程式(SVE)は、記憶効果と不規則な振る舞いを持つランダムシステムの時間進化の数学的モデルとして機能する。 本稿では, 神経確率微分方程式のクラスを一般化し, 理論的基礎を提供する。 ニューラルネットワークSVE,ニューラルSDE,Deep Operator Networks (DeepONets) の性能を比較し, 乱れた振り子方程式, 一般化されたOrnstein-Uhlenbeck過程, 粗いヘストンモデルなどの各種SVEに関する数値実験を行った。

Stochastic Volterra equations (SVEs) serve as mathematical models for the time evolutions of random systems with memory effects and irregular behaviour. We introduce neural stochastic Volterra equations as a physics-inspired architecture, generalizing the class of neural stochastic differential equations, and provide some theoretical foundation. Numerical experiments on various SVEs, like the disturbed pendulum equation, the generalized Ornstein--Uhlenbeck process and the rough Heston model are presented, comparing the performance of neural SVEs, neural SDEs and Deep Operator Networks (DeepONets).
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# ユニタリハール測定のアンチ集中化とランダム量子回路への応用

Anti-Concentration for the Unitary Haar Measure and Applications to Random Quantum Circuits ( http://arxiv.org/abs/2407.19561v1 )

ライセンス: Link先を確認
Bill Fefferman, Soumik Ghosh, Wei Zhan, (参考訳) 我々は、一意的ハール測度に対するカーベリー・ライトスタイルの反集中不等式を証明し、ランダムなユニタリの成分における多項式の確率が$\varepsilon$範囲に落ちることを示し、少なくとも$\varepsilon$の多項式であることを示す。 ランダム量子回路のスクランブル速度は、すなわち、すべての入力量子ビットが、光錐にタッチされた任意の出力量子ビットに対して少なくとも指数関数的に小さい影響を持つことを示す。 以下に示すのは、Haarランダムゲートを持つランダムな量子回路に適用可能な、新しいスクランブル速度のローバウンドの3つの応用である: $\bullet$ An optimal $\Omega(\log \varepsilon^{-1})$ depth lower bound for $\varepsilon$-approximate unitary design; $\bullet$ A polynomial-time quantum algorithm that compute the depth of a bounded-depth circuit, given Oracle access to the circuit; $\bullet$ A polynomial-time algorithm that learns log-depth circuits to polynomially Diamond distance, given oracle access to the circuit。 最初の深さの低い境界は、あらゆるアーキテクチャに対して機能する。 後者の2つのアルゴリズムは任意の幾何学的次元上で定義されたアーキテクチャに適用され、優れた光錐特性を持つ幅広い種類のアーキテクチャに一般化することができる。

We prove a Carbery-Wright style anti-concentration inequality for the unitary Haar measure, by showing that the probability of a polynomial in the entries of a random unitary falling into an $\varepsilon$ range is at most a polynomial in $\varepsilon$. Using it, we show that the scrambling speed of a random quantum circuit is lower bounded: Namely, every input qubit has an influence that is at least exponentially small in depth, on any output qubit touched by its lightcone. We give three applications of this new scrambling speed lower bound that apply to random quantum circuits with Haar random gates: $\bullet$ An optimal $\Omega(\log \varepsilon^{-1})$ depth lower bound for $\varepsilon$-approximate unitary designs; $\bullet$ A polynomial-time quantum algorithm that computes the depth of a bounded-depth circuit, given oracle access to the circuit; $\bullet$ A polynomial-time algorithm that learns log-depth circuits up to polynomially small diamond distance, given oracle access to the circuit. The first depth lower bound works against any architecture. The latter two algorithms apply to architectures defined over any geometric dimension, and can be generalized to a wide class of architectures with good lightcone properties.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# 予測-PEFT:事前学習した動き予測モデルのためのパラメータ効率の良い微調整

Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models ( http://arxiv.org/abs/2407.19564v1 )

ライセンス: Link先を確認
Jifeng Wang, Kaouther Messaoud, Yuejiang Liu, Juergen Gall, Alexandre Alahi, (参考訳) 運動予測の最近の進歩は、自己監督型事前訓練によって著しく推進されている。 しかし、特定の下流タスク、特にモーション予測に事前訓練されたモデルを適用することは、広範囲な微調整を通じて、しばしば非効率である。 この非効率性は、動き予測がマスクされた事前訓練タスクと密接に一致し、従来のフルチューニング手法がこのアライメントを完全に活用できないために生じる。 そこで本研究では,モデルパラメータの大部分を凍結する微調整戦略であるForecast-PEFTを紹介し,新たに導入されたプロンプトとアダプタの調整に焦点をあてる。 このアプローチは、事前学習された表現を保存するだけでなく、再学習が必要なパラメータの数を著しく削減し、効率を向上する。 この調整された戦略は、異なるデータセットに効率的に適応し、モデルの効率を高め、広範囲な再トレーニングを必要とせずにデータセット全体のロバストなパフォーマンスを確保する。 実験の結果,Forecast-PEFTは動作予測タスクにおいて従来の完全微調整手法よりも優れており,訓練可能なパラメータの17%しか必要とせず,精度が向上していることがわかった。 さらに,我々の総合的な適応であるForecast-FTにより予測性能が向上し,従来のベースライン法よりも最大9.6%向上した。 コードはhttps://github.com/csjfwang/Forecast-PEFT.comから入手できる。

Recent progress in motion forecasting has been substantially driven by self-supervised pre-training. However, adapting pre-trained models for specific downstream tasks, especially motion prediction, through extensive fine-tuning is often inefficient. This inefficiency arises because motion prediction closely aligns with the masked pre-training tasks, and traditional full fine-tuning methods fail to fully leverage this alignment. To address this, we introduce Forecast-PEFT, a fine-tuning strategy that freezes the majority of the model's parameters, focusing adjustments on newly introduced prompts and adapters. This approach not only preserves the pre-learned representations but also significantly reduces the number of parameters that need retraining, thereby enhancing efficiency. This tailored strategy, supplemented by our method's capability to efficiently adapt to different datasets, enhances model efficiency and ensures robust performance across datasets without the need for extensive retraining. Our experiments show that Forecast-PEFT outperforms traditional full fine-tuning methods in motion prediction tasks, achieving higher accuracy with only 17% of the trainable parameters typically required. Moreover, our comprehensive adaptation, Forecast-FT, further improves prediction performance, evidencing up to a 9.6% enhancement over conventional baseline methods. Code will be available at https://github.com/csjfwang/Forecast-PEFT.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# 機械配置インタラクションによる施設の伸縮と凝集の改善

Machine-arranged Interactions Improve Institutional Belonging and Cohesion ( http://arxiv.org/abs/2407.19565v1 )

ライセンス: Link先を確認
Mohammad M. Ghassemi, Tuka Alhanai, (参考訳) 本研究は, 機械配置会議への参加が, 組織的帰属感や人口集団の認識とどのように関連しているかを検討した。 我々は,新しい友人と会うためのプログラムに参加した535人の個人からデータを収集した。 データは、プログラムの開始時と終了時に、様々な人口集団の人口動態、所有、および知覚を測定する調査から成っている。 参加者は、ゼロ導入を受けたコントロールグループと、複数導入を受けた介入グループに分けられた。 参加者ごとの参加状況, デモグラフィー, プログラムに精通した他者への露出量について, それぞれ異なる12の特徴を計算した。 対象者の最終帰属と知覚との関係を,最初の帰属と知覚を制御しながら,線形モデルを用いて検討した。 その結果,機械配置ミーティングに参加した参加者は4.5%,他者に対する肯定的な認識が3.9%高かった。

We investigated how participation in machine-arranged meetings were associated with feelings of institutional belonging and perceptions of demographic groups. We collected data from 535 individuals who participated in a program to meet new friends. Data consisted of surveys measuring demography, belonging, and perceptions of various demographic groups at the start and end of the program. Participants were partitioned into a control group who received zero introductions, and an intervention group who received multiple introductions. For each participant, we computed twelve features describing participation status, demography and the amount of program-facilitated exposure to others who were similar to them and different from them. We used a linear model to study the association of our features with the participants' final belonging and perceptions while controlling for their initial belonging and perceptions. We found that those who participated in the machine-arranged meetings had 4.5% higher belonging, and 3.9% more positive perception of others.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# Rouser:適応しきい値学習を用いたロバストSNNトレーニング

Rouser: Robust SNN training using adaptive threshold learning ( http://arxiv.org/abs/2407.19566v1 )

ライセンス: Link先を確認
Sanaz Mahmoodi Takaghaj, Jack Sampson, (参考訳) スパイキングニューラルネットワーク(SNN)では、学習規則はニューロンのスパイク行動、すなわち、ニューロンの発射しきい値を超えるニューロンの膜電位によってスパイクが発生する場合に基づいており、このスパイクタイミングは重要な情報を符号化する。 しかし、閾値は一般的にハイパーパラメータとして扱われ、誤った選択はトレーニングプロセスの大部分をスパイクしないニューロンにつながり、学習の効率を損なう。 生体ニューロンの恒常性機構に着想を得たこの研究(Rouser)は、トレーニング非活性ニューロンをロースし、ループ内適応しきい値学習機構を用いてSNNトレーニングを改善するための研究である。 Rouserの適応しきい値は、入力データとネットワークハイパーパラメータに基づく動的調整、スパイクタイミングへの影響、トレーニングの改善を可能にする。 本研究は,SNNにおける重みを伴うニューロン閾値の学習の重要性について検討することに焦点を当てた。 時空間データセットNMNIST, DVS128, Spiking Heidelberg Digits (SHD) を用いたRouserの性能評価を行い, 現状のSNNトレーニング手法と比較し, アプローチの強みと限界について考察した。 以上の結果から,ハイパーパラメータからパラメータへのしきい値の促進は,訓練中の死ニューロンの問題に効果的に対処できることが示唆された。 Rouserは、ニューロモルフィックデータセットNMNIST、DVS128、SHDに類似したネットワークアーキテクチャを持つ最先端のSNNよりも最大で最大で70%低いトレーニングレイテンシを実現している。

In Spiking Neural Networks (SNNs), learning rules are based on neuron spiking behavior, that is, if and when spikes are generated due to a neuron's membrane potential exceeding that neuron's firing threshold, and this spike timing encodes vital information. However, the threshold is generally treated as a hyperparameter, and incorrect selection can lead to neurons that do not spike for large portions of the training process, hindering the effective rate of learning. Inspired by homeostatic mechanisms in biological neurons, this work (Rouser) presents a study to rouse training-inactive neurons and improve the SNN training by using an in-loop adaptive threshold learning mechanism. Rouser's adaptive threshold allows for dynamic adjustments based on input data and network hyperparameters, influencing spike timing and improving training. This study focuses primarily on investigating the significance of learning neuron thresholds alongside weights in SNNs. We evaluate the performance of Rouser on the spatiotemporal datasets NMNIST, DVS128 and Spiking Heidelberg Digits (SHD), compare our results with state-of-the-art SNN training techniques, and discuss the strengths and limitations of our approach. Our results suggest that promoting threshold from a hyperparameter to a parameter can effectively address the issue of dead neurons during training, resulting in a more robust training algorithm that leads to improved training convergence, increased test accuracy, and substantial reductions in the number of training epochs needed to achieve viable accuracy. Rouser achieves up to 70% lower training latency while providing up to 2% higher accuracy over state-of-the-art SNNs with similar network architecture on the neuromorphic datasets NMNIST, DVS128 and SHD.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# ポリGNNのシャープ境界とグラフノイズの影響

Sharp Bounds for Poly-GNNs and the Effect of Graph Noise ( http://arxiv.org/abs/2407.19567v1 )

ライセンス: Link先を確認
Luciano Vinas, Arash A. Amini, (参考訳) 半教師付きノード分類の問題に対して,グラフ-ポリリノミカル特徴を持つグラフニューラルネットワークの分類性能について検討した。 一般文脈確率ブロックモデル(CSBM)の下でのポリGNNを解析し,その出力ノード表現におけるクラス間の分離率を鋭く評価する。 問題は、このレートがネットワークの深さに依存するかどうか、すなわちより深いネットワークがより早く分離できるかどうかである。 十分に大きなグラフに対して、深さ$k > 1$ poly-GNN は深さ$k=1$のグラフと同じ分離率を示す。 我々の分析は、深部GNNにおける「グラフノイズ」の影響を強調し、定量化し、グラフ構造のノイズがグラフ内の他の信号源をどのように支配するかを示し、さらなるアグリゲーションがもたらす利益を否定する。 また, 偶数層と奇数層のGNNでは, ノイズが伝搬する様子が微妙に異なることも明らかにした。

We investigate the classification performance of graph neural networks with graph-polynomial features, poly-GNNs, on the problem of semi-supervised node classification. We analyze poly-GNNs under a general contextual stochastic block model (CSBM) by providing a sharp characterization of the rate of separation between classes in their output node representations. A question of interest is whether this rate depends on the depth of the network $k$, i.e., whether deeper networks can achieve a faster separation? We provide a negative answer to this question: for a sufficiently large graph, a depth $k > 1$ poly-GNN exhibits the same rate of separation as a depth $k=1$ counterpart. Our analysis highlights and quantifies the impact of ``graph noise'' in deep GNNs and shows how noise in the graph structure can dominate other sources of signal in the graph, negating any benefit further aggregation provides. Our analysis also reveals subtle differences between even and odd-layered GNNs in how the feature noise propagates.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# LLMs Good Annotator for Discourse-level Event Relation extract?

Are LLMs Good Annotators for Discourse-level Event Relation Extraction? ( http://arxiv.org/abs/2407.19568v1 )

ライセンス: Link先を確認
Kangda Wei, Aayush Gautam, Ruihong Huang, (参考訳) 大規模言語モデル (LLM) は、様々な自然言語処理タスクにおいて習熟度を示す。 しかし、談話レベルの事象関連抽出(ERE)タスクに対する効果は未解明のままである。 本稿では,LLMが文書の長文化や,コア参照,時間的,因果,従属型を含む複雑な関係を特徴とする談話レベルのEREタスクに対処する上での有効性を評価する。 商用モデル GPT-3.5 とオープンソースモデル LLaMA-2 を用いて評価を行った。 本研究は, 教師あり学習によって確立されたベースラインと比較して, LLMの顕著な性能低下を明らかにした。 Supervised Fine-Tuning (SFT) はLLMの性能を向上させることができるが、より小さい教師付きベースラインモデルに比べてスケールが良くない。 定量的および定性的な分析により,LLMは事象関係を抽出する際には,事象記述の作成傾向や,関係間の遷移規則の捕捉,長距離関係の検出,イベント記述の密接なコンテキストの理解など,いくつかの弱点があることが示された。

Large Language Models (LLMs) have demonstrated proficiency in a wide array of natural language processing tasks. However, its effectiveness over discourse-level event relation extraction (ERE) tasks remains unexplored. In this paper, we assess the effectiveness of LLMs in addressing discourse-level ERE tasks characterized by lengthy documents and intricate relations encompassing coreference, temporal, causal, and subevent types. Evaluation is conducted using an commercial model, GPT-3.5, and an open-source model, LLaMA-2. Our study reveals a notable underperformance of LLMs compared to the baseline established through supervised learning. Although Supervised Fine-Tuning (SFT) can improve LLMs performance, it does not scale well compared to the smaller supervised baseline model. Our quantitative and qualitative analysis shows that LLMs have several weaknesses when applied for extracting event relations, including a tendency to fabricate event mentions, and failures to capture transitivity rules among relations, detect long distance relations, or comprehend contexts with dense event mentions.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# EthereumおよびLayer-2チェーンにおける最大抽出可能な値緩和手法に関する総合的な調査

Maximal Extractable Value Mitigation Approaches in Ethereum and Layer-2 Chains: A Comprehensive Survey ( http://arxiv.org/abs/2407.19572v1 )

ライセンス: Link先を確認
Zeinab Alipanahloo, Abdelhakim Senhaji Hafid, Kaiwen Zhang, (参考訳) 最大抽出可能な値(MEV)はEthereumエコシステムにおける重要な課題であり、レイヤ1(L1)とレイヤ2(L2)の両方のネットワークの公平性、セキュリティ、効率に影響を与える。 MEVは、鉱夫やバリデーターが取引命令を操作して、しばしば他のネットワーク参加者を犠牲にして付加価値を抽出する際に発生する。 これは、予測不可能と潜在的損失を導入することによってユーザエクスペリエンスに影響を与えるだけでなく、分散化と信頼の根底にある原則を脅かす。 ブロックチェーンアプリケーションの複雑化、特に分散ファイナンス(DeFi)プロトコルの増加を考えると、MEVに対処することが重要です。 本稿では,イーサリアムL1と各種L2ソリューションの両方に適用したMEV緩和技術に関する包括的調査を行う。 トランザクションシークエンシングや暗号手法から、分散アプリケーション(DApp)の再構成や、フロントランニングの機会の削減といった課題についても述べています。 提案手法の有効性,実装課題,ネットワーク性能への影響について検討する。 この論文は、現在の研究、現実世界のアプリケーション、新興トレンドを合成することによって、研究者、開発者、政策立案者に対して、進化するブロックチェーンの世界におけるMEVを理解し、戦うための詳細なロードマップを提供することを目的としている。

Maximal Extractable Value (MEV) represents a pivotal challenge within the Ethereum ecosystem; it impacts the fairness, security, and efficiency of both Layer 1 (L1) and Layer 2 (L2) networks. MEV arises when miners or validators manipulate transaction ordering to extract additional value, often at the expense of other network participants. This not only affects user experience by introducing unpredictability and potential financial losses but also threatens the underlying principles of decentralization and trust. Given the growing complexity of blockchain applications, particularly with the increase of Decentralized Finance (DeFi) protocols, addressing MEV is crucial. This paper presents a comprehensive survey of MEV mitigation techniques as applied to both Ethereums L1 and various L2 solutions. We provide a novel categorization of mitigation strategies; we also describe the challenges, ranging from transaction sequencing and cryptographic methods to reconfiguring decentralized applications (DApps) to reduce front-running opportunities. We investigate their effectiveness, implementation challenges, and impact on network performance. By synthesizing current research, real-world applications, and emerging trends, this paper aims to provide a detailed roadmap for researchers, developers, and policymakers to understand and combat MEV in an evolving blockchain landscape.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# ブリッジング古典と量子:量子回路シミュレーションにおける群論的アプローチ

Bridging Classical and Quantum: Group-Theoretic Approach to Quantum Circuit Simulation ( http://arxiv.org/abs/2407.19575v1 )

ライセンス: Link先を確認
Daksh Shami, (参考訳) 量子回路を量子コンピュータ上で効率的にシミュレーションすることは、量子コンピューティングの根本的な課題である。 本稿では,既存の量子回路用シミュレータ上での指数的高速化(ポリノミカルランタイム)を実現する新しい理論手法を提案する。 この手法は、高度な群の理論と対称性の考慮を利用して、量子回路を効率的な古典的シミュレーションに使える等価な形式にマッピングする。 このアプローチの数学的基礎を確立するいくつかの基本的な定理が証明されており、一般化されたゴッテマン・クニルの定理を含む。 この手法のポテンシャルは、理論的解析と予備的なベンチマークによって示される。 この研究は、古典計算と量子計算の境界の理解に寄与し、量子回路解析と最適化のための新しいツールを提供し、群論と量子計算の交点におけるさらなる研究の道を開く。 この発見は、量子アルゴリズムの設計、誤り訂正、より効率的な量子シミュレータの開発に影響を及ぼす可能性がある。

Efficiently simulating quantum circuits on classical computers is a fundamental challenge in quantum computing. This paper presents a novel theoretical approach that achieves exponential speedups (polynomial runtime) over existing simulators for a wide class of quantum circuits. The technique leverages advanced group theory and symmetry considerations to map quantum circuits to equivalent forms amenable to efficient classical simulation. Several fundamental theorems are proven that establish the mathematical foundations of this approach, including a generalized Gottesman-Knill theorem. The potential of this method is demonstrated through theoretical analysis and preliminary benchmarks. This work contributes to the understanding of the boundary between classical and quantum computation, provides new tools for quantum circuit analysis and optimization, and opens up avenues for further research at the intersection of group theory and quantum computation. The findings may have implications for quantum algorithm design, error correction, and the development of more efficient quantum simulators.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# デュアルキュービットスピンセンサを用いた多重走査顕微鏡

Multiplexed scanning microscopy with dual-qubit spin sensors ( http://arxiv.org/abs/2407.19576v1 )

ライセンス: Link先を確認
William S. Huxter, Federico Dalmagioni, Christian L. Degen, (参考訳) マルチキュービットセンサーを用いた走査型プローブ顕微鏡は、撮像速度を向上し、2点相関などの従来アクセス不能な量を測定することができる。 我々は2つの窒素空孔(NV)中心を先端頂点に含む走査型プローブを用いた多重量子センシング手法を開発した。 共有光チャネルは同時キュービット初期化と読み出しに使用され、位相依存性および周波数依存性のマイクロ波スピン操作は光読み出し信号の除算に利用される。 走査型デュアルNV磁力計は、強磁性競馬場装置の複数の磁場投影を同時に撮像することによって、初めて実証される。 次に、電流搬送ワイヤ間の空間的相関場ゆらぎの2点共分散を記録する。 我々の多重化フレームワークは、相転移や電子ノイズを含む様々な時空間相関をナノスケール分解能で調べる手法を確立している。

Scanning probe microscopy with multi-qubit sensors offers the potential to improve imaging speed and measure previously inaccessible quantities, such as two-point correlations. We develop a multiplexed quantum sensing approach with scanning probes containing two nitrogen-vacancy (NV) centers at the tip apex. A shared optical channel is used for simultaneous qubit initialization and readout, while phase- and frequency-dependent microwave spin manipulations are leveraged for de-multiplexing the optical readout signal. Scanning dual-NV magnetometry is first demonstrated by simultaneously imaging multiple field projections of a ferrimagnetic racetrack device. Then, we record the two-point covariance of spatially correlated field fluctuations across a current-carrying wire. Our multiplex framework establishes a method to investigate a variety of spatio-temporal correlations, including phase transitions and electronic noise, with nanoscale resolution.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# より大型のミニバッチを用いたLLMのメモリ効率向上

Memory-efficient Training of LLMs with Larger Mini-batches ( http://arxiv.org/abs/2407.19580v1 )

ライセンス: Link先を確認
Dang Nguyen, Wenhan Yang, Rathul Anand, Yu Yang, Baharan Mirzasoleiman, (参考訳) より大きなミニバッチによるトレーニングは、トレーニング機械学習モデルのパフォーマンスと収束率を改善する。 しかし、GPUメモリの要求が大きいため、数十億のパラメータを持つ大規模言語モデル(LLM)では、大規模なミニバッチによるトレーニングが禁止される。 この問題に対処するために,より大規模なミニバッチを用いたトレーニングのダイナミクスをシミュレートする小型ミニバッチを提案する。 具体的には、大小小バッチの勾配を極大化問題として、より小さな小バッチを選択する。 しかし、勾配の非常に大きな次元性は、問題を解くのを非常に困難にしている。 これを解決するために、ゼロ階最適化とニューラルネットワークプルーニングのアイデアを活用し、低次元勾配推定を求める。 本研究では,本手法で検出した小型バッチに対して,より優れた収束率を証明し,その効果を実証的に示す。 提案手法は,MathInstruct上でPhi-2を微調整することで,メモリ要件を2倍に削減し,トレーニングを1.3倍高速化する。 本手法は,LORAや他のメモリ効率のよい手法で容易に積み重ねることによって,LLMの学習におけるメモリ要求をさらに軽減することができる。

Training with larger mini-batches improves the performance and convergence rate of training machine learning models. However, training with large mini-batches becomes prohibitive for Large Language Models (LLMs) with billions of parameters, due to the large GPU memory requirement. To address this problem, we propose finding small mini-batches that simulate the dynamics of training with larger mini-batches. Specifically, we formulate selecting smaller mini-batches of examples that closely capture gradients of large mini-batches as a submodular maximization problem. Nevertheless, the very large dimensionality of the gradients makes the problem very challenging to solve. To address this, we leverage ideas from zeroth-order optimization and neural network pruning to find lower-dimensional gradient estimates that allow finding high-quality subsets effectively with a limited amount of memory. We prove the superior convergence rate of training on the small mini-batches found by our method and empirically show its effectiveness. Our method can effectively reduce the memory requirement by 2x and speed up training by 1.3x, as we confirm for fine-tuning Phi-2 on MathInstruct. Our method can be easily stacked with LoRA and other memory-efficient methods to further reduce the memory requirements of training LLMs.
翻訳日:2024-07-30 15:45:34 公開日:2024-07-28
# SaulLM-54B & SaulLM-141B: 法域適応のスケールアップ

SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain ( http://arxiv.org/abs/2407.19584v1 )

ライセンス: Link先を確認
Pierre Colombo, Telmo Pires, Malik Boudiaf, Rui Melo, Dominic Culver, Sofia Morgado, Etienne Malaboeuf, Gabriel Hautreux, Johanne Charpentier, Michael Desa, (参考訳) 本稿では,法分野に適した2つの大言語モデル (LLM) である SaulLM-54B と SaulLM-141B を紹介する。 これらのモデルは、それぞれ54億と1410億のパラメータからなるアーキテクチャを特徴としているが、Mixtralアーキテクチャに基づいている。 The development of SaulLM-54B and SaulLM-141B is guideed by large-scale domain adaptation, divided of the exploitation of continued pretraining involved a base corpus that includes a 5400 billion of legal tokens, (2) the implementation of a special legal instruction-following protocol, and (3) the alignment of model outputs with human preferences in legal interpretations。 第2段階と第3段階の合成データの統合により、法的テキストの解釈と処理能力が向上し、最先端のパフォーマンスを効果的に達成し、LegalBench-Instruct上での以前のオープンソースモデルよりも優れています。 本研究は、このスケールでのドメイン固有適応に関わるトレードオフを探求し、強力なデコーダモデルを用いた将来のドメイン適応に関する知見を提供する。 SaulLM-7Bをベースとしたこの研究は、法的なタスクに優れたLCMを製造するためのアプローチを洗練させる。 私たちは、再利用と共同研究を容易にするために、MITライセンスの下でSulLM-54BとSulLM-141Bの上にベース、インストラクション、アライメントバージョンをリリースしています。

In this paper, we introduce SaulLM-54B and SaulLM-141B, two large language models (LLMs) tailored for the legal sector. These models, which feature architectures of 54 billion and 141 billion parameters, respectively, are based on the Mixtral architecture. The development of SaulLM-54B and SaulLM-141B is guided by large-scale domain adaptation, divided into three strategies: (1) the exploitation of continued pretraining involving a base corpus that includes over 540 billion of legal tokens, (2) the implementation of a specialized legal instruction-following protocol, and (3) the alignment of model outputs with human preferences in legal interpretations. The integration of synthetically generated data in the second and third steps enhances the models' capabilities in interpreting and processing legal texts, effectively reaching state-of-the-art performance and outperforming previous open-source models on LegalBench-Instruct. This work explores the trade-offs involved in domain-specific adaptation at this scale, offering insights that may inform future studies on domain adaptation using strong decoder models. Building upon SaulLM-7B, this study refines the approach to produce an LLM better equipped for legal tasks. We are releasing base, instruct, and aligned versions on top of SaulLM-54B and SaulLM-141B under the MIT License to facilitate reuse and collaborative research.
翻訳日:2024-07-30 15:35:33 公開日:2024-07-28
# ジェネレーティブAIは人間の創造者にとって既存の脅威か? : 金融経済学からの洞察

Is Generative AI an Existential Threat to Human Creatives? Insights from Financial Economics ( http://arxiv.org/abs/2407.19586v1 )

ライセンス: Link先を確認
Jiasun Li, (参考訳) 生成的AIモデル(例えば、GPTのような大きな言語モデルやDiffusionのような大きな画像モデル)の驚くべき上昇により、人間の創造者の将来に対する懸念が高まっている。 具体的には、生成モデルの力がさらに増加するにつれて、最終的にはすべての創造者の仕事を置き換えるのだろうか? 既存の生成AIモデルの能力が理論上の限界に達しても、答えは"ノー"である、と我々は主張する。 我々の理論は、情報効率のよい市場の不可避性に関する金融経済学の見慣れた洞察(Grossman and Stiglitz (1980))に類似している。 しかし、もし人間が新しいコンテンツを作成しなければ、生成的AIは古い情報からしか学べず、物理的な世界での新しい出来事を反映した最新のコンテンツを生成することができない。 これによりパラドックスが発生する。

With the phenomenal rise of generative AI models (e.g., large language models such as GPT or large image models such as Diffusion), there are increasing concerns about human creatives' futures. Specifically, as generative models' power further increases, will they eventually replace all human creatives' jobs? We argue that the answer is "no," even if existing generative AI models' capabilities reach their theoretical limit. Our theory has a close analogy to a familiar insight in financial economics on the impossibility of an informationally efficient market [Grossman and Stiglitz (1980)]: If generative AI models can provide all the content humans need at low variable costs, then there is no incentive for humans to spend costly resources on content creation as they cannot profit from it. But if no human creates new content, then generative AI can only learn from stale information and be unable to generate up-to-date content that reflects new happenings in the physical world. This creates a paradox.
翻訳日:2024-07-30 15:35:33 公開日:2024-07-28
# 真の三部体非局所性の統計的証拠の強さ

Strength of statistical evidence for genuine tripartite nonlocality ( http://arxiv.org/abs/2407.19587v1 )

ライセンス: Link先を確認
Soumyadip Patra, Peter Bierhorst, (参考訳) ネットワーク非局所性の最近の進歩は、局所演算と共有ランダム性に基づく真のマルチパーティライト非局所性(LOSR-GMNL)の概念につながっている。 本稿では,LOSR-GMNLの最近の2つの実験例について考察し,各2つのサブセットが2つのリソースを共有し,各パーティが無制限に共有されたランダム性にアクセスできるネットワークにおいて相関を示すことが目的である三部作シナリオに着目した。 従来の統計分析では、実験標準偏差数による目撃不平等の違反を測定することは、記憶効果のような微妙さを考慮しない。 本研究では,有限実験データを解析するPBRプロトコルに基づくより健全な手法を実証し,真三部体非局所性を求める証拠の強度を有効な$p$-値で定量化する。 そこで本研究では, 近似ポリトープ手法を用いて, テスト係数の最適化を効率的に行うことを提案する。 より小さなポリトープへのさらなる制限を正当化することで、統計的厳密さを維持しながら実用性を高めることができる。

Recent advancements in network nonlocality have led to the concept of local operations and shared randomness-based genuine multipartite nonlocality (LOSR-GMNL). In this paper, we consider two recent experimental demonstrations of LOSR-GMNL, focusing on a tripartite scenario where the goal is to exhibit correlations impossible in a network where each two-party subset shares bipartite resources and every party has access to unlimited shared randomness. Traditional statistical analyses measuring violations of witnessing inequalities by the number of experimental standard deviations do not account for subtleties such as memory effects. We demonstrate a more sound method based on the prediction-based ratio (PBR) protocol to analyse finite experimental data and quantify the strength of evidence in favour of genuine tripartite nonlocality in terms of a valid $p$-value. In our work, we propose an efficient modification of the test factor optimisation using an approximating polytope approach. By justifying a further restriction to a smaller polytope we enhance practical feasibility while maintaining statistical rigour.
翻訳日:2024-07-30 15:35:33 公開日:2024-07-28
# ギャップを埋める:単眼の携帯電話からスタジオのようなアバターを作る

Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture ( http://arxiv.org/abs/2407.19593v1 )

ライセンス: Link先を確認
ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao, (参考訳) 個人のためにフォトリアリスティックなアバターを作るには、LightStageシステムのような複雑で高価なスタジオデバイスで広範囲に撮影セッションを行う必要がある。 ニューラル表現の最近の進歩により、高速な電話スキャンからフォトリアリスティックおよびアニマタブルな3Dアバターの生成が可能になったが、撮影時の照明は内蔵されており、顔の詳細が欠如しており、耳の後ろのような領域に欠けている。 そのため、スタジオで撮影するアバターに比べて品質が低下した。 本稿では,このギャップを埋める手法として,短い単眼電話からスタジオライクな照明テクスチャマップを生成する手法を提案する。 そこで我々は、StyleGAN2の$W^+$空間を用いて、音声テクスチャマップのパラメータ化を行い、ほぼ完全な再構成を可能にする。 そこで,StyleGAN2 を W^+$パラメタライズド空間にサンプリングし,非常に小さなスタジオ捕獲テクスチャを対角訓練信号として用いた。 顔のディテールの現実性と精度をさらに高めるため,携帯電話のテクスチャマップの画像勾配によって導かれる慎重に設計された拡散モデルを用いて,StyleGAN2の出力を超解する。 トレーニングが終わると、私たちは、カジュアルなモノクラースマートフォンビデオからスタジオのような顔のテクスチャマップを作るのに長けています。 その能力を実証し、モノクラー電話のキャプチャから、フォトリアリスティックで、均一に照らされた完全なアバターを創出する。 http://shahrukhathar.github.io/2024/07/22/Bridging.html}{ プロジェクトページはここにある。 ※

Creating photorealistic avatars for individuals traditionally involves extensive capture sessions with complex and expensive studio devices like the LightStage system. While recent strides in neural representations have enabled the generation of photorealistic and animatable 3D avatars from quick phone scans, they have the capture-time lighting baked-in, lack facial details and have missing regions in areas such as the back of the ears. Thus, they lag in quality compared to studio-captured avatars. In this paper, we propose a method that bridges this gap by generating studio-like illuminated texture maps from short, monocular phone captures. We do this by parameterizing the phone texture maps using the $W^+$ space of a StyleGAN2, enabling near-perfect reconstruction. Then, we finetune a StyleGAN2 by sampling in the $W^+$ parameterized space using a very small set of studio-captured textures as an adversarial training signal. To further enhance the realism and accuracy of facial details, we super-resolve the output of the StyleGAN2 using carefully designed diffusion model that is guided by image gradients of the phone-captured texture map. Once trained, our method excels at producing studio-like facial texture maps from casual monocular smartphone videos. Demonstrating its capabilities, we showcase the generation of photorealistic, uniformly lit, complete avatars from monocular phone captures. \href{http://shahrukhathar.github.io/2024/07/22/Bridging.html}{The project page can be found here.}
翻訳日:2024-07-30 15:35:33 公開日:2024-07-28
# メタリワード言語モデル: LLM-as-a-Meta-Judgeによる自己改善型アライメント

Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge ( http://arxiv.org/abs/2407.19594v1 )

ライセンス: Link先を確認
Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar, (参考訳) 大規模言語モデル(LLM)は、多くのドメインにおける人間の知識を急速に上回っている。 これらのモデルの改善は伝統的に人的データに頼っているが、近年の自己回帰機構(Yuan et al , 2024)は、LLMが人間のラベルに頼らず、自分自身の反応を判断することで改善できることを示した。 しかし、既存の手法は主に判断能力よりもモデル応答の改善に重点を置いており、反復訓練中に急速に飽和する。 この問題に対処するために,モデルが自身の判断を判断し,そのフィードバックを用いて判断スキルを洗練させる,自己改善プロセスに新たなメタリワード(Meta-Rewarding)ステップを導入する。 驚くべきことに、この教師なしのアプローチはモデルの判断能力を改善し、AlpacaEval 2では22.9%から39.4%、Arena-Hardでは20.6%から29.1%と、Llama-3-8B-Instructの勝利率の改善によって示されるように、指示に従う。 これらの結果は,人間の監督を伴わない自己改善モデルの可能性が強く示唆された。

Large Language Models (LLMs) are rapidly surpassing human knowledge in many domains. While improving these models traditionally relies on costly human data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs can improve by judging their own responses instead of relying on human labelers. However, existing methods have primarily focused on improving model responses rather than judgment capabilities, resulting in rapid saturation during iterative training. To address this issue, we introduce a novel Meta-Rewarding step to the self-improvement process, where the model judges its own judgements and uses that feedback to refine its judgment skills. Surprisingly, this unsupervised approach improves the model's ability to judge {\em and} follow instructions, as demonstrated by a win rate improvement of Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on Arena-Hard. These results strongly suggest the potential for self-improving models without human supervision.
翻訳日:2024-07-30 15:35:33 公開日:2024-07-28
# ChessはWord2vecモデルのデータとして活躍する会社だ。

You shall know a piece by the company it keeps. Chess plays as a data for word2vec models ( http://arxiv.org/abs/2407.19600v1 )

ライセンス: Link先を確認
Boris Orekhov, (参考訳) 本稿では,非言語的データ,チェス遊び,比喩的に同一視し,類推を求める言語的分析手法を応用する。 チェスゲーム表記法は一種のテキストであり、ある言語の単語や文として作品の動きや位置の記録を考えることができる。 本稿では,自然言語テキストの代わりに,単語埋め込み(word2vec)がチェスゲームテキストでどのように機能するかを示す。 このチェスデータの表現が、どのようにして生産的に使われるかはわかりません。 これらのベクターモデルは、エンジンや人々が最良の行動を選ぶのに役立つとは考えられません。 しかし、純粋に学術的な意味では、そのような情報表現の方法はゲームの本質について重要なものを捉えていることは明らかであり、必ずしも勝利に繋がるとは限らない。

In this paper, I apply linguistic methods of analysis to non-linguistic data, chess plays, metaphorically equating one with the other and seeking analogies. Chess game notations are also a kind of text, and one can consider the records of moves or positions of pieces as words and statements in a certain language. In this article I show how word embeddings (word2vec) can work on chess game texts instead of natural language texts. I don't see how this representation of chess data can be used productively. It's unlikely that these vector models will help engines or people choose the best move. But in a purely academic sense, it's clear that such methods of information representation capture something important about the very nature of the game, which doesn't necessarily lead to a win.
翻訳日:2024-07-30 15:35:33 公開日:2024-07-28
# SCART: 機械学習によるSTT-RAMキャッシュ保持時間予測

SCART: Predicting STT-RAM Cache Retention Times Using Machine Learning ( http://arxiv.org/abs/2407.19604v1 )

ライセンス: Link先を確認
Dhruv Gajaria, Kyle Kuan, Tosiron Adegbija, (参考訳) 従来の研究では、STT-RAMの書き込みエネルギーと遅延を低減するために、不揮発性スピントランスファートルクRAM(STT-RAM)の保持時間を緩和できることが示されている。 しかし、異なるアプリケーションが異なる保持時間を必要とする可能性があるため、様々なアプリケーションのニーズを満たすために、STT-RAM保持時間について批判的に検討する必要がある。 このプロセスは、オーバヘッドの探索によって難しくなり、STT-RAMキャッシュが出現し、設計時に簡単には利用できないという事実により、さらに悪化する可能性がある。 本稿では、探索オーバーヘッドを最小限に抑えるため、既知のSRAM統計(例えば、SRAM統計)を用いて適切なSTT-RAM保持時間を予測する。 本稿では,STT-RAM Cache Retention Time (SCART)モデルを提案する。 実験の結果、SCARTは平均して、均質保持時間と比較して平均で20.34%と29.12%の遅延とエネルギーを減少させ、探査オーバーヘッドを以前の作業に比べて52.58%削減できることがわかった。

Prior studies have shown that the retention time of the non-volatile spin-transfer torque RAM (STT-RAM) can be relaxed in order to reduce STT-RAM's write energy and latency. However, since different applications may require different retention times, STT-RAM retention times must be critically explored to satisfy various applications' needs. This process can be challenging due to exploration overhead, and exacerbated by the fact that STT-RAM caches are emerging and are not readily available for design time exploration. This paper explores using known and easily obtainable statistics (e.g., SRAM statistics) to predict the appropriate STT-RAM retention times, in order to minimize exploration overhead. We propose an STT-RAM Cache Retention Time (SCART) model, which utilizes machine learning to enable design time or runtime prediction of right-provisioned STT-RAM retention times for latency or energy optimization. Experimental results show that, on average, SCART can reduce the latency and energy by 20.34% and 29.12%, respectively, compared to a homogeneous retention time while reducing the exploration overheads by 52.58% compared to prior work.
翻訳日:2024-07-30 15:35:33 公開日:2024-07-28
# 音声による人間の意識の視線予測

Look Hear: Gaze Prediction for Speech-directed Human Attention ( http://arxiv.org/abs/2407.19605v1 )

ライセンス: Link先を確認
Sounak Mondal, Seoyoung Ahn, Zhibo Yang, Niranjan Balasubramanian, Dimitris Samaras, Gregory Zelinsky, Minh Hoai, (参考訳) コンピュータシステムが音声言語を使って人間と効果的に対話するためには、その単語がユーザーのモーメント・バイ・モーメント・アテンションにどのように影響するかを理解する必要がある。 本研究は,被写体が視線で固定されるべき場面において,被写体を規定する参照表現を視線で見るときの注意の漸進的予測に焦点をあてる。 この漸進的対象参照タスクにおける視線走査パスを予測するために,各単語が参照表現で引き起こす人間の定着を予測できるReferral Transformer Model(ART)を開発した。 ARTは、マルチモーダルトランスフォーマーエンコーダを使用して、視線行動とその基盤となる接地タスクを共同で学習し、自動回帰トランスフォーマーデコーダを使用して、各ワードに対して、固定履歴に基づく可変数の固定を予測している。 ARTをトレーニングするために、220人の参加者から2,094対のユニークな画像表現対に対応する19,738人の視線スキャンパスからなる大規模なデータセットであるRefCOCO-Gazeを開発した。 定量的および定性的な分析では、ARTはスキャンパス予測の既存の手法よりも優れているだけでなく、待機、スキャン、検証など、いくつかの人間の注意パターンを捉えているように見える。

For computer systems to effectively interact with humans using spoken language, they need to understand how the words being generated affect the users' moment-by-moment attention. Our study focuses on the incremental prediction of attention as a person is seeing an image and hearing a referring expression defining the object in the scene that should be fixated by gaze. To predict the gaze scanpaths in this incremental object referral task, we developed the Attention in Referral Transformer model or ART, which predicts the human fixations spurred by each word in a referring expression. ART uses a multimodal transformer encoder to jointly learn gaze behavior and its underlying grounding tasks, and an autoregressive transformer decoder to predict, for each word, a variable number of fixations based on fixation history. To train ART, we created RefCOCO-Gaze, a large-scale dataset of 19,738 human gaze scanpaths, corresponding to 2,094 unique image-expression pairs, from 220 participants performing our referral task. In our quantitative and qualitative analyses, ART not only outperforms existing methods in scanpath prediction, but also appears to capture several human attention patterns, such as waiting, scanning, and verification.
翻訳日:2024-07-30 15:35:33 公開日:2024-07-28
# モジュール言語エキスパートの混在:多言語教師から専門化モジュール言語モデルへの知識の希薄化

Mixture of Modular Experts: Distilling Knowledge from a Multilingual Teacher into Specialized Modular Language Models ( http://arxiv.org/abs/2407.19610v1 )

ライセンス: Link先を確認
Mohammed Al-Maamari, Mehdi Ben Amor, Michael Granitzer, (参考訳) この研究は、知識蒸留(KD)とMixture of Experts(MoE)を組み合わせて、モジュール化された効率的な多言語言語モデルを開発する。 主な目的は、KDにおける適応型と固定型アルファメソッドの評価、マルチドメイン入力を処理するモジュール型のMoEアーキテクチャの比較、破滅的な忘れの防止などである。 KDは大きな言語モデル(LLM)をより小さく効率的なモデルに圧縮し、MoEは特殊なタスクでモジュール化を強化する。 両KD法でも同様の性能を示し, 適応アルファによる限界改善が認められた。 複合的な損失アプローチにより、より安定した学習が可能となった。 入力シーケンスを英語、フランス語、ドイツ語、Pythonに分類する訓練を受けたルータは、99.95%の精度、リコール、F1スコアを達成した。 モジュール型 MoE アーキテクチャの評価では、事前訓練言語エキスパート (PLE) とジョイントエキスパート埋め込みトレーニング (JEET) も同様に実行され、MoE with Common Expert (MoE-CE) のセットアップでは若干性能が低下した。 MoE-CEの一般の専門家を含め、その性能は向上した。 破滅的な忘れ込みの研究は、逐次トレーニングが大きな忘れ込みにつながったことを示しているが、バランスの取れたバッチとMoEアプローチによるシングルセッショントレーニングはこの問題を緩和した。 MoEアーキテクチャは、複数の言語にわたる知識を効果的に保存した。 この研究は、データセット(https://github.org/doi/10.5281/zenodo.12677631)、バランスのとれたデータセット作成ツール(https://github.com/padas-lab-de/multi- Language-dataset-creator)、研究コードベース(https://github.com/ModMaamari/mixture-modular-experts)などのオープンソースリソースに貢献している。

This research combines Knowledge Distillation (KD) and Mixture of Experts (MoE) to develop modular, efficient multilingual language models. Key objectives include evaluating adaptive versus fixed alpha methods in KD and comparing modular MoE architectures for handling multi-domain inputs and preventing catastrophic forgetting. KD compresses large language models (LLMs) into smaller, efficient models, while MoE enhances modularity with specialized tasks. Experiments showed similar performance for both KD methods, with marginal improvements from adaptive alpha. A combined loss approach provided more stable learning. The router, trained to classify input sequences into English, French, German, or Python, achieved 99.95% precision, recall, and F1 score, with Logistic Regression being the most effective classifier. Evaluations of modular MoE architectures revealed that Pre-trained Language Experts (PLE) and Joint Expert Embedding Training (JEET) performed similarly, while the MoE with Common Expert (MoE-CE) setup showed slightly lower performance. Including a common expert in MoE-CE improved its performance. Studies on catastrophic forgetting indicated that sequential training led to significant forgetting, while single-session training with balanced batches and the MoE approach mitigated this issue. The MoE architecture preserved knowledge across multiple languages effectively. The research contributes open-sourced resources including the dataset (https://zenodo.org/doi/10.5281/zenodo.12677631), a balanced dataset creation tool (https://github.com/padas-lab-de/multi-language-dataset-creator), and the research codebase (https://github.com/ModMaamari/mixture-modular-experts).
翻訳日:2024-07-30 15:35:33 公開日:2024-07-28
# モアレ励起子の集合光学特性

Collective optical properties of moiré excitons ( http://arxiv.org/abs/2407.19611v1 )

ライセンス: Link先を確認
Tsung-Sheng Huang, Yu-Xin Wang, Yan-Qi Wang, Darrick Chang, Mohammad Hafezi, Andrey Grankin, (参考訳) そこで本研究では,モワール配位遷移金属ジアルコゲナイド二層膜のエキシトンが,集合放射特性を調査する上で有望なプラットフォームとなることを提案する。 これらの光学特性のいくつかは冷たい原子配列のものと似ているが、ムーアエ励起子は、現在の光学格子実験の範囲を超えて、深いサブ波長の限界まで伸びている。 注目すべきは、この集合光学特性を利用して特定の相関電子状態の探索を行うことである。 具体的には、これらの2層にドープされた電子のウィグナー結晶状態が励起子の創発的な周期ポテンシャルとして作用することを示す。 さらに、集合散逸励起バンドとその関連ベリー曲率は、対応する電子ドーピングで現れる様々な電荷秩序を明らかにすることができる。 本研究は,moir\e エクシトンを含む集団効果と強い相関関係の相互作用について,今後の研究に期待できる経路を提供する。

We propose that excitons in moir\'e transition metal dichalcogenide bilayers offer a promising platform for investigating collective radiative properties. While some of these optical properties resemble those of cold atom arrays, moir\'e excitons extend to the deep subwavelength limit, beyond the reach of current optical lattice experiments. Remarkably, we show that the collective optical properties can be exploited to probe certain correlated electron states. Specifically, we illustrate that the Wigner crystal states of electrons doped into these bilayers act as an emergent periodic potential for excitons. Moreover, the collective dissipative excitonic bands and their associated Berry curvature can reveal various charge orders that emerge at the corresponding electronic doping. Our study provides a promising pathway for future research on the interplay between collective effects and strong correlations involving moir\'e excitons.
翻訳日:2024-07-30 15:35:33 公開日:2024-07-28
# ARC:エネルギー効率の良いマルチコアプロセッサのためのDVFS対応非対称STT-RAMキャッシュ

ARC: DVFS-Aware Asymmetric-Retention STT-RAM Caches for Energy-Efficient Multicore Processors ( http://arxiv.org/abs/2407.19612v1 )

ライセンス: Link先を確認
Dhruv Gajaria, Tosiron Adegbija, (参考訳) STT-RAMの書き込みエネルギーと遅延オーバーヘッドを低減する手段として、リラクシド保持(または揮発性)スピントランスファートルクRAM(STT-RAM)が広く研究されている。 緩やかな保持時間 STT-RAM レベル 1 (L1) キャッシュが与えられた場合、STT-RAM L1 キャッシュ設計における動的電圧と周波数スケーリング (DVFS) の影響を分析する。 我々の分析によると、異なるアプリケーションが異なる保持時間を必要とするという事実とは別に、ほとんどのSTT-RAM研究で無視されるクロック周波数は、アプリケーションの保持時間に大きく影響する可能性がある。 そこで本研究では,マルチコアアーキテクチャのための非対称リテンションコア(ARC)設計を提案する。 ARCは、アプリケーションのニーズに合わせてSTT-RAM保持時間を専門化する保持時間不均一性を備えている。 また,アプリケーションの特性,保持時間要件,利用可能なDVFS設定に基づいて,アプリケーション実行時の最適なコアを決定するための実行時予測モデルを提案する。 その結果,STT-RAMキャッシュ設計と比較して,提案手法により平均キャッシュエネルギを20.19%削減し,プロセッサ全体のエネルギを7.66%削減できることがわかった。

Relaxed retention (or volatile) spin-transfer torque RAM (STT-RAM) has been widely studied as a way to reduce STT-RAM's write energy and latency overheads. Given a relaxed retention time STT-RAM level one (L1) cache, we analyze the impacts of dynamic voltage and frequency scaling (DVFS) -- a common optimization in modern processors -- on STT-RAM L1 cache design. Our analysis reveals that, apart from the fact that different applications may require different retention times, the clock frequency, which is typically ignored in most STT-RAM studies, may also significantly impact applications' retention time needs. Based on our findings, we propose an asymmetric-retention core (ARC) design for multicore architectures. ARC features retention time heterogeneity to specialize STT-RAM retention times to applications' needs. We also propose a runtime prediction model to determine the best core on which to run an application, based on the applications' characteristics, their retention time requirements, and available DVFS settings. Results reveal that the proposed approach can reduce the average cache energy by 20.19% and overall processor energy by 7.66%, compared to a homogeneous STT-RAM cache design.
翻訳日:2024-07-30 15:35:33 公開日:2024-07-28
# コストを下げ続ける - LLMのKVキャッシュ消費を最適化する方法のレビュー

Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption ( http://arxiv.org/abs/2407.18003v2 )

ライセンス: Link先を確認
Luohe Shi, Hongyi Zhang, Yao Yao, Zuchao Li, Hai Zhao, (参考訳) 2022年末にChatGPTがリリースした大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。 しかし、その効率性はTransformerアーキテクチャの長文処理に苦慮しているため、課題となる。 KV-Cacheは、会話の長さに比例したGPUメモリオーバーヘッドの増加にもかかわらず、2次から線形へのトークン生成の時間的複雑さを変換する、この問題に対する重要なソリューションとして登場した。 LLMコミュニティとアカデミアの発展に伴い、様々なKVキャッシュ圧縮手法が提案されている。 本稿では、KVキャッシュの諸特性を解析し、現在LLMのKVキャッシュ空間利用を最適化するために使われている様々な手法について詳述する。 これらの手法は, 事前学習フェーズ, 展開フェーズ, 推論フェーズにまたがっており, これらの手法の共通点と相違点を要約する。 さらに、効率性と能力の観点から、大規模言語モデルの長文能力を評価するための指標をいくつか挙げる。 本稿では, LLM最適化の進化する展望を概観し, このダイナミックな分野における今後の進歩について考察する。

Large Language Models (LLMs), epitomized by ChatGPT' s release in late 2022, have revolutionized various industries with their advanced language comprehension. However, their efficiency is challenged by the Transformer architecture' s struggle with handling long texts. KV-Cache has emerged as a pivotal solution to this issue, converting the time complexity of token generation from quadratic to linear, albeit with increased GPU memory overhead proportional to conversation length. With the development of the LLM community and academia, various KV-Cache compression methods have been proposed. In this review, we dissect the various properties of KV-Cache and elaborate on various methods currently used to optimize the KV-Cache space usage of LLMs. These methods span the pre-training phase, deployment phase, and inference phase, and we summarize the commonalities and differences among these methods. Additionally, we list some metrics for evaluating the long-text capabilities of large language models, from both efficiency and capability perspectives. Our review thus sheds light on the evolving landscape of LLM optimization, offering insights into future advancements in this dynamic field.
翻訳日:2024-07-30 12:35:35 公開日:2024-07-28