このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20241013となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 大規模言語モデルにおける条件とモーダル推論
Conditional and Modal Reasoning in Large Language Models ( http://arxiv.org/abs/2401.17169v3 ) ライセンス: Link先を確認 | Wesley H. Holliday, Matthew Mandelkern, Cedegao E. Zhang, | (参考訳) 大規模言語モデル(LLM)の推論能力は、AIと認知科学における研究の活発化のトピックである。
本稿では,LLMが論理的に正しい推論と論理的に誤った推論を区別できる範囲について検討する。
条件付き推論パターン(例:アンが女王ならボブはジャック)とてんかんのモーダル(例:アンがエースを持っているかもしれない」「ボブは王でなければならない」)に焦点を当てる。
これらの推論は論理学者、哲学者、言語学者にとって特に興味を持ち、遠位の可能性について推論する基本的な人間の能力において中心的な役割を果たしている。
したがって、LLMの推論における評価は、LLMの推論能力が人間の推論とどの程度一致しているかという問題に大きく関係している。
私たちがテストしたLCMの中で、GPT-4モデルファミリ以外は条件付きで基本的なミスを犯すことが多いが、ゼロショットチェーンのプロンプトはミスを減らすのに役立ちます。
さらに、GPT-4ファミリーでさえ、疫学的モーダルを含む推論パターンの論理的に矛盾した判断を示しており、ほぼ全てのモデルは、人間の判断と一致しない文献で広く議論されている複雑な条件推論に対する回答を与える。
これらの結果は、今日のLLMにおける基本的な論理的推論のギャップを浮き彫りにする。
The reasoning abilities of large language models (LLMs) are the topic of a growing body of research in AI and cognitive science. In this paper, we probe the extent to which twenty-five LLMs are able to distinguish logically correct inferences from logically fallacious ones. We focus on inference patterns involving conditionals (e.g., 'If Ann has a queen, then Bob has a jack') and epistemic modals (e.g., 'Ann might have an ace', 'Bob must have a king'). These inferences have been of special interest to logicians, philosophers, and linguists, since they play a central role in the fundamental human ability to reason about distal possibilities. Assessing LLMs on these inferences is thus highly relevant to the question of how much the reasoning abilities of LLMs match those of humans. Among the LLMs we tested, all but the GPT-4 model family often make basic mistakes with conditionals, though zero-shot chain-of-thought prompting helps them make fewer mistakes. Moreover, even the GPT-4 family displays logically inconsistent judgments across inference patterns involving epistemic modals, and almost all models give answers to certain complex conditional inferences widely discussed in the literature that do not match human judgments. These results highlight gaps in basic logical reasoning in today's LLMs. | 翻訳日:2024-11-09 05:06:11 公開日:2024-10-13 |
# LLMロールプレイ:人間-チャットボットインタラクションのシミュレーション
LLM Roleplay: Simulating Human-Chatbot Interaction ( http://arxiv.org/abs/2407.03974v2 ) ライセンス: Link先を確認 | Hovhannes Tamoyan, Hendrik Schuff, Iryna Gurevych, | (参考訳) チャットボットの開発には、ユーザの社会的な背景と会話目標の広さを反映するために、多数の人間とチャットボットの対話を収集する必要がある。
しかし、各ユーザスタディを実施するためのリソース要件は違法に高くなり、特定の対話目標と参加者人口層を狭く分析することしかできないことが多い。
本稿では,人間とチャットボットのインタラクションをシミュレートした多方向対話を自動生成する,目標指向のペルソナに基づくLLM Roleplayを提案する。
LLM Roleplayは、どんなチャットボットとも対話し、大きな言語モデル(LLM)を使ってテキストで記述されたペルソナの役割を果たす。
提案手法を検証するため,異なる社会デマログラフグループから自然な人間-チャットボット対話を収集し,ユーザによる研究を行い,生成した対話と比較した。
我々は,特定のペルソナを具現化して会話を維持する上での最先端のLLMの能力を評価し,人間のチャットボット対話を高い識別性でシミュレートできることを見出した。
The development of chatbots requires collecting a large number of human-chatbot dialogues to reflect the breadth of users' sociodemographic backgrounds and conversational goals. However, the resource requirements to conduct the respective user studies can be prohibitively high and often only allow for a narrow analysis of specific dialogue goals and participant demographics. In this paper, we propose LLM Roleplay: a goal-oriented, persona-based method to automatically generate diverse multi-turn dialogues simulating human-chatbot interaction. LLM Roleplay can be applied to generate dialogues with any type of chatbot and uses large language models (LLMs) to play the role of textually described personas. To validate our method, we collect natural human-chatbot dialogues from different sociodemographic groups and conduct a user study to compare these with our generated dialogues. We evaluate the capabilities of state-of-the-art LLMs in maintaining a conversation during their embodiment of a specific persona and find that our method can simulate human-chatbot dialogues with a high indistinguishability rate. | 翻訳日:2024-11-08 23:57:53 公開日:2024-10-13 |
# 2プレイヤーゼロサムマルコフゲームのためのマルチステップミニマックスQラーニングアルゴリズム
A Multi-Step Minimax Q-learning Algorithm for Two-Player Zero-Sum Markov Games ( http://arxiv.org/abs/2407.04240v2 ) ライセンス: Link先を確認 | Shreyas S R, Antony Vijesh, | (参考訳) 2人のプレイヤーによるゼロサムマルコフゲームを解決するため、興味深い反復手順が提案されている。
適切な仮定の下では、提案された反復の有界性は理論的に得られる。
確率近似の結果を用いて、提案した2段階のミニマックスQ-ラーニングのほぼ確実に収束する。
より具体的には、モデル情報が不明な場合、提案アルゴリズムは確率1とゲーム理論最適値に収束する。
数値シミュレーションは,提案アルゴリズムが有効で実装が容易であることを認証する。
An interesting iterative procedure is proposed to solve a two-player zero-sum Markov games. Under suitable assumption, the boundedness of the proposed iterates is obtained theoretically. Using results from stochastic approximation, the almost sure convergence of the proposed two-step minimax Q-learning is obtained theoretically. More specifically, the proposed algorithm converges to the game theoretic optimal value with probability one, when the model information is not known. Numerical simulation authenticate that the proposed algorithm is effective and easy to implement. | 翻訳日:2024-11-08 23:57:53 公開日:2024-10-13 |
# ICRA@40パーティで記録されたアースローバーのデータセット
An Earth Rover dataset recorded at the ICRA@40 party ( http://arxiv.org/abs/2407.05735v3 ) ライセンス: Link先を確認 | Qi Zhang, Zhihao Lin, Arnoud Visser, | (参考訳) ICRAは2024年9月にロッテルダムで40周年を迎えた。
1ヶ月後、IROSカンファレンスが開催され、アースローバーチャレンジが予定されている。
この課題では、オープンワールドの自律ナビゲーションモデルが真にオープンワールドの設定について研究されている。
アースローバーチャレンジの一環として、オークランド、オーストラリア、中国武漢など、いくつかの都市で現実のナビゲーションセットが世界中に展開されている。
オランダで記録されている唯一のデータセットは、小さな村のオーデウォーターである。
提案では、ハッピーバースデーICRAパーティーが始まる前に、ホランド・アメリカライン・クルーズターミナルの前にあるロッテルダムのアースローバー・チャレンジで使用されたロボットのデータセットを記録する。
https://github.com/SlamMate/vSLAM-on-FrodoBots-2K
The ICRA conference is celebrating its $40^{th}$ anniversary in Rotterdam in September 2024, with as highlight the Happy Birthday ICRA Party at the iconic Holland America Line Cruise Terminal. One month later the IROS conference will take place, which will include the Earth Rover Challenge. In this challenge open-world autonomous navigation models are studied truly open-world settings. As part of the Earth Rover Challenge several real-world navigation sets in several cities world-wide, like Auckland, Australia and Wuhan, China. The only dataset recorded in the Netherlands is the small village Oudewater. The proposal is to record a dataset with the robot used in the Earth Rover Challenge in Rotterdam, in front of the Holland America Line Cruise Terminal, before the festivities of the Happy Birthday ICRA Party start. See: https://github.com/SlamMate/vSLAM-on-FrodoBots-2K | 翻訳日:2024-11-08 23:24:33 公開日:2024-10-13 |
# MoVEInt:デモから人間とロボットのインタラクションを学ぶための変分専門家の混在
MoVEInt: Mixture of Variational Experts for Learning Human-Robot Interactions from Demonstrations ( http://arxiv.org/abs/2407.07636v2 ) ライセンス: Link先を確認 | Vignesh Prasad, Alap Kshirsagar, Dorothea Koert, Ruth Stock-Homburg, Jan Peters, Georgia Chalvatzaki, | (参考訳) 共有力学モデルは、人間-ロボットインタラクション(HRI)に固有の複雑さと可変性を捉える上で重要である。
したがって、そのような共有力学モデルを学ぶことで、協調性と適応性が向上し、人間のパートナーとの反応的な相互作用を成功させることができる。
本研究では,人間の観察からロボットの動作を反応的に生成するための実験から,HRIの空間表現を学習するための新しい手法を提案する。
本研究では,Mixture Density Network (MDN) を用いて,人間の観察のマルチモーダル性を捉えるために,情報的潜在空間を用いて正規化されたロボットの動きを学習するために,変分オートエンコーダ (VAE) を訓練する。
本研究では,HMM/GMMを用いたヒトとロボットの動作に関する共同分布の学習などの実演からHRIを学習するための手法として一般的に用いられているガウス混合回帰定式化から,我々の定式化が導かれることを示す。
さらに,VAEを用いた潜在空間混合モデルを用いた場合の共通現象である「モード崩壊」を防止するために,さらなる正規化も導入する。
人間の観察からVAEに先立って情報的MDNを使用するアプローチは,従来のHMMに基づく,あるいは繰り返し発生する遅延表現の学習手法と比較して,より正確なロボット動作を生成することが確認された。
実世界の人間とロボットのハンドオーバシナリオにおけるさらなる実験は、我々のアプローチが4つの異なるヒューマンインタラクションパートナーとの対話を成功させるために有効であることを示す。
Shared dynamics models are important for capturing the complexity and variability inherent in Human-Robot Interaction (HRI). Therefore, learning such shared dynamics models can enhance coordination and adaptability to enable successful reactive interactions with a human partner. In this work, we propose a novel approach for learning a shared latent space representation for HRIs from demonstrations in a Mixture of Experts fashion for reactively generating robot actions from human observations. We train a Variational Autoencoder (VAE) to learn robot motions regularized using an informative latent space prior that captures the multimodality of the human observations via a Mixture Density Network (MDN). We show how our formulation derives from a Gaussian Mixture Regression formulation that is typically used approaches for learning HRI from demonstrations such as using an HMM/GMM for learning a joint distribution over the actions of the human and the robot. We further incorporate an additional regularization to prevent "mode collapse", a common phenomenon when using latent space mixture models with VAEs. We find that our approach of using an informative MDN prior from human observations for a VAE generates more accurate robot motions compared to previous HMM-based or recurrent approaches of learning shared latent representations, which we validate on various HRI datasets involving interactions such as handshakes, fistbumps, waving, and handovers. Further experiments in a real-world human-to-robot handover scenario show the efficacy of our approach for generating successful interactions with four different human interaction partners. | 翻訳日:2024-11-08 22:40:08 公開日:2024-10-13 |
# $β$-DPO: Dynamic $β$による直接参照最適化
$β$-DPO: Direct Preference Optimization with Dynamic $β$ ( http://arxiv.org/abs/2407.08639v2 ) ライセンス: Link先を確認 | Junkang Wu, Yuexiang Xie, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He, | (参考訳) 直接選好最適化(DPO)は、人間の嗜好に従うために大規模言語モデル(LLM)を訓練するための魅力的なアプローチとして登場した。
しかし、DPOの性能は、トレードオフパラメータ$\beta$の微調整や、好みデータの品質に敏感である。
我々は、$\beta$とデータ品質がDPOに与える影響を分析し、最適な$\beta$値がペアデータの情報性によって異なることを明らかにする。
静的$\beta$値の制限に対処するため、バッチレベルで$\beta$を動的に校正する新しいフレームワークを導入します。
さらに,この手法には$\beta$-guided data filtering が組み込まれている。
実験的な評価を通じて、我々の動的$\beta$調整技術は、さまざまなモデルやデータセットにわたるDPOのパフォーマンスを大幅に改善し、LLMと人間のフィードバックの整合性を高めるための、より堅牢で適応可能なトレーニングパラダイムを提供することを示した。
コードは \url{https://github.com/junkangwu/beta-DPO} で公開されている。
Direct Preference Optimization (DPO) has emerged as a compelling approach for training Large Language Models (LLMs) to adhere to human preferences. However, the performance of DPO is sensitive to the fine-tuning of its trade-off parameter $\beta$, as well as to the quality of the preference data. We analyze the impact of $\beta$ and data quality on DPO, uncovering that optimal $\beta$ values vary with the informativeness of pairwise data. Addressing the limitations of static $\beta$ values, we introduce a novel framework that dynamically calibrates $\beta$ at the batch level, informed by data quality considerations. Additionally, our method incorporates $\beta$-guided data filtering to safeguard against the influence of outliers. Through empirical evaluation, we demonstrate that our dynamic $\beta$ adjustment technique significantly improves DPO's performance across a range of models and datasets, offering a more robust and adaptable training paradigm for aligning LLMs with human feedback. The code is available at \url{https://github.com/junkangwu/beta-DPO}. | 翻訳日:2024-11-08 22:17:54 公開日:2024-10-13 |
# AutoScale:LLMのトレーニングのための計算最適データ構成の自動予測
AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs ( http://arxiv.org/abs/2407.20177v2 ) ライセンス: Link先を確認 | Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia, | (参考訳) ドメイン再重み付け(Domain reweighting)は、異なるデータソースの相対重み付けを調整し、言語モデル事前学習の有効性と効率を改善することを目的とした、新たな研究分野である。
本稿では, 異なる領域からの学習データの最適構成がスケール依存であることを示し, 小規模実験により最適混合を判定し, 大規模で直接適用するという既存の実践に挑戦する。
データスケールに最適な重みを依存させる分析モデルを提案し、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための新しい実践的アプローチである *AutoScale* を導入する。
*AutoScale* はまず,より小さく,実現可能なスケールで最適な構成を求めるために,原理化された最適化フレームワークを使用し,得られたモデルを用いて大規模で最適な構成を予測する。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
特に、RedPajama上のGPT-2 Largeでは、*AutoScale*は、ベースラインよりも28%高速で、未処理のトレーニングよりも最大38%スピードアップし、ダウンストリームタスク全体で最高のパフォーマンスを実現している。
この研究は、言語モデルのトレーニングスケールにまたがるさまざまなデータソースのメリットに関する洞察を提供し、スケール依存のデータキュレーションに関する急成長する研究に寄与する。
コードはオープンソースである。
Domain reweighting is an emerging research area aimed at adjusting the relative weights of different data sources to improve the effectiveness and efficiency of language model pre-training. This paper demonstrates that the optimal composition of training data from different domains is scale-dependent, challenging the existing practice of determining optimal mixtures through small-scale experiments and directly applying them at larger scales. We derive an analytical model for the dependence of optimal weights on data scale and introduce *AutoScale*, a novel, practical approach for optimizing data compositions at potentially large training data scales. *AutoScale* first uses a principled optimization framework to find optimal compositions at smaller, feasible scales, then predicts optimal compositions at larger scales using our derived model. Our evaluation on GPT-2 Large and BERT pre-training demonstrates *AutoScale*'s effectiveness in improving training convergence and downstream performance. Particularly, for GPT-2 Large on RedPajama, *AutoScale* decreases validation perplexity 28% faster than baselines, with up to 38% speed-up over unweighted training, achieving the best performance across downstream tasks. This work provides insights into the varying benefits of data sources across training scales for language models, contributing to the burgeoning research on scale-dependent data curation. Code is open-sourced. | 翻訳日:2024-11-08 14:16:02 公開日:2024-10-13 |
# ランク表記による深層学習の理解
Understanding Deep Learning via Notions of Rank ( http://arxiv.org/abs/2408.02111v2 ) ライセンス: Link先を確認 | Noam Razin, | (参考訳) 科学と産業でディープラーニングが極端に人気があるにもかかわらず、その正式な理解は限られている。
この論文は、一般化と表現性の基本的な側面に焦点をあて、深層学習の理論を発展させる鍵としてランクの概念を提示している。
特に、勾配に基づくトレーニングは、いくつかのニューラルネットワークアーキテクチャにおいて低階に対する暗黙の正規化を誘導できることを確立し、この現象が自然データ(例えば、音声、画像、テキスト)に対する一般化の説明を促進することを実証的に実証する。
そこで我々は,量子物理学における絡み合いの定量化によく用いられるランクの概念を用いて,相互作用をモデル化するグラフニューラルネットワークの能力を特徴付ける。
これらの結果の根底にある中心的なツールは、ニューラルネットワークとテンソル分解の間の接続である。
明示的な正規化スキームとデータ前処理アルゴリズムを設計するための我々の理論の実践的意味を述べる。
Despite the extreme popularity of deep learning in science and industry, its formal understanding is limited. This thesis puts forth notions of rank as key for developing a theory of deep learning, focusing on the fundamental aspects of generalization and expressiveness. In particular, we establish that gradient-based training can induce an implicit regularization towards low rank for several neural network architectures, and demonstrate empirically that this phenomenon may facilitate an explanation of generalization over natural data (e.g., audio, images, and text). Then, we characterize the ability of graph neural networks to model interactions via a notion of rank, which is commonly used for quantifying entanglement in quantum physics. A central tool underlying these results is a connection between neural networks and tensor factorizations. Practical implications of our theory for designing explicit regularization schemes and data preprocessing algorithms are presented. | 翻訳日:2024-11-08 12:55:51 公開日:2024-10-13 |
# データセット蒸留における優先順位アライメント
Prioritize Alignment in Dataset Distillation ( http://arxiv.org/abs/2408.03360v3 ) ライセンス: Link先を確認 | Zekai Li, Ziyao Guo, Wangbo Zhao, Tianle Zhang, Zhi-Qi Cheng, Samir Khaki, Kaipeng Zhang, Ahmad Sajedi, Konstantinos N Plataniotis, Kai Wang, Yang You, | (参考訳) Dataset Distillationは、トレーニングされたモデルのパフォーマンスを損なうことなく、大規模なデータセットをはるかにコンパクトな合成データセットに圧縮することを目的としている。
これを実現するために、既存の手法ではエージェントモデルを使用してターゲットデータセットから情報を抽出し、蒸留データセットに埋め込む。
これにより、抽出された組込み情報の品質が蒸留データセットの品質を決定する。
本研究では,情報抽出段階と埋め込み段階の両方において,既存の手法が不整合情報を導入していることを示す。
これを軽減するために、以下の2つの視点から情報を整合させるPAD(Preferitize Alignment in Dataset Distillation)を提案する。
1) エージェントモデルにより抽出可能な情報をフィルタリングするために, 圧縮率に応じてターゲットデータセットを訓練する。
2) エージェントモデルの深層層のみを用いて蒸留を行い, 低レベル情報の過剰な導入を回避する。
この単純な戦略は、誤整情報を効果的にフィルタリングし、主流のマッチングベースの蒸留アルゴリズムに非自明な改善をもたらす。
さらに、トラジェクトリマッチングに基づいて構築された \textbf{PAD} は、様々なベンチマークにおいて顕著な改善を実現し、最先端のパフォーマンスを実現している。
Dataset Distillation aims to compress a large dataset into a significantly more compact, synthetic one without compromising the performance of the trained models. To achieve this, existing methods use the agent model to extract information from the target dataset and embed it into the distilled dataset. Consequently, the quality of extracted and embedded information determines the quality of the distilled dataset. In this work, we find that existing methods introduce misaligned information in both information extraction and embedding stages. To alleviate this, we propose Prioritize Alignment in Dataset Distillation (PAD), which aligns information from the following two perspectives. 1) We prune the target dataset according to the compressing ratio to filter the information that can be extracted by the agent model. 2) We use only deep layers of the agent model to perform the distillation to avoid excessively introducing low-level information. This simple strategy effectively filters out misaligned information and brings non-trivial improvement for mainstream matching-based distillation algorithms. Furthermore, built on trajectory matching, \textbf{PAD} achieves remarkable improvements on various benchmarks, achieving state-of-the-art performance. | 翻訳日:2024-11-08 12:44:50 公開日:2024-10-13 |
# Blind-Match: プライバシー保護生体認証のための効率的な同型暗号化ベース1:Nマッチング
Blind-Match: Efficient Homomorphic Encryption-Based 1:N Matching for Privacy-Preserving Biometric Identification ( http://arxiv.org/abs/2408.06167v2 ) ライセンス: Link先を確認 | Hyunmin Choi, Jiwon Kim, Chiyoung Song, Simon S. Woo, Hyoungshick Kim, | (参考訳) Blind-Matchは,同型暗号(HE)を利用した生体認証システムである。
Blind-MatchはHE最適化コサイン類似性計算法を導入し、特徴ベクトルをベクトル全体を一度に計算するのではなく、より小さな部分に分割する。
これらの部品数を最適化することで、Blind-MatchはHEによるデータのプライバシを確保しながら、実行時間を最小化する。
Blind-Matchは、さまざまなバイオメトリックデータセットにわたる最先端の手法と比較して、優れたパフォーマンスを実現している。
LFWの顔データセットでは、Blind-Matchは128次元の特徴ベクトルで99.63%のランク-1の精度を達成し、顔認識タスクの堅牢性を示している。
指紋認証において、Blind-Matchは、コンパクトな16次元特徴ベクトルであっても、PolyUデータセット上で99.55%のランク-1精度を達成し、最先端の方法であるBlind-Touchを著しく上回り、59.17%しか達成していない。
さらに、Blind-Matchは、Naver CloudのFaceSignのような大規模生体認証シナリオにおいて、0.74秒で6,144個の生体認証サンプルを128次元の特徴ベクトルで処理することで、実用的効率を示す。
We present Blind-Match, a novel biometric identification system that leverages homomorphic encryption (HE) for efficient and privacy-preserving 1:N matching. Blind-Match introduces a HE-optimized cosine similarity computation method, where the key idea is to divide the feature vector into smaller parts for processing rather than computing the entire vector at once. By optimizing the number of these parts, Blind-Match minimizes execution time while ensuring data privacy through HE. Blind-Match achieves superior performance compared to state-of-the-art methods across various biometric datasets. On the LFW face dataset, Blind-Match attains a 99.63% Rank-1 accuracy with a 128-dimensional feature vector, demonstrating its robustness in face recognition tasks. For fingerprint identification, Blind-Match achieves a remarkable 99.55% Rank-1 accuracy on the PolyU dataset, even with a compact 16-dimensional feature vector, significantly outperforming the state-of-the-art method, Blind-Touch, which achieves only 59.17%. Furthermore, Blind-Match showcases practical efficiency in large-scale biometric identification scenarios, such as Naver Cloud's FaceSign, by processing 6,144 biometric samples in 0.74 seconds using a 128-dimensional feature vector. | 翻訳日:2024-11-08 11:38:16 公開日:2024-10-13 |
# 大規模言語モデルのためのロバストで費用効率の良い知識学習を目指して
Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models ( http://arxiv.org/abs/2408.06621v2 ) ライセンス: Link先を確認 | Sungmin Cha, Sungjun Cho, Dasol Hwang, Moontae Lee, | (参考訳) 大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
しかし、これはプライバシと著作権侵害のリスクを生じさせ、スクラッチから再トレーニングすることなく機密データを除去する効率的な機械学習手法の必要性を強調している。
グラディエント・アセント(GA)は、望ましくないコンテンツを生成する可能性を減らすことで、一般に未学習に使用されるが、不安定な最適化と、再学習された知識の破滅的な忘れに繋がる。
また、GAと低ランク適応を組み合わせることで、計算コストと生成性能のトレードオフが低くなることも見出した。
これらの課題に対処するために、LLMの堅牢で効率的なアンラーニングのための2つの新しい手法を提案する。
まず、次の最も可能性の高いトークンの確率を高めることにより、流速を維持しながら不要なトークンを抑える逆ヒンジ損失(Inverted Hinge loss)を導入する。
第2に、相対的なフィッシャー情報に重み付けされた低ランク近似を用いてLoRAアダプタのデータ適応初期化を行い、ターゲットとなる知識の除去に不可欠なパラメータの更新に集中する。
GPT-Neoモデルを用いたトレーニングデータ抽出チャレンジデータセットおよびPhi-1.5BおよびLlama2-7Bモデルを用いたTOFUベンチマーク実験により、本手法は、最小限の影響で推論と生成能力を維持しつつ、センシティブな情報を効果的に除去することを示した。
Large Language Models (LLMs) have demonstrated strong reasoning and memorization capabilities via pretraining on massive textual corpora. However, this poses risk of privacy and copyright violations, highlighting the need for efficient machine unlearning methods that remove sensitive data without retraining from scratch. While Gradient Ascent (GA) is commonly used to unlearn by reducing the likelihood of generating unwanted content, it leads to unstable optimization and catastrophic forgetting of retrained knowledge. We also find that combining GA with low-rank adaptation results in poor trade-offs between computational cost and generative performance. To address these challenges, we propose two novel techniques for robust and efficient unlearning for LLMs. First, we introduce Inverted Hinge loss, which suppresses unwanted tokens while maintaining fluency by boosting the probability of the next most likely token. Second, we develop a data-adaptive initialization for LoRA adapters via low-rank approximation weighted with relative Fisher information, thereby focusing updates on parameters critical for removing targeted knowledge. Experiments on the Training Data Extraction Challenge dataset using GPT-Neo models as well as on the TOFU benchmark with Phi-1.5B and Llama2-7B models demonstrate that our approach effectively removes sensitive information while maintaining reasoning and generative capabilities with minimal impact. | 翻訳日:2024-11-08 11:26:46 公開日:2024-10-13 |
# アダマール行列探索のための量子近似最適化法
A Quantum Approximate Optimization Method For Finding Hadamard Matrices ( http://arxiv.org/abs/2408.07964v3 ) ライセンス: Link先を確認 | Andriyan Bayu Suksmono, | (参考訳) 量子コンピュータを用いて特定の順序のアダマール行列を見つけることは、実用的な量子優位性の実証につながる。
量子アニールを用いた初期の試みは、現在の量子資源の限界と高次相互作用項を実装する能力によって妨げられ、これは$M$オーダー行列の場合、$O(M^2)$で増加する。
本稿では,ゲート型量子コンピュータ上でのHadamard行列探索アルゴリズムを実装した新しい量子ビット効率法を提案する。
量子近似最適化アルゴリズム(QAOA)を用いてこれを実現する。
ゲートベース量子コンピュータ上で実装される高次相互作用項は、補助量子ビットを必要としないため、提案手法は必要量子ビット数を$O(M)$に削減する。
本稿では,本手法の定式化,対応する量子回路の構成,および量子シミュレータと実ゲート型量子コンピュータの両方の実験結果について述べる。
Finding a Hadamard matrix of a specific order using a quantum computer can lead to a demonstration of practical quantum advantage. Earlier efforts using a quantum annealer were impeded by the limitations of the present quantum resource and its capability to implement high order interaction terms, which for an $M$-order matrix will grow by $O(M^2)$. In this paper, we propose a novel qubit-efficient method by implementing the Hadamard matrix searching algorithm on a gate-based quantum computer. We achieve this by employing the Quantum Approximate Optimization Algorithm (QAOA). Since high order interaction terms that are implemented on a gate-based quantum computer do not need ancillary qubits, the proposed method reduces the required number of qubits into $O(M)$. We present the formulation of the method, construction of corresponding quantum circuits, and experiment results in both a quantum simulator and a real gate-based quantum computer. | 翻訳日:2024-11-08 07:40:14 公開日:2024-10-13 |
# 言語モデル質問応答に対するColBERT検索とアンサンブル応答スコアリング
ColBERT Retrieval and Ensemble Response Scoring for Language Model Question Answering ( http://arxiv.org/abs/2408.10808v2 ) ライセンス: Link先を確認 | Alex Gichamba, Tewodros Kederalah Idris, Brian Ebiyau, Eric Nyberg, Teruko Mitamura, | (参考訳) ドメイン固有の質問応答は、質問に正しく答えるために必要な深い技術知識を考えると、言語モデルでは依然として難しい。
この困難さは、より大きなモデルと同じ量のパラメータの情報をエンコードできない、より小さな言語モデルに対して増幅される。
テレコムネットワークのための大規模言語モデル」の課題は、通信質問応答におけるPhi-2とFalcon-7Bの2つの小言語モデルの性能向上であった。
本稿では,この問題に対する質問応答システムについて述べる。
我々の解決策はPhi-2の81.9%の精度とFalcon-7Bの57.3%の精度を達成した。
コードと微調整されたモデルを公開しました。
Domain-specific question answering remains challenging for language models, given the deep technical knowledge required to answer questions correctly. This difficulty is amplified for smaller language models that cannot encode as much information in their parameters as larger models. The "Specializing Large Language Models for Telecom Networks" challenge aimed to enhance the performance of two small language models, Phi-2 and Falcon-7B in telecommunication question answering. In this paper, we present our question answering systems for this challenge. Our solutions achieved leading marks of 81.9% accuracy for Phi-2 and 57.3% for Falcon-7B. We have publicly released our code and fine-tuned models. | 翻訳日:2024-11-08 06:22:37 公開日:2024-10-13 |
# 画像復元に向けた予備探査
A Preliminary Exploration Towards General Image Restoration ( http://arxiv.org/abs/2408.15143v2 ) ライセンス: Link先を確認 | Xiangtao Kong, Jinjin Gu, Yihao Liu, Wenlong Zhang, Xiangyu Chen, Yu Qiao, Chao Dong, | (参考訳) 個々の画像復元作業における深層モデルの成功にもかかわらず,(1)一般化能力の欠如,(2)現実のシナリオにおける複雑で未知の劣化など,これらの作業が現実の用途に適用されないよう,少なくとも2つの技術的課題が存在する。
個々の画像復元作業に適した、既存のディープモデルはしばしばこれらの課題に効果的に対処するのに不足する。
本稿では,これらの課題を統一モデル内で解決することを目的とした一般画像復元(GIR)と呼ばれる新しい問題を提案する。
GIRは、一般的な目的のために、ほとんどの個々の画像復元タスク(画像のデノイング、デブロアリング、デライニング、超解像)とそれらの組み合わせをカバーしている。
本稿では,問題定義や一般化性能の網羅的意義など,GIRの本質的側面を概説する。
さらに,新しいデータセットの確立とGIRモデルの徹底的な評価フレームワークについて論じる。
我々は、GIR課題に対処するための既存のアプローチを包括的に評価し、その強みと実用的課題を明らかにする。
これらの手法を解析することにより、GIRの有効性だけでなく、その実践的実装の難しさも浮き彫りにする。
最後に、これらのモデルの振る舞いを理解し、解釈して、将来の方向性を刺激する試みも行います。
我々の研究は、新しい価値ある研究の方向性を開拓し、一般的なビジョンの研究に貢献することができる。
Despite the tremendous success of deep models in various individual image restoration tasks, there are at least two major technical challenges preventing these works from being applied to real-world usages: (1) the lack of generalization ability and (2) the complex and unknown degradations in real-world scenarios. Existing deep models, tailored for specific individual image restoration tasks, often fall short in effectively addressing these challenges. In this paper, we present a new problem called general image restoration (GIR) which aims to address these challenges within a unified model. GIR covers most individual image restoration tasks (\eg, image denoising, deblurring, deraining and super-resolution) and their combinations for general purposes. This paper proceeds to delineate the essential aspects of GIR, including problem definition and the overarching significance of generalization performance. Moreover, the establishment of new datasets and a thorough evaluation framework for GIR models is discussed. We conduct a comprehensive evaluation of existing approaches for tackling the GIR challenge, illuminating their strengths and pragmatic challenges. By analyzing these approaches, we not only underscore the effectiveness of GIR but also highlight the difficulties in its practical implementation. At last, we also try to understand and interpret these models' behaviors to inspire the future direction. Our work can open up new valuable research directions and contribute to the research of general vision. | 翻訳日:2024-11-08 04:41:58 公開日:2024-10-13 |
# 粒子シミュレーションのためのニューラルネットワーク材料ポイント法
A Neural Material Point Method for Particle-based Simulations ( http://arxiv.org/abs/2408.15753v2 ) ライセンス: Link先を確認 | Omer Rochman Sharabi, Sacha Lewin, Gilles Louppe, | (参考訳) メッシュフリーラグランジアン法は、大きな変形や位相変化を扱う能力のため、流体、固体、およびそれらの複雑な相互作用をシミュレートするために広く用いられている。
しかし、これらの物理シミュレータは正確なシミュレーションのためにかなりの計算資源を必要とする。
これらの問題に対処するために、ディープラーニングエミュレータはより高速でスケーラブルなシミュレーションを約束するが、しばしば高価で訓練が困難であり、実用的使用を制限している。
物質点法(MPM)にヒントを得て,粒子シミュレーションのためのニューラルネットワークエミュレーションフレームワークであるNeuralMPMを提案する。
NeuralMPMは、ラグランジュ粒子を固定サイズグリッドに補間し、イメージ・ツー・イメージニューラルネットワークを使用してグリッドノードの更新を計算し、粒子に補間する。
MPMと同様に、NeuralMPMは、メッシュベースのEulerianメソッドの欠点を回避しつつ、状態ダイナミクスの計算を単純化する通常のボキセル化表現の恩恵を受ける。
流体力学や流体-固体相互作用など,いくつかのデータセット上でのNeuralMPMの利点を実証する。
既存の方法と比較して、NeuralMPMはトレーニング時間を数日から数時間に短縮すると同時に、同等あるいは優れた長期的精度を実現し、実用的な前方および逆問題に対する有望なアプローチである。
プロジェクトのページはhttps://neuralmpm.isach.beで公開されている。
Mesh-free Lagrangian methods are widely used for simulating fluids, solids, and their complex interactions due to their ability to handle large deformations and topological changes. These physics simulators, however, require substantial computational resources for accurate simulations. To address these issues, deep learning emulators promise faster and scalable simulations, yet they often remain expensive and difficult to train, limiting their practical use. Inspired by the Material Point Method (MPM), we present NeuralMPM, a neural emulation framework for particle-based simulations. NeuralMPM interpolates Lagrangian particles onto a fixed-size grid, computes updates on grid nodes using image-to-image neural networks, and interpolates back to the particles. Similarly to MPM, NeuralMPM benefits from the regular voxelized representation to simplify the computation of the state dynamics, while avoiding the drawbacks of mesh-based Eulerian methods. We demonstrate the advantages of NeuralMPM on several datasets, including fluid dynamics and fluid-solid interactions. Compared to existing methods, NeuralMPM reduces training times from days to hours, while achieving comparable or superior long-term accuracy, making it a promising approach for practical forward and inverse problems. A project page is available at https://neuralmpm.isach.be | 翻訳日:2024-11-08 04:30:58 公開日:2024-10-13 |
# 電気・磁気・マルチポール相互作用のための統一偏極形式
A unifying polarization formalism for electric- and magnetic-multipole interactions ( http://arxiv.org/abs/2409.01197v2 ) ライセンス: Link先を確認 | R. Casini, R. Manso Sainz, A. Lopez Ariste, N. Kaikati, | (参考訳) 偏極のための球面テンソル形式は、任意の順序の電気的および磁気的マルチポール遷移の処理に拡張する。
我々は、原子系と偏光場との相互作用を記述する作用素のテンソル形式を導出するために、球面波の膨張に頼っており、これは自然界の偏光特性を記述する球面テンソルの導入につながっている。
直接応用として、フォーマリズムは電気四極子転移における放射の散乱に影響を及ぼす放射異方性をモデル化し、磁場の存在下でのハンル効果をモデル化するために用いられる。
We extend the spherical tensorial formalism for polarization to the treatment of electric- and magnetic-multipole transitions of any order. We rely on the spherical-wave expansion to derive the tensor form of the operator describing the interaction of the atomic system with a polarized radiation field, which naturally leads to the introduction of spherical tensors describing the polarization properties of the interacting field. As a direct application, the formalism is used to model the radiation anisotropy affecting the scattering of radiation in an electric-quadrupole transition, and the associated Hanle effect in the presence of a magnetic field. | 翻訳日:2024-11-08 03:35:26 公開日:2024-10-13 |
# 限られた対向騒音に対する認定
Accreditation Against Limited Adversarial Noise ( http://arxiv.org/abs/2409.03995v2 ) ライセンス: Link先を確認 | Andrew Jackson, | (参考訳) 誤りを逆数(以前の認証プロトコルで使用されるID仮定とは対照的に)と仮定する認証プロトコル(量子検証の多種多様なプロトコル)を提案する。
I present an accreditation (a variety of quantum verification) protocol where error is assumed to be adversarial (in contrast to the IID assumption used in previous accreditation protocols) - albeit slightly modified to more closely resemble physical reality - with no diminution in efficiency or suitability for near-term usage. | 翻訳日:2024-11-07 23:11:54 公開日:2024-10-13 |
# AttentionX:分散最適化の観点からの合意の不一致を警告する
AttentionX: Exploiting Consensus Discrepancy In Attention from A Distributed Optimization Perspective ( http://arxiv.org/abs/2409.04275v3 ) ライセンス: Link先を確認 | Guoqiang Zhang, Richard Heusdens, | (参考訳) 本稿では,分散最適化の観点からのコンセンサス差を利用して,変圧器の標準アテンションを拡張し,アテンションXと呼ぶ。
また, pear-to-pear (P2P) ネットワーク上での分散最適化問題を, 最適化過程で定義された線形エッジ制約によって, 近隣ノードが徐々にコンセンサスに到達し, 反復的に解くために設計されている。
特にPDMMの各イテレーションでは、ネットワークの各ノードがまず近隣から情報収集を行い、次にローカル情報融合を行う。
高レベルの観点からは、$KQ$-softmax-based weighted summation of $V$-representations in Attentionは近隣の情報収集に対応し、一方、トランスフォーマーのフィードフォワードネットワーク(FFN)による特徴処理はローカル情報融合に対応している。
PDMMはラグランジアン乗算器を利用して、線形エッジ制約の残差エラーという形で歴史的コンセンサス差を捉え、アルゴリズムが収束するのに重要な役割を果たす。
PDMMにインスパイアされた我々は、標準注意の出力更新圧縮にコンセンサスの不一致を組み込むために、AttentionXを提案する。
AttentionXにおけるコンセンサスの違いは、$V$-representations と $V$-representions の重み付け和と、それ自身をスケールした$V$-representions との差を指す。
ViTおよびnanoGPTの実験は有望な性能を示した。
In this paper, we extend the standard Attention in transformer by exploiting the consensus discrepancy from a distributed optimization perspective, referred to as AttentionX. It is noted that the primal-dual method of multipliers (PDMM) \cite{Zhang16PDMM} is designed to iteratively solve a broad class of distributed optimization problems over a pear-to-pear (P2P) network, where neighbouring nodes gradually reach consensus as specified by predefined linear edge-constraints in the optimization process. In particular, at each iteration of PDMM, each node in a network first performs information-gathering from neighbours and then performs local information-fusion. From a high-level point of view, the $KQ$-softmax-based weighted summation of $V$-representations in Attention corresponds information-gathering from neighbours while the feature-processing via the feed-forward network (FFN) in transformer corresponds to local information fusion. PDMM exploits the Lagrangian multipliers to capture the historical consensus discrepancy in the form of residual errors of the linear edge-constraints, which plays a crucial role for the algorithm to converge. Inspired by PDMM, we propose AttentionX to incorporate the consensus discrepancy in the output update-expression of the standard Attention. The consensus discrepancy in AttentionX refers to the difference between the weighted summation of $V$-representations and scaled $V$-representions themselves. Experiments on ViT and nanoGPT show promising performance. | 翻訳日:2024-11-07 23:00:54 公開日:2024-10-13 |
# LIME:MLLMの評価にはあまり役に立たない
LIME: Less Is More for MLLM Evaluation ( http://arxiv.org/abs/2409.06851v3 ) ライセンス: Link先を確認 | King Zhu, Qianbo Zang, Shian Jia, Siwei Wu, Feiteng Fang, Yizhi Li, Shawn Gavin, Tuney Zheng, Jiawei Guo, Bo Li, Haoning Wu, Xingwei Qu, Jian Yang, Zachary Liu, Xiang Yue, J. H. Liu, Chenghua Lin, Min Yang, Shiwen Ni, Wenhao Huang, Ge Zhang, | (参考訳) マルチモーダル大言語モデル(MLLM)は,画像キャプション,視覚的質問応答,推論など,様々なベンチマークで評価される。
しかしながら、これらのベンチマークの多くは、過度に単純または非形式的なサンプルを含んでおり、異なるMLLMの性能の効果的な区別を複雑にしている。
さらに、多数のベンチマークでモデルを評価すると、かなりの計算負荷が発生する。
これらの問題に対処するため,セミオートマチックパイプラインを通した改良および効率的なベンチマークであるLIME(Less Is More for MLLM Evaluation)を提案する。
このパイプラインは、非形式的なサンプルをフィルタリングし、イメージベースの理解を必要とするタスクに集中することで、回答のリークを取り除く。
実験の結果,LIMEはサンプル数を76%減らし,評価時間を77%減らした。
特に,CIDErのような従来の自動メトリクスはMLLMのキャプション性能を評価するのに不十分であり,キャプションタスクスコアを除くと,モデル全体の性能をより正確に反映する。
すべてのコードとデータはhttps://github.com/kangreen0210/LIMEで入手できる。
Multimodal Large Language Models (MLLMs) are evaluated on various benchmarks, such as image captioning, visual question answering, and reasoning. However, many of these benchmarks include overly simple or uninformative samples, complicating the effective distinction of different MLLMs' performance. Furthermore, evaluating models across numerous benchmarks incurs a significant computational burden. To address these issues, we propose LIME (Less Is More for MLLM Evaluation), a refined and efficient benchmark curated through a semi-automated pipeline. This pipeline filters out uninformative samples and eliminates answer leakage by focusing on tasks that necessitate image-based understanding. Our experiments indicate that LIME reduces the number of samples by 76% and evaluation time by 77%, while also providing a more effective means of distinguishing the capabilities of different models. Notably, we find that traditional automatic metrics, such as CIDEr, are inadequate for assessing MLLMs' captioning performance; excluding the caption task score yields a more accurate reflection of overall model performance. All code and data are available at https://github.com/kangreen0210/LIME. | 翻訳日:2024-11-07 22:05:05 公開日:2024-10-13 |
# 潜時空間における閉形式モデルベース制御のための入力-状態安定結合型オシレータネットワーク
Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space ( http://arxiv.org/abs/2409.08439v2 ) ライセンス: Link先を確認 | Maximilian Stölzle, Cosimo Della Santina, | (参考訳) 文学において様々な方法が提案されているが、物理系の効率的かつ効果的な潜在空間制御(すなわち学習された低次元空間における制御)は未解決の課題である。
有望な道は、ポテンシャルエネルギー整形のような学習力学と組み合わせることで、制御理論の文献から強力でよく理解された閉形式戦略を活用することであると論じる。
既存の潜在空間モデルにおいて、この強力な組み合わせを阻止した3つの根本的な欠点を特定します。
(i)物理系の数学的構造を欠いている。
(ii)それらは本質的に実システムの安定性特性を保存するものではない。
(iii)これらの手法は入力と潜時空間の強制の間の可逆写像を持たない。
本研究は,これらすべての問題に同時に対処する,結合オシレータネットワーク(CON)モデルを提案する。
より具体的には
i) 解析的に、CON はラグランジアン系、すなわち、よく定義されたポテンシャルと運動エネルギーの項を持つことを示す。
そして
(2)リャプノフの議論を用いた大域的入力状態安定性の形式的証明を提供する。
実験面では、画像から直接機械系の複雑な非線形ダイナミクスを学習する際に、CONがSoA性能に達することを実証する。
この第3の目標達成に寄与する新たな方法論的革新は、ネットワークダイナミクスの効率的な統合のための、近似されたクローズドフォームソリューションである。
私たちは取り組んだ
(iii) 符号化された潜時空間力に基づいて入力を再構成するよう訓練されたデコーダを用いて強制入力マッピングを近似することにより。
最後に,これらの特性が潜在空間制御を実現する方法を示す。
そこで本研究では,原画素をフィードバック情報として用いたソフトロボットにおいて,電位補償を備えた積分飽和PIDを用い,高品質な性能を示す。
Even though a variety of methods have been proposed in the literature, efficient and effective latent-space control (i.e., control in a learned low-dimensional space) of physical systems remains an open challenge. We argue that a promising avenue is to leverage powerful and well-understood closed-form strategies from control theory literature in combination with learned dynamics, such as potential-energy shaping. We identify three fundamental shortcomings in existing latent-space models that have so far prevented this powerful combination: (i) they lack the mathematical structure of a physical system, (ii) they do not inherently conserve the stability properties of the real systems, (iii) these methods do not have an invertible mapping between input and latent-space forcing. This work proposes a novel Coupled Oscillator Network (CON) model that simultaneously tackles all these issues. More specifically, (i) we show analytically that CON is a Lagrangian system - i.e., it possesses well-defined potential and kinetic energy terms. Then, (ii) we provide formal proof of global Input-to-State stability using Lyapunov arguments. Moving to the experimental side, we demonstrate that CON reaches SoA performance when learning complex nonlinear dynamics of mechanical systems directly from images. An additional methodological innovation contributing to achieving this third goal is an approximated closed-form solution for efficient integration of network dynamics, which eases efficient training. We tackle (iii) by approximating the forcing-to-input mapping with a decoder that is trained to reconstruct the input based on the encoded latent space force. Finally, we show how these properties enable latent-space control. We use an integral-saturated PID with potential force compensation and demonstrate high-quality performance on a soft robot using raw pixels as the only feedback information. | 翻訳日:2024-11-07 21:20:36 公開日:2024-10-13 |
# 変分正規化対実リスク最小化の簡易化
A Simpler Alternative to Variational Regularized Counterfactual Risk Minimization ( http://arxiv.org/abs/2409.09819v2 ) ライセンス: Link先を確認 | Hua Chang Bakker, Shashank Gupta, Harrie Oosterhuis, | (参考訳) 分散正規化対実リスク最小化(VRCRM)は、代替のオフ・ポリシー・ラーニング(OPL)手法として提案されている。
VRCRM法は,学習中の正規化としてログポリシと対象ポリシの$f$-divergenceの低い値を用いており,マルチラベル分類タスクにおける既存のOPL代替よりも性能が向上することが示されている。
本研究では,VRCRMの当初の実験的な設定を再考し,$f$-divergenceを直接最小化することを提案し,$f$-GANアプローチを用いて下位境界を最適化する。
意外なことに、元の設定で報告された結果を再現できなかったのです。
そこで本研究では,f$-GAN に基づく下界ではなく,f-divergence の直接近似を最小化することで,f-divergence 最適化の新たな選択肢を提案する。
実験の結果,$f$-GANを用いた分散の最小化は期待通りには機能しないことがわかった。
Variance regularized counterfactual risk minimization (VRCRM) has been proposed as an alternative off-policy learning (OPL) method. VRCRM method uses a lower-bound on the $f$-divergence between the logging policy and the target policy as regularization during learning and was shown to improve performance over existing OPL alternatives on multi-label classification tasks. In this work, we revisit the original experimental setting of VRCRM and propose to minimize the $f$-divergence directly, instead of optimizing for the lower bound using a $f$-GAN approach. Surprisingly, we were unable to reproduce the results reported in the original setting. In response, we propose a novel simpler alternative to f-divergence optimization by minimizing a direct approximation of f-divergence directly, instead of a $f$-GAN based lower bound. Experiments showed that minimizing the divergence using $f$-GANs did not work as expected, whereas our proposed novel simpler alternative works better empirically. | 翻訳日:2024-11-07 20:46:36 公開日:2024-10-13 |
# 一般化Wigner-Yanaseスキュー情報と分散に基づく多部量子系の絡み合い基準のいくつかの家系
Several families of entanglement criteria for multipartite quantum systems based on generalized Wigner-Yanase skew information and variance ( http://arxiv.org/abs/2409.11273v2 ) ライセンス: Link先を確認 | Yan Hong, Xinlan Hao, Limin Gao, | (参考訳) 多くの量子応用において量子エンタングルメントは重要な役割を果たすが、特に多部量子系や高次元量子系において量子エンタングルメントを検出することは依然として困難である。
本稿では,多部量子状態や高次元量子状態の絡み合いを一般化したウィグナー・ヤネーゼスキュー情報$I^s(\rho,X)$ for $-1\leq s\leq0$と分散によって検出するための絡み合い条件のいくつかを提案する。
また、一般化されたウィグナー・ヤネーゼスキュー情報に基づく基準と、特定の例による分散に基づく代替指標との相補的な特徴を明らかにする。
これらの基準の利点を概説し、他の基準によって認識されていない絡み合い状態を検出することができるため、絡み合い基準の組み合わせがより強力な検出能力を有することを示す。
Quantum entanglement plays a critical role in many quantum applications, but detecting entanglement, especially in multipartite or high-dimensional quantum systems, remains a challenge. In this paper, we propose several families of entanglement criteria for detecting entanglement in multipartite or high-dimensional quantum states by the generalized Wigner-Yanase skew information $I^s(\rho,X)$ for $-1\leq s\leq0$ and variance. We also reveal a complementary character between the criteria based on the generalized Wigner-Yanase skew information and an alternative one based on variance through specific examples. We illustrate the merits of these criteria and show that the combination of the entanglement criteria has a stronger detection capability, as it is capable of detecting entangled states that remain unrecognized by other criteria. | 翻訳日:2024-11-07 20:13:03 公開日:2024-10-13 |
# 変圧器を用いた線形システムと線形楕円型PDEの確率的インコンテキスト学習
Provable In-Context Learning of Linear Systems and Linear Elliptic PDEs with Transformers ( http://arxiv.org/abs/2409.12293v1 ) ライセンス: Link先を確認 | Frank Cole, Yulong Lu, Riley O'Neill, Tianhao Zhang, | (参考訳) トランスフォーマーアーキテクチャを駆使した自然言語処理の基礎モデルは、優れたインコンテキスト学習(ICL)能力を示し、トレーニング済みのモデルは、重みを更新することなく、数発のプロンプトを使用して下流タスクに適応することができる。
近年、トランスフォーマーに基づく基礎モデルは、特に偏微分方程式(PDE)の領域において、科学的問題を解決するための汎用ツールとして出現している。
しかし、これらの科学モデルにおけるICLの能力の理論的基礎はほとんど解明されていない。
本研究は、線形楕円型PDEの族に付随する解演算子に適用された変換器ベースのICLの厳密な誤差解析を開発する。
まず,線形自己アテンション層によって定義される線形変圧器が,PDEの空間的離散化から生じる線形系を逆変換するために,文脈内を確実に学習できることを実証する。
これは、空間的離散化サイズ、トレーニングタスク数、トレーニングおよび推論で使用されるプロンプトの長さの観点から、提案した線形変圧器の予測リスクに関する理論的スケーリング法則を導出したものである。
これらのスケーリング法則により、PDEソリューションを学習するための量的エラー境界を確立することもできる。
さらに、PDE係数で表される)タスクと入力共変量(元項で表される)の両方の分散シフトを経験する下流PDEタスクにおける事前学習されたトランスフォーマーの適応性を定量化する。
タスクの分散シフトを分析するために,タスクの多様性という新しい概念を導入し,事前学習タスクにおける十分な多様性を前提として,タスクシフトの規模でトランスフォーマーの予測誤差を特徴付ける。
タスクの多様性を確保するのに十分な条件も確立します。
最後に, 変圧器のICL能力について, 広範囲な数値実験により検証した。
Foundation models for natural language processing, powered by the transformer architecture, exhibit remarkable in-context learning (ICL) capabilities, allowing pre-trained models to adapt to downstream tasks using few-shot prompts without updating their weights. Recently, transformer-based foundation models have also emerged as versatile tools for solving scientific problems, particularly in the realm of partial differential equations (PDEs). However, the theoretical foundations of the ICL capabilities in these scientific models remain largely unexplored. This work develops a rigorous error analysis for transformer-based ICL applied to solution operators associated with a family of linear elliptic PDEs. We first demonstrate that a linear transformer, defined by a linear self-attention layer, can provably learn in-context to invert linear systems arising from the spatial discretization of PDEs. This is achieved by deriving theoretical scaling laws for the prediction risk of the proposed linear transformers in terms of spatial discretization size, the number of training tasks, and the lengths of prompts used during training and inference. These scaling laws also enable us to establish quantitative error bounds for learning PDE solutions. Furthermore, we quantify the adaptability of the pre-trained transformer on downstream PDE tasks that experience distribution shifts in both tasks (represented by PDE coefficients) and input covariates (represented by the source term). To analyze task distribution shifts, we introduce a novel concept of task diversity and characterize the transformer's prediction error in terms of the magnitude of task shift, assuming sufficient diversity in the pre-training tasks. We also establish sufficient conditions to ensure task diversity. Finally, we validate the ICL-capabilities of transformers through extensive numerical experiments. | 翻訳日:2024-11-07 15:38:21 公開日:2024-10-13 |
# 変圧器を用いた線形システムと線形楕円型PDEの確率的インコンテキスト学習
Provable In-Context Learning of Linear Systems and Linear Elliptic PDEs with Transformers ( http://arxiv.org/abs/2409.12293v2 ) ライセンス: Link先を確認 | Frank Cole, Yulong Lu, Riley O'Neill, Tianhao Zhang, | (参考訳) トランスフォーマーアーキテクチャを駆使した自然言語処理の基礎モデルは、優れたインコンテキスト学習(ICL)能力を示し、トレーニング済みのモデルは、重みを更新することなく、数発のプロンプトを使用して下流タスクに適応することができる。
近年、トランスフォーマーに基づく基礎モデルは、特に偏微分方程式(PDE)の領域において、科学的問題を解決するための汎用ツールとして出現している。
しかし、これらの科学モデルにおけるICLの能力の理論的基礎はほとんど解明されていない。
本研究は、線形楕円型PDEの族に付随する解演算子に適用された変換器ベースのICLの厳密な誤差解析を開発する。
まず,線形自己アテンション層によって定義される線形変圧器が,PDEの空間的離散化から生じる線形系を逆変換するために,文脈内を確実に学習できることを実証する。
これは、空間的離散化サイズ、トレーニングタスク数、トレーニングおよび推論で使用されるプロンプトの長さの観点から、提案した線形変圧器の予測リスクに関する理論的スケーリング法則を導出したものである。
これらのスケーリング法則により、PDEソリューションを学習するための量的エラー境界を確立することもできる。
さらに、PDE係数で表される)タスクと入力共変量(元項で表される)の両方の分散シフトを経験する下流PDEタスクにおける事前学習されたトランスフォーマーの適応性を定量化する。
タスクの分散シフトを分析するために,タスクの多様性という新しい概念を導入し,事前学習タスクにおける十分な多様性を前提として,タスクシフトの規模でトランスフォーマーの予測誤差を特徴付ける。
タスクの多様性を確保するのに十分な条件も確立します。
最後に, 変圧器のICL能力について, 広範囲な数値実験により検証した。
Foundation models for natural language processing, powered by the transformer architecture, exhibit remarkable in-context learning (ICL) capabilities, allowing pre-trained models to adapt to downstream tasks using few-shot prompts without updating their weights. Recently, transformer-based foundation models have also emerged as versatile tools for solving scientific problems, particularly in the realm of partial differential equations (PDEs). However, the theoretical foundations of the ICL capabilities in these scientific models remain largely unexplored. This work develops a rigorous error analysis for transformer-based ICL applied to solution operators associated with a family of linear elliptic PDEs. We first demonstrate that a linear transformer, defined by a linear self-attention layer, can provably learn in-context to invert linear systems arising from the spatial discretization of PDEs. This is achieved by deriving theoretical scaling laws for the prediction risk of the proposed linear transformers in terms of spatial discretization size, the number of training tasks, and the lengths of prompts used during training and inference. These scaling laws also enable us to establish quantitative error bounds for learning PDE solutions. Furthermore, we quantify the adaptability of the pre-trained transformer on downstream PDE tasks that experience distribution shifts in both tasks (represented by PDE coefficients) and input covariates (represented by the source term). To analyze task distribution shifts, we introduce a novel concept of task diversity and characterize the transformer's prediction error in terms of the magnitude of task shift, assuming sufficient diversity in the pre-training tasks. We also establish sufficient conditions to ensure task diversity. Finally, we validate the ICL-capabilities of transformers through extensive numerical experiments. | 翻訳日:2024-11-07 15:38:21 公開日:2024-10-13 |
# 古代ギリシアのパピル学とエピノグラフィーのための教育訓練済み因果語モデル
Instruct-Tuning Pretrained Causal Language Models for Ancient Greek Papyrology and Epigraphy ( http://arxiv.org/abs/2409.13870v1 ) ライセンス: Link先を確認 | Eric Cullhed, | (参考訳) 本稿では,文献学研究の3つの基本的な課題である年代・地理的属性,古代ギリシアの碑文・文書パピリのテキスト復元を支援するために,事前訓練された因果関係言語モデル(Meta's Llama 3.1 8Bインストラクション)を微調整する実験について述べる。
プロンプトベースのインストラクションアプローチを使用することで、微調整されたモデルは、重要なメトリクスの最先端を超越する。
入力では、平均文字誤り率(CER)が22.5%(vs.26.3%)、トップ1の精度(60.9%対61.8%)とトップ20の精度(77.5%対78.3%)が10文字まで一致している。
また、再建の際に空間を無視し、典型的には古代の古文書で使われる経典の連続体と整合させるという実用上の優位性ももたらしている。
地理的属性では、トップ1の精度は75.0%(vs.70.8%)、トップ3の精度は83.7%(vs.82.1%)である。
デートでは、平均偏差は26.2年(vs.29.3)、平均偏差は1年(vs.3)となる。
また、CERが16.3%、CERが71.3%、テキスト再構成が85.0%、トップ1が66.4%、トップ3が79.9%、時系列属性が21.7年であり、平均偏差は0年である。
This article presents an experiment in fine-tuning a pretrained causal language model (Meta's Llama 3.1 8B Instruct) for aiding in three fundamental tasks of philological research: chronological and geographic attribution as well as text restoration in ancient Greek inscriptions and documentary papyri. Using a prompt-based instruct approach, the fine-tuned models surpass the state of the art in key metrics. For inscriptions, the models achieve a lower average character error rate (CER) of 22.5% (vs. 26.3%), while closely matching top-1 accuracy (60.9% vs. 61.8%) and top-20 accuracy (77.5% vs. 78.3%) for sequences up to 10 characters. They also provide a practical advantage by ignoring spaces during reconstruction, aligning better with the scriptio continua typically used in ancient written artifacts. In geographic attribution, the model outperforms previous benchmarks with a top-1 accuracy of 75.0% (vs. 70.8%) and a top-3 accuracy of 83.7% (vs. 82.1%). For dating, it achieves an average deviation of 26.2 years (vs. 29.3) and a median deviation of 1 year (vs. 3) from the actual date range. The models also set new baselines for documentary papyri, with a CER of 16.3%, a top-1 accuracy of 71.3%, and top-20 of 85.0% in text reconstruction; a top-1 accuracy of 66.4% and top-3 of 79.9% in geographic attribution; and, in chronological attribution, a deviation of 21.7 years from the actual termini post/ante quem, with a median deviation of 0 years. | 翻訳日:2024-11-07 04:50:50 公開日:2024-10-13 |
# 古代ギリシアのパピル学とエピノグラフィーのための教育訓練済み因果語モデル
Instruct-Tuning Pretrained Causal Language Models for Ancient Greek Papyrology and Epigraphy ( http://arxiv.org/abs/2409.13870v2 ) ライセンス: Link先を確認 | Eric Cullhed, | (参考訳) 本稿では, 文献学研究における3つの重要な課題, 年代, 地理的属性, 古代ギリシアの碑文および文書パピリの欠落, 不可解な文字の復元を支援するために, 事前訓練された因果関係言語モデル(Meta's Llama 3.1 8B Instruct)を微調整する実験について述べる。
命令ベースのアプローチと95%/5%の列車/テスト分割を用いて、パピルスのモデルは文字誤り率14.9%、トップ1の精度73.5%、トップ20の精度86.0%を達成した。
地理的属性では、トップ1の精度は66.4%、トップ3の精度は79.9%に達した。
時系列属性では、平均偏差は21.7年、平均偏差は0年であった。
銘文では、CERが20.5%、トップ1の精度が63.7%、トップ20の精度が最大10文字まで83.0%に達した。
地理的属性では、トップ1の精度は75.0%、トップ3の精度は83.7%に達した。
年代測定では、平均偏差37.1年、平均偏差3年であった。
共有テストセット上で最先端のモデル(Ithaca)とベンチマークし、最近編集された碑文をベンチマークすると、命令調整されたモデルはテキストの復元に優れ、復元中にスペースを無視し、古代のテキストの連続的なスクリプトと整合する利点が加わった。
しかし、そのモデルは地理的および年代的属性においてイサカよりも低かった。
これらの予備的な結果は、特にテキスト批判において、訓練済みのより大規模な因果的言語モデルに指導テンプレートが組み込まれていることを示唆している。
This paper describes an experiment in fine-tuning a pretrained causal language model (Meta's Llama 3.1 8B Instruct) to support three key tasks in philological research: dating, geographic attribution, and restoring missing or illegible characters in ancient Greek inscriptions and documentary papyri. Using an instruction-based approach and a 95%/5% train/test split, the models for papyri achieved a character error rate (CER) of 14.9%, a top-1 accuracy of 73.5%, and a top-20 accuracy of 86.0% in text reconstruction on the test set. For geographic attribution, they achieved a top-1 accuracy of 66.4% and a top-3 accuracy of 79.9%. In chronological attribution, the models showed an average deviation of 21.7 years from the actual terminus post/ante quem, with a median deviation of 0 years. For inscriptions, the models achieved a CER of 20.5%, a top-1 accuracy of 63.7%, and a top-20 accuracy of 83.0% for sequences up to 10 characters. In geographic attribution, they reached a top-1 accuracy of 75.0% and a top-3 accuracy of 83.7%. For dating, they had an average deviation of 37.1 years and a median deviation of 3 years from the actual date. When benchmarked against the state-of-the-art model (Ithaca) on a shared test set and recently edited inscriptions, the instruction-tuned models excelled in text restoration, with the added benefit of ignoring spaces during reconstruction to align with the continuous script of ancient texts. However, the models performed lower than Ithaca in geographic and chronological attribution. These preliminary results suggest that fine-tuning larger pretrained causal language models with instruction templates holds promise for philological research, especially in textual criticism. | 翻訳日:2024-11-07 04:50:50 公開日:2024-10-13 |
# J2N-名詞形容詞識別とその応用
J2N -- Nominal Adjective Identification and its Application ( http://arxiv.org/abs/2409.14374v1 ) ライセンス: Link先を確認 | Lemeng Qi, Yang Han, Zhuotong Xie, | (参考訳) 本稿では、自然言語処理(NLP)タスクにおける名詞形容詞(NA)による課題について、特にPOS(Part-of-speech)タグ付けにおいて考察する。
異なるPOSタグである"JN"としてNAを処理し,そのPOSタグ付け,BIOチャンキング,コア参照解決への影響について検討する。
本研究は,NAの再分類により,NLPにおける構文解析と構造理解の精度が向上することが示唆された。
隠れマルコフモデル(HMM)、最大エントロピーモデル(MaxEnt)、スペシーモデル(Spacy)を用いて,本手法の有効性と可能性を示す実験結果を示す。
さらに、未タグのテキストでNAを特定するためにbertモデルをトレーニングしました。
This paper explores the challenges posed by nominal adjectives (NAs) in natural language processing (NLP) tasks, particularly in part-of-speech (POS) tagging. We propose treating NAs as a distinct POS tag, "JN," and investigate its impact on POS tagging, BIO chunking, and coreference resolution. Our study shows that reclassifying NAs can improve the accuracy of syntactic analysis and structural understanding in NLP. We present experimental results using Hidden Markov Models (HMMs), Maximum Entropy (MaxEnt) models, and Spacy, demonstrating the feasibility and potential benefits of this approach. Additionally we trained a bert model to identify the NA in untagged text. | 翻訳日:2024-11-06 23:04:03 公開日:2024-10-13 |
# J2N-名詞形容詞識別とその応用
J2N -- Nominal Adjective Identification and its Application ( http://arxiv.org/abs/2409.14374v2 ) ライセンス: Link先を確認 | Lemeng Qi, Yang Han, Zhuotong Xie, | (参考訳) 本稿では、自然言語処理(NLP)タスクにおける名詞形容詞(NA)による課題について、特にPOS(Part-of-speech)タグ付けにおいて考察する。
異なるPOSタグである"JN"としてNAを処理し,そのPOSタグ付け,BIOチャンキング,コア参照解決への影響について検討する。
本研究は,NAの再分類により,NLPにおける構文解析と構造理解の精度が向上することが示唆された。
隠れマルコフモデル(HMM)、最大エントロピーモデル(MaxEnt)、スペシーモデル(Spacy)を用いて,本手法の有効性と可能性を示す実験結果を示す。
さらに、未タグのテキストでNAを特定するためにbertモデルをトレーニングしました。
This paper explores the challenges posed by nominal adjectives (NAs) in natural language processing (NLP) tasks, particularly in part-of-speech (POS) tagging. We propose treating NAs as a distinct POS tag, "JN," and investigate its impact on POS tagging, BIO chunking, and coreference resolution. Our study shows that reclassifying NAs can improve the accuracy of syntactic analysis and structural understanding in NLP. We present experimental results using Hidden Markov Models (HMMs), Maximum Entropy (MaxEnt) models, and Spacy, demonstrating the feasibility and potential benefits of this approach. Additionally we trained a bert model to identify the NA in untagged text. | 翻訳日:2024-11-06 23:04:03 公開日:2024-10-13 |
# J2N-名詞形容詞識別とその応用
J2N -- Nominal Adjective Identification and its Application ( http://arxiv.org/abs/2409.14374v3 ) ライセンス: Link先を確認 | Lemeng Qi, Yang Han, Zhuotong Xie, | (参考訳) 本稿では、自然言語処理(NLP)タスクにおける名詞形容詞(NA)による課題について、特にPOS(Part-of-speech)タグ付けにおいて考察する。
異なるPOSタグである"JN"としてNAを処理し,そのPOSタグ付け,BIOチャンキング,コア参照解決への影響について検討する。
本研究は,NAの再分類により,NLPにおける構文解析と構造理解の精度が向上することが示唆された。
隠れマルコフモデル(HMM)、最大エントロピーモデル(MaxEnt)、スペシーモデル(Spacy)を用いて,本手法の有効性と可能性を示す実験結果を示す。
さらに、未タグテキスト中のNAを特定するために、bertモデルを微調整した。
This paper explores the challenges posed by nominal adjectives (NAs) in natural language processing (NLP) tasks, particularly in part-of-speech (POS) tagging. We propose treating NAs as a distinct POS tag, "JN," and investigate its impact on POS tagging, BIO chunking, and coreference resolution. Our study shows that reclassifying NAs can improve the accuracy of syntactic analysis and structural understanding in NLP. We present experimental results using Hidden Markov Models (HMMs), Maximum Entropy (MaxEnt) models, and Spacy, demonstrating the feasibility and potential benefits of this approach. Additionally we finetuned a bert model to identify the NA in untagged text. | 翻訳日:2024-11-06 23:04:03 公開日:2024-10-13 |
# 事前学習された言語モデルは研究論文のタイトルを生成することができるか?
Can pre-trained language models generate titles for research papers? ( http://arxiv.org/abs/2409.14602v1 ) ライセンス: Link先を確認 | Tohida Rehman, Debarshi Kumar Sanyal, Samiran Chattopadhyay, | (参考訳) 研究論文の題名は、簡潔なスタイルで主テーマを伝え、時には論文の発見を伝える。
タイトル生成が自動化できれば、著者にとってメリットがあるでしょう。
本稿では,論文のタイトルを要約から生成するために,事前学習された大規模言語モデルを微調整する。
また、ゼロショット設定でChatGPTを使用してタイトルを生成します。
モデルはROUGE、METEOR、MoverScore、BERTScore、SciBERTScoreで測定される。
The title of a research paper communicates in a succinct style the main theme and, sometimes, the findings of the paper. Coming up with the right title is often an arduous task, and therefore, it would be beneficial to authors if title generation can be automated. In this paper, we fine-tune pre-trained and large language models to generate titles of papers from their abstracts. We also use ChatGPT in a zero-shot setting to generate paper titles. The performance of the models is measured with ROUGE, METEOR, MoverScore, BERTScore and SciBERTScore metrics. | 翻訳日:2024-11-06 21:57:16 公開日:2024-10-13 |
# 事前学習された言語モデルは研究論文のタイトルを生成することができるか?
Can pre-trained language models generate titles for research papers? ( http://arxiv.org/abs/2409.14602v2 ) ライセンス: Link先を確認 | Tohida Rehman, Debarshi Kumar Sanyal, Samiran Chattopadhyay, | (参考訳) 研究論文の題名は、簡潔なスタイルで主テーマを伝え、時には論文の発見を伝える。
タイトル生成が自動化できれば、著者にとってメリットがあるでしょう。
本稿では,論文のタイトルを要約から生成するために,事前学習した言語モデルを微調整する。
さらに、ゼロショット設定でGPT-3.5-turboを使用して、紙タイトルを生成する。
モデルはROUGE、METEOR、MoverScore、BERTScore、SciBERTScoreで測定される。
LLaMA-3-8B や GPT-3.5-turbo といった細調整 PEGASUS-large は,多くの指標において他のモデルよりも優れていた。
また,ChatGPTが論文のクリエイティブなタイトルを生成可能であることも実証した。
我々の観察では、AIが生成した論文のタイトルは一般的に正確で適切であることが示唆されている。
The title of a research paper communicates in a succinct style the main theme and, sometimes, the findings of the paper. Coming up with the right title is often an arduous task, and therefore, it would be beneficial to authors if title generation can be automated. In this paper, we fine-tune pre-trained language models to generate titles of papers from their abstracts. Additionally, we use GPT-3.5-turbo in a zero-shot setting to generate paper titles. The performance of the models is measured with ROUGE, METEOR, MoverScore, BERTScore and SciBERTScore metrics. We find that fine-tuned PEGASUS-large outperforms the other models, including fine-tuned LLaMA-3-8B and GPT-3.5-turbo, across most metrics. We also demonstrate that ChatGPT can generate creative titles for papers. Our observations suggest that AI-generated paper titles are generally accurate and appropriate. | 翻訳日:2024-11-06 21:57:16 公開日:2024-10-13 |
# キャリブレーションすれば、ファインチューニングは素晴らしい
Fine-Tuning is Fine, if Calibrated ( http://arxiv.org/abs/2409.16223v2 ) ライセンス: Link先を確認 | Zheda Mai, Arpita Chowdhury, Ping Zhang, Cheng-Hao Tu, Hong-You Chen, Vardaan Pahuja, Tanya Berger-Wolf, Song Gao, Charles Stewart, Yu Su, Wei-Lun Chao, | (参考訳) ファインチューニングは、トレーニング済みのモデル(例えば、ファンデーションモデル)を下流のアプリケーションにカスタマイズする最も簡単な方法であることは間違いないが、トレーニング前のモデルで学んだ貴重な知識を失うリスクも伴う。
例えば、手前のクラスのサブセットをマスターするために多数のクラスを認識できる事前訓練された分類器を微調整すると、以前に学んだ他のクラスでモデルの精度が劇的に低下する。
そのため、微調整されたデータを超えたクラスに遭遇した場合、微調整されたモデルをさらに利用するのは難しい。
本稿では,「微調整モデルで損傷を受けたものは何か?」という根本的な疑問に答えることを目的として,系統的に問題を解き明かす。
驚いたことに、微調整されたモデルは、他のクラス間の関係を忘れたり、これらのクラスを認識するために機能を劣化させたりしない。
代わりに、微調整されたモデルは、たとえ微調整中に欠落していたとしても、しばしばこれらの他のクラスに対してより差別的な特徴を生み出す。
これは、単純な後処理のキャリブレーションによって、トレーニング済みのモデルの能力が取り戻され、同時に、すべてのクラスで機能改善が公開されることを意味する。
本研究は,本研究のロバスト性を実証するための広範な実証的研究を行い,その基礎となる予備的な説明を提供し,今後の理論的分析のための新たな方向性を提案する。
私たちのコードはhttps://github.com/OSU-MLB/Fine-Tuning-Is-If-Calibratedで利用可能です。
Fine-tuning is arguably the most straightforward way to tailor a pre-trained model (e.g., a foundation model) to downstream applications, but it also comes with the risk of losing valuable knowledge the model had learned in pre-training. For example, fine-tuning a pre-trained classifier capable of recognizing a large number of classes to master a subset of classes at hand is shown to drastically degrade the model's accuracy in the other classes it had previously learned. As such, it is hard to further use the fine-tuned model when it encounters classes beyond the fine-tuning data. In this paper, we systematically dissect the issue, aiming to answer the fundamental question, "What has been damaged in the fine-tuned model?" To our surprise, we find that the fine-tuned model neither forgets the relationship among the other classes nor degrades the features to recognize these classes. Instead, the fine-tuned model often produces more discriminative features for these other classes, even if they were missing during fine-tuning! {What really hurts the accuracy is the discrepant logit scales between the fine-tuning classes and the other classes}, implying that a simple post-processing calibration would bring back the pre-trained model's capability and at the same time unveil the feature improvement over all classes. We conduct an extensive empirical study to demonstrate the robustness of our findings and provide preliminary explanations underlying them, suggesting new directions for future theoretical analysis. Our code is available at https://github.com/OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrated. | 翻訳日:2024-11-06 17:52:35 公開日:2024-10-13 |
# キャリブレーションすれば、ファインチューニングは素晴らしい
Fine-Tuning is Fine, if Calibrated ( http://arxiv.org/abs/2409.16223v3 ) ライセンス: Link先を確認 | Zheda Mai, Arpita Chowdhury, Ping Zhang, Cheng-Hao Tu, Hong-You Chen, Vardaan Pahuja, Tanya Berger-Wolf, Song Gao, Charles Stewart, Yu Su, Wei-Lun Chao, | (参考訳) ファインチューニングは、トレーニング済みのモデル(例えば、ファンデーションモデル)を下流のアプリケーションにカスタマイズする最も簡単な方法であることは間違いないが、トレーニング前のモデルで学んだ貴重な知識を失うリスクも伴う。
例えば、手前のクラスのサブセットをマスターするために多数のクラスを認識できる事前訓練された分類器を微調整すると、以前に学んだ他のクラスでモデルの精度が劇的に低下する。
そのため、微調整されたデータを超えたクラスに遭遇した場合、微調整されたモデルをさらに利用するのは難しい。
本稿では,「微調整モデルで損傷を受けたものは何か?」という根本的な疑問に答えることを目的として,系統的に問題を解き明かす。
驚いたことに、微調整されたモデルは、他のクラス間の関係を忘れたり、これらのクラスを認識するために機能を劣化させたりしない。
代わりに、微調整されたモデルは、たとえ微調整中に欠落していたとしても、しばしばこれらの他のクラスに対してより差別的な特徴を生み出す。
これは、単純な後処理のキャリブレーションによって、トレーニング済みのモデルの能力が取り戻され、同時に、すべてのクラスで機能改善が公開されることを意味する。
本研究は,本研究のロバスト性を実証するための広範な実証的研究を行い,その基礎となる予備的な説明を提供し,今後の理論的分析のための新たな方向性を提案する。
私たちのコードはhttps://github.com/OSU-MLB/Fine-Tuning-Is-If-Calibratedで利用可能です。
Fine-tuning is arguably the most straightforward way to tailor a pre-trained model (e.g., a foundation model) to downstream applications, but it also comes with the risk of losing valuable knowledge the model had learned in pre-training. For example, fine-tuning a pre-trained classifier capable of recognizing a large number of classes to master a subset of classes at hand is shown to drastically degrade the model's accuracy in the other classes it had previously learned. As such, it is hard to further use the fine-tuned model when it encounters classes beyond the fine-tuning data. In this paper, we systematically dissect the issue, aiming to answer the fundamental question, "What has been damaged in the fine-tuned model?" To our surprise, we find that the fine-tuned model neither forgets the relationship among the other classes nor degrades the features to recognize these classes. Instead, the fine-tuned model often produces more discriminative features for these other classes, even if they were missing during fine-tuning! {What really hurts the accuracy is the discrepant logit scales between the fine-tuning classes and the other classes}, implying that a simple post-processing calibration would bring back the pre-trained model's capability and at the same time unveil the feature improvement over all classes. We conduct an extensive empirical study to demonstrate the robustness of our findings and provide preliminary explanations underlying them, suggesting new directions for future theoretical analysis. Our code is available at https://github.com/OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrated. | 翻訳日:2024-11-06 17:52:35 公開日:2024-10-13 |
# ニューロインスパイアされたフロントエンドを用いた前皮質視覚の明示的モデリングによるCNNロバストネスの改善
Explicitly Modeling Pre-Cortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness ( http://arxiv.org/abs/2409.16838v2 ) ライセンス: Link先を確認 | Lucas Piper, Arlindo L. Oliveira, Tiago Marques, | (参考訳) 畳み込みニューラルネットワーク(CNN)はクリーンな画像分類に優れていますが、さまざまな共通の汚職による画像の分類に苦慮し、実際の適用範囲を制限しています。
近年の研究では、霊長類一次視覚野(V1)のいくつかの特徴をシミュレートするCNNフロントエンドブロックを組み込むことで、全体のモデル堅牢性を向上させることが示されている。
ここでは、前皮質視覚処理をシミュレートする新しいフロントエンドブロックを組み込んだ、生物学的にインスパイアされた2つのCNNモデルファミリーを導入することにより、このアプローチを拡大する。
新しいフロントエンドと標準のCNNバックエンドを含むハイブリッドアーキテクチャであるRetinaNetは、標準モデルと比較して12.3%のロバスト性向上を示す。
この堅牢性の向上は, クリーンな画像精度の低下を伴い, 異なるバックエンドアーキテクチャに一般化された。
これらの結果から,CNN初期層における初期視覚処理の複数の段階をシミュレートすることで,モデルロバストネスの累積的メリットが得られた。
While convolutional neural networks (CNNs) excel at clean image classification, they struggle to classify images corrupted with different common corruptions, limiting their real-world applicability. Recent work has shown that incorporating a CNN front-end block that simulates some features of the primate primary visual cortex (V1) can improve overall model robustness. Here, we expand on this approach by introducing two novel biologically-inspired CNN model families that incorporate a new front-end block designed to simulate pre-cortical visual processing. RetinaNet, a hybrid architecture containing the novel front-end followed by a standard CNN back-end, shows a relative robustness improvement of 12.3% when compared to the standard model; and EVNet, which further adds a V1 block after the pre-cortical front-end, shows a relative gain of 18.5%. The improvement in robustness was observed for all the different corruption categories, though accompanied by a small decrease in clean image accuracy, and generalized to a different back-end architecture. These findings show that simulating multiple stages of early visual processing in CNN early layers provides cumulative benefits for model robustness. | 翻訳日:2024-11-06 17:10:14 公開日:2024-10-13 |
# 弱々しい知識蒸留によるLDMのバックドア攻撃
Backdoor Attacks for LLMs with Weak-To-Strong Knowledge Distillation ( http://arxiv.org/abs/2409.17946v2 ) ライセンス: Link先を確認 | Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan, | (参考訳) 例外的な能力のために広く適用されているにもかかわらず、Large Language Models (LLM)はバックドア攻撃に弱いことが証明されている。
これらの攻撃は、トレーニングサンプルやフルパラメータの微調整によってLLMに標的の脆弱性をもたらす。
しかし、このようなバックドア攻撃は、特にLLMのサイズが大きくなるにつれて、かなりの計算資源を必要とするため、制限されている。
さらに、パラメータ効率の良い微調整(PEFT)は代替手段を提供するが、制限されたパラメータの更新は、トリガーとターゲットラベルのアライメントを妨げる可能性がある。
本研究では,PEFTによるバックドア攻撃が,実現可能な性能を達成する上での課題に直面する可能性があることを確認する。
これらの問題に対処し,PEFTによるバックドアアタックの有効性を向上させるために,機能的アライメント強化知識蒸留(W2SAttack)に基づくバックドアアタックアルゴリズムを提案する。
具体的には、教師モデルとして機能するために、フルパラメータ細調整による小規模言語モデルに毒を盛る。
教師モデルは,PEFTを用いた機能的アライメント強化知識蒸留を通じて,バックドアを大規模学生モデルに隠蔽的に転送する。
理論的解析によると、W2SAttackはバックドア攻撃の有効性を高める可能性がある。
我々は,W2SAttackが4つの言語モデル,4つのバックドアアタックアルゴリズム,および2つの異なる教師モデルのアーキテクチャの分類タスクにおいて優れていることを示す。
実験の結果,PEFTを標的としたバックドア攻撃では100%に近い成功率を示した。
Despite being widely applied due to their exceptional capabilities, Large Language Models (LLMs) have been proven to be vulnerable to backdoor attacks. These attacks introduce targeted vulnerabilities into LLMs by poisoning training samples and full-parameter fine-tuning. However, this kind of backdoor attack is limited since they require significant computational resources, especially as the size of LLMs increases. Besides, parameter-efficient fine-tuning (PEFT) offers an alternative but the restricted parameter updating may impede the alignment of triggers with target labels. In this study, we first verify that backdoor attacks with PEFT may encounter challenges in achieving feasible performance. To address these issues and improve the effectiveness of backdoor attacks with PEFT, we propose a novel backdoor attack algorithm from weak to strong based on feature alignment-enhanced knowledge distillation (W2SAttack). Specifically, we poison small-scale language models through full-parameter fine-tuning to serve as the teacher model. The teacher model then covertly transfers the backdoor to the large-scale student model through feature alignment-enhanced knowledge distillation, which employs PEFT. Theoretical analysis reveals that W2SAttack has the potential to augment the effectiveness of backdoor attacks. We demonstrate the superior performance of W2SAttack on classification tasks across four language models, four backdoor attack algorithms, and two different architectures of teacher models. Experimental results indicate success rates close to 100% for backdoor attacks targeting PEFT. | 翻訳日:2024-11-06 16:00:56 公開日:2024-10-13 |
# 大規模言語モデルに対する弱ストロングバックドアアタック
Weak-to-Strong Backdoor Attack for Large Language Models ( http://arxiv.org/abs/2409.17946v3 ) ライセンス: Link先を確認 | Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan, | (参考訳) 例外的な能力のために広く適用されているにもかかわらず、Large Language Models (LLM)はバックドア攻撃に弱いことが証明されている。
これらの攻撃は、トレーニングサンプルやフルパラメータの微調整によってLLMに標的の脆弱性をもたらす。
しかし、このようなバックドア攻撃は、特にLLMのサイズが大きくなるにつれて、かなりの計算資源を必要とするため、制限されている。
さらに、パラメータ効率の良い微調整(PEFT)は代替手段を提供するが、制限されたパラメータの更新は、トリガーとターゲットラベルのアライメントを妨げる可能性がある。
本研究では,PEFTによるバックドア攻撃が,実現可能な性能を達成する上での課題に直面する可能性があることを確認する。
これらの問題に対処し,PEFTによるバックドアアタックの有効性を向上させるために,機能的アライメント強化知識蒸留(W2SAttack)に基づくバックドアアタックアルゴリズムを提案する。
具体的には、教師モデルとして機能するために、フルパラメータ細調整による小規模言語モデルに毒を盛る。
教師モデルは,PEFTを用いた機能的アライメント強化知識蒸留を通じて,バックドアを大規模学生モデルに隠蔽的に転送する。
理論的解析によると、W2SAttackはバックドア攻撃の有効性を高める可能性がある。
我々は,W2SAttackが4つの言語モデル,4つのバックドアアタックアルゴリズム,および2つの異なる教師モデルのアーキテクチャの分類タスクにおいて優れていることを示す。
実験の結果,PEFTを標的としたバックドア攻撃では100%に近い成功率を示した。
Despite being widely applied due to their exceptional capabilities, Large Language Models (LLMs) have been proven to be vulnerable to backdoor attacks. These attacks introduce targeted vulnerabilities into LLMs by poisoning training samples and full-parameter fine-tuning. However, this kind of backdoor attack is limited since they require significant computational resources, especially as the size of LLMs increases. Besides, parameter-efficient fine-tuning (PEFT) offers an alternative but the restricted parameter updating may impede the alignment of triggers with target labels. In this study, we first verify that backdoor attacks with PEFT may encounter challenges in achieving feasible performance. To address these issues and improve the effectiveness of backdoor attacks with PEFT, we propose a novel backdoor attack algorithm from weak to strong based on feature alignment-enhanced knowledge distillation (W2SAttack). Specifically, we poison small-scale language models through full-parameter fine-tuning to serve as the teacher model. The teacher model then covertly transfers the backdoor to the large-scale student model through feature alignment-enhanced knowledge distillation, which employs PEFT. Theoretical analysis reveals that W2SAttack has the potential to augment the effectiveness of backdoor attacks. We demonstrate the superior performance of W2SAttack on classification tasks across four language models, four backdoor attack algorithms, and two different architectures of teacher models. Experimental results indicate success rates close to 100% for backdoor attacks targeting PEFT. | 翻訳日:2024-11-06 16:00:56 公開日:2024-10-13 |
# 冗長化と一貫性保存のためのニューラルビデオ表現
Neural Video Representation for Redundancy Reduction and Consistency Preservation ( http://arxiv.org/abs/2409.18497v1 ) ライセンス: Link先を確認 | Taiga Hayami, Takahiro Shindo, Shunsuke Akamatsu, Hiroshi Watanabe, | (参考訳) 入射神経表現(INR)は様々な信号をネットワークに埋め込む。
彼らは近年、多様な信号タイプを扱う汎用性のために注目を集めている。
ビデオの場合、INRはビデオ信号をネットワークに埋め込んで圧縮することで、ビデオ圧縮を実現する。
従来の方法では、フレームの時間またはフレームから抽出された特徴をネットワークへの入力として表現するインデックスを使用する。
後者の方法は、入力が各ビデオに特有であるため、より豊かな表現能力を提供する。
しかし、フレームから抽出された特徴は冗長性を含むことが多く、ビデオ圧縮の目的とは矛盾する。
また,ネットワークにフレーム時間情報を明示的に提供していないため,フレーム間の関係を学習することは困難である。
これらの課題に対処するために,フレームの高周波成分に基づいて特徴を抽出することで特徴の冗長性を低減することを目的とする。
さらに、隣接フレーム間の特徴差を利用して、ネットワークがフレーム関係を円滑に学習する。
本稿では,フレームの高周波成分と隣接するフレーム間の特徴差を利用した映像表現手法を提案する。
実験の結果,ビデオの90%で既存のHNeRV法よりも優れていた。
Implicit neural representations (INRs) embed various signals into networks. They have gained attention in recent years because of their versatility in handling diverse signal types. For videos, INRs achieve video compression by embedding video signals into networks and compressing them. Conventional methods use an index that expresses the time of the frame or the features extracted from the frame as inputs to the network. The latter method provides greater expressive capability as the input is specific to each video. However, the features extracted from frames often contain redundancy, which contradicts the purpose of video compression. Moreover, since frame time information is not explicitly provided to the network, learning the relationships between frames is challenging. To address these issues, we aim to reduce feature redundancy by extracting features based on the high-frequency components of the frames. In addition, we use feature differences between adjacent frames in order for the network to learn frame relationships smoothly. We propose a video representation method that uses the high-frequency components of frames and the differences in features between adjacent frames. The experimental results show that our method outperforms the existing HNeRV method in 90 percent of the videos. | 翻訳日:2024-11-06 05:52:22 公開日:2024-10-13 |
# 冗長化と一貫性保存のためのニューラルビデオ表現
Neural Video Representation for Redundancy Reduction and Consistency Preservation ( http://arxiv.org/abs/2409.18497v2 ) ライセンス: Link先を確認 | Taiga Hayami, Takahiro Shindo, Shunsuke Akamatsu, Hiroshi Watanabe, | (参考訳) 入射神経表現(INR)は、様々な信号をニューラルネットワークに埋め込む。
彼らは近年、多様な信号タイプを扱う汎用性のために注目を集めている。
ビデオの文脈では、INRはビデオ信号を直接ネットワークに埋め込んで圧縮することで、ビデオ圧縮を実現する。
従来の手法では、フレームの時間を表すインデックスや、個々のフレームから抽出した特徴をネットワーク入力として使用する。
後者の方法は、入力が各ビデオに特有であるため、より豊かな表現能力を提供する。
しかし、フレームから抽出された特徴は冗長性を含むことが多く、ビデオ圧縮の目的とは矛盾する。
さらに、そのような冗長性により、フレーム内の高周波コンポーネントを正確に再構築することが困難になる。
これらの問題に対処するため,再建フレームの高周波成分と低周波成分の分離に焦点をあてる。
本稿では,フレームの高周波成分と低周波成分の両方を生成する映像表現手法を提案する。
実験の結果,提案手法は既存のHNeRV法よりも優れており,動画の96%において優れた結果が得られた。
Implicit neural representation (INR) embed various signals into neural networks. They have gained attention in recent years because of their versatility in handling diverse signal types. In the context of video, INR achieves video compression by embedding video signals directly into networks and compressing them. Conventional methods either use an index that expresses the time of the frame or features extracted from individual frames as network inputs. The latter method provides greater expressive capability as the input is specific to each video. However, the features extracted from frames often contain redundancy, which contradicts the purpose of video compression. Additionally, such redundancies make it challenging to accurately reconstruct high-frequency components in the frames. To address these problems, we focus on separating the high-frequency and low-frequency components of the reconstructed frame. We propose a video representation method that generates both the high-frequency and low-frequency components of the frame, using features extracted from the high-frequency components and temporal information, respectively. Experimental results demonstrate that our method outperforms the existing HNeRV method, achieving superior results in 96 percent of the videos. | 翻訳日:2024-11-06 05:52:22 公開日:2024-10-13 |
# NLPとアンサンブル学習によるアカデミックスキルアセスメントの改善
Improving Academic Skills Assessment with NLP and Ensemble Learning ( http://arxiv.org/abs/2409.19013v1 ) ライセンス: Link先を確認 | Zhengpei Cheng, Yingyi Wu, Danyang Zhang, Jiacheng Hu, Yujian Long, | (参考訳) 本研究では,自然言語処理(NLP)の進歩を生かして基礎的な学問的スキルを評価する上での課題について考察する。
伝統的なアセスメント手法は、コヒーレンス、構文、分析的推論といった重要な認知的および言語的側面について、タイムリーで包括的なフィードバックを提供するのに苦労することが多い。
このアプローチでは,BERT,RoBERTa,BART,DeBERTa,T5といった最先端NLPモデルをアンサンブル学習フレームワークに統合する。
これらのモデルは、予測精度を高めるために、LightGBM と Ridge 回帰を用いた積み重ね技術によって結合される。
この手法には、詳細なデータ前処理、特徴抽出、モデル性能を最適化するための擬似ラベル学習が含まれる。
高度なNLP技術とアンサンブル学習を取り入れることで、評価の精度と効率を大幅に改善し、従来の手法を超越した堅牢なソリューションを提供し、中核的なアカデミック能力の向上に焦点を当てた教育技術研究の新たな道を開く。
This study addresses the critical challenges of assessing foundational academic skills by leveraging advancements in natural language processing (NLP). Traditional assessment methods often struggle to provide timely and comprehensive feedback on key cognitive and linguistic aspects, such as coherence, syntax, and analytical reasoning. Our approach integrates multiple state-of-the-art NLP models, including BERT, RoBERTa, BART, DeBERTa, and T5, within an ensemble learning framework. These models are combined through stacking techniques using LightGBM and Ridge regression to enhance predictive accuracy. The methodology involves detailed data preprocessing, feature extraction, and pseudo-label learning to optimize model performance. By incorporating sophisticated NLP techniques and ensemble learning, this study significantly improves the accuracy and efficiency of assessments, offering a robust solution that surpasses traditional methods and opens new avenues for educational technology research focused on enhancing core academic competencies. | 翻訳日:2024-11-06 05:00:47 公開日:2024-10-13 |
# NLPとアンサンブル学習によるアカデミックスキルアセスメントの改善
Improving Academic Skills Assessment with NLP and Ensemble Learning ( http://arxiv.org/abs/2409.19013v2 ) ライセンス: Link先を確認 | Zhengpei Cheng, Yingyi Wu, Danyang Zhang, Jiacheng Hu, Yujian Long, | (参考訳) 本研究では,自然言語処理(NLP)の進歩を生かして基礎的な学問的スキルを評価する上での課題について考察する。
伝統的なアセスメント手法は、コヒーレンス、構文、分析的推論といった重要な認知的および言語的側面について、タイムリーで包括的なフィードバックを提供するのに苦労することが多い。
このアプローチでは,BERT,RoBERTa,BART,DeBERTa,T5といった最先端NLPモデルをアンサンブル学習フレームワークに統合する。
これらのモデルは、予測精度を高めるために、LightGBM と Ridge 回帰を用いた積み重ね技術によって結合される。
この手法には、詳細なデータ前処理、特徴抽出、モデル性能を最適化するための擬似ラベル学習が含まれる。
高度なNLP技術とアンサンブル学習を取り入れることで、評価の精度と効率を大幅に改善し、従来の手法を超越した堅牢なソリューションを提供し、中核的なアカデミック能力の向上に焦点を当てた教育技術研究の新たな道を開く。
This study addresses the critical challenges of assessing foundational academic skills by leveraging advancements in natural language processing (NLP). Traditional assessment methods often struggle to provide timely and comprehensive feedback on key cognitive and linguistic aspects, such as coherence, syntax, and analytical reasoning. Our approach integrates multiple state-of-the-art NLP models, including BERT, RoBERTa, BART, DeBERTa, and T5, within an ensemble learning framework. These models are combined through stacking techniques using LightGBM and Ridge regression to enhance predictive accuracy. The methodology involves detailed data preprocessing, feature extraction, and pseudo-label learning to optimize model performance. By incorporating sophisticated NLP techniques and ensemble learning, this study significantly improves the accuracy and efficiency of assessments, offering a robust solution that surpasses traditional methods and opens new avenues for educational technology research focused on enhancing core academic competencies. | 翻訳日:2024-11-06 05:00:47 公開日:2024-10-13 |
# NLPとアンサンブル学習によるアカデミックスキルアセスメントの改善
Improving Academic Skills Assessment with NLP and Ensemble Learning ( http://arxiv.org/abs/2409.19013v3 ) ライセンス: Link先を確認 | Xinyi Huang, Yingyi Wu, Danyang Zhang, Jiacheng Hu, Yujian Long, | (参考訳) 本研究では,自然言語処理(NLP)の進歩を生かして基礎的な学問的スキルを評価する上での課題について考察する。
伝統的なアセスメント手法は、コヒーレンス、構文、分析的推論といった重要な認知的および言語的側面について、タイムリーで包括的なフィードバックを提供するのに苦労することが多い。
このアプローチでは,BERT,RoBERTa,BART,DeBERTa,T5といった最先端NLPモデルをアンサンブル学習フレームワークに統合する。
これらのモデルは、予測精度を高めるために、LightGBM と Ridge 回帰を用いた積み重ね技術によって結合される。
この手法には、詳細なデータ前処理、特徴抽出、モデル性能を最適化するための擬似ラベル学習が含まれる。
高度なNLP技術とアンサンブル学習を取り入れることで、評価の精度と効率を大幅に改善し、従来の手法を超越した堅牢なソリューションを提供し、中核的なアカデミック能力の向上に焦点を当てた教育技術研究の新たな道を開く。
This study addresses the critical challenges of assessing foundational academic skills by leveraging advancements in natural language processing (NLP). Traditional assessment methods often struggle to provide timely and comprehensive feedback on key cognitive and linguistic aspects, such as coherence, syntax, and analytical reasoning. Our approach integrates multiple state-of-the-art NLP models, including BERT, RoBERTa, BART, DeBERTa, and T5, within an ensemble learning framework. These models are combined through stacking techniques using LightGBM and Ridge regression to enhance predictive accuracy. The methodology involves detailed data preprocessing, feature extraction, and pseudo-label learning to optimize model performance. By incorporating sophisticated NLP techniques and ensemble learning, this study significantly improves the accuracy and efficiency of assessments, offering a robust solution that surpasses traditional methods and opens new avenues for educational technology research focused on enhancing core academic competencies. | 翻訳日:2024-11-06 05:00:47 公開日:2024-10-13 |
# 太陽コロナからのコヒーレント電波・マイクロ波光子の測定
Measuring Coherent Radio and Microwave Photons from the Solar Corona ( http://arxiv.org/abs/2409.20459v2 ) ライセンス: Link先を確認 | Liang Chen, Zizang Qiu, Thomas W. Kephart, Arjun Berera, | (参考訳) 太陽大気中での励起放出から, 電波/マイクロ波N-ID光子状態 |N> の生成速度を推定した。
様々なデコヒーリング要因の影響は小さいことが示されている。
逆HOM効果によるこれらの量子状態の地上観測を提案する。
いくつかのケースでは、信号は検出可能であり、ノイズよりもはるかに上である、と我々は主張する。
The rates of production of radio/microwave N-identical photons states |N> from stimulated emission in the solar atmosphere are estimated. Effects of various decohering factors are shown to be small. Ground based measurements of these quantum states via the inverse HOM effect are proposed. We argue that a signal is detectable and far above the noise in several cases. | 翻訳日:2024-11-05 15:39:00 公開日:2024-10-13 |
# 太陽コロナからのコヒーレント電波・マイクロ波光子の測定
Measuring Coherent Radio and Microwave Photons from the Solar Corona ( http://arxiv.org/abs/2409.20459v3 ) ライセンス: Link先を確認 | Liang Chen, Zizang Qiu, Thomas W. Kephart, Arjun Berera, | (参考訳) 太陽大気中での励起放出から, 電波/マイクロ波N-ID光子状態 |N> の生成速度を推定した。
様々なデコヒーリング要因の影響は小さいことが示されている。
逆HOM効果によるこれらの量子状態の地上観測を提案する。
いくつかのケースでは、信号は検出可能であり、ノイズよりもはるかに上である、と我々は主張する。
The rates of production of radio/microwave N-identical photons states |N> from stimulated emission in the solar atmosphere are estimated. Effects of various decohering factors are shown to be small. Ground based measurements of these quantum states via the inverse HOM effect are proposed. We argue that a signal is detectable and far above the noise in several cases. | 翻訳日:2024-11-05 15:39:00 公開日:2024-10-13 |
# 畳み込みニューラルネットワーク設計のためのモンテカルロ遺伝的プログラミング手法
Cartesian Genetic Programming Approach for Designing Convolutional Neural Networks ( http://arxiv.org/abs/2410.00129v1 ) ライセンス: Link先を確認 | Krzywda Maciej, Łukasik Szymon, Gandomi H. Amir, | (参考訳) 本研究では、畳み込みニューラルネットワーク(CNN)の設計と最適化にCGP(Cartesian genetic programming)を用いたニューラルネットワーク探索(NAS)のアプローチについて述べる。
人工ニューラルネットワークの設計において、革新的なアプローチの1つの重要な側面は、新しいニューラルネットワークアーキテクチャを提案することである。
現在使われているアーキテクチャは、主に人の専門家によって手作業で開発されている。
本研究では,CNNの設計に純粋遺伝的プログラミングアプローチを用い,遺伝子操作,すなわち突然変異のみを用いる。
予備実験の過程で,提案手法は有望な結果をもたらす。
The present study covers an approach to neural architecture search (NAS) using Cartesian genetic programming (CGP) for the design and optimization of Convolutional Neural Networks (CNNs). In designing artificial neural networks, one crucial aspect of the innovative approach is suggesting a novel neural architecture. Currently used architectures have mostly been developed manually by human experts, which is a time-consuming and error-prone process. In this work, we use pure Genetic Programming Approach to design CNNs, which employs only one genetic operation, i.e., mutation. In the course of preliminary experiments, our methodology yields promising results. | 翻訳日:2024-11-05 14:40:28 公開日:2024-10-13 |
# 畳み込みニューラルネットワーク設計のためのモンテカルロ遺伝的プログラミング手法
Cartesian Genetic Programming Approach for Designing Convolutional Neural Networks ( http://arxiv.org/abs/2410.00129v2 ) ライセンス: Link先を確認 | Maciej Krzywda, Szymon Łukasik, Amir Gandomi H, | (参考訳) 本研究では、畳み込みニューラルネットワーク(CNN)の設計と最適化にCGP(Cartesian genetic programming)を用いたニューラルネットワーク探索(NAS)のアプローチについて述べる。
人工ニューラルネットワークの設計において、革新的なアプローチの1つの重要な側面は、新しいニューラルネットワークアーキテクチャを提案することである。
現在使われているアーキテクチャは、主に人の専門家によって手作業で開発されている。
本研究では,CNNの設計に純粋遺伝的プログラミングアプローチを用い,遺伝子操作,すなわち突然変異のみを用いる。
予備実験の過程で,提案手法は有望な結果をもたらす。
The present study covers an approach to neural architecture search (NAS) using Cartesian genetic programming (CGP) for the design and optimization of Convolutional Neural Networks (CNNs). In designing artificial neural networks, one crucial aspect of the innovative approach is suggesting a novel neural architecture. Currently used architectures have mostly been developed manually by human experts, which is a time-consuming and error-prone process. In this work, we use pure Genetic Programming Approach to design CNNs, which employs only one genetic operation, i.e., mutation. In the course of preliminary experiments, our methodology yields promising results. | 翻訳日:2024-11-05 14:40:28 公開日:2024-10-13 |
# 知識ベース質問応答のための候補表現を用いた意味的構文解析
Semantic Parsing with Candidate Expressions for Knowledge Base Question Answering ( http://arxiv.org/abs/2410.00414v1 ) ライセンス: Link先を確認 | Daehwan Nam, Gary Geunbae Lee, | (参考訳) 意味論的パーサーは自然言語を論理形式に変換し、知識ベース(KB)に基づいて評価して記述を生成する。
近年、シーケンシャル・ツー・シークエンス(seq2seq)事前訓練言語モデル(PLM)や大規模言語モデルを用いて、論理形式をトークンのシーケンスとして扱うセマンティック・パーサーが開発されている。
構文的および意味論的妥当性について、セマンティックパーサーは制約付き復号化を可能にする文法を使用する。
しかし、文法にはKBの情報を多用する能力がないが、論理形式には実体や関係といったKB要素の表現が含まれている。
本研究では,Seq2seq PLMを用いた大容量KB上でのセマンティック解析の候補式を付加した文法を提案する。
文法は、アクションを生産ルールとして定義し、セマンティックパーザは、型と候補式による制約の下での推論中にアクションを予測する。
この文法を知識ベース質問応答に適用し,候補表現による制約が意味解析に役立ち,有効なKB要素を生成する。
KQA ProとOvernightの2つのベンチマーク実験において、候補表現による制約は、強い監督と弱い監督によって訓練されたかに関わらず、セマンティックパーサーの精度を高めた。
我々のセマンティックパーサーはKQA ProとOvernightで最先端の精度を達成した。
Semantic parsers convert natural language to logical forms, which can be evaluated on knowledge bases (KBs) to produce denotations. Recent semantic parsers have been developed with sequence-to-sequence (seq2seq) pre-trained language models (PLMs) or large language models, where the models treat logical forms as sequences of tokens. For syntactic and semantic validity, the semantic parsers use grammars that enable constrained decoding. However, the grammars lack the ability to utilize large information of KBs, although logical forms contain representations of KB elements, such as entities or relations. In this work, we propose a grammar augmented with candidate expressions for semantic parsing on a large KB with a seq2seq PLM. The grammar defines actions as production rules, and our semantic parser predicts actions during inference under the constraints by types and candidate expressions. We apply the grammar to knowledge base question answering, where the constraints by candidate expressions assist a semantic parser to generate valid KB elements. In experiments on two benchmarks, KQA Pro and Overnight, the constraints by candidate expressions increased the accuracy of our semantic parser, whether it was trained with strong supervision or weak supervision. Our semantic parser achieved state-of-the-art accuracies on KQA Pro and Overnight. | 翻訳日:2024-11-05 05:46:46 公開日:2024-10-13 |
# 知識ベース質問応答のための候補表現を用いた意味的構文解析
Semantic Parsing with Candidate Expressions for Knowledge Base Question Answering ( http://arxiv.org/abs/2410.00414v2 ) ライセンス: Link先を確認 | Daehwan Nam, Gary Geunbae Lee, | (参考訳) 意味論的パーサーは自然言語を論理形式に変換し、知識ベース(KB)に基づいて評価して記述を生成する。
近年、シーケンシャル・ツー・シークエンス(seq2seq)事前訓練言語モデル(PLM)や大規模言語モデルを用いて、論理形式をトークンのシーケンスとして扱うセマンティック・パーサーが開発されている。
構文的および意味論的妥当性について、セマンティックパーサーは制約付き復号化を可能にする文法を使用する。
しかし、文法にはKBの情報を多用する能力がないが、論理形式には実体や関係といったKB要素の表現が含まれている。
本研究では,Seq2seq PLMを用いた大容量KB上でのセマンティック解析の候補式を付加した文法を提案する。
文法は、アクションを生産ルールとして定義し、セマンティックパーザは、型と候補式による制約の下での推論中にアクションを予測する。
この文法を知識ベース質問応答に適用し,候補表現による制約が意味解析に役立ち,有効なKB要素を生成する。
KQA ProとOvernightの2つのベンチマーク実験において、候補表現による制約は、強い監督と弱い監督によって訓練されたかに関わらず、セマンティックパーサーの精度を高めた。
我々のセマンティックパーサーはKQA ProとOvernightで最先端のアキュラシーを達成し、その実装はhttps://github.com/daehwannam/candexpr-sp.git.comで公開されています。
Semantic parsers convert natural language to logical forms, which can be evaluated on knowledge bases (KBs) to produce denotations. Recent semantic parsers have been developed with sequence-to-sequence (seq2seq) pre-trained language models (PLMs) or large language models, where the models treat logical forms as sequences of tokens. For syntactic and semantic validity, the semantic parsers use grammars that enable constrained decoding. However, the grammars lack the ability to utilize large information of KBs, although logical forms contain representations of KB elements, such as entities or relations. In this work, we propose a grammar augmented with candidate expressions for semantic parsing on a large KB with a seq2seq PLM. The grammar defines actions as production rules, and our semantic parser predicts actions during inference under the constraints by types and candidate expressions. We apply the grammar to knowledge base question answering, where the constraints by candidate expressions assist a semantic parser to generate valid KB elements. In experiments on two benchmarks, KQA Pro and Overnight, the constraints by candidate expressions increased the accuracy of our semantic parser, whether it was trained with strong supervision or weak supervision. Our semantic parser achieved state-of-the-art accuracies on KQA Pro and Overnight, and its implementation is publicly available at https://github.com/daehwannam/candexpr-sp.git. | 翻訳日:2024-11-05 05:46:46 公開日:2024-10-13 |
# Few-Shot分類のための動的頭部・異種タスク構成による教師なしメタラーニング
Unsupervised Meta-Learning via Dynamic Head and Heterogeneous Task Construction for Few-Shot Classification ( http://arxiv.org/abs/2410.02267v1 ) ライセンス: Link先を確認 | Yunchuan Guan, Yu Liu, Ketong Liu, Ke Zhou, Zhiqi Shen, | (参考訳) メタラーニングは、近年、少数ショットラーニングや強化ラーニングといった分野で広く使われている。
しかし、何故、いつ、他のアルゴリズムよりも良いのかという疑問は、まだ解決されていない。
本稿では,データセットにおけるラベルノイズの割合とタスクの不均一性の度合いを調整し,事前実験を行う。
我々は、Singular Vector Canonical correlation Analysisの計量を用いて、ニューラルネットワークの表現安定性を定量化し、メタラーニングと古典的な学習アルゴリズムの挙動を比較する。
両レベル最適化の利点により、メタ学習アルゴリズムはノイズや不均一なタスクのラベル付けに頑健であることがわかった。
以上の結論に基づき、教師なし領域におけるメタラーニングの未来を論じ、教師なしタスク構築を伴う動的ヘッドメタラーニングアルゴリズムDHM-UHTを提案する。
DHM-UHTの中核となる考え方は、DBSCANと動的ヘッドを使用して、異種タスク構築を実現し、教師なし異種タスク構築のプロセス全体をメタラーニングすることである。
いくつかの教師なしゼロショットと少数ショットデータセットでは、DHM-UHTは最先端のパフォーマンスを得る。
コードはhttps://github.com/tuantuange/DHM-UHT.comで公開されている。
Meta-learning has been widely used in recent years in areas such as few-shot learning and reinforcement learning. However, the questions of why and when it is better than other algorithms in few-shot classification remain to be explored. In this paper, we perform pre-experiments by adjusting the proportion of label noise and the degree of task heterogeneity in the dataset. We use the metric of Singular Vector Canonical Correlation Analysis to quantify the representation stability of the neural network and thus to compare the behavior of meta-learning and classical learning algorithms. We find that benefiting from the bi-level optimization strategy, the meta-learning algorithm has better robustness to label noise and heterogeneous tasks. Based on the above conclusion, we argue a promising future for meta-learning in the unsupervised area, and thus propose DHM-UHT, a dynamic head meta-learning algorithm with unsupervised heterogeneous task construction. The core idea of DHM-UHT is to use DBSCAN and dynamic head to achieve heterogeneous task construction and meta-learn the whole process of unsupervised heterogeneous task construction. On several unsupervised zero-shot and few-shot datasets, DHM-UHT obtains state-of-the-art performance. The code is released at https://github.com/tuantuange/DHM-UHT. | 翻訳日:2024-11-04 07:36:05 公開日:2024-10-13 |
# Few-Shot分類のための動的頭部・異種タスク構成による教師なしメタラーニング
Unsupervised Meta-Learning via Dynamic Head and Heterogeneous Task Construction for Few-Shot Classification ( http://arxiv.org/abs/2410.02267v2 ) ライセンス: Link先を確認 | Yunchuan Guan, Yu Liu, Ketong Liu, Ke Zhou, Zhiqi Shen, | (参考訳) メタラーニングは、近年、少数ショットラーニングや強化ラーニングといった分野で広く使われている。
しかし、何故、いつ、他のアルゴリズムよりも良いのかという疑問は、まだ解決されていない。
本稿では,データセットにおけるラベルノイズの割合とタスクの不均一性の度合いを調整し,事前実験を行う。
我々は、Singular Vector Canonical correlation Analysisの計量を用いて、ニューラルネットワークの表現安定性を定量化し、メタラーニングと古典的な学習アルゴリズムの挙動を比較する。
両レベル最適化の利点により、メタ学習アルゴリズムはノイズや不均一なタスクのラベル付けに頑健であることがわかった。
以上の結論に基づき、教師なし領域におけるメタラーニングの未来を論じ、教師なしタスク構築を伴う動的ヘッドメタラーニングアルゴリズムDHM-UHTを提案する。
DHM-UHTの中核となる考え方は、DBSCANと動的ヘッドを使用して、異種タスク構築を実現し、教師なし異種タスク構築のプロセス全体をメタラーニングすることである。
いくつかの教師なしゼロショットと少数ショットデータセットでは、DHM-UHTは最先端のパフォーマンスを得る。
コードはhttps://github.com/tuantuange/DHM-UHT.comで公開されている。
Meta-learning has been widely used in recent years in areas such as few-shot learning and reinforcement learning. However, the questions of why and when it is better than other algorithms in few-shot classification remain to be explored. In this paper, we perform pre-experiments by adjusting the proportion of label noise and the degree of task heterogeneity in the dataset. We use the metric of Singular Vector Canonical Correlation Analysis to quantify the representation stability of the neural network and thus to compare the behavior of meta-learning and classical learning algorithms. We find that benefiting from the bi-level optimization strategy, the meta-learning algorithm has better robustness to label noise and heterogeneous tasks. Based on the above conclusion, we argue a promising future for meta-learning in the unsupervised area, and thus propose DHM-UHT, a dynamic head meta-learning algorithm with unsupervised heterogeneous task construction. The core idea of DHM-UHT is to use DBSCAN and dynamic head to achieve heterogeneous task construction and meta-learn the whole process of unsupervised heterogeneous task construction. On several unsupervised zero-shot and few-shot datasets, DHM-UHT obtains state-of-the-art performance. The code is released at https://github.com/tuantuange/DHM-UHT. | 翻訳日:2024-11-04 07:36:05 公開日:2024-10-13 |
# 拡散モデルにおける記憶の理論的理解に向けて
Towards a Theoretical Understanding of Memorization in Diffusion Models ( http://arxiv.org/abs/2410.02467v1 ) ライセンス: Link先を確認 | Yunhao Chen, Xingjun Ma, Difan Zou, Yu-Gang Jiang, | (参考訳) 拡散確率モデル(DPM)が生成人工知能(GenAI)の主流モデルとして採用されているため、トレーニングデータの記憶の研究が注目されている。
この方向の既存の研究は、DPMが記憶を通じてどの程度の程度を学ぶかを理解することを目的としている。
このような理解は、拡散モデルにおけるデータ漏洩や著作権侵害の潜在的なリスクを特定し、さらに重要なのは、GenAIの信頼できる応用のために重要である。
既存の研究によると、条件付きDPMは非条件付きDPMよりもデータ記憶の訓練に適しており、モチベーション付きデータ抽出法は主に条件付きDPMである。
しかし、これらの理解は主に経験的であり、無条件モデルからトレーニングデータを抽出することは極めて困難であることが判明した。
本研究では、モデル収束の仮定の下で、条件付きおよび非条件付きDPMの記憶に関する理論的理解を提供する。
理論解析により,無条件モデルからデータを抽出することは,適切な代理条件を構築することでも有効であることが示唆された。
この結果に基づき、生成したデータに基づいて訓練された時間依存分類器を代理条件として利用し、無条件のDPMからトレーニングデータを抽出する新しいデータ抽出手法である「textbf{Surrogate condItional Data extract (SIDE)」を提案する。
実証的な結果から、SIDEは以前の手法が失敗し、平均してCelebAデータセットのさまざまなスケールで50%以上有効であるような、困難なシナリオでトレーニングデータを抽出できることを示した。
As diffusion probabilistic models (DPMs) are being employed as mainstream models for Generative Artificial Intelligence (GenAI), the study of their memorization of training data has attracted growing attention. Existing works in this direction aim to establish an understanding of whether or to what extent DPMs learn via memorization. Such an understanding is crucial for identifying potential risks of data leakage and copyright infringement in diffusion models and, more importantly, for trustworthy application of GenAI. Existing works revealed that conditional DPMs are more prone to training data memorization than unconditional DPMs, and the motivated data extraction methods are mostly for conditional DPMs. However, these understandings are primarily empirical, and extracting training data from unconditional models has been found to be extremely challenging. In this work, we provide a theoretical understanding of memorization in both conditional and unconditional DPMs under the assumption of model convergence. Our theoretical analysis indicates that extracting data from unconditional models can also be effective by constructing a proper surrogate condition. Based on this result, we propose a novel data extraction method named \textbf{Surrogate condItional Data Extraction (SIDE)} that leverages a time-dependent classifier trained on the generated data as a surrogate condition to extract training data from unconditional DPMs. Empirical results demonstrate that our SIDE can extract training data in challenging scenarios where previous methods fail, and it is, on average, over 50\% more effective across different scales of the CelebA dataset. | 翻訳日:2024-11-04 03:11:05 公開日:2024-10-13 |
# 拡散モデルにおける記憶の理論的理解に向けて
Towards a Theoretical Understanding of Memorization in Diffusion Models ( http://arxiv.org/abs/2410.02467v2 ) ライセンス: Link先を確認 | Yunhao Chen, Xingjun Ma, Difan Zou, Yu-Gang Jiang, | (参考訳) 拡散確率モデル(DPM)が生成人工知能(GenAI)の主流モデルとして採用されているため、トレーニングデータの記憶の研究が注目されている。
この方向の既存の研究は、DPMが記憶を通じてどの程度の程度を学ぶかを理解することを目的としている。
このような理解は、拡散モデルにおけるデータ漏洩や著作権侵害の潜在的なリスクを特定し、さらに重要なのは、GenAIの信頼できる応用のために重要である。
既存の研究によると、条件付きDPMは非条件付きDPMよりもデータ記憶の訓練に適しており、モチベーション付きデータ抽出法は主に条件付きDPMである。
しかし、これらの理解は主に経験的であり、無条件モデルからトレーニングデータを抽出することは極めて困難であることが判明した。
本研究では、モデル収束の仮定の下で、条件付きおよび非条件付きDPMの記憶に関する理論的理解を提供する。
理論解析により,無条件モデルからデータを抽出することは,適切な代理条件を構築することでも有効であることが示唆された。
この結果に基づき、生成したデータに基づいて訓練された時間依存分類器を代理条件として利用し、無条件のDPMからトレーニングデータを抽出する新しいデータ抽出手法である「textbf{Surrogate condItional Data extract (SIDE)」を提案する。
実証的な結果から、SIDEは以前の手法が失敗し、平均してCelebAデータセットのさまざまなスケールで50%以上有効であるような、困難なシナリオでトレーニングデータを抽出できることを示した。
As diffusion probabilistic models (DPMs) are being employed as mainstream models for Generative Artificial Intelligence (GenAI), the study of their memorization of training data has attracted growing attention. Existing works in this direction aim to establish an understanding of whether or to what extent DPMs learn via memorization. Such an understanding is crucial for identifying potential risks of data leakage and copyright infringement in diffusion models and, more importantly, for trustworthy application of GenAI. Existing works revealed that conditional DPMs are more prone to training data memorization than unconditional DPMs, and the motivated data extraction methods are mostly for conditional DPMs. However, these understandings are primarily empirical, and extracting training data from unconditional models has been found to be extremely challenging. In this work, we provide a theoretical understanding of memorization in both conditional and unconditional DPMs under the assumption of model convergence. Our theoretical analysis indicates that extracting data from unconditional models can also be effective by constructing a proper surrogate condition. Based on this result, we propose a novel data extraction method named \textbf{Surrogate condItional Data Extraction (SIDE)} that leverages a time-dependent classifier trained on the generated data as a surrogate condition to extract training data from unconditional DPMs. Empirical results demonstrate that our SIDE can extract training data in challenging scenarios where previous methods fail, and it is, on average, over 50\% more effective across different scales of the CelebA dataset. | 翻訳日:2024-11-04 03:11:05 公開日:2024-10-13 |
# 拡散モデルにおける記憶の理論的理解に向けて
Towards a Theoretical Understanding of Memorization in Diffusion Models ( http://arxiv.org/abs/2410.02467v3 ) ライセンス: Link先を確認 | Yunhao Chen, Xingjun Ma, Difan Zou, Yu-Gang Jiang, | (参考訳) 拡散確率モデル(DPM)が生成人工知能(GenAI)の主流モデルとして採用されているため、トレーニングデータの記憶の研究が注目されている。
この方向の既存の研究は、DPMが記憶を通じてどの程度の程度を学ぶかを理解することを目的としている。
このような理解は、拡散モデルにおけるデータ漏洩や著作権侵害の潜在的なリスクを特定し、さらに重要なのは、GenAIの信頼できる応用のために重要である。
既存の研究によると、条件付きDPMは非条件付きDPMよりもデータ記憶の訓練に適しており、モチベーション付きデータ抽出法は主に条件付きDPMである。
しかし、これらの理解は主に経験的であり、無条件モデルからトレーニングデータを抽出することは極めて困難であることが判明した。
本研究では、モデル収束の仮定の下で、条件付きおよび非条件付きDPMの記憶に関する理論的理解を提供する。
理論解析により,無条件モデルからデータを抽出することは,適切な代理条件を構築することでも有効であることが示唆された。
この結果に基づき、生成したデータに基づいて訓練された時間依存分類器を代理条件として利用し、無条件のDPMからトレーニングデータを抽出する新しいデータ抽出手法である「textbf{Surrogate condItional Data extract (SIDE)」を提案する。
実証的な結果から、SIDEは以前の手法が失敗し、平均してCelebAデータセットのさまざまなスケールで50%以上有効であるような、困難なシナリオでトレーニングデータを抽出できることを示した。
As diffusion probabilistic models (DPMs) are being employed as mainstream models for Generative Artificial Intelligence (GenAI), the study of their memorization of training data has attracted growing attention. Existing works in this direction aim to establish an understanding of whether or to what extent DPMs learn via memorization. Such an understanding is crucial for identifying potential risks of data leakage and copyright infringement in diffusion models and, more importantly, for trustworthy application of GenAI. Existing works revealed that conditional DPMs are more prone to training data memorization than unconditional DPMs, and the motivated data extraction methods are mostly for conditional DPMs. However, these understandings are primarily empirical, and extracting training data from unconditional models has been found to be extremely challenging. In this work, we provide a theoretical understanding of memorization in both conditional and unconditional DPMs under the assumption of model convergence. Our theoretical analysis indicates that extracting data from unconditional models can also be effective by constructing a proper surrogate condition. Based on this result, we propose a novel data extraction method named \textbf{Surrogate condItional Data Extraction (SIDE)} that leverages a time-dependent classifier trained on the generated data as a surrogate condition to extract training data from unconditional DPMs. Empirical results demonstrate that our SIDE can extract training data in challenging scenarios where previous methods fail, and it is, on average, over 50\% more effective across different scales of the CelebA dataset. | 翻訳日:2024-11-04 03:11:05 公開日:2024-10-13 |
# 拡散モデルにおける記憶の理論的理解に向けて
Towards a Theoretical Understanding of Memorization in Diffusion Models ( http://arxiv.org/abs/2410.02467v4 ) ライセンス: Link先を確認 | Yunhao Chen, Xingjun Ma, Difan Zou, Yu-Gang Jiang, | (参考訳) 拡散確率モデル(DPM)が生成人工知能(GenAI)の主流モデルとして採用されているため、トレーニングデータの記憶の研究が注目されている。
この方向の既存の研究は、DPMが記憶を通じてどの程度の程度を学ぶかを理解することを目的としている。
このような理解は、拡散モデルにおけるデータ漏洩や著作権侵害の潜在的なリスクを特定し、さらに重要なのは、GenAIの信頼できる応用のために重要である。
既存の研究によると、条件付きDPMは非条件付きDPMよりもデータ記憶の訓練に適しており、モチベーション付きデータ抽出法は主に条件付きDPMである。
しかし、これらの理解は主に経験的であり、無条件モデルからトレーニングデータを抽出することは極めて困難であることが判明した。
本研究では、モデル収束の仮定の下で、条件付きおよび非条件付きDPMの記憶に関する理論的理解を提供する。
理論解析により,無条件モデルからデータを抽出することは,適切な代理条件を構築することでも有効であることが示唆された。
この結果に基づき、生成したデータに基づいて訓練された時間依存分類器を代理条件として利用し、無条件のDPMからトレーニングデータを抽出する新しいデータ抽出手法である「textbf{Surrogate condItional Data extract (SIDE)」を提案する。
実証的な結果から、SIDEは以前の手法が失敗し、平均してCelebAデータセットのさまざまなスケールで50%以上有効であるような、困難なシナリオでトレーニングデータを抽出できることを示した。
As diffusion probabilistic models (DPMs) are being employed as mainstream models for Generative Artificial Intelligence (GenAI), the study of their memorization of training data has attracted growing attention. Existing works in this direction aim to establish an understanding of whether or to what extent DPMs learn via memorization. Such an understanding is crucial for identifying potential risks of data leakage and copyright infringement in diffusion models and, more importantly, for trustworthy application of GenAI. Existing works revealed that conditional DPMs are more prone to training data memorization than unconditional DPMs, and the motivated data extraction methods are mostly for conditional DPMs. However, these understandings are primarily empirical, and extracting training data from unconditional models has been found to be extremely challenging. In this work, we provide a theoretical understanding of memorization in both conditional and unconditional DPMs under the assumption of model convergence. Our theoretical analysis indicates that extracting data from unconditional models can also be effective by constructing a proper surrogate condition. Based on this result, we propose a novel data extraction method named \textbf{Surrogate condItional Data Extraction (SIDE)} that leverages a time-dependent classifier trained on the generated data as a surrogate condition to extract training data from unconditional DPMs. Empirical results demonstrate that our SIDE can extract training data in challenging scenarios where previous methods fail, and it is, on average, over 50\% more effective across different scales of the CelebA dataset. | 翻訳日:2024-11-04 03:11:05 公開日:2024-10-13 |
# FakeShield:マルチモーダル大言語モデルによる説明可能な画像偽造検出と位置決め
FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models ( http://arxiv.org/abs/2410.02761v1 ) ライセンス: Link先を確認 | Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang, | (参考訳) 生成AIの急速な開発は、コンテンツ作成を容易にするだけでなく、画像の操作を容易にし、検出しにくくする、二重刃の剣である。
現在の画像偽造検出・ローカライゼーション(IFDL)法は一般的に有効であるが、未知の検出原理を持つブラックボックスの性質である \textbf{1)} や、さまざまなタンパリング手法(Photoshop、DeepFake、AIGC-Editingなど)を対象とする一般化を制限した \textbf{2} という2つの課題に直面している。
これらの課題に対処するため,FakeShieldは画像の信頼性を評価し,領域マスクを改ざんし,画素レベルおよび画像レベルの改ざんヒントに基づく判定基準を提供するマルチモーダルフレームワークである。
さらに、GPT-4oを利用して既存のIFDLデータセットを強化し、FakeShieldのタンパリング分析能力をトレーニングするためのMulti-Modal Tamper Description DataSet(MMTD-Set)を作成します。
一方,Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) と Multi-modal Forgery Localization Module (MFLM) を組み込んで,様々なタイプのタンパー検出解釈に対処し,詳細なテキスト記述によるフォージェリローカライゼーションを実現する。
大規模な実験により、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供することを示した。
The rapid development of generative AI is a double-edged sword, which not only facilitates content creation but also makes image manipulation easier and more difficult to detect. Although current image forgery detection and localization (IFDL) methods are generally effective, they tend to face two challenges: \textbf{1)} black-box nature with unknown detection principle, \textbf{2)} limited generalization across diverse tampering methods (e.g., Photoshop, DeepFake, AIGC-Editing). To address these issues, we propose the explainable IFDL task and design FakeShield, a multi-modal framework capable of evaluating image authenticity, generating tampered region masks, and providing a judgment basis based on pixel-level and image-level tampering clues. Additionally, we leverage GPT-4o to enhance existing IFDL datasets, creating the Multi-Modal Tamper Description dataSet (MMTD-Set) for training FakeShield's tampering analysis capabilities. Meanwhile, we incorporate a Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) and a Multi-modal Forgery Localization Module (MFLM) to address various types of tamper detection interpretation and achieve forgery localization guided by detailed textual descriptions. Extensive experiments demonstrate that FakeShield effectively detects and localizes various tampering techniques, offering an explainable and superior solution compared to previous IFDL methods. | 翻訳日:2024-11-03 06:04:22 公開日:2024-10-13 |
# FakeShield:マルチモーダル大言語モデルによる説明可能な画像偽造検出と位置決め
FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models ( http://arxiv.org/abs/2410.02761v2 ) ライセンス: Link先を確認 | Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang, | (参考訳) 生成AIの急速な開発は、コンテンツ作成を容易にするだけでなく、画像の操作を容易にし、検出しにくくする、二重刃の剣である。
現在の画像偽造検出・ローカライゼーション(IFDL)法は一般的に有効であるが、未知の検出原理を持つブラックボックスの性質である \textbf{1)} や、さまざまなタンパリング手法(Photoshop、DeepFake、AIGC-Editingなど)を対象とする一般化を制限した \textbf{2} という2つの課題に直面している。
これらの課題に対処するため,FakeShieldは画像の信頼性を評価し,領域マスクを改ざんし,画素レベルおよび画像レベルの改ざんヒントに基づく判定基準を提供するマルチモーダルフレームワークである。
さらに、GPT-4oを利用して既存のIFDLデータセットを強化し、FakeShieldのタンパリング分析能力をトレーニングするためのMulti-Modal Tamper Description DataSet(MMTD-Set)を作成します。
一方,Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) と Multi-modal Forgery Localization Module (MFLM) を組み込んで,様々なタイプのタンパー検出解釈に対処し,詳細なテキスト記述によるフォージェリローカライゼーションを実現する。
大規模な実験により、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供することを示した。
The rapid development of generative AI is a double-edged sword, which not only facilitates content creation but also makes image manipulation easier and more difficult to detect. Although current image forgery detection and localization (IFDL) methods are generally effective, they tend to face two challenges: \textbf{1)} black-box nature with unknown detection principle, \textbf{2)} limited generalization across diverse tampering methods (e.g., Photoshop, DeepFake, AIGC-Editing). To address these issues, we propose the explainable IFDL task and design FakeShield, a multi-modal framework capable of evaluating image authenticity, generating tampered region masks, and providing a judgment basis based on pixel-level and image-level tampering clues. Additionally, we leverage GPT-4o to enhance existing IFDL datasets, creating the Multi-Modal Tamper Description dataSet (MMTD-Set) for training FakeShield's tampering analysis capabilities. Meanwhile, we incorporate a Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) and a Multi-modal Forgery Localization Module (MFLM) to address various types of tamper detection interpretation and achieve forgery localization guided by detailed textual descriptions. Extensive experiments demonstrate that FakeShield effectively detects and localizes various tampering techniques, offering an explainable and superior solution compared to previous IFDL methods. | 翻訳日:2024-11-03 06:04:22 公開日:2024-10-13 |
# ビジネスプロセス管理タスクのための大規模言語モデルのベンチマークに向けて
Towards a Benchmark for Large Language Models for Business Process Management Tasks ( http://arxiv.org/abs/2410.03255v1 ) ライセンス: Link先を確認 | Kiran Busch, Henrik Leopold, | (参考訳) 幅広いタスクに対してLLM(Large Language Models)をデプロイする組織が増えている。
汎用性にもかかわらず、LLMは不正確さから幻覚まで、エラーを起こしやすい。
既存のLCMの性能を客観的に評価するために,性能ベンチマークを実施している。
しかしながら、これらのベンチマークは、しばしばより具体的な現実世界のタスクに翻訳しない。
本稿では、ビジネスプロセス管理(BPM)領域におけるLCMパフォーマンスのベンチマークのギャップについて論じる。
現在、BPM固有のベンチマークは存在せず、BPMタスクに対する異なるLLMの適合性に関する不確実性を生み出しています。
本稿では,4つのBPMタスクにおけるLLMのパフォーマンスを,小規模なオープンソースモデルに焦点をあてて体系的に比較する。
この分析の目的は、タスク固有のパフォーマンスのバリエーションを特定し、オープンソースと商用モデルの有効性を比較し、モデルサイズがBPMタスクのパフォーマンスに与える影響を評価することである。
本稿では、BPMにおけるLLMの実践的応用に関する洞察を提供し、組織が特定のニーズに対して適切なモデルを選択することを導く。
An increasing number of organizations are deploying Large Language Models (LLMs) for a wide range of tasks. Despite their general utility, LLMs are prone to errors, ranging from inaccuracies to hallucinations. To objectively assess the capabilities of existing LLMs, performance benchmarks are conducted. However, these benchmarks often do not translate to more specific real-world tasks. This paper addresses the gap in benchmarking LLM performance in the Business Process Management (BPM) domain. Currently, no BPM-specific benchmarks exist, creating uncertainty about the suitability of different LLMs for BPM tasks. This paper systematically compares LLM performance on four BPM tasks focusing on small open-source models. The analysis aims to identify task-specific performance variations, compare the effectiveness of open-source versus commercial models, and assess the impact of model size on BPM task performance. This paper provides insights into the practical applications of LLMs in BPM, guiding organizations in selecting appropriate models for their specific needs. | 翻訳日:2024-11-02 23:28:42 公開日:2024-10-13 |
# ビジネスプロセス管理タスクのための大規模言語モデルのベンチマークに向けて
Towards a Benchmark for Large Language Models for Business Process Management Tasks ( http://arxiv.org/abs/2410.03255v2 ) ライセンス: Link先を確認 | Kiran Busch, Henrik Leopold, | (参考訳) 幅広いタスクに対してLLM(Large Language Models)をデプロイする組織が増えている。
汎用性にもかかわらず、LLMは不正確さから幻覚まで、エラーを起こしやすい。
既存のLCMの性能を客観的に評価するために,性能ベンチマークを実施している。
しかしながら、これらのベンチマークは、しばしばより具体的な現実世界のタスクに翻訳しない。
本稿では、ビジネスプロセス管理(BPM)領域におけるLCMパフォーマンスのベンチマークのギャップについて論じる。
現在、BPM固有のベンチマークは存在せず、BPMタスクに対する異なるLLMの適合性に関する不確実性を生み出しています。
本稿では,4つのBPMタスクにおけるLLMのパフォーマンスを,小規模なオープンソースモデルに焦点をあてて体系的に比較する。
この分析の目的は、タスク固有のパフォーマンスのバリエーションを特定し、オープンソースと商用モデルの有効性を比較し、モデルサイズがBPMタスクのパフォーマンスに与える影響を評価することである。
本稿では、BPMにおけるLLMの実践的応用に関する洞察を提供し、組織が特定のニーズに対して適切なモデルを選択することを導く。
An increasing number of organizations are deploying Large Language Models (LLMs) for a wide range of tasks. Despite their general utility, LLMs are prone to errors, ranging from inaccuracies to hallucinations. To objectively assess the capabilities of existing LLMs, performance benchmarks are conducted. However, these benchmarks often do not translate to more specific real-world tasks. This paper addresses the gap in benchmarking LLM performance in the Business Process Management (BPM) domain. Currently, no BPM-specific benchmarks exist, creating uncertainty about the suitability of different LLMs for BPM tasks. This paper systematically compares LLM performance on four BPM tasks focusing on small open-source models. The analysis aims to identify task-specific performance variations, compare the effectiveness of open-source versus commercial models, and assess the impact of model size on BPM task performance. This paper provides insights into the practical applications of LLMs in BPM, guiding organizations in selecting appropriate models for their specific needs. | 翻訳日:2024-11-02 23:28:42 公開日:2024-10-13 |
# Scalar Reward Modelを超えて: 推論データから生成的判断を学習する
Beyond Scalar Reward Model: Learning Generative Judge from Preference Data ( http://arxiv.org/abs/2410.03742v1 ) ライセンス: Link先を確認 | Ziyi Ye, Xiangsheng Li, Qiuchi Li, Qingyao Ai, Yujia Zhou, Wei Shen, Dong Yan, Yiqun Liu, | (参考訳) 好みのフィードバックから学ぶことは、大きな言語モデル~(LLM)を人間の価値と整合させる一般的なプラクティスである。
従来、選好データを学習して、値ヘッドとLLMを接続するスカラー報酬モデルに符号化し、選好または報奨としてスカラースコアを生成する。
しかし、スカラーモデルは解釈可能性に欠けており、データセットのバイアスに影響を受けやすいことが知られている。
本稿では,LLMの生成能力を利用して,両方の制約を1ショットで処理する手法について検討する。
具体的には, 事前学習したLLMに対して, 肯定的および否定的な判断を誘導し, どちらも自然言語形式の有理性で支持する。
自己生成コントラスト判定ペアは、直接選好最適化(DPO)を用いて生成判断を訓練するために使用される。
自己生成的コントラスト判断(Con-J)を用いた生成的判断の訓練の提案は、生成的理性による自然な解釈性を判断とともに保証し、付加的な報酬ヘッドを必要とせずにバイアスに対する高い堅牢性を確保する。
実験結果から、Con-Jの性能は、同一の嗜好データに基づいて訓練されたスカラー報酬モデルに匹敵し、人間の嗜好の符号化において、その優れた解釈性と堅牢性を示すことが示された。
Learning from preference feedback is a common practice for aligning large language models~(LLMs) with human value. Conventionally, preference data is learned and encoded into a scalar reward model that connects a value head with an LLM to produce a scalar score as preference or reward. However, scalar models lack interpretability and are known to be susceptible to biases in datasets. This paper investigates leveraging the generation capability of LLMs to address both limitations in one shot. Specifically, we prompt the pre-trained LLM to generate positive and negative judgments, both supported with rationales in natural language form. The self-generated contrastive judgment pairs are used to train the generative judge with Direct Preference Optimization (DPO). This proposal of training the generative Judge using self-generated Contrastive judgments (Con-J) ensures natural interpretability due to the generated rationales together with the judgments, as well as high robustness against bias without the need for an additional reward head. Experimental results show that the performance of Con-J is comparable to the scalar reward model trained on the same collection of preference data, and demonstrate its superior interpretability and robustness in encoding human preferences. | 翻訳日:2024-11-02 20:18:28 公開日:2024-10-13 |
# Scalar Reward Modelを超えて: 推論データから生成的判断を学習する
Beyond Scalar Reward Model: Learning Generative Judge from Preference Data ( http://arxiv.org/abs/2410.03742v2 ) ライセンス: Link先を確認 | Ziyi Ye, Xiangsheng Li, Qiuchi Li, Qingyao Ai, Yujia Zhou, Wei Shen, Dong Yan, Yiqun Liu, | (参考訳) 好みのフィードバックから学ぶことは、大きな言語モデル~(LLM)を人間の価値と整合させる一般的なプラクティスである。
従来、選好データを学習して、値ヘッドとLLMを接続するスカラー報酬モデルに符号化し、選好または報奨としてスカラースコアを生成する。
しかし、スカラーモデルは解釈可能性に欠けており、データセットのバイアスに影響を受けやすいことが知られている。
本稿では,LLMの生成能力を利用して,両方の制約を1ショットで処理する手法について検討する。
具体的には, 事前学習したLLMに対して, 肯定的および否定的な判断を誘導し, どちらも自然言語形式の有理性で支持する。
自己生成コントラスト判定ペアは、直接選好最適化(DPO)を用いて生成判断を訓練するために使用される。
自己生成的コントラスト判断(Con-J)を用いた生成的判断の訓練の提案は、生成的理性による自然な解釈性を判断とともに保証し、付加的な報酬ヘッドを必要とせずにバイアスに対する高い堅牢性を確保する。
実験結果から、Con-Jの性能は、同一の嗜好データに基づいて訓練されたスカラー報酬モデルに匹敵し、人間の嗜好の符号化において、その優れた解釈性と堅牢性を示すことが示された。
Learning from preference feedback is a common practice for aligning large language models~(LLMs) with human value. Conventionally, preference data is learned and encoded into a scalar reward model that connects a value head with an LLM to produce a scalar score as preference or reward. However, scalar models lack interpretability and are known to be susceptible to biases in datasets. This paper investigates leveraging the generation capability of LLMs to address both limitations in one shot. Specifically, we prompt the pre-trained LLM to generate positive and negative judgments, both supported with rationales in natural language form. The self-generated contrastive judgment pairs are used to train the generative judge with Direct Preference Optimization (DPO). This proposal of training the generative Judge using self-generated Contrastive judgments (Con-J) ensures natural interpretability due to the generated rationales together with the judgments, as well as high robustness against bias without the need for an additional reward head. Experimental results show that the performance of Con-J is comparable to the scalar reward model trained on the same collection of preference data, and demonstrate its superior interpretability and robustness in encoding human preferences. | 翻訳日:2024-11-02 20:18:28 公開日:2024-10-13 |
# 住宅用非侵入負荷モニタリング用変圧器のより深い理解に向けて
Towards a Deeper Understanding of Transformer for Residential Non-intrusive Load Monitoring ( http://arxiv.org/abs/2410.03758v1 ) ライセンス: Link先を確認 | Minhajur Rahman, Yasir Arafat, | (参考訳) トランスフォーマーモデルは近年,非侵入負荷モニタリング(NILM)アプリケーションにおいて顕著な性能を示している。
それらの成功にもかかわらず、既存の研究は、高性能トランスフォーマーモデルの発展に欠かせないモデル性能に対する様々なハイパーパラメータの影響を十分に調べていない。
本研究は, 住宅用NILMの文脈における過度パラメータの影響を解析するための総合的な実験である。
本研究では, 注目層内の隠れ次元数, 注目層数, 注目頭部数, 落下率が変圧器性能に及ぼす影響について検討した。
さらに、BERT型トランスフォーマートレーニングにおけるマスキング比の役割について検討し、NILMタスクへの影響を詳細に調査している。
これらの実験に基づいて、最適なハイパーパラメータが選択され、既存のモデルの性能を上回るトランスモデルをトレーニングするために使用される。
実験結果から,トランスフォーマーアーキテクチャを最適化するための貴重な洞察とガイドラインが得られた。
この研究は、NILMのためのより堅牢で有能なトランスフォーマーモデルの研究と開発のための基盤となることが期待されている。
Transformer models have demonstrated impressive performance in Non-Intrusive Load Monitoring (NILM) applications in recent years. Despite their success, existing studies have not thoroughly examined the impact of various hyper-parameters on model performance, which is crucial for advancing high-performing transformer models. In this work, a comprehensive series of experiments have been conducted to analyze the influence of these hyper-parameters in the context of residential NILM. This study delves into the effects of the number of hidden dimensions in the attention layer, the number of attention layers, the number of attention heads, and the dropout ratio on transformer performance. Furthermore, the role of the masking ratio has explored in BERT-style transformer training, providing a detailed investigation into its impact on NILM tasks. Based on these experiments, the optimal hyper-parameters have been selected and used them to train a transformer model, which surpasses the performance of existing models. The experimental findings offer valuable insights and guidelines for optimizing transformer architectures, aiming to enhance their effectiveness and efficiency in NILM applications. It is expected that this work will serve as a foundation for future research and development of more robust and capable transformer models for NILM. | 翻訳日:2024-11-02 16:40:48 公開日:2024-10-13 |
# 住宅用非侵入負荷モニタリング用変圧器のより深い理解に向けて
Towards a Deeper Understanding of Transformer for Residential Non-intrusive Load Monitoring ( http://arxiv.org/abs/2410.03758v2 ) ライセンス: Link先を確認 | Minhajur Rahman, Yasir Arafat, | (参考訳) トランスフォーマーモデルは近年,非侵入負荷モニタリング(NILM)アプリケーションにおいて顕著な性能を示している。
それらの成功にもかかわらず、既存の研究は、高性能トランスフォーマーモデルの発展に欠かせないモデル性能に対する様々なハイパーパラメータの影響を十分に調べていない。
本研究は, 住宅用NILMの文脈における過度パラメータの影響を解析するための総合的な実験である。
本研究では, 注目層内の隠れ次元数, 注目層数, 注目頭部数, 落下率が変圧器性能に及ぼす影響について検討した。
さらに、BERT型トランスフォーマートレーニングにおけるマスキング比の役割について検討し、NILMタスクへの影響を詳細に調査している。
これらの実験に基づいて、最適なハイパーパラメータが選択され、既存のモデルの性能を上回るトランスモデルをトレーニングするために使用される。
実験結果から,トランスフォーマーアーキテクチャを最適化するための貴重な洞察とガイドラインが得られた。
この研究は、NILMのためのより堅牢で有能なトランスフォーマーモデルの研究と開発のための基盤となることが期待されている。
Transformer models have demonstrated impressive performance in Non-Intrusive Load Monitoring (NILM) applications in recent years. Despite their success, existing studies have not thoroughly examined the impact of various hyper-parameters on model performance, which is crucial for advancing high-performing transformer models. In this work, a comprehensive series of experiments have been conducted to analyze the influence of these hyper-parameters in the context of residential NILM. This study delves into the effects of the number of hidden dimensions in the attention layer, the number of attention layers, the number of attention heads, and the dropout ratio on transformer performance. Furthermore, the role of the masking ratio has explored in BERT-style transformer training, providing a detailed investigation into its impact on NILM tasks. Based on these experiments, the optimal hyper-parameters have been selected and used them to train a transformer model, which surpasses the performance of existing models. The experimental findings offer valuable insights and guidelines for optimizing transformer architectures, aiming to enhance their effectiveness and efficiency in NILM applications. It is expected that this work will serve as a foundation for future research and development of more robust and capable transformer models for NILM. | 翻訳日:2024-11-02 16:40:48 公開日:2024-10-13 |
# 住宅用非侵入負荷モニタリング用変圧器のより深い理解に向けて
Towards a Deeper Understanding of Transformer for Residential Non-intrusive Load Monitoring ( http://arxiv.org/abs/2410.03758v3 ) ライセンス: Link先を確認 | Minhajur Rahman, Yasir Arafat, | (参考訳) トランスフォーマーモデルは近年,非侵入負荷モニタリング(NILM)アプリケーションにおいて顕著な性能を示している。
それらの成功にもかかわらず、既存の研究は、高性能トランスフォーマーモデルの発展に欠かせないモデル性能に対する様々なハイパーパラメータの影響を十分に調べていない。
本研究は, 住宅用NILMの文脈における過度パラメータの影響を解析するための総合的な実験である。
本研究では, 注目層内の隠れ次元数, 注目層数, 注目頭部数, 落下率が変圧器性能に及ぼす影響について検討した。
さらに、BERT型トランスフォーマートレーニングにおけるマスキング比の役割について検討し、NILMタスクへの影響を詳細に調査している。
これらの実験に基づいて、最適なハイパーパラメータが選択され、既存のモデルの性能を上回るトランスモデルをトレーニングするために使用される。
実験結果から,トランスフォーマーアーキテクチャを最適化するための貴重な洞察とガイドラインが得られた。
この研究は、NILMのためのより堅牢で有能なトランスフォーマーモデルの研究と開発のための基盤となることが期待されている。
Transformer models have demonstrated impressive performance in Non-Intrusive Load Monitoring (NILM) applications in recent years. Despite their success, existing studies have not thoroughly examined the impact of various hyper-parameters on model performance, which is crucial for advancing high-performing transformer models. In this work, a comprehensive series of experiments have been conducted to analyze the influence of these hyper-parameters in the context of residential NILM. This study delves into the effects of the number of hidden dimensions in the attention layer, the number of attention layers, the number of attention heads, and the dropout ratio on transformer performance. Furthermore, the role of the masking ratio has explored in BERT-style transformer training, providing a detailed investigation into its impact on NILM tasks. Based on these experiments, the optimal hyper-parameters have been selected and used them to train a transformer model, which surpasses the performance of existing models. The experimental findings offer valuable insights and guidelines for optimizing transformer architectures, aiming to enhance their effectiveness and efficiency in NILM applications. It is expected that this work will serve as a foundation for future research and development of more robust and capable transformer models for NILM. | 翻訳日:2024-11-02 16:40:48 公開日:2024-10-13 |
# 大規模音声テキストモデルのための自己制御LDMモダリティ拡張
Self-Powered LLM Modality Expansion for Large Speech-Text Models ( http://arxiv.org/abs/2410.03798v1 ) ライセンス: Link先を確認 | Tengfei Yu, Xuebo Liu, Zhiyi Hou, Liang Ding, Dacheng Tao, Min Zhang, | (参考訳) 大規模言語モデル(LLM)は様々なタスクにまたがって顕著な性能を示し、音声機能を統合することで大きな音声テキストモデル(LSM)への拡張の可能性を示している。
音声テキストによる事前訓練とマルチモーダルデータ命令チューニングは大きな利点をもたらすが、これらの手法は一般に重要なリソース要求を伴い、特定のタスクに過度に適合する傾向がある。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
我々は,LSMにおける命令追従のダイナミクスを探求し,LSMが音声入力に過度に依存する傾向にある重要な問題である音声アンカーバイアスを同定し,音声モダリティ全体を指示として誤って解釈し,テキスト命令を無視する。
このバイアスに対処するために、モデル自体が生成した拡張音声認識データを利用して、より効果的な命令チューニングを行うセルフパワーのLSMを導入する。
音声に基づくタスクの多岐にわたる実験により,LSMは音声のアンカーバイアスを軽減し,LSMにおける音声とテキストのモダリティの融合を改善することが示された。
データ、コード、スクリプトはhttps://github.com/ytf-philp/Self-powered-LSMで無料で入手できる。
Large language models (LLMs) exhibit remarkable performance across diverse tasks, indicating their potential for expansion into large speech-text models (LSMs) by integrating speech capabilities. Although unified speech-text pre-training and multimodal data instruction-tuning offer considerable benefits, these methods generally entail significant resource demands and tend to overfit specific tasks. This study aims to refine the use of speech datasets for LSM training by addressing the limitations of vanilla instruction tuning. We explore the instruction-following dynamics within LSMs, identifying a critical issue termed speech anchor bias-a tendency for LSMs to over-rely on speech inputs, mistakenly interpreting the entire speech modality as directives, thereby neglecting textual instructions. To counteract this bias, we introduce a self-powered LSM that leverages augmented automatic speech recognition data generated by the model itself for more effective instruction tuning. Our experiments across a range of speech-based tasks demonstrate that self-powered LSM mitigates speech anchor bias and improves the fusion of speech and text modalities in LSMs. Data, code and scripts are freely available at https://github.com/ytf-philp/Self-powered-LSM. | 翻訳日:2024-11-02 16:20:48 公開日:2024-10-13 |
# 大規模音声テキストモデルのための自己制御LDMモダリティ拡張
Self-Powered LLM Modality Expansion for Large Speech-Text Models ( http://arxiv.org/abs/2410.03798v2 ) ライセンス: Link先を確認 | Tengfei Yu, Xuebo Liu, Zhiyi Hou, Liang Ding, Dacheng Tao, Min Zhang, | (参考訳) 大規模言語モデル(LLM)は様々なタスクにまたがって顕著な性能を示し、音声機能を統合することで大きな音声テキストモデル(LSM)への拡張の可能性を示している。
音声テキストによる事前訓練とマルチモーダルデータ命令チューニングは大きな利点をもたらすが、これらの手法は一般に重要なリソース要求を伴い、特定のタスクに過度に適合する傾向がある。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
我々は,LSMにおける命令追従のダイナミクスを探求し,LSMが音声入力に過度に依存する傾向にある重要な問題である音声アンカーバイアスを同定し,音声モダリティ全体を指示として誤って解釈し,テキスト命令を無視する。
このバイアスに対処するために、モデル自体が生成した拡張音声認識データを利用して、より効果的な命令チューニングを行うセルフパワーのLSMを導入する。
音声に基づくタスクの多岐にわたる実験により,LSMは音声のアンカーバイアスを軽減し,LSMにおける音声とテキストのモダリティの融合を改善することが示された。
データ、コード、スクリプトはhttps://github.com/ytf-philp/Self-powered-LSMで無料で入手できる。
Large language models (LLMs) exhibit remarkable performance across diverse tasks, indicating their potential for expansion into large speech-text models (LSMs) by integrating speech capabilities. Although unified speech-text pre-training and multimodal data instruction-tuning offer considerable benefits, these methods generally entail significant resource demands and tend to overfit specific tasks. This study aims to refine the use of speech datasets for LSM training by addressing the limitations of vanilla instruction tuning. We explore the instruction-following dynamics within LSMs, identifying a critical issue termed speech anchor bias-a tendency for LSMs to over-rely on speech inputs, mistakenly interpreting the entire speech modality as directives, thereby neglecting textual instructions. To counteract this bias, we introduce a self-powered LSM that leverages augmented automatic speech recognition data generated by the model itself for more effective instruction tuning. Our experiments across a range of speech-based tasks demonstrate that self-powered LSM mitigates speech anchor bias and improves the fusion of speech and text modalities in LSMs. Data, code and scripts are freely available at https://github.com/ytf-philp/Self-powered-LSM. | 翻訳日:2024-11-02 16:10:45 公開日:2024-10-13 |
# ローカルアテンションメカニズム:時系列時系列予測のためのトランスフォーマーアーキテクチャの強化
Local Attention Mechanism: Boosting the Transformer Architecture for Long-Sequence Time Series Forecasting ( http://arxiv.org/abs/2410.03805v1 ) ライセンス: Link先を確認 | Ignacio Aguilera-Martos, Andrés Herrera-Poyatos, Julián Luengo, Francisco Herrera, | (参考訳) トランスフォーマーは、他のディープラーニングアーキテクチャよりも自然言語処理の主要な選択肢となっている。
この傾向は時系列解析の分野にも浸透しており、特にロングホライゾン予測では、パフォーマンスとランニングタイムの両方において有望な結果を示している。
本稿では,時系列解析に適した効率的な注意機構であるLAM(Local Attention Mechanism)を提案する。
このメカニズムは時系列の連続性特性を利用して計算された注目スコアの数を減少させる。
本稿では、従来の注意機構のO(n^2)時間とメモリの複雑さを大幅に改善し、時間およびメモリO(nlogn)で動作するテンソル代数にLAMを実装するアルゴリズムを提案する。
また、長期予測モデルを評価するための適切なデータセットが欠如していることにも留意する。
そこで本研究では,長期予測問題に対処するモデルの評価を改善するために,新しいデータセットセットを提案する。
LAMで拡張したバニラトランスアーキテクチャが,バニラアテンション機構を含む最先端モデルを上回ることを示した。
これらの結果は,本手法の有効性を検証し,時系列時系列予測における今後の課題を浮き彫りにしている。
Transformers have become the leading choice in natural language processing over other deep learning architectures. This trend has also permeated the field of time series analysis, especially for long-horizon forecasting, showcasing promising results both in performance and running time. In this paper, we introduce Local Attention Mechanism (LAM), an efficient attention mechanism tailored for time series analysis. This mechanism exploits the continuity properties of time series to reduce the number of attention scores computed. We present an algorithm for implementing LAM in tensor algebra that runs in time and memory O(nlogn), significantly improving upon the O(n^2) time and memory complexity of traditional attention mechanisms. We also note the lack of proper datasets to evaluate long-horizon forecast models. Thus, we propose a novel set of datasets to improve the evaluation of models addressing long-horizon forecasting challenges. Our experimental analysis demonstrates that the vanilla transformer architecture magnified with LAM surpasses state-of-the-art models, including the vanilla attention mechanism. These results confirm the effectiveness of our approach and highlight a range of future challenges in long-sequence time series forecasting. | 翻訳日:2024-11-02 16:10:45 公開日:2024-10-13 |
# ローカルアテンションメカニズム:時系列時系列予測のためのトランスフォーマーアーキテクチャの強化
Local Attention Mechanism: Boosting the Transformer Architecture for Long-Sequence Time Series Forecasting ( http://arxiv.org/abs/2410.03805v2 ) ライセンス: Link先を確認 | Ignacio Aguilera-Martos, Andrés Herrera-Poyatos, Julián Luengo, Francisco Herrera, | (参考訳) トランスフォーマーは、他のディープラーニングアーキテクチャよりも自然言語処理の主要な選択肢となっている。
この傾向は時系列解析の分野にも浸透しており、特にロングホライゾン予測では、パフォーマンスとランニングタイムの両方において有望な結果を示している。
本稿では,時系列解析に適した効率的な注意機構であるLAM(Local Attention Mechanism)を提案する。
このメカニズムは時系列の連続性特性を利用して計算された注目スコアの数を減少させる。
本稿では、従来の注意機構のO(n^2)時間とメモリの複雑さを大幅に改善し、時間およびメモリO(nlogn)で動作するテンソル代数にLAMを実装するアルゴリズムを提案する。
また、長期予測モデルを評価するための適切なデータセットが欠如していることにも留意する。
そこで本研究では,長期予測問題に対処するモデルの評価を改善するために,新しいデータセットセットを提案する。
LAMで拡張したバニラトランスアーキテクチャが,バニラアテンション機構を含む最先端モデルを上回ることを示した。
これらの結果は,本手法の有効性を検証し,時系列時系列予測における今後の課題を浮き彫りにしている。
Transformers have become the leading choice in natural language processing over other deep learning architectures. This trend has also permeated the field of time series analysis, especially for long-horizon forecasting, showcasing promising results both in performance and running time. In this paper, we introduce Local Attention Mechanism (LAM), an efficient attention mechanism tailored for time series analysis. This mechanism exploits the continuity properties of time series to reduce the number of attention scores computed. We present an algorithm for implementing LAM in tensor algebra that runs in time and memory O(nlogn), significantly improving upon the O(n^2) time and memory complexity of traditional attention mechanisms. We also note the lack of proper datasets to evaluate long-horizon forecast models. Thus, we propose a novel set of datasets to improve the evaluation of models addressing long-horizon forecasting challenges. Our experimental analysis demonstrates that the vanilla transformer architecture magnified with LAM surpasses state-of-the-art models, including the vanilla attention mechanism. These results confirm the effectiveness of our approach and highlight a range of future challenges in long-sequence time series forecasting. | 翻訳日:2024-11-02 16:10:45 公開日:2024-10-13 |
# モデル開発安全:視覚言語モデルにおける安全中心法とその応用
Model Developmental Safety: A Safety-Centric Method and Applications in Vision-Language Models ( http://arxiv.org/abs/2410.03955v1 ) ライセンス: Link先を確認 | Gang Li, Wendi Yu, Yao Yao, Wei Tong, Yingbin Liang, Qihang Lin, Tianbao Yang, | (参考訳) 現実の世界では、学習可能なシステムは、通常、難しいタスクや新しいタスクを扱うシステムの能力を高めるために、モデル開発の複数のサイクルを経る。
この継続的モデル開発プロセスは、新しいものや既存の機能を改善するためのモデル開発が故意に旧モデルの能力を失うという重大な問題を提起する。
既存の継続的な学習研究は、過去のタスクのパフォーマンスと新しいタスクをトレードオフすることで、破滅的な忘れを軽減し、平均的なパフォーマンスを確実にすることに焦点を当てている。
しかし、特に安全クリティカルな領域では、安全リスクや不確実性をもたらすだけでなく、既存の財産の再改良・再検証にもかなりの費用がかかる旧モデルの性能を厳格に維持できないため、多くの用途に不適当である。
この問題に対処するため、モデル開発プロセスにおいて、新しいモデルは、ターゲットタスクにおける性能を改善しつつ、旧モデルの既存の保護機能を厳格に保持すべきである、という学習システムの保証としてモデル開発安全を導入する。
モデル開発の安全性を確保するために,モデル開発の安全性をデータ依存制約として定式化し,安全性中心のフレームワークを提案する。
本フレームワークでは,新たな能力の獲得や,既存の画像分類能力の向上を目的とした事前学習型視覚言語モデル(CLIPモデル)の開発方法について検討する。
本稿では,CLIPモデルにタスク依存ヘッドを付与し,モデル開発安全を促進させる,理論的保証を備えた効率的な制約付き最適化アルゴリズムを提案する。
自律走行およびシーン認識データセットにおける視覚知覚能力の向上に関する実験は,提案手法の有効性を実証するものである。
In the real world, a learning-enabled system usually undergoes multiple cycles of model development to enhance the system's ability to handle difficult or emerging tasks. This continual model development process raises a significant issue that the model development for acquiring new or improving existing capabilities may inadvertently lose capabilities of the old model, also known as catastrophic forgetting. Existing continual learning studies focus on mitigating catastrophic forgetting by trading off performance on previous tasks and new tasks to ensure good average performance. However, they are inadequate for many applications especially in safety-critical domains, as failure to strictly preserve the performance of the old model not only introduces safety risks and uncertainties but also imposes substantial expenses in the re-improving and re-validation of existing properties. To address this issue, we introduce model developmental safety as a guarantee of a learning system such that in the model development process the new model should strictly preserve the existing protected capabilities of the old model while improving its performance on target tasks. To ensure the model developmental safety, we present a safety-centric framework by formulating the model developmental safety as data-dependent constraints. Under this framework, we study how to develop a pretrained vision-language model (aka the CLIP model) for acquiring new capabilities or improving existing capabilities of image classification. We propose an efficient constrained optimization algorithm with theoretical guarantee and use its insights to finetune a CLIP model with task-dependent heads for promoting the model developmental safety. Our experiments on improving vision perception capabilities on autonomous driving and scene recognition datasets demonstrate the efficacy of the proposed approach. | 翻訳日:2024-11-02 15:10:07 公開日:2024-10-13 |
# モデル開発安全:視覚言語モデルにおける安全中心法とその応用
Model Developmental Safety: A Safety-Centric Method and Applications in Vision-Language Models ( http://arxiv.org/abs/2410.03955v2 ) ライセンス: Link先を確認 | Gang Li, Wendi Yu, Yao Yao, Wei Tong, Yingbin Liang, Qihang Lin, Tianbao Yang, | (参考訳) 現実の世界では、学習可能なシステムは、通常、難しいタスクや新しいタスクを扱うシステムの能力を高めるために、モデル開発の複数のサイクルを経る。
この継続的モデル開発プロセスは、新しいものや既存の機能を改善するためのモデル開発が故意に旧モデルの能力を失うという重大な問題を提起する。
既存の継続的な学習研究は、過去のタスクのパフォーマンスと新しいタスクをトレードオフすることで、破滅的な忘れを軽減し、平均的なパフォーマンスを確実にすることに焦点を当てている。
しかし、特に安全クリティカルな領域では、安全リスクや不確実性をもたらすだけでなく、既存の財産の再改良・再検証にもかなりの費用がかかる旧モデルの性能を厳格に維持できないため、多くの用途に不適当である。
この問題に対処するため、モデル開発プロセスにおいて、新しいモデルは、ターゲットタスクにおける性能を改善しつつ、旧モデルの既存の保護機能を厳格に保持すべきである、という学習システムの保証としてモデル開発安全を導入する。
モデル開発の安全性を確保するために,モデル開発の安全性をデータ依存制約として定式化し,安全性中心のフレームワークを提案する。
本フレームワークでは,新たな能力の獲得や,既存の画像分類能力の向上を目的とした事前学習型視覚言語モデル(CLIPモデル)の開発方法について検討する。
本稿では,CLIPモデルにタスク依存ヘッドを付与し,モデル開発安全を促進させる,理論的保証を備えた効率的な制約付き最適化アルゴリズムを提案する。
自律走行およびシーン認識データセットにおける視覚知覚能力の向上に関する実験は,提案手法の有効性を実証するものである。
In the real world, a learning-enabled system usually undergoes multiple cycles of model development to enhance the system's ability to handle difficult or emerging tasks. This continual model development process raises a significant issue that the model development for acquiring new or improving existing capabilities may inadvertently lose capabilities of the old model, also known as catastrophic forgetting. Existing continual learning studies focus on mitigating catastrophic forgetting by trading off performance on previous tasks and new tasks to ensure good average performance. However, they are inadequate for many applications especially in safety-critical domains, as failure to strictly preserve the performance of the old model not only introduces safety risks and uncertainties but also imposes substantial expenses in the re-improving and re-validation of existing properties. To address this issue, we introduce model developmental safety as a guarantee of a learning system such that in the model development process the new model should strictly preserve the existing protected capabilities of the old model while improving its performance on target tasks. To ensure the model developmental safety, we present a safety-centric framework by formulating the model developmental safety as data-dependent constraints. Under this framework, we study how to develop a pretrained vision-language model (aka the CLIP model) for acquiring new capabilities or improving existing capabilities of image classification. We propose an efficient constrained optimization algorithm with theoretical guarantee and use its insights to finetune a CLIP model with task-dependent heads for promoting the model developmental safety. Our experiments on improving vision perception capabilities on autonomous driving and scene recognition datasets demonstrate the efficacy of the proposed approach. | 翻訳日:2024-11-02 15:10:07 公開日:2024-10-13 |
# 古典的なシングルトン境界を飽和した量子誤り訂正符号の絡み合い支援
Entanglement-assisted Quantum Error Correcting Code Saturating The Classical Singleton Bound ( http://arxiv.org/abs/2410.04130v1 ) ライセンス: Link先を確認 | Soham Ghosh, Evagoras Stylianou, Holger Boche, | (参考訳) 量子誤り訂正符号 (EAQECCs) の構成を導入し, 古典的なシングルトン境界を, コードレートが$\frac{k}{n} = \frac{1}{3}$以下の任意の方法よりも少ない共有絡み合いで飽和させる。
より高いレートでは、EAQECCはシングルトン境界を満たすが、絡み合いの要求は増加する。
さらに、任意の古典的な $[n,k,d]_q$ コードがパラメータ $[[n,k,d;2k]]_q$ の EAQECC に変換可能であることを実証する。
q$レベルの$k$-quditsの符号化プロトコルの複雑さは、MDSコードの符号化と復号の複雑さを除いて$O(k \log_{\frac{q}{q-1}}(k))$である。
この複雑性は、妥当な大きさのシステムでは$k$で線形であるが、より大規模なシステムでは大幅に増加し、複雑さの低減に関するさらなる研究の必要性が浮き彫りになる。
We introduce a construction for entanglement-assisted quantum error-correcting codes (EAQECCs) that saturates the classical Singleton bound with less shared entanglement than any known method for code rates below $\frac{k}{n} = \frac{1}{3}$. For higher rates, our EAQECC also meets the Singleton bound, although with increased entanglement requirements. Additionally, we demonstrate that any classical $[n,k,d]_q$ code can be transformed into an EAQECC with parameters $[[n,k,d;2k]]_q$ using $2k$ pre-shared maximally entangled pairs. The complexity of our encoding protocol for $k$-qudits with $q$ levels is $O(k \log_{\frac{q}{q-1}}(k))$, excluding the complexity of encoding and decoding the MDS code. While this complexity remains linear in $k$ for systems of reasonable size, it increases significantly for larger-levelled systems, highlighting the need for further research into complexity reduction. | 翻訳日:2024-11-02 14:01:04 公開日:2024-10-13 |
# 古典的なシングルトン境界を飽和した量子誤り訂正符号の絡み合い支援
Entanglement-assisted Quantum Error Correcting Code Saturating The Classical Singleton Bound ( http://arxiv.org/abs/2410.04130v2 ) ライセンス: Link先を確認 | Soham Ghosh, Evagoras Stylianou, Holger Boche, | (参考訳) 本稿では,量子誤り訂正符号 (EAQECCs) の構成を導入し,古典的なシングルトン境界を,コードレートが$ \frac{k}{n} = \frac{1}{3} $以下の任意の方法よりも少ない共有絡み合いで飽和させる。
より高いレートでは、EAQECCはシングルトン境界を満たすが、絡み合いの要求は増加する。
さらに、任意の古典的な $[n,k,d]_q$ コードがパラメータ $[[n,k,d;2k]]_q$ の EAQECC に変換可能であることを実証する。
q$レベルの$k$-quditsの符号化プロトコルの複雑さは$\mathcal{O}(k \log_{\frac{q}{q-1}}(k))$である。
この複雑性は、妥当な大きさのシステムでは$k$で線形であるが、より大規模なシステムでは大幅に増加し、複雑さの低減に関するさらなる研究の必要性が浮き彫りになる。
We introduce a construction for entanglement-assisted quantum error-correcting codes (EAQECCs) that saturates the classical Singleton bound with less shared entanglement than any known method for code rates below $ \frac{k}{n} = \frac{1}{3} $. For higher rates, our EAQECC also meets the Singleton bound, although with increased entanglement requirements. Additionally, we demonstrate that any classical $[n,k,d]_q$ code can be transformed into an EAQECC with parameters $[[n,k,d;2k]]_q$ using $2k$ pre-shared maximally entangled pairs. The complexity of our encoding protocol for $k$-qudits with $q$ levels is $\mathcal{O}(k \log_{\frac{q}{q-1}}(k))$, excluding the complexity of encoding and decoding the classical MDS code. While this complexity remains linear in $k$ for systems of reasonable size, it increases significantly for larger-levelled systems, highlighting the need for further research into complexity reduction. | 翻訳日:2024-11-02 14:01:04 公開日:2024-10-13 |
# 古典的なシングルトン境界を飽和した量子誤り訂正符号の絡み合い支援
Entanglement-assisted Quantum Error Correcting Code Saturating The Classical Singleton Bound ( http://arxiv.org/abs/2410.04130v3 ) ライセンス: Link先を確認 | Soham Ghosh, Evagoras Stylianou, Holger Boche, | (参考訳) 本稿では,量子誤り訂正符号 (EAQECCs) の構成を導入し,古典的なシングルトン境界を,コードレートが$ \frac{k}{n} = \frac{1}{3} $以下の任意の方法よりも少ない共有絡み合いで飽和させる。
より高いレートでは、EAQECCはシングルトン境界を満たすが、絡み合いの要求は増加する。
さらに、任意の古典的な $[n,k,d]_q$ コードがパラメータ $[[n,k,d;2k]]_q$ の EAQECC に変換可能であることを実証する。
q$レベルの$k$-quditsの符号化プロトコルの複雑さは$\mathcal{O}(k \log_{\frac{q}{q-1}}(k))$である。
この複雑性は、妥当な大きさのシステムでは$k$で線形であるが、より大規模なシステムでは大幅に増加し、複雑さの低減に関するさらなる研究の必要性が浮き彫りになる。
We introduce a construction for entanglement-assisted quantum error-correcting codes (EAQECCs) that saturates the classical Singleton bound with less shared entanglement than any known method for code rates below $ \frac{k}{n} = \frac{1}{3} $. For higher rates, our EAQECC also meets the Singleton bound, although with increased entanglement requirements. Additionally, we demonstrate that any classical $[n,k,d]_q$ code can be transformed into an EAQECC with parameters $[[n,k,d;2k]]_q$ using $2k$ pre-shared maximally entangled pairs. The complexity of our encoding protocol for $k$-qudits with $q$ levels is $\mathcal{O}(k \log_{\frac{q}{q-1}}(k))$, excluding the complexity of encoding and decoding the classical MDS code. While this complexity remains linear in $k$ for systems of reasonable size, it increases significantly for larger-levelled systems, highlighting the need for further research into complexity reduction. | 翻訳日:2024-11-02 14:01:04 公開日:2024-10-13 |
# YanTian: AIグローバル気象予測モデルのためのアプリケーションプラットフォーム
YanTian: An Application Platform for AI Global Weather Forecasting Models ( http://arxiv.org/abs/2410.04539v1 ) ライセンス: Link先を確認 | Wencong Cheng, Jiangjiang Xia, Chang Qu, Zhigang Wang, Xinyi Zeng, Fang Huang, Tianye Li, | (参考訳) AI Global Weather Forecasting Models (AIGWFM) の実用化を促進するため,我々は適応可能なアプリケーションプラットフォーム「YanTian」を開発した。
このプラットフォームは、一連の機能強化モジュールで既存のオープンソースAIGWFMを強化し、"疎結合"プラグインアーキテクチャで構築されている。
「YanTian」の目的は、現在のオープンソースAIGWFMの運用上の限界に対処することであり、ローカルな予測精度の向上、空間的な高解像度予測の提供、予測間隔の密度の増大、AIGC機能の提供による多様な製品の生成などである。
また'YianTian'はシンプルで視覚化されたユーザーインターフェイスを提供しており、気象学者はプラットフォームUIを単純に構成することで、プラットフォームの基本機能と拡張機能の両方に簡単にアクセスできる。
複雑な人工知能の知識やコーディング技術を持つ必要はない。
さらに、'YianTian'はGPUを備えたPCにデプロイできる。
我々は「YianTian」がAIGWFMの運用的普及を促進することを願っている。
To promote the practical application of AI Global Weather Forecasting Models (AIGWFM), we have developed an adaptable application platform named 'YanTian'. This platform enhances existing open-source AIGWFM with a suite of capability-enhancing modules and is constructed by a "loosely coupled" plug-in architecture. The goal of 'YanTian' is to address the limitations of current open-source AIGWFM in operational application, including improving local forecast accuracy, providing spatial high-resolution forecasts, increasing density of forecast intervals, and generating diverse products with the provision of AIGC capabilities. 'YianTian' also provides a simple, visualized user interface, allowing meteorologists easily access both basic and extended capabilities of the platform by simply configuring the platform UI. Users do not need to possess the complex artificial intelligence knowledge and the coding techniques. Additionally, 'YianTian' can be deployed on a PC with GPUs. We hope 'YianTian' can facilitate the operational widespread adoption of AIGWFMs. | 翻訳日:2024-11-02 06:46:25 公開日:2024-10-13 |
# YanTian: AIグローバル気象予測モデルのためのアプリケーションプラットフォーム
YanTian: An Application Platform for AI Global Weather Forecasting Models ( http://arxiv.org/abs/2410.04539v2 ) ライセンス: Link先を確認 | Wencong Cheng, Jiangjiang Xia, Chang Qu, Zhigang Wang, Xinyi Zeng, Fang Huang, Tianye Li, | (参考訳) AI Global Weather Forecasting Models (AIGWFM) の実用化を促進するため,我々は適応可能なアプリケーションプラットフォーム「YanTian」を開発した。
このプラットフォームは、一連の機能強化モジュールで既存のオープンソースAIGWFMを強化し、"疎結合"プラグインアーキテクチャで構築されている。
「YanTian」の目的は、現在のオープンソースAIGWFMの運用上の限界に対処することであり、ローカルな予測精度の向上、空間的な高解像度予測の提供、予測間隔の密度の増大、AIGC機能の提供による多様な製品の生成などである。
また'YianTian'はシンプルで視覚化されたユーザーインターフェイスを提供しており、気象学者はプラットフォームUIを単純に構成することで、プラットフォームの基本機能と拡張機能の両方に簡単にアクセスできる。
複雑な人工知能の知識やコーディング技術を持つ必要はない。
さらに、'YianTian'はGPUを備えたPCにデプロイできる。
我々は「YianTian」がAIGWFMの運用的普及を促進することを願っている。
To promote the practical application of AI Global Weather Forecasting Models (AIGWFM), we have developed an adaptable application platform named 'YanTian'. This platform enhances existing open-source AIGWFM with a suite of capability-enhancing modules and is constructed by a "loosely coupled" plug-in architecture. The goal of 'YanTian' is to address the limitations of current open-source AIGWFM in operational application, including improving local forecast accuracy, providing spatial high-resolution forecasts, increasing density of forecast intervals, and generating diverse products with the provision of AIGC capabilities. 'YianTian' also provides a simple, visualized user interface, allowing meteorologists easily access both basic and extended capabilities of the platform by simply configuring the platform UI. Users do not need to possess the complex artificial intelligence knowledge and the coding techniques. Additionally, 'YianTian' can be deployed on a PC with GPUs. We hope 'YianTian' can facilitate the operational widespread adoption of AIGWFMs. | 翻訳日:2024-11-02 06:46:25 公開日:2024-10-13 |
# CR-CTC: 音声認識改善のためのCTCの一貫性規則化
CR-CTC: Consistency regularization on CTC for improved speech recognition ( http://arxiv.org/abs/2410.05101v1 ) ライセンス: Link先を確認 | Zengwei Yao, Wei Kang, Xiaoyu Yang, Fangjun Kuang, Liyong Guo, Han Zhu, Zengrui Jin, Zhaoqing Li, Long Lin, Daniel Povey, | (参考訳) Connectionist Temporal Classification (CTC) は、その単純さと計算効率で有名な自動音声認識(ASR)の手法である。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本研究では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するCR-CTC(Consistency-Regularized CTC)を提案する。
私たちは3つの視点からその本質的な行動について深い洞察を与えます。
1)異なる拡張ビューを処理するサブモデルのランダムなペア間の自己蒸留を行う。
2) 時間マスキングの量を増やす際に, 時間マスキング領域における位置のマスキング予測を通じて文脈表現を学習する。
3) 極端にピークなCTC分布を抑え, オーバーフィッティングを低減し, 一般化能力を向上させる。
LibriSpeech、Aishell-1、GigaSpeechデータセットの大規模な実験は、TransducerやCTC/AEDに匹敵するパフォーマンスを達成できるCR-CTCの有効性を示している。
Connectionist Temporal Classification (CTC) is a widely used method for automatic speech recognition (ASR), renowned for its simplicity and computational efficiency. However, it often falls short in recognition performance compared to transducer or systems combining CTC and attention-based encoder-decoder (CTC/AED). In this work, we propose the Consistency-Regularized CTC (CR-CTC), which enforces consistency between two CTC distributions obtained from different augmented views of the input speech mel-spectrogram. We provide in-depth insights into its essential behaviors from three perspectives: 1) it conducts self-distillation between random pairs of sub-models that process different augmented views; 2) it learns contextual representation through masked prediction for positions within time-masked regions, especially when we increase the amount of time masking; 3) it suppresses the extremely peaky CTC distributions, thereby reducing overfitting and improving the generalization ability. Extensive experiments on LibriSpeech, Aishell-1, and GigaSpeech datasets demonstrate the effectiveness of our CR-CTC, which achieves performance comparable to, or even slightly better than, that of transducer and CTC/AED. | 翻訳日:2024-11-02 00:18:32 公開日:2024-10-13 |
# CR-CTC: 音声認識改善のためのCTCの一貫性規則化
CR-CTC: Consistency regularization on CTC for improved speech recognition ( http://arxiv.org/abs/2410.05101v2 ) ライセンス: Link先を確認 | Zengwei Yao, Wei Kang, Xiaoyu Yang, Fangjun Kuang, Liyong Guo, Han Zhu, Zengrui Jin, Zhaoqing Li, Long Lin, Daniel Povey, | (参考訳) Connectionist Temporal Classification (CTC) は、その単純さと計算効率で有名な自動音声認識(ASR)の手法である。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本研究では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するCR-CTC(Consistency-Regularized CTC)を提案する。
私たちは3つの視点からその本質的な行動について深い洞察を与えます。
1)異なる拡張ビューを処理するサブモデルのランダムなペア間の自己蒸留を行う。
2) 時間マスキングの量を増やす際に, 時間マスキング領域における位置のマスキング予測を通じて文脈表現を学習する。
3) 極端にピークなCTC分布を抑え, オーバーフィッティングを低減し, 一般化能力を向上させる。
LibriSpeech、Aishell-1、GigaSpeechデータセットの大規模な実験は、TransducerやCTC/AEDに匹敵するパフォーマンスを達成できるCR-CTCの有効性を示している。
コードについてはhttps://github.com/k2-fsa/icefall.comで公開しています。
Connectionist Temporal Classification (CTC) is a widely used method for automatic speech recognition (ASR), renowned for its simplicity and computational efficiency. However, it often falls short in recognition performance compared to transducer or systems combining CTC and attention-based encoder-decoder (CTC/AED). In this work, we propose the Consistency-Regularized CTC (CR-CTC), which enforces consistency between two CTC distributions obtained from different augmented views of the input speech mel-spectrogram. We provide in-depth insights into its essential behaviors from three perspectives: 1) it conducts self-distillation between random pairs of sub-models that process different augmented views; 2) it learns contextual representation through masked prediction for positions within time-masked regions, especially when we increase the amount of time masking; 3) it suppresses the extremely peaky CTC distributions, thereby reducing overfitting and improving the generalization ability. Extensive experiments on LibriSpeech, Aishell-1, and GigaSpeech datasets demonstrate the effectiveness of our CR-CTC, which achieves performance comparable to, or even slightly better than, that of transducer and CTC/AED. We release our code at https://github.com/k2-fsa/icefall. | 翻訳日:2024-11-02 00:18:32 公開日:2024-10-13 |
# 半構造化ネットワークの機能拡張
A Functional Extension of Semi-Structured Networks ( http://arxiv.org/abs/2410.05430v1 ) ライセンス: Link先を確認 | David Rügamer, and Bernard X. W. Liew, Zainab Altai, Almond Stöcker, | (参考訳) 半構造化ネットワーク(SSN)は、付加モデルに精通した構造とディープニューラルネットワークを融合し、高次非線形性を同時に捕捉しながら、解釈可能な部分的特徴効果のモデリングを可能にする。
この統合における重要な課題は、追加モデルコンポーネントの解釈可能性を維持することである。
大規模バイオメカニクスデータセットにインスパイアされた本研究では,SSNを機能データに拡張する方法について検討する。
関数型データ分析の既存の手法は有望だが、すべての相互作用や非線形性を考慮するのに十分な表現力を持たず、大規模なデータセットにうまくスケールしないことが多い。
SSNアプローチは説得力のある潜在的な解を示すが、関数データへの適応は依然として複雑である。
本研究では,古典的機能回帰手法の優位性を保ちつつ,スケーラビリティを向上する機能的SSN法を提案する。
数値実験により,本手法は基礎となる信号の精度を向上し,予測性能を向上し,競合手法と比較して良好な性能を発揮することが示された。
Semi-structured networks (SSNs) merge the structures familiar from additive models with deep neural networks, allowing the modeling of interpretable partial feature effects while capturing higher-order non-linearities at the same time. A significant challenge in this integration is maintaining the interpretability of the additive model component. Inspired by large-scale biomechanics datasets, this paper explores extending SSNs to functional data. Existing methods in functional data analysis are promising but often not expressive enough to account for all interactions and non-linearities and do not scale well to large datasets. Although the SSN approach presents a compelling potential solution, its adaptation to functional data remains complex. In this work, we propose a functional SSN method that retains the advantageous properties of classical functional regression approaches while also improving scalability. Our numerical experiments demonstrate that this approach accurately recovers underlying signals, enhances predictive performance, and performs favorably compared to competing methods. | 翻訳日:2024-11-01 18:47:31 公開日:2024-10-13 |
# 半構造化ネットワークの機能拡張
A Functional Extension of Semi-Structured Networks ( http://arxiv.org/abs/2410.05430v2 ) ライセンス: Link先を確認 | David Rügamer, Bernard X. W. Liew, Zainab Altai, Almond Stöcker, | (参考訳) 半構造化ネットワーク(SSN)は、付加モデルに精通した構造とディープニューラルネットワークを融合し、高次非線形性を同時に捕捉しながら、解釈可能な部分的特徴効果のモデリングを可能にする。
この統合における重要な課題は、追加モデルコンポーネントの解釈可能性を維持することである。
大規模バイオメカニクスデータセットにインスパイアされた本研究では,SSNを機能データに拡張する方法について検討する。
関数型データ分析の既存の手法は有望だが、すべての相互作用や非線形性を考慮するのに十分な表現力を持たず、大規模なデータセットにうまくスケールしないことが多い。
SSNアプローチは説得力のある潜在的な解を示すが、関数データへの適応は依然として複雑である。
本研究では,古典的機能回帰手法の優位性を保ちつつ,スケーラビリティを向上する機能的SSN法を提案する。
数値実験により,本手法は基礎となる信号の精度を向上し,予測性能を向上し,競合手法と比較して良好な性能を発揮することが示された。
Semi-structured networks (SSNs) merge the structures familiar from additive models with deep neural networks, allowing the modeling of interpretable partial feature effects while capturing higher-order non-linearities at the same time. A significant challenge in this integration is maintaining the interpretability of the additive model component. Inspired by large-scale biomechanics datasets, this paper explores extending SSNs to functional data. Existing methods in functional data analysis are promising but often not expressive enough to account for all interactions and non-linearities and do not scale well to large datasets. Although the SSN approach presents a compelling potential solution, its adaptation to functional data remains complex. In this work, we propose a functional SSN method that retains the advantageous properties of classical functional regression approaches while also improving scalability. Our numerical experiments demonstrate that this approach accurately recovers underlying signals, enhances predictive performance, and performs favorably compared to competing methods. | 翻訳日:2024-11-01 18:47:31 公開日:2024-10-13 |
# Mpemba Meets Quantum Chaos: Anomalous Relaxation and Mpemba Crossings in Dissipative Sachdev-Ye-Kitaev Models
Mpemba Meets Quantum Chaos: Anomalous Relaxation and Mpemba Crossings in Dissipative Sachdev-Ye-Kitaev Models ( http://arxiv.org/abs/2410.06669v1 ) ライセンス: Link先を確認 | Xuanhua Wang, Jie Su, Jin Wang, | (参考訳) Mpemba効果(MPE)は、教室の実験中にこの現象を発見した学生に因んで名付けられ、何十年も前から科学者を惹きつけてきた。
この効果は、ある条件下でホットミルクがコールドミルクよりも速く凍ることを示すことで、従来の知恵に挑戦する。
近年、積分可能量子系において同様の効果が発見されている。
しかし、古典的MPEと量子アナログの主な違いは、後者が冷却速度よりも初期状態の性質に大きく依存していることである。
本稿では,Sachdev-Ye-Kitaev (SYK) システムの熱浴によるクエンチダイナミクスについて検討する。
SYK系とSYK系,SYK系を異なる温度で結合したSYK系,リンドブラッド式でモデル化した散逸型SYK系の3つのシナリオについて検討した。
MPCの出現は、系が定常状態に達する前に、冷却または加熱過程における過渡的なMPEの観察を示唆している。
量子カオス系におけるMPCの出現は、古典的MPEと強い類似性を示す。
The Mpemba effect (MPE), named after a student who discovered the phenomenon during a classroom experiment, has intrigued scientists for decades. This effect challenges conventional wisdom by demonstrating that the hot milk can freeze faster than cold milk under certain conditions. Recently, similar effects have been found in integrable quantum systems. However, the key distinction between the classical MPE and its quantum analog is that the latter relies predominantly on the of the properties of the initial states rather than the cooling rate. In this paper, we explore the quench dynamics of Sachdev-Ye-Kitaev (SYK) systems coupled to thermal baths. We investigate three scenarios--an SYK system coupled with an SYK thermal bath, an SYK system coupled with two thermal baths at different temperatures, and a dissipative SYK system modeled by the Lindblad equation. In the regimes where the system and the baths are strongly coupled, we observe effective temperature oscillations and Mpemba crossings (MPCs)--an effect of temperature crossings which are absent in the equilibrium thermodynamic analysis--when the system is strongly coupled to SYK thermal baths. The emergence of the MPCs suggests the observation of a transient MPE in the cooling or heating process before the systems reach the steady states. The emergence of MPCs in quantum chaotic systems exhibits strong parallels with the classical MPE. | 翻訳日:2024-11-01 04:19:50 公開日:2024-10-13 |
# Mpemba Meets Quantum Chaos: Anomalous Relaxation and Mpemba Crossings in Dissipative Sachdev-Ye-Kitaev Models
Mpemba Meets Quantum Chaos: Anomalous Relaxation and Mpemba Crossings in Dissipative Sachdev-Ye-Kitaev Models ( http://arxiv.org/abs/2410.06669v2 ) ライセンス: Link先を確認 | Xuanhua Wang, Jie Su, Jin Wang, | (参考訳) Mpemba効果(Mpemba effect、MPE)は、この現象を最初に観察した学生に因んで名付けられ、ある条件下で熱い液体が寒さよりも速く凍ることを示すことで、何十年にもわたって科学者を惹きつけてきた。
近年、積分可能量子系において類似効果が同定されている。
しかし、古典的MPEと量子アナログの主な違いは、後者が冷却速度よりも初期状態の性質に大きく依存していることである。
本稿では,Sachdev-Ye-Kitaev (SYK) システムの熱浴によるクエンチダイナミクスについて検討する。
我々は,SYK熱浴に結合したSYK系,異なる温度で2つの熱浴に結合したSYK系,リンドブラッド式でモデル化した散逸性SYK系の3つのシナリオについて検討した。
これらの効果は、リウヴィリアの形式主義では見られていない。
量子カオス系におけるMPCの出現は、古典的MPEと強い類似性を示す。
The Mpemba effect (MPE), named after a student who first observed the phenomenon, has intrigued scientists for decades by showing that hot liquid can freeze faster than cold under certain conditions. Recently, analogous effects have been identified in integrable quantum systems. However, a key distinction between the classical MPE and its quantum analog is that the latter relies predominantly on the of the properties of the initial states rather than the cooling rate. In this paper, we explore the quench dynamics of Sachdev-Ye-Kitaev (SYK) systems coupled to thermal baths. We investigate three scenarios--SYK systems coupled to SYK thermal baths, SYK systems coupled to two thermal baths at different temperatures, and dissipative SYKs modeled by the Lindblad equation. In the regimes where the system and the baths are strongly coupled, we observe effective temperature oscillations and Mpemba crossings (MPCs)--the effect of temperature crossings which are absent in quasi-equilibrium thermodynamic analysis--when the system is strongly coupled to SYK thermal baths. These effects are not observed in the Liouvillian formalism. The emergence of MPCs in quantum chaotic systems exhibits strong parallels with the classical MPE. | 翻訳日:2024-11-01 04:19:50 公開日:2024-10-13 |
# AI安全フレームワークのトリオロジー: ファクトと知識ギャップから信頼性のある予測と新しい知識への道
A Trilogy of AI Safety Frameworks: Paths from Facts and Knowledge Gaps to Reliable Predictions and New Knowledge ( http://arxiv.org/abs/2410.06946v1 ) ライセンス: Link先を確認 | Simon Kasif, | (参考訳) AI安全は、AIコミュニティ内外の多くの科学者にとって重要な最前線の関心事となっている。
機械学習システムには、生存リスクから人間の存在まで、深い偽造や偏見まで、すぐに、長期にわたって予想されるリスクが数多くあります [1-5]。
本稿では,AIの安全性と信頼性を短期的に向上させる可能性を持つ先進国において,重要な領域におけるAIのイノベーションを減少させることなく,AIの安全性と信頼性を向上させるための重要な3つの機会の3部作に,AIの安全性に関する全範囲と膨大な複雑さを還元する。
本稿では,このビジョンを,バイオメディカルサイエンスにおける重要なML応用における概念実証をすでに作成しているいくつかのケーススタディに基づいて論じる。
AI Safety has become a vital front-line concern of many scientists within and outside the AI community. There are many immediate and long term anticipated risks that range from existential risk to human existence to deep fakes and bias in machine learning systems [1-5]. In this paper, we reduce the full scope and immense complexity of AI safety concerns to a trilogy of three important but tractable opportunities for advances that have the short-term potential to improve AI safety and reliability without reducing AI innovation in critical domains. In this perspective, we discuss this vision based on several case studies that already produced proofs of concept in critical ML applications in biomedical science. | 翻訳日:2024-10-31 23:27:23 公開日:2024-10-13 |
# AI安全フレームワークのトリオロジー: ファクトと知識ギャップから信頼性のある予測と新しい知識への道
A Trilogy of AI Safety Frameworks: Paths from Facts and Knowledge Gaps to Reliable Predictions and New Knowledge ( http://arxiv.org/abs/2410.06946v2 ) ライセンス: Link先を確認 | Simon Kasif, | (参考訳) AI安全は、AIコミュニティ内外の多くの科学者にとって重要な最前線の関心事となっている。
機械学習システムには、生存リスクから人間の存在まで、深い偽造や偏見まで、すぐに、長期にわたって予想されるリスクが数多くあります [1-5]。
本稿では,AIの安全性と信頼性を短期的に向上させる可能性を持つ先進国において,重要な領域におけるAIのイノベーションを減少させることなく,AIの安全性と信頼性を向上させるための重要な3つの機会の3部作に,AIの安全性に関する全範囲と膨大な複雑さを還元する。
本稿では,このビジョンを,バイオメディカルサイエンスにおける重要なML応用における概念実証をすでに作成しているいくつかのケーススタディに基づいて論じる。
AI Safety has become a vital front-line concern of many scientists within and outside the AI community. There are many immediate and long term anticipated risks that range from existential risk to human existence to deep fakes and bias in machine learning systems [1-5]. In this paper, we reduce the full scope and immense complexity of AI safety concerns to a trilogy of three important but tractable opportunities for advances that have the short-term potential to improve AI safety and reliability without reducing AI innovation in critical domains. In this perspective, we discuss this vision based on several case studies that already produced proofs of concept in critical ML applications in biomedical science. | 翻訳日:2024-10-31 23:27:23 公開日:2024-10-13 |
# 1+3)次元の「相対性の量子原理」はアインシュタインの相対性の原理である
The (1+3)-dimensional 'quantum principle of relativity' is Einstein's principle of relativity ( http://arxiv.org/abs/2410.07017v1 ) ライセンス: Link先を確認 | Matthew J. Lake, | (参考訳) ドル(1+3)$-dimensional ‘superboost'作用素はドラガンとエケルトの超光参照フレームに関する最近の研究(arXiv:2209.01836]で提案され、単に標準でない表記で表される標準ローレンツブーストであることを示す。
それらの$(1+3)$-dimensional `superflip' は超光度オブザーバーの時間と空間次元を交換し、無限の速度で走行すると主張されるが、等式演算子を任意の再来とともに適用することと同値である。
物理的には、標準安息フレーム内に留まり、その後、空間を「時」、時間を「時」に置き換える。
1+1)$-次元時空 [arXiv:1910.02780] から通常のミンコフスキー空間 (arXiv:2209.01836] への拡張は、単に1905年にアインシュタインが提唱した相対性理論である。
We show that the $(1+3)$-dimensional `superboost' operators, proposed in Dragan and Ekert's most recent work on superluminal reference frames [arXiv:2209.01836], are simply the canonical Lorentz boosts, expressed in nonstandard notation. Their $(1+3)$-dimensional `superflip', which is claimed to interchange time and space dimensions for a superluminal observer, travelling with infinite speed, is equivalent to applying the identity operator together with an arbitrary relabelling. Physically, it corresponds to staying put within the canonical rest frame, then renaming space as `time' and time as `space'. We conclude that their extension of the `quantum principle of relativity', proposed in earlier work on $(1+1)$-dimensional spacetimes [arXiv:1910.02780], to ordinary Minkowski space [arXiv:2209.01836], is simply the principle of relativity proposed by Einstein in 1905. | 翻訳日:2024-10-31 23:07:19 公開日:2024-10-13 |
# 1+3)次元の「相対性の量子原理」はアインシュタインの相対性の原理である
The (1+3)-dimensional 'quantum principle of relativity' is Einstein's principle of relativity ( http://arxiv.org/abs/2410.07017v2 ) ライセンス: Link先を確認 | Matthew J. Lake, | (参考訳) ドル(1+3)$-dimensional ‘superboost'作用素はドラガンとエケルトの超光参照フレームに関する最近の研究で提案され、単に標準的なローレンツブーストであり、非標準記法で表される。
それらの$(1+3)$-dimensional `superflip' は超光度オブザーバーの時間と空間次元を交換し、無限の速度で移動するという主張であり、等式演算子を任意のレバーベリングとともに適用することと同値である。
物理的には、標準安息フレーム内に留まり、その後、空間を「時」、時間を「時」に置き換える。
1+1)$-次元時空 \cite{Dragan:2019grn} から通常のミンコフスキー空間 \cite{Dragan:2022txt} への拡張は単にアインシュタインの相対性理論であり、1905年に提唱された。
We show that the $(1+3)$-dimensional `superboost' operators, proposed in Dragan and Ekert's most recent work on superluminal reference frames \cite{Dragan:2022txt}, are simply the canonical Lorentz boosts, expressed in nonstandard notation. Their $(1+3)$-dimensional `superflip', which is claimed to interchange time and space dimensions for a superluminal observer, travelling with infinite speed, is equivalent to applying the identity operator together with an arbitrary relabeling. Physically, it corresponds to staying put within the canonical rest frame, then renaming space as `time' and time as `space'. We conclude that their extension of the `quantum principle of relativity', proposed in earlier work on $(1+1)$-dimensional spacetimes \cite{Dragan:2019grn}, to ordinary Minkowski space \cite{Dragan:2022txt}, is simply Einstein's principle of relativity, proposed in 1905. | 翻訳日:2024-10-31 22:57:18 公開日:2024-10-13 |
# 任意の次元の逆変形解に対する弾性の変分ベイズ推論理論とその混合確率有限要素法
A Variational Bayesian Inference Theory of Elasticity and Its Mixed Probabilistic Finite Element Method for Inverse Deformation Solutions in Any Dimension ( http://arxiv.org/abs/2410.07605v1 ) ライセンス: Link先を確認 | Chao Wang, Shaofan Li, | (参考訳) 本研究では,連続体の逆変形問題を解くために,混合変分ベイズ推論有限要素法(VBI-FEM)を用いて,弾性の変分ベイズ推論理論を開発した。
提案した連続体力学の変分ベイズ的推論理論において、弾性ひずみエネルギーは、内部変形や正確な実境界条件、トラクションおよび境界条件、および実際の物質構成関係を知ることなく、変形および変形しない連続体形状に関する情報のみを与えられた場合にのみ、詳細な連続体変形写像をインテリジェントに復元できるベイズ的推論ネットワークにおいて、先行として用いられる。
さらに,計算確率力学フレームワークにおいて,関連する有限要素定式化を実装した。
混合変動問題の数値解法として,有限要素(FE)とベイズ学習(BL)から構成される演算子分割あるいはスタガードアルゴリズムを開発した。
混合確率的ガレルキン変動問題の解法により, 提案手法は, 外部負荷条件を知らずに, 強い不連続性や破壊を伴う連続変形写像を逆向きに予測できることを実証した。
提案手法は,過去数十年間,構造故障法則パターン解析において大きな課題であった,長期にわたる逆問題解に対して,堅牢なマシンインテリジェントソリューションを提供する。
提案手法は、一般偏微分方程式を解くための有望な人工知能ベースの逆法となる可能性がある。
In this work, we have developed a variational Bayesian inference theory of elasticity, which is accomplished by using a mixed Variational Bayesian inference Finite Element Method (VBI-FEM) that can be used to solve the inverse deformation problems of continua. In the proposed variational Bayesian inference theory of continuum mechanics, the elastic strain energy is used as a prior in a Bayesian inference network, which can intelligently recover the detailed continuum deformation mappings with only given the information on the deformed and undeformed continuum body shapes without knowing the interior deformation and the precise actual boundary conditions, both traction as well as displacement boundary conditions, and the actual material constitutive relation. Moreover, we have implemented the related finite element formulation in a computational probabilistic mechanics framework. To numerically solve mixed variational problem, we developed an operator splitting or staggered algorithm that consists of the finite element (FE) step and the Bayesian learning (BL) step as an analogue of the well-known the Expectation-Maximization (EM) algorithm. By solving the mixed probabilistic Galerkin variational problem, we demonstrated that the proposed method is able to inversely predict continuum deformation mappings with strong discontinuity or fracture without knowing the external load conditions. The proposed method provides a robust machine intelligent solution for the long-sought-after inverse problem solution, which has been a major challenge in structure failure forensic pattern analysis in past several decades. The proposed method may become a promising artificial intelligence-based inverse method for solving general partial differential equations. | 翻訳日:2024-10-31 16:06:31 公開日:2024-10-13 |
# 任意の次元の逆変形解に対する弾性の変分ベイズ推論理論とその混合確率有限要素法
A Variational Bayesian Inference Theory of Elasticity and Its Mixed Probabilistic Finite Element Method for Inverse Deformation Solutions in Any Dimension ( http://arxiv.org/abs/2410.07605v2 ) ライセンス: Link先を確認 | Chao Wang, Shaofan Li, | (参考訳) 本研究では,連続体の逆変形問題を解くために,混合変分ベイズ推論有限要素法(VBI-FEM)を用いて,弾性の変分ベイズ推論理論を開発した。
提案した連続体力学の変分ベイズ的推論理論において、弾性ひずみエネルギーは、内部変形や正確な実境界条件、トラクションおよび境界条件、および実際の物質構成関係を知ることなく、変形および変形しない連続体形状に関する情報のみを与えられた場合にのみ、詳細な連続体変形写像をインテリジェントに復元できるベイズ的推論ネットワークにおいて、先行として用いられる。
さらに,計算確率力学フレームワークにおいて,関連する有限要素定式化を実装した。
混合変動問題の数値解法として,有限要素(FE)とベイズ学習(BL)から構成される演算子分割あるいはスタガードアルゴリズムを開発した。
混合確率的ガレルキン変動問題の解法により, 提案手法は, 外部負荷条件を知らずに, 強い不連続性や破壊を伴う連続変形写像を逆向きに予測できることを実証した。
提案手法は,過去数十年間,構造故障法則パターン解析において大きな課題であった,長期にわたる逆問題解に対して,堅牢なマシンインテリジェントソリューションを提供する。
提案手法は、一般偏微分方程式を解くための有望な人工知能ベースの逆法となる可能性がある。
In this work, we have developed a variational Bayesian inference theory of elasticity, which is accomplished by using a mixed Variational Bayesian inference Finite Element Method (VBI-FEM) that can be used to solve the inverse deformation problems of continua. In the proposed variational Bayesian inference theory of continuum mechanics, the elastic strain energy is used as a prior in a Bayesian inference network, which can intelligently recover the detailed continuum deformation mappings with only given the information on the deformed and undeformed continuum body shapes without knowing the interior deformation and the precise actual boundary conditions, both traction as well as displacement boundary conditions, and the actual material constitutive relation. Moreover, we have implemented the related finite element formulation in a computational probabilistic mechanics framework. To numerically solve mixed variational problem, we developed an operator splitting or staggered algorithm that consists of the finite element (FE) step and the Bayesian learning (BL) step as an analogue of the well-known the Expectation-Maximization (EM) algorithm. By solving the mixed probabilistic Galerkin variational problem, we demonstrated that the proposed method is able to inversely predict continuum deformation mappings with strong discontinuity or fracture without knowing the external load conditions. The proposed method provides a robust machine intelligent solution for the long-sought-after inverse problem solution, which has been a major challenge in structure failure forensic pattern analysis in past several decades. The proposed method may become a promising artificial intelligence-based inverse method for solving general partial differential equations. | 翻訳日:2024-10-31 15:56:40 公開日:2024-10-13 |
# 直交多指数モデルの学習:微細情報指数解析
Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis ( http://arxiv.org/abs/2410.09678v1 ) ライセンス: Link先を確認 | Yunwei Ren, Jason D. Lee, | (参考訳) 情報指数(Ben Arous et al [2021])は、ガウスの単一インデックスモデルにおけるリンク関数のヘルミット展開の最低度に相当するもので、様々な学習課題におけるオンライン確率勾配勾配(SGD)のサンプル複雑性を予測する上で重要な役割を果たしている。
本研究では、マルチインデックスモデルにおいて、最低度のみに焦点をあてた場合、モデルの主要な構造的詳細を見逃し、その結果、最適以下となることを示す。
具体的には、f_*(\mathbf{x}) = \sum_{k=1}^{P} \phi(\mathbf{v}_k^* \cdot \mathbf{x})$, ここで、$P \ll d$, the ground-truth direction $\{ \mathbf{v}_k^* \}_{k=1}^P$ は正規直交であり、リンク関数 $\phi$ の第2次および第2次エルミート係数は非ゼロである。
情報指数の理論に基づき、最低次が2L$である場合、方向を復元するには$d^{2L-1}\mathrm{poly}(P)$サンプルが必要であり、最低次が2$である場合、関連する部分空間(正確な方向ではない)のみが2階項の回転不変性のために復元される。
対照的に、二階項と高階項の両方を考慮すると、まず二階項を通して関連空間を学習し、次に高階項を用いて正確な方向を学習し、オンラインSGDの全体サンプルと複雑さは$d \mathrm{poly}(P)$であることを示す。
The information exponent (Ben Arous et al. [2021]) -- which is equivalent to the lowest degree in the Hermite expansion of the link function for Gaussian single-index models -- has played an important role in predicting the sample complexity of online stochastic gradient descent (SGD) in various learning tasks. In this work, we demonstrate that, for multi-index models, focusing solely on the lowest degree can miss key structural details of the model and result in suboptimal rates. Specifically, we consider the task of learning target functions of form $f_*(\mathbf{x}) = \sum_{k=1}^{P} \phi(\mathbf{v}_k^* \cdot \mathbf{x})$, where $P \ll d$, the ground-truth directions $\{ \mathbf{v}_k^* \}_{k=1}^P$ are orthonormal, and only the second and $2L$-th Hermite coefficients of the link function $\phi$ can be nonzero. Based on the theory of information exponent, when the lowest degree is $2L$, recovering the directions requires $d^{2L-1}\mathrm{poly}(P)$ samples, and when the lowest degree is $2$, only the relevant subspace (not the exact directions) can be recovered due to the rotational invariance of the second-order terms. In contrast, we show that by considering both second- and higher-order terms, we can first learn the relevant space via the second-order terms, and then the exact directions using the higher-order terms, and the overall sample and complexity of online SGD is $d \mathrm{poly}(P)$. | 翻訳日:2024-10-30 08:46:35 公開日:2024-10-13 |
# インシシット計画による論理的仕様による構成課題の一般化
Generalization of Compositional Tasks with Logical Specification via Implicit Planning ( http://arxiv.org/abs/2410.09686v1 ) ライセンス: Link先を確認 | Duo Xu, Faramarz Fekri, | (参考訳) 本研究では,論理仕様によって与えられる構成課題に対する一般化可能なポリシーを学習する問題について検討する。
これらのタスクは時間的に拡張されたサブゴールによって構成される。
サブゴールの依存関係と長いタスク水平性のため、従来の強化学習(RL)アルゴリズム(例えば、タスク条件付きおよび目標条件付きポリシー)は、構成タスクの一般化問題を解く際に、依然として緩やかな収束と準最適性に悩まされている。
本稿では,これらの課題に対処するために,合成タスクの効率的かつ最適な一般化のための階層的RLフレームワークを提案する。
高いレベルでは、作曲タスクの一般化に特化して設計された新しい暗黙プランナーを提案する。
具体的には、プランナーは次のサブタスクの選択を生成し、タスクの残りを現在の状態から完了させるマルチステップのリターンを推定する。
潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)に基づいて潜時空間で計画を実行する。
次に、高レベルによって選択された次のサブタスクは、低レベルエージェントを効率的に誘導し、長期化タスクを解決し、マルチステップのリターンにより、低レベルポリシーは将来のサブタスクの依存関係を考慮させる。
提案手法の利点を, 最適性と効率の観点から示すため, 包括的実験を行った。
In this work, we study the problem of learning generalizable policies for compositional tasks given by a logic specification. These tasks are composed by temporally extended subgoals. Due to dependencies of subgoals and long task horizon, previous reinforcement learning (RL) algorithms, e.g., task-conditioned and goal-conditioned policies, still suffer from slow convergence and sub-optimality when solving the generalization problem of compositional tasks. In order to tackle these issues, this paper proposes a new hierarchical RL framework for the efficient and optimal generalization of compositional tasks. In the high level, we propose a new implicit planner designed specifically for generalizing compositional tasks. Specifically, the planner produces the selection of next sub-task and estimates the multi-step return of completing the rest of task from current state. It learns a latent transition model and conducts planning in the latent space based on a graph neural network (GNN). Then, the next sub-task selected by the high level guides the low-level agent efficiently to solve long-horizon tasks and the multi-step return makes the low-level policy consider dependencies of future sub-tasks. We conduct comprehensive experiments to show the advantage of proposed framework over previous methods in terms of optimality and efficiency. | 翻訳日:2024-10-30 08:46:35 公開日:2024-10-13 |
# Moin: LLMをリサイクルするために内向的な専門家の混在
MoIN: Mixture of Introvert Experts to Upcycle an LLM ( http://arxiv.org/abs/2410.09687v1 ) ライセンス: Link先を確認 | Ajinkya Tejankar, KL Navaneet, Ujjawal Panchal, Kossar Pourahmadi, Hamed Pirsiavash, | (参考訳) 本研究の目的は,完全モデルの継続事前学習の禁止要件を伴わずに,既存の大規模言語モデルを改善することである。
このアイデアは、事前学習データを意味のあるグループに分割し、各サブセットで専門家を訓練する。
専門家は、冷凍ベースモデルの上部に追加される軽量アダプタの形を取る。
推論中、入力されたクエリは、最初に最も関連する専門家にルーティングされ、その後、フォワードパスのためにベースモデルにロードされる。
典型的なMixture of Experts(MoE)モデルとは異なり、我々の手法の専門家は他の専門家と1つのクエリで機能しない。
そのため、彼らは「内向的な」専門家である。
ベースモデルを凍結し、専門家を軽量なアダプタとして保持することで、トレーニングと推論の間に極端な並列性を実現する。
すべての専門家のトレーニングは、コミュニケーションチャネルを使わずに、並列に行うことができる。
同様に、推論は、異なるGPUの専門家を分散し、関連する専門家を含むGPUに各リクエストをルーティングすることで、非常に並列化することができる。
本手法の概念実証版を実装し,提案手法の有効性を示す。
The goal of this paper is to improve (upcycle) an existing large language model without the prohibitive requirements of continued pre-training of the full-model. The idea is to split the pre-training data into semantically relevant groups and train an expert on each subset. An expert takes the form of a lightweight adapter added on the top of a frozen base model. During inference, an incoming query is first routed to the most relevant expert which is then loaded onto the base model for the forward pass. Unlike typical Mixture of Experts (MoE) models, the experts in our method do not work with other experts for a single query. Hence, we dub them "introvert" experts. Freezing the base model and keeping the experts as lightweight adapters allows extreme parallelism during training and inference. Training of all experts can be done in parallel without any communication channels between them. Similarly, the inference can also be heavily parallelized by distributing experts on different GPUs and routing each request to the GPU containing its relevant expert. We implement a proof-of-concept version of this method and show the validity of our approach. | 翻訳日:2024-10-30 08:46:35 公開日:2024-10-13 |
# FAMOUS:ビュー合成を用いた高忠実な単分子3次元人体デジタル化
FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis ( http://arxiv.org/abs/2410.09690v1 ) ライセンス: Link先を確認 | Vishnu Mani Hema, Shubhra Aich, Christian Haene, Jean-Charles Bazin, Fernando de la Torre, | (参考訳) 深い暗黙的モデリングと調音モデルの発展により、単一の画像から3次元の人物をデジタル化するプロセスが大幅に強化された。
最先端の手法は幾何精度を大幅に向上させたが、テクスチャを正確に推測する難しさは、特に前景画像の人物の背中のような不明瞭な領域で残っている。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因するが、それらの2Dデータセットは豊富で容易にアクセス可能である。
そこで本研究では,3次元デジタル化におけるテクスチャと形状予測の両面を改善するために,広範囲な2次元ファッションデータセットを活用することを提案する。
提案したドメインアライメント戦略により洗練され,ファッションデータセットから2Dプリエントを組み込んで,隠蔽されたバックビューを学習する。
次に、この情報を入力画像と融合して、与えられた人物の完全なテクスチャ化されたメッシュを得る。
標準的な3次元人体ベンチマークの広範な実験を通じて、テクスチャと幾何学の両方の観点から、我々のアプローチの優れた性能を実証する。
コードとデータセットはhttps://github.com/ Humansensinglab/FAMOUS.comで入手できる。
The advancement in deep implicit modeling and articulated models has significantly enhanced the process of digitizing human figures in 3D from just a single image. While state-of-the-art methods have greatly improved geometric precision, the challenge of accurately inferring texture remains, particularly in obscured areas such as the back of a person in frontal-view images. This limitation in texture prediction largely stems from the scarcity of large-scale and diverse 3D datasets, whereas their 2D counterparts are abundant and easily accessible. To address this issue, our paper proposes leveraging extensive 2D fashion datasets to enhance both texture and shape prediction in 3D human digitization. We incorporate 2D priors from the fashion dataset to learn the occluded back view, refined with our proposed domain alignment strategy. We then fuse this information with the input image to obtain a fully textured mesh of the given person. Through extensive experimentation on standard 3D human benchmarks, we demonstrate the superior performance of our approach in terms of both texture and geometry. Code and dataset is available at https://github.com/humansensinglab/FAMOUS. | 翻訳日:2024-10-30 08:46:35 公開日:2024-10-13 |
# aloRA:LoRAの致命的欠陥を軽減する適応的学習率
ALLoRA: Adaptive Learning Rate Mitigates LoRA Fatal Flaws ( http://arxiv.org/abs/2410.09692v1 ) ライセンス: Link先を確認 | Hai Huang, Randall Balestriero, | (参考訳) Low-Rank Adaptation (LoRA)はLarge Language Model (LLM)ファインタニングのパンとバターである。
LoRAは、事前訓練された行列パラメータ$W$の付加的な低ランク摂動、$AB$を学び、新しいタスクやデータセットに$W+AB$でモデルを整列させる。
LoRAの微調整には,データ量やトレーニング手順の制限が3つあります。
まず、LoRAはオーバーフィッティングを防ぐためにDropoutを使用している。
我々は,Dropoutが長期トレーニングエピソードにのみ適しているが,短時間トレーニングエピソードの信頼性の高い正規化器に収束しないことを証明した。
第二に、LoRAが$B$を$0$に初期化すると、$A$と$B$の間の遅いトレーニングのダイナミクスが生成される。
このダイナミクスはDropoutによってさらに悪化し、短いトレーニングエピソードでは特に有害な$0$から$B$へのエスケープをさらに遅くする。
第三に、各LoRA加法摂動を乗算するスケーリング係数は、異なるレイヤのLoRAモジュール間の ``short-sighted'' 相互作用を生成する。
これらの制限を原則として分析した結果、Dropout-free, Scaling-free, LoRA with Adaptive Learning rate-coined aloRAという、エレガントなソリューションが得られました。
サンプルあたりとパラメータごとの勾配をパラメータの$\ell_2$ノルムに逆比例してスケーリングすることで、alloRAはこれらの3つの制限を緩和する。
副産物として、alloRAはLoRAから2つのハイパーパラメータ(スケーリング係数とドロップアウト率)を除去する。
実験の結果,最近のLoRA変種であるDoRA (Weight-Decomposed Low-Rank Adaptation) に対して,AlloRAはLoRAよりも精度が高いことがわかった。
アブレーション法では, 最新のLlama3を含む様々なLLMに対して, 重量依存/出力依存のアプローチが最適であることが示された。
Low-Rank Adaptation (LoRA) is the bread and butter of Large Language Model (LLM) finetuning. LoRA learns an additive low-rank perturbation, $AB$, of a pretrained matrix parameter $W$ to align the model to a new task or dataset with $W+AB$. We identify three core limitations to LoRA for finetuning--a setting that employs limited amount of data and training steps. First, LoRA employs Dropout to prevent overfitting. We prove that Dropout is only suitable for long training episodes but fails to converge to a reliable regularizer for short training episodes. Second, LoRA's initialization of $B$ at $0$ creates a slow training dynamic between $A$ and $B$. That dynamic is also exacerbated by Dropout that further slows the escape from $0$ for $B$ which is particularly harmful for short training episodes. Third, the scaling factor multiplying each LoRA additive perturbation creates ``short-sighted'' interactions between the LoRA modules of different layers. Motivated by principled analysis of those limitations, we find an elegant solution: a Dropout-free, scaling-free, LoRA with Adaptive Learning rate--coined ALLoRA. By scaling the per sample and per parameter gradients with a coefficient inversely proportional to parameters' $\ell_2$ norm, ALLoRA alleviates those three limitations. As a by-product, ALLoRA removes two hyper-parameters from LoRA: the scaling factor and the dropout rate. Empirical results show that ALLoRA admits better accuracy than LoRA on various settings, including against recent LoRA variants such as Weight-Decomposed Low-Rank Adaptation (DoRA). Ablation studies show our solution is the optimal in a family of weight-dependent / output-dependent approaches on various LLMs including the latest Llama3. | 翻訳日:2024-10-30 08:46:35 公開日:2024-10-13 |
# 組合せ最適化のためのニューラルソルバー選択
Neural Solver Selection for Combinatorial Optimization ( http://arxiv.org/abs/2410.09693v1 ) ライセンス: Link先を確認 | Chengrui Gao, Haopu Shang, Ke Xue, Chao Qian, | (参考訳) NPハードな組合せ最適化問題を解くために機械学習がますます採用され、最小限のドメイン固有知識を持つ場合でも、顕著なパフォーマンスを示すニューラルソルバが出現する。
これまで、コミュニティは、明確なモチベーションと帰納的バイアスを持つ、多数のオープンソースのニューラルソルバを作成してきた。
強力な単一解法の設計に多大な努力が注がれているが、既存の解法は典型的に異なる問題インスタンスにまたがって相補的な性能を示す。
これは、ニューラルネットワークをインスタンスレベルで効果的に調整することで、大幅な改善が達成できることを示唆している。
本研究では, 特徴抽出, 選択モデル, 選択戦略を含むニューラルソルバのコーディネートを行うための最初の一般フレームワークを提案する。
そこで我々は,その代替手段として最先端性能の典型的なニューラルソルバをいくつか収集し,フレームワークの各コンポーネントに対する様々な手法を探索する。
本研究では,TSP(Traveing Salesman Problem)とCVRP(Capacitated Vehicle Routing Problem)の2つの組み合わせ最適化問題について検討した。
実験結果から,提案フレームワークは効率よくインスタンスを分散し,結果として得られる合成解法により,最適性ギャップをTSPLIBで0.88 %,CVRPLIBで0.71 %削減できることがわかった。
Machine learning has increasingly been employed to solve NP-hard combinatorial optimization problems, resulting in the emergence of neural solvers that demonstrate remarkable performance, even with minimal domain-specific knowledge. To date, the community has created numerous open-source neural solvers with distinct motivations and inductive biases. While considerable efforts are devoted to designing powerful single solvers, our findings reveal that existing solvers typically demonstrate complementary performance across different problem instances. This suggests that significant improvements could be achieved through effective coordination of neural solvers at the instance level. In this work, we propose the first general framework to coordinate the neural solvers, which involves feature extraction, selection model, and selection strategy, aiming to allocate each instance to the most suitable solvers. To instantiate, we collect several typical neural solvers with state-of-the-art performance as alternatives, and explore various methods for each component of the framework. We evaluated our framework on two extensively studied combinatorial optimization problems, Traveling Salesman Problem (TSP) and Capacitated Vehicle Routing Problem (CVRP). Experimental results show that the proposed framework can effectively distribute instances and the resulting composite solver can achieve significantly better performance (e.g., reduce the optimality gap by 0.88\% on TSPLIB and 0.71\% on CVRPLIB) than the best individual neural solver with little extra time cost. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# インコンテクスト学習は本当にアウト・オブ・ディストリビューション・タスクに一般化できるのか?
Can In-context Learning Really Generalize to Out-of-distribution Tasks? ( http://arxiv.org/abs/2410.09695v1 ) ライセンス: Link先を確認 | Qixun Wang, Yifei Wang, Yisen Wang, Xianghua Ying, | (参考訳) 本研究は,トレーニング中に遭遇しなかったアウト・オブ・ディストリビューション(OOD)タスクに対する,イン・コンテクスト・ラーニング(ICL)のメカニズムについて検討する。
そこで我々は, GPT-2 モデルを用いて ICL を用いて OOD の数学的関数を学習することを目的とした合成実験を行った。
我々は、トランスフォーマーがICLを通してOODタスク機能を学ぶのに苦労していることを明らかにする。
特に、ICLのパフォーマンスは、事前学習された仮説空間内で関数を実装し、コンテキスト内の例に基づいて勾配降下を最適化するのに似ている。
さらに,ICLが理解できない抽象ラベルを文脈で学習する能力について検討した。
このような能力は分布シフトのないシナリオにのみ現れるため、新しいタスク学習能力の証拠にはならない。
さらに、モデルが複数のタスクで事前訓練された場合、OODタスク上でのICLの性能を評価する。
実証的および理論的解析は、ICLの \textbf{low-test-error preference} の存在を示し、テストコンテキストにおいて低いテストエラーをもたらす事前学習関数を実装する傾向がある。
数値実験により検証する。
この新たな理論的結果と経験的知見を組み合わせることで,OODタスクに対処するICLのメカニズムが解明される。
In this work, we explore the mechanism of in-context learning (ICL) on out-of-distribution (OOD) tasks that were not encountered during training. To achieve this, we conduct synthetic experiments where the objective is to learn OOD mathematical functions through ICL using a GPT-2 model. We reveal that Transformers may struggle to learn OOD task functions through ICL. Specifically, ICL performance resembles implementing a function within the pretraining hypothesis space and optimizing it with gradient descent based on the in-context examples. Additionally, we investigate ICL's well-documented ability to learn unseen abstract labels in context. We demonstrate that such ability only manifests in the scenarios without distributional shifts and, therefore, may not serve as evidence of new-task-learning ability. Furthermore, we assess ICL's performance on OOD tasks when the model is pretrained on multiple tasks. Both empirical and theoretical analyses demonstrate the existence of the \textbf{low-test-error preference} of ICL, where it tends to implement the pretraining function that yields low test error in the testing context. We validate this through numerical experiments. This new theoretical result, combined with our empirical findings, elucidates the mechanism of ICL in addressing OOD tasks. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# 文書ネットワークモデリングのためのスケーラブルワイブルグラフアテンションオートエンコーダ
Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks ( http://arxiv.org/abs/2410.09696v1 ) ライセンス: Link先を確認 | Chaojie Wang, Xinyang Liu, Dongsheng Wang, Hao Zhang, Bo Chen, Mingyuan Zhou, | (参考訳) 既存の変分グラフオートエンコーダ(VGAE)は、グラフ構造化データのモデリングと生成に広く用いられているが、そのほとんどは、スパースおよびスキュートノード表現、特にドキュメントリレーショナルネットワーク(DRN)を離散的な観測で近似するのに十分な柔軟性を持っていない。
相互接続された文書の集合を解析するために、ベイズモデルの典型的な分岐、特に関係トピックモデル(RTM)は、DRNのリンク構造と文書内容の両方を記述する上で有効であることが証明されており、DRNの生成をモデル化する際の潜在的な問題を緩和するために、既存のVGAEにRTMを組み込むことが動機となっている。
本稿では,従来の RTM の近似的仮定を超越して,解析的条件付き後続情報を提供するグラフPoisson Factor Analysis (GPFA) を開発し,GPFA を複数の意味レベルで階層的な文書関係を捉えるためのグラフPoisson gamma belief Network (GPGBN) と呼ばれるマルチ確率層に拡張する。
そして,GPGBNをデコーダとし,様々なワイブルグラフ推論ネットワークと組み合わせ,モデル推論アルゴリズムを備えたワイブルグラフオートエンコーダ(WGAE)の2つの変種が得られる。
実験結果から,我々のモデルは高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現することができることが示された。
Although existing variational graph autoencoders (VGAEs) have been widely used for modeling and generating graph-structured data, most of them are still not flexible enough to approximate the sparse and skewed latent node representations, especially those of document relational networks (DRNs) with discrete observations. To analyze a collection of interconnected documents, a typical branch of Bayesian models, specifically relational topic models (RTMs), has proven their efficacy in describing both link structures and document contents of DRNs, which motives us to incorporate RTMs with existing VGAEs to alleviate their potential issues when modeling the generation of DRNs. In this paper, moving beyond the sophisticated approximate assumptions of traditional RTMs, we develop a graph Poisson factor analysis (GPFA), which provides analytic conditional posteriors to improve the inference accuracy, and extend GPFA to a multi-stochastic-layer version named graph Poisson gamma belief network (GPGBN) to capture the hierarchical document relationships at multiple semantic levels. Then, taking GPGBN as the decoder, we combine it with various Weibull-based graph inference networks, resulting in two variants of Weibull graph auto-encoder (WGAE), equipped with model inference algorithms. Experimental results demonstrate that our models can extract high-quality hierarchical latent document representations and achieve promising performance on various graph analytic tasks. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# ランゲヴィンダイナミクスのための幾何学的テンパリングの確率収束と限界
Provable Convergence and Limitations of Geometric Tempering for Langevin Dynamics ( http://arxiv.org/abs/2410.09697v1 ) ライセンス: Link先を確認 | Omar Chehab, Anna Korba, Austin Stromme, Adrien Vacher, | (参考訳) 幾何学的テンパリング(geometric tempering)は、より簡単な提案分布と目的分布の間に、幾何学的平均を用いて補間する分布列からサンプリングすることで、挑戦的な多モード確率分布からサンプリングする一般的なアプローチである。
本稿では,サンプリングアルゴリズムがランゲヴィン力学である場合のこのアプローチの音質を理論的に検討し,上界と下界の両方を証明した。
我々の上界は、機能的不等式の下での文献における最初の分析である。
彼らは、連続時間と離散時間におけるテンパー付きランゲヴィンの収束を主張し、その最小化はいくつかの提案と対象分布に対して閉形式の最適テンパリングスケジュールをもたらす。
我々の下界は、幾何的テンパリングが指数時間を要する単純な場合を示し、さらに、幾何的テンパリングが、目標分布が十分に条件付きであっても、機能的不等式や緩やかな収束に悩まされることを明らかにする。
総じて, 幾何学的テンパリングは役に立たず, 収束には有害である可能性が示唆された。
Geometric tempering is a popular approach to sampling from challenging multi-modal probability distributions by instead sampling from a sequence of distributions which interpolate, using the geometric mean, between an easier proposal distribution and the target distribution. In this paper, we theoretically investigate the soundness of this approach when the sampling algorithm is Langevin dynamics, proving both upper and lower bounds. Our upper bounds are the first analysis in the literature under functional inequalities. They assert the convergence of tempered Langevin in continuous and discrete-time, and their minimization leads to closed-form optimal tempering schedules for some pairs of proposal and target distributions. Our lower bounds demonstrate a simple case where the geometric tempering takes exponential time, and further reveal that the geometric tempering can suffer from poor functional inequalities and slow convergence, even when the target distribution is well-conditioned. Overall, our results indicate that geometric tempering may not help, and can even be harmful for convergence. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# 正直なAI:「私は知らない」と言うための微調整された"small"言語モデルとRAGにおける幻覚の低減
Honest AI: Fine-Tuning "Small" Language Models to Say "I Don't Know", and Reducing Hallucination in RAG ( http://arxiv.org/abs/2410.09699v1 ) ライセンス: Link先を確認 | Xinxi Chen, Li Wang, Wei Wu, Qi Tang, Yiyao Liu, | (参考訳) 幻覚は、特に情報精度に敏感なエンタープライズアプリケーションにとって、LLM(Large Language Models)のアプリケーションにとって重要な障害である。
この問題に対処するため、2つの一般的なアプローチが検討されている: 検索-拡張生成(RAG)は、更新された情報をコンテキストとしてLLMに供給し、新しい情報と所望の出力スタイルでLLMを微調整する。
本稿では,Honest AIを提案する。Honest AI: "小"言語モデルを微調整し,幻覚を減らすために"I don't know"と言う新たな戦略と,いくつかの代替的なRAGアプローチを提案する。
この解決策は、虚偽の前提問題に関して、第2タスクで第1位にランクインした。
もう一つのアプローチは、検索エンジンと知識グラフによるRAGの使用、新しい情報と両方のアプローチの組み合わせによる微調整ベースLLMである。
いずれのアプローチもLCMの性能は向上するが、RAGだけでは性能は向上せず、より優れた結果を得るためには微調整が必要である。
最後に、ハイブリッドアプローチはCRAGベンチマークで最高点を達成した。
さらに,本手法では,パラメータが100億未満の比較的小さなモデルを使用することが強調され,資源効率が向上する。
Hallucination is a key roadblock for applications of Large Language Models (LLMs), particularly for enterprise applications that are sensitive to information accuracy. To address this issue, two general approaches have been explored: Retrieval-Augmented Generation (RAG) to supply LLMs with updated information as context, and fine-tuning the LLMs with new information and desired output styles. In this paper, we propose Honest AI: a novel strategy to fine-tune "small" language models to say "I don't know" to reduce hallucination, along with several alternative RAG approaches. The solution ranked 1st in Task 2 for the false premise question. The alternative approaches include using RAG with search engine and knowledge graph results, fine-tuning base LLMs with new information and combinations of both approaches. Although all approaches improve the performance of the LLMs, RAG alone does not significantly improve the performance and fine-tuning is needed for better results. Finally, the hybrid approach achieved the highest score in the CRAG benchmark. In addition, our approach emphasizes the use of relatively small models with fewer than 10 billion parameters, promoting resource efficiency. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# ゲームプレイヤとしてのトランスフォーマー:事前訓練されたモデルのゲームプレイ機能の実現
Transformers as Game Players: Provable In-context Game-playing Capabilities of Pre-trained Models ( http://arxiv.org/abs/2410.09701v1 ) ライセンス: Link先を確認 | Chengshuai Shi, Kun Yang, Jing Yang, Cong Shen, | (参考訳) 近年,トランスフォーマーアーキテクチャに基づく事前学習モデルの文脈内学習(ICL)能力が注目されている。
強化学習(RL)におけるICLの理論的理解が得られたが、これまでの結果は単エージェント設定に限られていた。
本研究は,コンテクスト内ゲームプレイング(ICGP)と競合するマルチエージェントゲームにおいて,事前学習されたトランスフォーマーモデルのコンテキスト内学習能力をさらに探求することを提案する。
古典的な2プレイヤーゼロサムゲームに焦点をあてた理論的保証は、事前学習されたトランスフォーマーが、分散学習と集中学習の両方において、コンテキスト内でナッシュ平衡を適切に近似することができることを示すものである。
この証明の鍵となる部分として、トランスフォーマーアーキテクチャが十分にリッチであることを示し、有名なマルチエージェントゲームプレイングアルゴリズム、特に分散Vラーニングと集中VI-ULCBを実現する。
The in-context learning (ICL) capability of pre-trained models based on the transformer architecture has received growing interest in recent years. While theoretical understanding has been obtained for ICL in reinforcement learning (RL), the previous results are largely confined to the single-agent setting. This work proposes to further explore the in-context learning capabilities of pre-trained transformer models in competitive multi-agent games, i.e., in-context game-playing (ICGP). Focusing on the classical two-player zero-sum games, theoretical guarantees are provided to demonstrate that pre-trained transformers can provably learn to approximate Nash equilibrium in an in-context manner for both decentralized and centralized learning settings. As a key part of the proof, constructional results are established to demonstrate that the transformer architecture is sufficiently rich to realize celebrated multi-agent game-playing algorithms, in particular, decentralized V-learning and centralized VI-ULCB. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# テンソルネットワークによる量子確率的機械学習における普遍的スケーリング法則と表現と一般化パワーの解釈
Universal scaling laws in quantum-probabilistic machine learning by tensor network towards interpreting representation and generalization powers ( http://arxiv.org/abs/2410.09703v1 ) ライセンス: Link先を確認 | Sheng-Chen Bai, Shi-Ju Ran, | (参考訳) 表現と一般化能力の解釈は、機械学習(ML)と人工知能の分野で長年の課題であった。
この研究は、量子確率的MLにおける普遍的スケーリング法則の出現を明らかにするのに寄与する。
行列積状態の形で生成テンソルネットワーク(GTN)を例にとり、訓練されていないGTN(例えばランダムなTN状態)を持つと、負対数可能性(NLL)$L$は一般に$M$、すなわち$L \simeq k M + const$と線形に増加することを示す。
これはいわゆる「直交のカタストロフィ」の結果であり、量子多体状態はM$増加するにつれて指数関数的に直交する傾向にある。
トレーニングによって情報を得る一方で、線形スケーリング法則は負の二次補正によって抑制され、$L \simeq \beta M - \alpha M^2 + const$となる。
スケーリング係数は、トレーニングサンプルの数と量子チャネルの数と対数関係を示す。
テスト(トレーニング)セットに対するNLLにおける二次補正項の出現は、GTNの一般化(表現)力の証拠とみなすことができる。
オーバーパラメータ化は、トレーニングセットとテストセットの間の$\alpha$の値のずれによって識別できるが、$\chi$は増加する。
さらに、量子特徴写像の直交性は、量子確率論的解釈の満足度と、GTNの表現と一般化の力にどのように関係するかを考察する。
量子確率的MLにおける普遍的スケーリング法則の公表は、量子確率的フレームワーク内で解釈されたホワイトボックスMLスキームを確立するための貴重なステップである。
Interpreting the representation and generalization powers has been a long-standing issue in the field of machine learning (ML) and artificial intelligence. This work contributes to uncovering the emergence of universal scaling laws in quantum-probabilistic ML. We take the generative tensor network (GTN) in the form of a matrix product state as an example and show that with an untrained GTN (such as a random TN state), the negative logarithmic likelihood (NLL) $L$ generally increases linearly with the number of features $M$, i.e., $L \simeq k M + const$. This is a consequence of the so-called ``catastrophe of orthogonality,'' which states that quantum many-body states tend to become exponentially orthogonal to each other as $M$ increases. We reveal that while gaining information through training, the linear scaling law is suppressed by a negative quadratic correction, leading to $L \simeq \beta M - \alpha M^2 + const$. The scaling coefficients exhibit logarithmic relationships with the number of training samples and the number of quantum channels $\chi$. The emergence of the quadratic correction term in NLL for the testing (training) set can be regarded as evidence of the generalization (representation) power of GTN. Over-parameterization can be identified by the deviation in the values of $\alpha$ between training and testing sets while increasing $\chi$. We further investigate how orthogonality in the quantum feature map relates to the satisfaction of quantum probabilistic interpretation, as well as to the representation and generalization powers of GTN. The unveiling of universal scaling laws in quantum-probabilistic ML would be a valuable step toward establishing a white-box ML scheme interpreted within the quantum probabilistic framework. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# EchoPrime: 総合的心エコー図読解のためのマルチビデオビューインフォームドビジョンランゲージモデル
EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation ( http://arxiv.org/abs/2410.09704v1 ) ライセンス: Link先を確認 | Milos Vukadinovic, Xiu Tang, Neal Yuan, Paul Cheng, Debiao Li, Susan Cheng, Bryan He, David Ouyang, | (参考訳) 心エコー法は最も広く用いられている心臓画像モダリティであり、心構造と機能を評価するために超音波ビデオデータをキャプチャする。
心エコー法における人工知能(AI)は、手作業の合理化と再現性と精度の向上の可能性を秘めている。
しかし、ほとんどのエコー心電図AIモデルは、完全な試験中に取得した複数のビューから補完的な情報を合成しない単一ビューの単一タスクシステムであり、その結果、アプリケーションの性能とスコープが制限される。
この問題に対処するために、1200万組以上のビデオレポートペアでトレーニングされた、多視点、ビューインフォームド、ビデオベースの視覚言語基盤モデルであるEchoPrimeを紹介します。
EchoPrimeは、コントラスト学習を使用して、まれな疾患と一般的な疾患と診断の両方を表現した総合的なエコー心電図研究において、すべての標準ビューに統一的な埋め込みモデルをトレーニングする。
次に、EchoPrimeはビュー分類とビューインフォームド解剖学的注意モデルを使用して、心エコー図像と解剖学的構造との関係を正確にマッピングするビデオ固有の解釈を重み付けする。
検索強化解釈により、EchoPrimeは全心エコービデオからの情報を総合的な研究に統合し、総合的な総合的な臨床心エコー画像解釈を行う。
2つの独立した医療システムからのデータセットでは、EchoPrimeは23種類の心臓形態と機能のベンチマークで最先端のパフォーマンスを達成し、タスク固有のアプローチとそれ以前の基礎モデルの両方のパフォーマンスを上回っている。
厳格な臨床評価の後、EchoPrimeは、総合的心エコー検査の自動予備評価において、医師を支援することができる。
Echocardiography is the most widely used cardiac imaging modality, capturing ultrasound video data to assess cardiac structure and function. Artificial intelligence (AI) in echocardiography has the potential to streamline manual tasks and improve reproducibility and precision. However, most echocardiography AI models are single-view, single-task systems that do not synthesize complementary information from multiple views captured during a full exam, and thus lead to limited performance and scope of applications. To address this problem, we introduce EchoPrime, a multi-view, view-informed, video-based vision-language foundation model trained on over 12 million video-report pairs. EchoPrime uses contrastive learning to train a unified embedding model for all standard views in a comprehensive echocardiogram study with representation of both rare and common diseases and diagnoses. EchoPrime then utilizes view-classification and a view-informed anatomic attention model to weight video-specific interpretations that accurately maps the relationship between echocardiographic views and anatomical structures. With retrieval-augmented interpretation, EchoPrime integrates information from all echocardiogram videos in a comprehensive study and performs holistic comprehensive clinical echocardiography interpretation. In datasets from two independent healthcare systems, EchoPrime achieves state-of-the art performance on 23 diverse benchmarks of cardiac form and function, surpassing the performance of both task-specific approaches and prior foundation models. Following rigorous clinical evaluation, EchoPrime can assist physicians in the automated preliminary assessment of comprehensive echocardiography. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# 過去からの学習:歴史データのサロゲートに基づいて訓練された機械学習による臨界遷移を予測する
Learning from the past: predicting critical transitions with machine learning trained on surrogates of historical data ( http://arxiv.org/abs/2410.09707v1 ) ライセンス: Link先を確認 | Zhiqin Ma, Chunhua Zeng, Yi-Cheng Zhang, Thomas M. Bury, | (参考訳) 複雑なシステムは、徐々に変化する環境条件が突然、破滅的な新しい状態へと移行する、重要な遷移を経験することができる。
これらの事象の早期警戒信号は、生態学、生物学、気候科学などの分野における意思決定に不可欠である。
力学系理論によって動機付けられたジェネリック早期警報信号は、実雑音データに対して混合的に成功している。
より最近の研究では、合成データに基づいて訓練されたディープラーニング分類器が性能を向上させることが判明した。
しかし、どちらの手法も歴史的、システム固有のデータを利用していない。
本稿では、過去の遷移データ、すなわちデータベース機械学習(SDML)の代理データに基づいて、機械学習分類器を直接訓練するアプローチを提案する。
このアプローチは、地質学、気候学、社会学、心臓学から得られた経験的および実験的なデータから、広く使われている2つの一般的な早期警告信号(分散とlag-1自己相関)よりも感度と特異性が高い早期警告信号を提供する。
この手法は歴史的データのサロゲートに基づいて直接訓練されるため、従来の手法のような局所分岐の制限された仮定に縛られない。
このシステム固有のアプローチは、人間が望ましくない臨界遷移に備えたり避けたりするのに役立つ早期警告信号の改善に寄与する。
Complex systems can undergo critical transitions, where slowly changing environmental conditions trigger a sudden shift to a new, potentially catastrophic state. Early warning signals for these events are crucial for decision-making in fields such as ecology, biology and climate science. Generic early warning signals motivated by dynamical systems theory have had mixed success on real noisy data. More recent studies found that deep learning classifiers trained on synthetic data could improve performance. However, neither of these methods take advantage of historical, system-specific data. Here, we introduce an approach that trains machine learning classifiers directly on surrogate data of past transitions, namely surrogate data-based machine learning (SDML). The approach provides early warning signals in empirical and experimental data from geology, climatology, sociology, and cardiology with higher sensitivity and specificity than two widely used generic early warning signals -- variance and lag-1 autocorrelation. Since the approach is trained directly on surrogates of historical data, it is not bound by the restricting assumption of a local bifurcation like previous methods. This system-specific approach can contribute to improved early warning signals to help humans better prepare for or avoid undesirable critical transitions. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# GNNの制御:テスト時間特徴再構成のためのリアプノフ安定性を用いたニューラルコントローラの利用
Control the GNN: Utilizing Neural Controller with Lyapunov Stability for Test-Time Feature Reconstruction ( http://arxiv.org/abs/2410.09708v1 ) ライセンス: Link先を確認 | Jielong Yang, Rui Ding, Feng Ji, Hongbin Wang, Linbo Xie, | (参考訳) グラフニューラルネットワーク(GNN)の性能は、トレーニングとサンプル分布のテストの相違の影響を受けやすい。
従来の研究では、モデルパラメータを変更することなく、テストフェーズ中にノードの特徴を再構築することで、GNNの性能向上を試みた。
しかし、これらのアプローチは、テスト時の予測と基底真理との近接に関する理論的解析を欠いている。
本稿では,リアプノフ安定理論に基づく新しいノード特徴再構成法を提案する。
具体的には、ノードの特徴を制御変数として考慮し、GNNをテストフェーズにおける制御系としてモデル化する。
Lyapunovの安定性基準に準拠したニューラルコントローラを使用してこれらのノードの特徴を再構築し、予測がテスト時に基底真実に徐々に近づくことを保証する。
提案手法の有効性は,複数のデータセットにわたる広範な実験を通じて検証し,大幅な性能向上を示す。
The performance of graph neural networks (GNNs) is susceptible to discrepancies between training and testing sample distributions. Prior studies have attempted to enhance GNN performance by reconstructing node features during the testing phase without modifying the model parameters. However, these approaches lack theoretical analysis of the proximity between predictions and ground truth at test time. In this paper, we propose a novel node feature reconstruction method grounded in Lyapunov stability theory. Specifically, we model the GNN as a control system during the testing phase, considering node features as control variables. A neural controller that adheres to the Lyapunov stability criterion is then employed to reconstruct these node features, ensuring that the predictions progressively approach the ground truth at test time. We validate the effectiveness of our approach through extensive experiments across multiple datasets, demonstrating significant performance improvements. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# エージェント情報検索
Agentic Information Retrieval ( http://arxiv.org/abs/2410.09713v1 ) ライセンス: Link先を確認 | Weinan Zhang, Junwei Liao, Ning Li, Kounianhua Du, | (参考訳) 次世代のデジタル製品では、情報入力はどんなものになるのか?
1970年代以降、関連する情報へのユーザアクセスは、情報検索(IR)のドメイン固有のアーキテクチャに依存している。
過去20年間で、Web検索エンジンやパーソナライズされたレコメンデーションシステムを含む現代的なIRシステムの出現は、膨大なデータコーパスから関連情報を検索する効率を大幅に改善した。
しかし、これらのIRシステムのコアパラダイムは、あらかじめ定義された候補項目のフィルタリングに依存するため、ほとんど変わっていない。
2022年以降、大規模言語モデル(LLM)のブレークスルーは、情報へのアクセス方法を変え始め、新しい技術パラダイムを確立した。
本稿では,LLMエージェントの能力によって形成される新しいIRパラダイムであるAgentic IR(Agentic Information Retrieval)を紹介する。
Agentic IRは、アクセス可能なタスクの範囲を広げ、情報検索を再定義するために一連の新しいテクニックを活用する。
本稿ではエージェントIRの3種類の最先端応用とその課題について論じる。
我々はエージェントIRが革新的なアプリケーションを生み出すことを約束し、将来のデジタルエコシステムの中心的な情報エントリポイントとなる可能性を示唆する。
What will information entry look like in the next generation of digital products? Since the 1970s, user access to relevant information has relied on domain-specific architectures of information retrieval (IR). Over the past two decades, the advent of modern IR systems, including web search engines and personalized recommender systems, has greatly improved the efficiency of retrieving relevant information from vast data corpora. However, the core paradigm of these IR systems remains largely unchanged, relying on filtering a predefined set of candidate items. Since 2022, breakthroughs in large language models (LLMs) have begun transforming how information is accessed, establishing a new technical paradigm. In this position paper, we introduce Agentic Information Retrieval (Agentic IR), a novel IR paradigm shaped by the capabilities of LLM agents. Agentic IR expands the scope of accessible tasks and leverages a suite of new techniques to redefine information retrieval. We discuss three types of cutting-edge applications of agentic IR and the challenges faced. We propose that agentic IR holds promise for generating innovative applications, potentially becoming a central information entry point in future digital ecosystems. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# AM-SAM:セグメンテーションモデルのための自動プロンプティングとマスク校正
AM-SAM: Automated Prompting and Mask Calibration for Segment Anything Model ( http://arxiv.org/abs/2410.09714v1 ) ライセンス: Link先を確認 | Yuchen Li, Li Zhang, Youwei Liang, Pengtao Xie, | (参考訳) Segment Anything Model (SAM)は、セマンティックセグメンテーションの分野において、その多彩な能力と印象的な性能により、大きな認知を得ている。
SAMは、その成功にもかかわらず、(1)キーポイント、バウンディングボックス、テキストメッセージのような細心の注意深い人為的なプロンプトに大きく依存しており、(2)マスクデコーダの特徴表現が不正確である場合があり、マスクデコーダの最後にドット製品操作のみを使用し、正確なセグメンテーションに必要な相関関係を不適切に捉えている。
SAMの微調整のようなこれらの問題に対する現在の解決策は、大量の時間と計算資源を必要とする大量のパラメータを再訓練する必要があることが多い。
これらの制約に対処するため,両レベル最適化フレームワークに基づくAM-SAMと呼ばれる自動プロンプト・マスク校正手法を提案する。
提案手法は入力画像のプロンプトを自動生成し,早期訓練における人的関与の必要性を排除し,より高速な収束を実現する。
さらに,SAMのメイン部分を凍結し,マスクデコーダをローランド適応 (LoRA) で修正し,単純なドット製品操作を超越して特徴相関をより正確に捉え,活用する高度な技術を導入してマスクデコーダの特徴表現を強化する。
実験の結果,AM-SAMは,人為的および既定のプロンプトの有効性,マッチング,あるいは超越した精度のセグメンテーションを達成できた。
特に,身体セグメント化データセットにおいて,本手法は,意味セグメント化タスクにおいて優越性を示すために,SOTA法と比較して4例の複数ショットのトレーニングセットを用いて,5%高いダイススコアを得る。
Segment Anything Model (SAM) has gained significant recognition in the field of semantic segmentation due to its versatile capabilities and impressive performance. Despite its success, SAM faces two primary limitations: (1) it relies heavily on meticulous human-provided prompts like key points, bounding boxes or text messages, which is labor-intensive; (2) the mask decoder's feature representation is sometimes inaccurate, as it solely employs dot product operations at the end of mask decoder, which inadequately captures the necessary correlations for precise segmentation. Current solutions to these problems such as fine-tuning SAM often require retraining a large number of parameters, which needs huge amount of time and computing resources. To address these limitations, we propose an automated prompting and mask calibration method called AM-SAM based on a bi-level optimization framework. Our approach automatically generates prompts for an input image, eliminating the need for human involvement with a good performance in early training epochs, achieving faster convergence. Additionally, we freeze the main part of SAM, and modify the mask decoder with Low-Rank Adaptation (LoRA), enhancing the mask decoder's feature representation by incorporating advanced techniques that go beyond simple dot product operations to more accurately capture and utilize feature correlations. Our experimental results demonstrate that AM-SAM achieves significantly accurate segmentation, matching or exceeding the effectiveness of human-generated and default prompts. Notably, on the body segmentation dataset, our method yields a 5% higher dice score with a 4-example few-shot training set compared to the SOTA method, underscoring its superiority in semantic segmentation tasks. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# 周期学習に基づく潮流速度予測モデル
A Tidal Current Speed Forecasting Model based on Multiple Periodicity Learning ( http://arxiv.org/abs/2410.09718v1 ) ライセンス: Link先を確認 | Tengfei Cheng, Yunxuan Dong, Yangdi Huang, | (参考訳) 潮流エネルギーは再生可能エネルギーの浸透速度を高める重要な要素の1つである。
電力網内の潮流エネルギーの浸透は潮流速予測の精度に依存する。
不正確なモデリングは予測精度を損なう。
これまでの研究は主に潮流の速度を予測するために物理モデルを用いてきた。
しかし、天体の軌道周期に影響された潮流の変化は正確な物理モデリングを困難にしている。
潮流の複数の周期性を研究することは潮流の速度を正確に予測するために重要である。
本稿では,Wavelet-Enhanced Convolutional Network(WCN)を提案する。
このフレームワークは、一次元潮流データの周期内および周期間変動を二次元テンソルの行と列に埋め込む。
次に、シーケンスの2次元のバリエーションを畳み込みカーネルで処理することができる。
我々は,時間周波数解析手法をフレームワークに統合し,局所的な周期的特徴に対処する。
さらに,フレームワークの安定性を高めるために,木構造パーゼン推定アルゴリズムを用いてフレームワークのハイパーパラメータを最適化する。
提案するフレームワークは,複数の周期性の学習の欠如を回避する。
ベンチマークと比較すると、提案フレームワークは10ステップ予測における平均絶対誤差と平均平方誤差を、それぞれ90.36%と97.56%で削減する。
Tidal energy is one of the key components in increasing the penetration rate of renewable energy. The penetration of tidal energy in the electrical grid depends on the accuracy of tidal current speed forecasting. Modeling inaccuracies hinder forecast accuracy. Previous research has primarily used physical models to forecast tidal current speed. However, tidal current variations influenced by the orbital periods of celestial bodies make accurate physical modeling challenging. Researching the multiple periodicity of tides is crucial for accurately forecasting tidal current speed. In this article, we propose the Wavelet-Enhanced Convolutional Network (WCN) to learn multiple periodicity. The framework embeds intra-period and inter-period variations of one-dimensional tidal current data into the rows and columns of a two-dimensional tensor. Then, the two-dimensional variations of the sequence can be processed by convolutional kernels. We integrate a time-frequency analysis method into the framework to further address local periodic features. Additionally, to enhance the framework's stability, we optimize the framework's hyperparameters with the Tree-structured Parzen Estimator algorithm. The proposed framework avoids the lack of learning multiple periodicity. Compared with benchmarks, the proposed framework reduces the mean absolute error and mean square error in 10-step forecasting by, at most, 90.36% and 97.56%, respectively. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# 水晶振動子における量子古典的対応 -周期運動の周波数と境界の補正-
Quantum-Classical Correspondence in a Quartic Oscillator -- Corrections to Frequency and Bounds for Periodic Motion ( http://arxiv.org/abs/2410.09722v1 ) ライセンス: Link先を確認 | Mandas Biswas, Deb Shankar Ray, | (参考訳) 量子および古典的クォート非調和振動子について定性的比較を行う。
量子アンハーモニック発振器の挙動は、古典的アンハーモニック発振器と構造的に同じハミルトニアンを調和発振器のコヒーレントな状態に模倣していることが示されている。
関連する運動方程式により、振幅と量子補正への依存性を考慮し、リンドステット・ポアンケア摂動法を用いて振動順序の古典的な周波数を順番に計算することができる。
また、古典的および量子的両方の場合において、そのような振動の周期性の有界性も導き出す。
We take a qualitative comparative look at quantum and classical quartic anharmonic oscillators. It has been shown that the behavior of the quantum anharmonic oscillator mimics that of the classical anharmonic oscillators with the structurally same Hamiltonian in the coherent state basis of the harmonic oscillators. The associated equation of motion allows us to use Lindstet-Poincare perturbation method to compute the classical frequency of the oscillation order by order, by taking care of its dependence on amplitude and the quantum corrections. We also derive a bound for periodicity of such oscillations in both the classical and quantum cases. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# LLMにおける過剰信頼の回避--RLHFにおけるリワード校正
Taming Overconfidence in LLMs: Reward Calibration in RLHF ( http://arxiv.org/abs/2410.09724v1 ) ライセンス: Link先を確認 | Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang, | (参考訳) 言語モデルのキャリブレーション(Language model calibration)とは、モデルの信頼性と応答の実際のパフォーマンスの整合性を指す。
従来の研究では、LLHFは言語モデル(LLM)の過信現象を指摘し、人間のフィードバックからの強化学習(RLHF)で訓練されたLLMが、よりシャープな出力確率で過信であることを示したが、本研究では、RLHFは、モデルが自身の反応において言語化された過信を表現する傾向にあることを示した。
この過信の根本原因を考察し,PPO(Pximal Policy Optimization)に使用される報酬モデルが,応答の質に関わらず,信頼度の高いスコアに対して固有のバイアスを示すことを示す。
この知見に基づいて, PPO-M: PPO with Calibrated Reward Modeling と PPO-C: PPO with Calibrated Reward calculation の2つの変種を提案する。
PPO-Mは報酬モデルトレーニングに明確な信頼スコアを統合し、報酬モデルを校正し、応答品質と言語化された信頼の整合をよりよく捉える。
PPO-Cは、現在の報酬と過去の報酬の移動平均との差に基づいて、PPO中の報酬スコアを調整する。
PPO-MとPPO-Cはどちらも、現在のPPOパイプラインにシームレスに統合することができ、追加のゴールデンラベルを必要としない。
我々は,Llama3-8BとMistral-7Bの2つの手法を,複数選択とオープンエンド生成を含む6つの多様なデータセットで評価した。
実験の結果,両手法はキャリブレーション誤差を低減し,標準PPOに匹敵する性能を維持することができることがわかった。
さらに、オープンエンドの会話設定において、モデル能力を損なわないことを示す。
Language model calibration refers to the alignment between the confidence of the model and the actual performance of its responses. While previous studies point out the overconfidence phenomenon in Large Language Models (LLMs) and show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF) are overconfident with a more sharpened output probability, in this study, we reveal that RLHF tends to lead models to express verbalized overconfidence in their own responses. We investigate the underlying cause of this overconfidence and demonstrate that reward models used for Proximal Policy Optimization (PPO) exhibit inherent biases towards high-confidence scores regardless of the actual quality of responses. Building upon this insight, we propose two PPO variants: PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated Reward Calculation. PPO-M integrates explicit confidence scores in reward model training, which calibrates reward models to better capture the alignment between response quality and verbalized confidence. PPO-C adjusts the reward score during PPO based on the difference between the current reward and the moving average of past rewards. Both PPO-M and PPO-C can be seamlessly integrated into the current PPO pipeline and do not require additional golden labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six diverse datasets including multiple-choice and open-ended generation. Experiment results demonstrate that both of our methods can reduce calibration error and maintain performance comparable to standard PPO. We further show that they do not compromise model capabilities in open-ended conversation settings. | 翻訳日:2024-10-30 08:36:49 公開日:2024-10-13 |
# 学習型モデル予測制御を用いた太さ形成におけるフライング・クアドロレータ
Flying Quadrotors in Tight Formations using Learning-based Model Predictive Control ( http://arxiv.org/abs/2410.09727v1 ) ライセンス: Link先を確認 | Kong Yao Chee, Pei-An Hsieh, George J. Pappas, M. Ani Hsieh, | (参考訳) タイトなフォーメーションで飛ぶクアローターは難しい問題です。
四極子近傍の気流では、プロペラによって誘導される空気力学的効果は複雑であり、特徴付けが難しいことが知られている。
機械学習ツールは、これらの効果をキャプチャするモデルを導出するために使用することができるが、これらのデータ駆動型アプローチは、非効率なサンプリングが可能であり、結果として得られるモデルは、第一原理と同様に一般化されないことが多い。
本研究では,第1原理モデリングとデータ駆動手法の利点を組み合わせて,成型時に飛来する四角形による複雑な空力効果の高精度かつ効率的な表現を構築する枠組みを提案する。
モデル内のデータ駆動コンポーネントは軽量で、最適化ベースの制御設計に適しています。
シミュレーションと物理実験により,新しい学習ベース非線形モデル予測制御(MPC)フレームワークにモデルを組み込むことで,軌道追従や外乱の拒絶といった性能が大幅に向上することを示した。
特に,本フレームワークは物理実験において名目MPCよりも優れ,平均軌道追跡誤差が40.1%向上し,垂直分離誤差が57.5%低減した。
また,シミュレーションと物理実験の双方で,46秒の飛行データのみを用いて,例外的なサンプル効率を実現している。
さらに, 提案手法により, 飛行中平均1.5体長の分離を伴い, 極めて厳密な成型を実現した。
私たちのフレームワークと物理実験を解説したビデオがこちらで公開されている。
Flying quadrotors in tight formations is a challenging problem. It is known that in the near-field airflow of a quadrotor, the aerodynamic effects induced by the propellers are complex and difficult to characterize. Although machine learning tools can potentially be used to derive models that capture these effects, these data-driven approaches can be sample inefficient and the resulting models often do not generalize as well as their first-principles counterparts. In this work, we propose a framework that combines the benefits of first-principles modeling and data-driven approaches to construct an accurate and sample efficient representation of the complex aerodynamic effects resulting from quadrotors flying in formation. The data-driven component within our model is lightweight, making it amenable for optimization-based control design. Through simulations and physical experiments, we show that incorporating the model into a novel learning-based nonlinear model predictive control (MPC) framework results in substantial performance improvements in terms of trajectory tracking and disturbance rejection. In particular, our framework significantly outperforms nominal MPC in physical experiments, achieving a 40.1% improvement in the average trajectory tracking errors and a 57.5% reduction in the maximum vertical separation errors. Our framework also achieves exceptional sample efficiency, using only a total of 46 seconds of flight data for training across both simulations and physical experiments. Furthermore, with our proposed framework, the quadrotors achieve an exceptionally tight formation, flying with an average separation of less than 1.5 body lengths throughout the flight. A video illustrating our framework and physical experiments is given here: https://youtu.be/Hv-0JiVoJGo | 翻訳日:2024-10-30 05:12:47 公開日:2024-10-13 |
# ユニバーサルポリシー適応によるメタ強化学習:全タスク最適比較器下での確率的準最適性
Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator ( http://arxiv.org/abs/2410.09728v1 ) ライセンス: Link先を確認 | Siyuan Xu, Minghui Zhu, | (参考訳) メタ強化学習(Meta-RL)は、データ効率と一般化性の観点から強化学習(RL)アルゴリズムを強化する能力によって注目されている。
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。
既存のメタRL解析以外にも,タスク分布に対して期待される最適性ギャップの上限を提供する。
この尺度は、学習したメタプリンシパルからタスク固有の最適までの距離を測定し、タスク分布に対するモデルの一般化可能性を定量化する。
提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
Meta-reinforcement learning (Meta-RL) has attracted attention due to its capability to enhance reinforcement learning (RL) algorithms, in terms of data efficiency and generalizability. In this paper, we develop a bilevel optimization framework for meta-RL (BO-MRL) to learn the meta-prior for task-specific policy adaptation, which implements multiple-step policy optimization on one-time data collection. Beyond existing meta-RL analyses, we provide upper bounds of the expected optimality gap over the task distribution. This metric measures the distance of the policy adaptation from the learned meta-prior to the task-specific optimum, and quantifies the model's generalizability to the task distribution. We empirically validate the correctness of the derived upper bounds and demonstrate the superior effectiveness of the proposed algorithm over benchmarks. | 翻訳日:2024-10-30 05:12:47 公開日:2024-10-13 |
# MIRAGE:インドの一般的な説明文におけるアノテーションのマルチモーダル識別と認識
MIRAGE: Multimodal Identification and Recognition of Annotations in Indian General Prescriptions ( http://arxiv.org/abs/2410.09729v1 ) ライセンス: Link先を確認 | Tavish Mankash, V. S. Chaithanya Kota, Anish De, Praveen Prakash, Kshitij Jadhav, | (参考訳) 病院は、EMR(Electronic Medical Records)が利用可能であるにもかかわらず、何千もの手書き処方薬を製造している。
この記録保持方法は、長期薬物効果の検査を妨げ、統計解析を阻害し、記録の検索を困難にする。
手書き処方薬はユニークな課題であり、処方薬とその推奨パターンを認識するために、訓練モデルに特別なデータを必要とする。
現在の手書き文字認識手法では2次元LSTMを用いるのが一般的であるが、近年では光学文字認識 (OCR) にLarge Language Models (LLM) を用いることが検討されている。
このアプローチに基づいて,医療記録から医薬品名を抽出することに焦点を当てた。
MIRAGE (Multimodal Identification and Recognition of Annotations in indian GEneral prescriptions) はLLaVA 1.6およびIdefics2モデルを微調整する。
インドで1,133人の医師が作成した,743,118個の注釈付き高解像度医療記録からなるMedyug Technologyのデータセットを活用している。
本手法は服薬名と服薬量抽出の精度が82%であることが実証された。
本研究の方法論と成果を詳述するとともに,HWRとMultimodal LLMを併用したノートを作成し,ラベル付き医療記録100件の小さなデータセットを公表した。
Hospitals generate thousands of handwritten prescriptions, a practice that remains prevalent despite the availability of Electronic Medical Records (EMR). This method of record-keeping hinders the examination of long-term medication effects, impedes statistical analysis, and makes the retrieval of records challenging. Handwritten prescriptions pose a unique challenge, requiring specialized data for training models to recognize medications and their patterns of recommendation. While current handwriting recognition approaches typically employ 2-D LSTMs, recent studies have explored the use of Large Language Models (LLMs) for Optical Character Recognition (OCR). Building on this approach, we focus on extracting medication names from medical records. Our methodology MIRAGE (Multimodal Identification and Recognition of Annotations in indian GEneral prescriptions) involves fine-tuning the LLaVA 1.6 and Idefics2 models. Our research utilizes a dataset provided by Medyug Technology, consisting of 743,118 fully annotated high-resolution simulated medical records from 1,133 doctors across India. We demonstrate that our methodology exhibits 82% accuracy in medication name and dosage extraction. We provide a detailed account of our research methodology and results, notes about HWR with Multimodal LLMs, and release a small dataset of 100 medical records with labels. | 翻訳日:2024-10-30 05:12:47 公開日:2024-10-13 |
# 深層学習に基づく初期武装ロビー検出のための分散型インテリジェントビデオサーベイランス
Distributed Intelligent Video Surveillance for Early Armed Robbery Detection based on Deep Learning ( http://arxiv.org/abs/2410.09731v1 ) ライセンス: Link先を確認 | Sergio Fernandez-Testa, Edwin Salcedo, | (参考訳) ラテンアメリカでの低い雇用率が犯罪の顕著な増加に寄与し、新たな犯罪戦術が出現した。
例えば、「急行強盗」は武装した泥棒が犯した一般的な犯罪となり、バイクを運転し、数秒で公の場で人々を暴行する。
近年の研究では、兵器検知器を監視カメラに埋め込むことで、この問題にアプローチしている。
これを踏まえて、コンピュータビジョンパイプラインとオブジェクト検出機能を複数のデバイスに統合し、銃器や鋭い武器の存在を常に監視する分散IoTシステムを提案する。
武器が検出されると、エンドデバイスは一連のフレームをクラウドサーバーに送信し、3DCNNを実装し、シーンを強盗または通常の状況として分類し、偽陽性を最小限にする。
兵器検出モデルを訓練し、デプロイするディープラーニングプロセスでは、銃器と鋭い武器の16,799イメージのカスタムデータセットを使用する。
最高性能のモデルであるYOLOv5sはTensorRTで最適化され、4.43 FPSで0.87のmAPを達成した。
さらに,3DCNNでは異常検出の精度が0.88であった。
大規模な実験により,提案システムは,複数の位置をリアルタイムで自律的に監視しながら,偽陽性を著しく低減することを確認した。
Low employment rates in Latin America have contributed to a substantial rise in crime, prompting the emergence of new criminal tactics. For instance, "express robbery" has become a common crime committed by armed thieves, in which they drive motorcycles and assault people in public in a matter of seconds. Recent research has approached the problem by embedding weapon detectors in surveillance cameras; however, these systems are prone to false positives if no counterpart confirms the event. In light of this, we present a distributed IoT system that integrates a computer vision pipeline and object detection capabilities into multiple end-devices, constantly monitoring for the presence of firearms and sharp weapons. Once a weapon is detected, the end-device sends a series of frames to a cloud server that implements a 3DCNN to classify the scene as either a robbery or a normal situation, thus minimizing false positives. The deep learning process to train and deploy weapon detection models uses a custom dataset with 16,799 images of firearms and sharp weapons. The best-performing model, YOLOv5s, optimized using TensorRT, achieved a final mAP of 0.87 running at 4.43 FPS. Additionally, the 3DCNN demonstrated 0.88 accuracy in detecting abnormal situations. Extensive experiments validate that the proposed system significantly reduces false positives while autonomously monitoring multiple locations in real-time. | 翻訳日:2024-10-30 05:12:47 公開日:2024-10-13 |
# LOKI:大規模マルチモーダルモデルを用いた総合的合成データ検出ベンチマーク
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models ( http://arxiv.org/abs/2410.09732v1 ) ライセンス: Link先を確認 | Junyan Ye, Baichuan Zhou, Zilong Huang, Junan Zhang, Tianyi Bai, Hengrui Kang, Jun He, Honglin Lin, Zihao Wang, Tong Wu, Zhizheng Wu, Yiping Chen, Dahua Lin, Conghui He, Weijia Li, | (参考訳) AI生成コンテンツの急速な発展により、未来のインターネットは合成データで浸食され、真正で信頼性の高いマルチモーダルデータの識別がますます困難になる。
そこで,この課題における大規模マルチモーダルモデル(LMM)の性能は注目されている。
LMMは、その真正性判定のための自然言語の説明を提供し、合成コンテンツ検出の説明可能性を高めることができる。
同時に、実データと合成データを区別するタスクは、LMMの知覚、知識、推論能力を効果的にテストする。
そこで我々は,LMMが複数のモーダルにまたがる合成データを検出する能力を評価するための新しいベンチマークであるLOKIを紹介した。
LOKIには、ビデオ、画像、3D、テキスト、オーディオのモダリティが含まれており、26のサブカテゴリで明確な難易度を持つ18Kの質問が慎重に収集されている。
このベンチマークには、粗粒度判定と多重選択質問、詳細な異常選択と説明タスクが含まれており、LMMの包括的な分析を可能にする。
LOKI上では22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
LOKIの詳細はhttps://opendatalab.github.io/LOKI/で確認できる。
With the rapid development of AI-generated content, the future internet may be inundated with synthetic data, making the discrimination of authentic and credible multimodal data increasingly challenging. Synthetic data detection has thus garnered widespread attention, and the performance of large multimodal models (LMMs) in this task has attracted significant interest. LMMs can provide natural language explanations for their authenticity judgments, enhancing the explainability of synthetic content detection. Simultaneously, the task of distinguishing between real and synthetic data effectively tests the perception, knowledge, and reasoning capabilities of LMMs. In response, we introduce LOKI, a novel benchmark designed to evaluate the ability of LMMs to detect synthetic data across multiple modalities. LOKI encompasses video, image, 3D, text, and audio modalities, comprising 18K carefully curated questions across 26 subcategories with clear difficulty levels. The benchmark includes coarse-grained judgment and multiple-choice questions, as well as fine-grained anomaly selection and explanation tasks, allowing for a comprehensive analysis of LMMs. We evaluated 22 open-source LMMs and 6 closed-source models on LOKI, highlighting their potential as synthetic data detectors and also revealing some limitations in the development of LMM capabilities. More information about LOKI can be found at https://opendatalab.github.io/LOKI/ | 翻訳日:2024-10-30 05:12:47 公開日:2024-10-13 |
# MMCOMPOSITION:事前学習型視覚言語モデルの構成性を再考する
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models ( http://arxiv.org/abs/2410.09733v1 ) ライセンス: Link先を確認 | Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo, | (参考訳) VLM(Big Vision-Language Models)の出現は、画像やビデオのキャプション、視覚的質問応答、相互モーダル検索など、様々なタスクにおける視覚情報とテキスト情報のより洗練された正確な統合を可能にする、非常に高度なマルチモーダル理解をもたらしている。
VLMの優れた能力にもかかわらず、研究者は、その構成性 -- 既知の視覚的およびテキスト的コンポーネントの新しい組み合わせを理解し、生成する能力 -- を包括的に理解していない。
以前のベンチマークでは、オブジェクト、関係、属性の観点から比較的粗い構成性の評価しか提供せず、オブジェクトの相互作用、数え上げ、複雑な構成に関する深い推論を無視している。
しかしながら、構成性は、VLMのモダリティ間のコヒーレントな推論と理解を促進する重要な能力である。
この制限に対処するために,VLMの構成性を包括的かつ正確に評価する新しい人手によるベンチマークであるMMCOMPOSITIONを提案する。
提案したベンチマークは、これらの初期の研究を補完するものである。
MMCOMPOSITIONでは、主流のVLMの構成性を定量化し、探索することができる。
驚いたことに、GPT-4oの合成性は最高のオープンソースモデルよりも劣っていることが分かり、その基礎となる理由を分析した。
実験により,VLMの微細な構成知覚・推論における限界が明らかとなり,VLMの設計・訓練の改善領域が指摘された。
https://hanghuacs.github.io/MMComposition/
The advent of large Vision-Language Models (VLMs) has significantly advanced multimodal understanding, enabling more sophisticated and accurate integration of visual and textual information across various tasks, including image and video captioning, visual question answering, and cross-modal retrieval. Despite VLMs' superior capabilities, researchers lack a comprehensive understanding of their compositionality -- the ability to understand and produce novel combinations of known visual and textual components. Prior benchmarks provide only a relatively rough compositionality evaluation from the perspectives of objects, relations, and attributes while neglecting deeper reasoning about object interactions, counting, and complex compositions. However, compositionality is a critical ability that facilitates coherent reasoning and understanding across modalities for VLMs. To address this limitation, we propose MMCOMPOSITION, a novel human-annotated benchmark for comprehensively and accurately evaluating VLMs' compositionality. Our proposed benchmark serves as a complement to these earlier works. With MMCOMPOSITION, we can quantify and explore the compositionality of the mainstream VLMs. Surprisingly, we find GPT-4o's compositionality inferior to the best open-source model, and we analyze the underlying reasons. Our experimental analysis reveals the limitations of VLMs in fine-grained compositional perception and reasoning, and points to areas for improvement in VLM design and training. Resources available at: https://hanghuacs.github.io/MMComposition/ | 翻訳日:2024-10-30 05:12:47 公開日:2024-10-13 |
# エッジ上のグラディエントフリーニューラルネットワークトレーニング
Gradient-Free Neural Network Training on the Edge ( http://arxiv.org/abs/2410.09734v1 ) ライセンス: Link先を確認 | Dotan Di Castro, Omkar Joglekar, Shir Kozlovsky, Vladimir Tchuiev, Michal Moshkovitz, | (参考訳) ニューラルネットワークのトレーニングは計算的に重く、エネルギー集約的である。
推論時のネットワーク重みの精度を低減し、ラウンドリング、確率的ラウンドリング、量子化などの技術を導入することにより、計算要求とエネルギーを節約するために多くの手法が開発された。
しかし、これらの技術の多くはトレーニング時に完全な勾配精度を必要とするため、エッジデバイス上でのトレーニングを禁止している。
この研究は、勾配を必要とせずにニューラルネットワークをトレーニングするための新しいテクニックを提示している。
これにより、すべての重みが1ビットか2ビットで、隠れた完全精度の計算が不要なトレーニングプロセスが可能になる。
本研究では,各ニューロンの予測された分類に対する誤った寄与を同定し,論理演算を用いて関連するビットを反転させることにより,勾配に基づく最適化手法を使わずにモデルを訓練できることを述べる。
提案手法をいくつかの標準データセットで検証し,計算能力のごく一部で対応する勾配ベースラインに匹敵する性能を達成した。
Training neural networks is computationally heavy and energy-intensive. Many methodologies were developed to save computational requirements and energy by reducing the precision of network weights at inference time and introducing techniques such as rounding, stochastic rounding, and quantization. However, most of these techniques still require full gradient precision at training time, which makes training such models prohibitive on edge devices. This work presents a novel technique for training neural networks without needing gradients. This enables a training process where all the weights are one or two bits, without any hidden full precision computations. We show that it is possible to train models without gradient-based optimization techniques by identifying erroneous contributions of each neuron towards the expected classification and flipping the relevant bits using logical operations. We tested our method on several standard datasets and achieved performance comparable to corresponding gradient-based baselines with a fraction of the compute power. | 翻訳日:2024-10-30 05:12:47 公開日:2024-10-13 |
# ラプラシアン固有ベクトルを用いた安定で大域的表現型グラフ表現に向けて
Towards Stable, Globally Expressive Graph Representations with Laplacian Eigenvectors ( http://arxiv.org/abs/2410.09737v1 ) ライセンス: Link先を確認 | Junru Zhou, Cai Zhou, Xiyuan Wang, Pan Li, Muhan Zhang, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフデータよりもさまざまな機械学習タスクにおいて、目覚ましい成功を収めている。
既存のGNNは通常メッセージパッシング、すなわち近隣から情報を集めることによってノード表現を計算し、その基盤となる計算グラフを構築する。
これらは表現力においてかなり限定的であることが知られており、しばしばグラフのグローバルな特性を捉えることができない。
この問題を克服するためには、Laplacian eigenvectorsをノードのグローバルな位置情報を含む追加のノード機能として使用し、GNNを補助する余分なノード識別子として機能し、構造的に類似したノードを分離する。
そのようなアプローチでは、固有ベクトル間の直交群対称性を等しい固有値で適切に扱うことが、その安定性と一般化可能性に不可欠である。
しかし、それぞれの固有空間に対して、素直交群不変エンコーダを用いると、ラプラシア固有ベクトルの完全表現性は保たない。
さらに、そのような不変量の計算は、必然的に、グラフ構造が摂動するときに非常に不安定な、その数値的同一性に従ってラプラシア固有値のハード分割を伴う。
本稿では,ラプラシアン固有ベクトルを用いて,安定かつ大域的に表現可能なグラフ表現を生成する手法を提案する。
以前の作品との主な違いは
i)本手法は,各ラプラシア固有空間に対する学習可能な直交群不変表現を,すでに文献でよく研究されている強力な直交群同変ニューラルネットワーク層に基づいて利用する。
(II) 数値的閉固有値を円滑に処理し, 摂動に対する強靭性を確保する。
各種グラフ学習ベンチマークの実験では,提案手法の競争性能,特にグラフのグローバルな特性を学習する大きな可能性を実証している。
Graph neural networks (GNNs) have achieved remarkable success in a variety of machine learning tasks over graph data. Existing GNNs usually rely on message passing, i.e., computing node representations by gathering information from the neighborhood, to build their underlying computational graphs. They are known fairly limited in expressive power, and often fail to capture global characteristics of graphs. To overcome the issue, a popular solution is to use Laplacian eigenvectors as additional node features, as they contain global positional information of nodes, and can serve as extra node identifiers aiding GNNs to separate structurally similar nodes. For such an approach, properly handling the orthogonal group symmetry among eigenvectors with equal eigenvalue is crucial for its stability and generalizability. However, using a naive orthogonal group invariant encoder for each separate eigenspace may not keep the full expressivity in the Laplacian eigenvectors. Moreover, computing such invariants inevitably entails a hard split of Laplacian eigenvalues according to their numerical identity, which suffers from great instability when the graph structure is perturbed. In this paper, we propose a novel method exploiting Laplacian eigenvectors to generate stable and globally expressive graph representations. The main difference from previous works is that (i) our method utilizes learnable orthogonal group invariant representations for each Laplacian eigenspace, based upon powerful orthogonal group equivariant neural network layers already well studied in the literature, and that (ii) our method deals with numerically close eigenvalues in a smooth fashion, ensuring its better robustness against perturbations. Experiments on various graph learning benchmarks witness the competitive performance of our method, especially its great potential to learn global properties of graphs. | 翻訳日:2024-10-30 05:12:47 公開日:2024-10-13 |
# オンライン切替点検出によるリアルタイム燃料漏れ検出
Real-time Fuel Leakage Detection via Online Change Point Detection ( http://arxiv.org/abs/2410.09741v1 ) ライセンス: Link先を確認 | Ruimin Chu, Li Chik, Yiliao Song, Jeffrey Chan, Xiaodong Li, | (参考訳) 地下石油貯蔵システムによる発電所の燃料漏れの早期検出は、破滅的な危険を防ぐための極めて重要な課題である。
現在のデータ駆動型燃料漏れ検出法では、オフラインの統計在庫の調整が採用されており、重大な検出遅延が生じる。
その結果、経済的損失と環境が周囲の社会に多大な影響を及ぼす可能性がある。
本稿では, メモリベースオンライン切換点検出(MOCPD)と呼ばれる, ほぼリアルタイムで動作し, 燃料漏れの早期検出を可能にする新しいフレームワークを提案する。
MOCPDは、適応的に計算された閾値とともに、サイズ制限されたメモリ内の代表的履歴データのコレクションを保持する。
最新のデータと履歴記憶との相違が現在の閾値を超えると、リークを検出する。
更新フェーズはMOCPDに組み込まれ、メモリ内の履歴サンプル間の多様性を保証する。
この設計により、MOCPDはより堅牢になり、適切な精度のスコアを維持しながら、より良いリコール率を達成する。
我々はMOCPDとよく使用されるオンライン切換点検出(CPD)のベースラインを、実世界の燃料分散データ、実際の燃料リークデータ、ベンチマークCPDデータセットで比較した様々な実験を行った。
全体として、MOCPDは検出精度においてベースライン法よりも一貫して優れており、燃料漏れ検出やCDD問題への適用性を示している。
Early detection of fuel leakage at service stations with underground petroleum storage systems is a crucial task to prevent catastrophic hazards. Current data-driven fuel leakage detection methods employ offline statistical inventory reconciliation, leading to significant detection delays. Consequently, this can result in substantial financial loss and environmental impact on the surrounding community. In this paper, we propose a novel framework called Memory-based Online Change Point Detection (MOCPD) which operates in near real-time, enabling early detection of fuel leakage. MOCPD maintains a collection of representative historical data within a size-constrained memory, along with an adaptively computed threshold. Leaks are detected when the dissimilarity between the latest data and historical memory exceeds the current threshold. An update phase is incorporated in MOCPD to ensure diversity among historical samples in the memory. With this design, MOCPD is more robust and achieves a better recall rate while maintaining a reasonable precision score. We have conducted a variety of experiments comparing MOCPD to commonly used online change point detection (CPD) baselines on real-world fuel variance data with induced leakages, actual fuel leakage data and benchmark CPD datasets. Overall, MOCPD consistently outperforms the baseline methods in terms of detection accuracy, demonstrating its applicability to fuel leakage detection and CPD problems. | 翻訳日:2024-10-30 05:12:47 公開日:2024-10-13 |
# プロンプトによるテキスト分類作業における相互強化効果と応用に関する実証的研究
Empirical Study of Mutual Reinforcement Effect and Application in Few-shot Text Classification Tasks via Prompt ( http://arxiv.org/abs/2410.09745v1 ) ライセンス: Link先を確認 | Chengguang Gan, Tatsunori Mori, | (参考訳) 相互強化効果(MRE)は、テキスト分類タスクにおける単語レベルとテキストレベルの分類の相乗的関係を調査する。
両分類レベルの性能は相互に向上できると仮定する。
しかし、このメカニズムは以前の研究では十分に実証されていない。
このギャップに対処するため、我々はMRE理論を観察・実証するために経験的実験を用いている。
21MRE混合データセットを用いた実験により,モデルにおけるMREの存在とその影響が明らかになった。
具体的には,ファインチューンを用いた比較実験を行った。
比較実験の結果は,MREの存在を裏付けるものである。
さらに,テキストレベルの分類ラベルの予測を促進するために,単語レベルの情報を動詞化子として活用し,学習促進のためのMREの適用を拡大した。
最終実験では、F1スコアが21のMRE Mixデータセットのうち18のベースラインをはるかに上回り、単語レベルの情報によって言語モデルのテキスト全体の理解が促進されるという概念が検証された。
The Mutual Reinforcement Effect (MRE) investigates the synergistic relationship between word-level and text-level classifications in text classification tasks. It posits that the performance of both classification levels can be mutually enhanced. However, this mechanism has not been adequately demonstrated or explained in prior research. To address this gap, we employ empirical experiment to observe and substantiate the MRE theory. Our experiments on 21 MRE mix datasets revealed the presence of MRE in the model and its impact. Specifically, we conducted compare experiments use fine-tune. The results of findings from comparison experiments corroborates the existence of MRE. Furthermore, we extended the application of MRE to prompt learning, utilizing word-level information as a verbalizer to bolster the model's prediction of text-level classification labels. In our final experiment, the F1-score significantly surpassed the baseline in 18 out of 21 MRE Mix datasets, further validating the notion that word-level information enhances the language model's comprehension of the text as a whole. | 翻訳日:2024-10-30 05:12:47 公開日:2024-10-13 |
# 高速汚染除去による自動イオン化強化Rydbergドレッシング
Autoionization-enhanced Rydberg dressing by fast contaminant removal ( http://arxiv.org/abs/2410.09746v1 ) ライセンス: Link先を確認 | Alec Cao, Theodor Lukin Yelin, William J. Eckner, Nelson Darkwah Oppong, Adam M. Kaufman, | (参考訳) ライドバーグドレッシングは長寿命の原子状態における絡み合い生成の強力なツールである。
既にいくつかのデモンストレーションで効果的に採用されているが、このテクニックの鍵となる課題は、黒体放射駆動のリドバーグ状態への汚染状態への遷移によって引き起こされる集団的損失である。
アルカリ-アース様原子中の自己イオン化(AI)遷移を利用した汚染物質の迅速除去を実証した。
AIは、光時計キュービットの配列のコヒーレントな操作と互換性があることが示されている。
AIパルスをSRD(Stroboscopic Rydberg dressing)シーケンスに組み込むことで、最大144個の原子のシステムサイズに対して、これまで達成したよりも桁違いに大きなデューティサイクルを維持しながら、寿命を桁違いに向上する。
このアプローチの有用性を強調するために、AI強化SRDプロトコルを使用して、早期ドレッシングダイナミクスで達成されるスピンスクイーズ度を改善する。
これらの結果、リドベルクの服装生活は基本的限界に近づき、それまで不可能だったドレッシングの提案への扉を開くことになる。
Rydberg dressing is a powerful tool for entanglement generation in long-lived atomic states. While already employed effectively in several demonstrations, a key challenge for this technique is the collective loss triggered by blackbody-radiation-driven transitions to contaminant Rydberg states of opposite parity. We demonstrate the rapid removal of such contaminants using autoionization (AI) transitions found in alkaline-earth-like atoms. The AI is shown to be compatible with coherent operation of an array of optical clock qubits. By incorporating AI pulses into a stroboscopic Rydberg dressing (SRD) sequence, we enhance lifetimes by an order of magnitude for system sizes of up to 144 atoms, while maintaining an order of magnitude larger duty cycle than previously achieved. To highlight the utility of our approach, we use the AI-enhanced SRD protocol to improve the degree of spin-squeezing achieved during early-time dressing dynamics. These results bring Rydberg dressing lifetimes closer to fundamental limits, opening the door to previously infeasible dressing proposals. | 翻訳日:2024-10-30 05:12:47 公開日:2024-10-13 |
# EMWaveNet:SARターゲット認識のためのマイクロ波伝搬に基づく物理的に説明可能なニューラルネットワーク
EMWaveNet: Physically Explainable Neural Network Based on Microwave Propagation for SAR Target Recognition ( http://arxiv.org/abs/2410.09749v1 ) ライセンス: Link先を確認 | Zhuoxuan Li, Xu Zhang, Shumeng Yu, Haipeng Wang, | (参考訳) 深層学習技術は,合成開口レーダ(SAR)画像目標認識の分野で,従来の手法よりも顕著な性能向上を実現している。
しかし、ディープラーニングモデルの固有の"ブラックボックス"の性質は、意思決定プロセスにおける透明性の欠如につながります。
これは、モデル予測の信頼性と信頼性が不可欠であるSARアプリケーションにおいて特に当てはまる。
ディープネットワークの複雑さと説明可能性の欠如は、彼らのアプリケーションにとってボトルネックとなっている。
そこで本研究では,マイクロ波伝搬の物理過程に基づく複雑なSAR画像認識のための物理的に説明可能なフレームワークを提案する。
このフレームワークは、複雑な値を持つSARデータを用いて、振幅および位相情報とその固有の物理特性を探索する。
ネットワークアーキテクチャは完全にパラメータ化され、全ての学習可能なパラメータには明確な物理的意味が与えられ、計算プロセスは完全に周波数領域で完了する。
複雑な値を持つMSTARデータセットと自己構築されたQilu-1複合値データセットの両方の実験を行い、フレームワークの有効性を検証した。
対象重なりの条件下では、モデルが他のカテゴリを識別することは困難である。
0dBの森の背景ノイズに対して、従来のニューラルネットワークよりも20%精度が向上している。
目標の60%がノイズで遮蔽されている場合、他のモデルよりも9%上回っている。
合成開口レーダ自動目標認識(SAR-ATR)システムも構築されており、干渉SARシナリオにおいて認識タスクを実行する。
提案手法は, 高い物理的論理, 高い物理的説明性, 堅牢性, および優れた処理能力を有することを示した。
Deep learning technologies have achieved significant performance improvements in the field of synthetic aperture radar (SAR) image target recognition over traditional methods. However, the inherent "black box" property of deep learning models leads to a lack of transparency in decision-making processes, making them difficult to be convincingly applied in practice. This is especially true in SAR applications, where the credibility and reliability of model predictions are crucial. The complexity and insufficient explainability of deep networks have become a bottleneck for their application. To tackle this issue, this study proposes a physically explainable framework for complex-valued SAR image recognition, designed based on the physical process of microwave propagation. This framework utilizes complex-valued SAR data to explore the amplitude and phase information and its intrinsic physical properties. The network architecture is fully parameterized, with all learnable parameters endowed with clear physical meanings, and the computational process is completed entirely in the frequency domain. Experiments on both the complex-valued MSTAR dataset and a self-built Qilu-1 complex-valued dataset were conducted to validate the effectiveness of framework. In conditions of target overlap, our model discerns categories others find challenging. Against 0dB forest background noise, it boasts a 20% accuracy improvement over traditional neural networks. When targets are 60% masked by noise, it still outperforms other models by 9%. An end-to-end complex-valued synthetic aperture radar automatic target recognition (SAR-ATR) system has also been constructed to perform recognition tasks in interference SAR scenarios. The results demonstrate that the proposed method possesses a strong physical decision logic, high physical explainability and robustness, as well as excellent dealiasing capabilities. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# 手術用LaraVA:大規模言語と視覚モデルによる手術シナリオ理解に向けて
Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Models ( http://arxiv.org/abs/2410.09750v1 ) ライセンス: Link先を確認 | Juseong Jin, Chang Wook Jeong, | (参考訳) 大きな言語モデルを利用した会話エージェントは、視覚データとの対話方法に革命をもたらしている。
近年,画像とビデオの両方において,大規模視覚言語モデル (LVLM) が広く研究されている。
しかしながら、これらの研究は一般的に一般的なシナリオに焦点を当てている。
本研究では,手術シナリオに特化して設計されたLVLMを提案する。
手術画像やビデオの視覚表現を言語特徴空間に統合する。
そこで我々は,手術シナリオのデータに基づく指導を微調整したLVLMモデルを構築した。
本実験は,手術場面におけるマルチモーダルチャット能力に有意な有意な効果を示し,時には見えない指示に多モーダルな振る舞いを呈することを示した。
手術シナリオに対する視覚的質問応答データセットの定量的評価を行う。
以上の結果から,より複雑な手術シナリオに対処できる可能性が示唆された。
Conversation agents powered by large language models are revolutionizing the way we interact with visual data. Recently, large vision-language models (LVLMs) have been extensively studied for both images and videos. However, these studies typically focus on common scenarios. In this work, we introduce an LVLM specifically designed for surgical scenarios. We integrate visual representations of surgical images and videos into the language feature space. Consequently, we establish a LVLM model, Surgical-LLaVA, fine-tuned on instruction following data of surgical scenarios. Our experiments demonstrate that Surgical-LLaVA exhibits impressive multi-modal chat abilities in surgical contexts, occasionally displaying multi-modal behaviors on unseen instructions. We conduct a quantitative evaluation of visual question-answering datasets for surgical scenarios. The results show superior performance compared to previous works, indicating the potential of our model to tackle more complex surgery scenarios. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# SimBa: 深層強化学習におけるパラメータのスケールアップのための単純性バイアス
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning ( http://arxiv.org/abs/2410.09754v1 ) ライセンス: Link先を確認 | Hojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno, | (参考訳) CVとNLPの最近の進歩は、ネットワークパラメータのスケールアップによって大きく引き起こされている。
これらの大きなネットワークは、単純で一般化可能なソリューションに向けてモデルを導く、単純さのバイアスを引き起こすコンポーネントを統合することで過度な適合を避ける。
しかし、深いRLでは、ネットワークの設計とスケールアップはあまり検討されていない。
この機会に動機づけられたSimBaは、単純さのバイアスを注入することで、深いRLでパラメータをスケールアップするように設計されたアーキテクチャである。
SimBaは3つのコンポーネントから構成される。
一 動作統計で入力を標準化する観測正規化層
二 入力から出力までの線形経路を提供する残留フィードフォワードブロック及び
三 特徴量を制御するための層正規化。
SimBaでパラメータをスケールアップすることで、オフポリシー、オンポリシー、アン教師なしメソッドを含む様々なディープRLアルゴリズムのサンプル効率が一貫して改善される。
さらに、SimBa アーキテクチャを SAC に統合することで、DMC、MyoSuite、HumanoidBench にまたがる高い計算効率で最先端の深層 RL 手法に適合または超越する。
これらの結果は、様々なRLアルゴリズムと環境にまたがって、SimBaの幅広い適用性と有効性を示している。
Recent advances in CV and NLP have been largely driven by scaling up the number of network parameters, despite traditional theories suggesting that larger networks are prone to overfitting. These large networks avoid overfitting by integrating components that induce a simplicity bias, guiding models toward simple and generalizable solutions. However, in deep RL, designing and scaling up networks have been less explored. Motivated by this opportunity, we present SimBa, an architecture designed to scale up parameters in deep RL by injecting a simplicity bias. SimBa consists of three components: (i) an observation normalization layer that standardizes inputs with running statistics, (ii) a residual feedforward block to provide a linear pathway from the input to output, and (iii) a layer normalization to control feature magnitudes. By scaling up parameters with SimBa, the sample efficiency of various deep RL algorithms-including off-policy, on-policy, and unsupervised methods-is consistently improved. Moreover, solely by integrating SimBa architecture into SAC, it matches or surpasses state-of-the-art deep RL methods with high computational efficiency across DMC, MyoSuite, and HumanoidBench. These results demonstrate SimBa's broad applicability and effectiveness across diverse RL algorithms and environments. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# スピノダル事象の分類における機械学習手法の比較
Comparison of Machine Learning Approaches for Classifying Spinodal Events ( http://arxiv.org/abs/2410.09756v1 ) ライセンス: Link先を確認 | Ashwini Malviya, Sparsh Mittal, | (参考訳) 本研究では,スピノダールデータセットの分類のためのディープラーニングモデルの性能を比較した。
我々は,モバイルViT,NAT,EfficientNet,CNNといった最先端モデルと,複数のアンサンブルモデル(マイジョリティ投票,AdaBoost)を評価した。
さらに、変換された色空間でデータセットを探索する。
以上の結果から,NATとMobileViTは,トレーニングおよびテストデータ(NAT:94.65,0.98,0.94; MobileViT:94.20,0.98,0.94;)の指標精度,AUC,F1スコアを達成し,従来のCNNモデル(88.44,0.95,0.88)を上回った。
また、トップパフォーマンスモデルの失敗事例についても論じる。
In this work, we compare the performance of deep learning models for classifying the spinodal dataset. We evaluate state-of-the-art models (MobileViT, NAT, EfficientNet, CNN), alongside several ensemble models (majority voting, AdaBoost). Additionally, we explore the dataset in a transformed color space. Our findings show that NAT and MobileViT outperform other models, achieving the highest metrics-accuracy, AUC, and F1 score on both training and testing data (NAT: 94.65, 0.98, 0.94; MobileViT: 94.20, 0.98, 0.94), surpassing the earlier CNN model (88.44, 0.95, 0.88). We also discuss failure cases for the top performing models. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# BiDoRA: Bi-level Optimization-based Weight-Decomposed Low-Rank Adaptation
BiDoRA: Bi-level Optimization-Based Weight-Decomposed Low-Rank Adaptation ( http://arxiv.org/abs/2410.09758v1 ) ライセンス: Link先を確認 | Peijia Qin, Ruiyi Zhang, Pengtao Xie, | (参考訳) 大規模言語モデル(LLM)のパラメータ効率の良い微調整(PEFT)は、下流タスクにLLMを適応するための柔軟で効率的な方法として注目されている。
これらの手法のうち、重み付き分解低ランク適応(DoRA)が有望なアプローチとして現れている。
DoRAは、重量行列を大きさと方向成分に分解することで、ローランク適応(LoRA)とフル微調整(FT)のギャップを埋め、FTに似た学習行動を維持する。
DoRAはパフォーマンスを奨励するが、LoRAと比較して追加のパラメータを導入し、オーバーフィッティングのリスクを増大させる可能性がある。
さらに、最大度と方向を同時に最適化することで、両方のコンポーネントのグラデーション更新パターンが結合され、学習能力が制限される。
これらの制限を克服するために,二段階最適化に基づくPEFT法であるBiDoRAを提案する。
BiDoRAでは、方向と大きさのコンポーネントは異なる最適化レベルの2つの異なるデータセットに最適化され、オーバーフィッティングのリスクが軽減される。
さらに、2つのコンポーネントの非同期最適化はデカップリングを促進し、様々な下流タスクに適したより柔軟な勾配更新を可能にする。
自然言語理解、自然言語生成、トークン分類を含む14のデータセット上でのBiDoRAの評価は、DoRAと他のPEFT法を著しく上回ることを示す。
BiDoRAの優れた性能は、その効果を裏付けている。
BiDoRAのコードはhttps://anonymous.4open.science/r/BiDoRA-5D31で公開されている。
Parameter-efficient fine-tuning (PEFT) of large language models (LLMs) has gained considerable attention as a flexible and efficient way of adapting LLMs to downstream tasks. Among these methods, weighted decomposed low-rank adaptation (DoRA) has emerged as a promising approach. DoRA bridges the gap between low-rank adaptation (LoRA) and full fine-tuning (FT) by decomposing the weight matrices into magnitude and direction components, thereby maintaining learning behavior similar to FT. Although DoRA shows encouraging performance, it introduces additional parameters compared to LoRA, which potentially increases the risk of overfitting. Moreover, optimizing magnitude and direction simultaneously leads to a coupled gradient updating pattern for both components, limiting its learning capacity. To overcome these limitations, we propose BiDoRA, a bi-level optimization-based PEFT method. In BiDoRA, the direction and magnitude components are optimized on two distinct datasets at different optimization levels, mitigating the risk of overfitting. Additionally, the asynchronous optimization of the two components promotes their decoupling, allowing for more flexible gradient updates suitable for various downstream tasks. Evaluation of BiDoRA on fourteen datasets spanning natural language understanding, natural language generation, and token classification reveals that it significantly outperforms DoRA and other PEFT methods. The superior performance of BiDoRA underscores its effectiveness. The code for BiDoRA is available at https://anonymous.4open.science/r/BiDoRA-5D31. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# 基礎モデルを用いたデータ適応型Few-shot Multi Label Segmentation
Data Adaptive Few-shot Multi Label Segmentation with Foundation Model ( http://arxiv.org/abs/2410.09759v1 ) ライセンス: Link先を確認 | Gurunath Reddy, Dattesh Shanbhag, Deepa Anand, | (参考訳) 画像のセグメンテーションとローカライゼーションのための正確なアノテーションを得るための高コストは、ショットアルゴリズムを1つと少数使うことを魅力的にしている。
数発のセグメンテーションのための最先端の手法がいくつか現れており、テキストベースのプロンプトを含むが、医療画像の準最適性能に悩まされている。
単一のテンプレート画像に基づく類似の関心領域(RoI)を同定するためのViTベースの基盤モデルを用いたサブピクセルレベルの特徴の活用は、一ショットのセグメンテーションや、モダリティをまたいだ医用画像の局所化に非常に有効であることが示されている。
しかし、このような手法はテンプレート画像とテスト画像がよく一致し、単純な相関で対応が得られるという仮定に依存している。
しかし、実際には、患者のポーズの変化による臨床データ、単一のモダリティ内であってもプロトコール間の変化、あるいは単一のテンプレート画像を用いた3Dデータへの拡張により、そのようなアプローチは、臨床データの一般化に失敗する可能性がある。
さらに、マルチラベルタスクでは、RoI識別を逐次行う必要がある。
本研究では, 単一ラベルのための基礎モデル (FM) ベースのアダプタ, マルチラベルのローカライゼーション, セグメンテーションを提案し, これらの問題に対処する。
提案手法の有効性を2次元および3次元データおよび異なるポーズを持つ臨床データに対して示すとともに,最先端のショットセグメンテーション法に対して評価する。
The high cost of obtaining accurate annotations for image segmentation and localization makes the use of one and few shot algorithms attractive. Several state-of-the-art methods for few-shot segmentation have emerged, including text-based prompting for the task but suffer from sub-optimal performance for medical images. Leveraging sub-pixel level features of existing Vision Transformer (ViT) based foundation models for identifying similar region of interest (RoI) based on a single template image have been shown to be very effective for one shot segmentation and localization in medical images across modalities. However, such methods rely on assumption that template image and test image are well matched and simple correlation is sufficient to obtain correspondences. In practice, however such an approach can fail to generalize in clinical data due to patient pose changes, inter-protocol variations even within a single modality or extend to 3D data using single template image. Moreover, for multi-label tasks, the RoI identification has to be performed sequentially. In this work, we propose foundation model (FM) based adapters for single label, multi-label localization and segmentation to address these concerns. We demonstrate the efficacy of the proposed method for multiple segmentation and localization tasks for both 2D and 3D data as we well as clinical data with different poses and evaluate against the state of the art few shot segmentation methods. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# ChartKG: グラフ画像の知識グラフに基づく表現
ChartKG: A Knowledge-Graph-Based Representation for Chart Images ( http://arxiv.org/abs/2410.09761v1 ) ライセンス: Link先を確認 | Zhiguang Zhou, Haoxuan Wang, Zhengqing Zhao, Fengling Zheng, Yongheng Wang, Wei Chen, Yong Wang, | (参考訳) バーチャート、パイチャート、ラインチャートなどのチャートイメージは、データ視覚化が広く使われているため、爆発的に生成される。
そのため、チャート画像からの知識マイニングがますます重要になってきており、チャート検索やナレッジグラフ補完といった下流作業に役立てることができる。
しかし、既存のグラフ知識マイニング手法は主に、チャート画像を生データに変換することに重点を置いており、しばしばその視覚的エンコーディングや意味を無視し、多くの下流タスクにおいて情報損失をもたらす可能性がある。
本稿では,新しい知識グラフ(KG)に基づくチャート画像の表現であるChartKGを提案する。
さらに,提案したKGに基づく表現にチャート画像を変換する汎用フレームワークを開発する。
これは、視覚要素と関係を識別するための一連の画像処理技術、例えばチャートを分類するためのCNN、チャートを解析するためのヨロフ5と光学文字認識、グラフを構築するためのルールベースの方法を統合する。
本稿では,我々の知識グラフに基づく表現が,グラフの詳細な視覚要素と意味関係をモデル化し,そのアプローチが意味認識チャート検索やチャート質問応答といった下流アプリケーションにどのように役立つかを示す4つの事例を紹介する。
また,本フレームワークの2つの基本構成要素,すなわち物体認識と光学的文字認識の定量的評価を行った。
その結果,ChartKGの有用性と有効性を支持することができた。
Chart images, such as bar charts, pie charts, and line charts, are explosively produced due to the wide usage of data visualizations. Accordingly, knowledge mining from chart images is becoming increasingly important, which can benefit downstream tasks like chart retrieval and knowledge graph completion. However, existing methods for chart knowledge mining mainly focus on converting chart images into raw data and often ignore their visual encodings and semantic meanings, which can result in information loss for many downstream tasks. In this paper, we propose ChartKG, a novel knowledge graph (KG) based representation for chart images, which can model the visual elements in a chart image and semantic relations among them including visual encodings and visual insights in a unified manner. Further, we develop a general framework to convert chart images to the proposed KG-based representation. It integrates a series of image processing techniques to identify visual elements and relations, e.g., CNNs to classify charts, yolov5 and optical character recognition to parse charts, and rule-based methods to construct graphs. We present four cases to illustrate how our knowledge-graph-based representation can model the detailed visual elements and semantic relations in charts, and further demonstrate how our approach can benefit downstream applications such as semantic-aware chart retrieval and chart question answering. We also conduct quantitative evaluations to assess the two fundamental building blocks of our chart-to-KG framework, i.e., object recognition and optical character recognition. The results provide support for the usefulness and effectiveness of ChartKG. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# 脳波をベースとしたAI-BCIホイールチェアの進化: 左右自家動作の機械学習機構を用いた脳-コンピュータ対面ホイールチェアシステム
EEG-based AI-BCI Wheelchair Advancement: A Brain-Computer Interfacing Wheelchair System Using Machine Learning Mechanism with Right and Left Voluntary Hand Movement ( http://arxiv.org/abs/2410.09763v1 ) ライセンス: Link先を確認 | Biplov Paneru, Bishwash Paneru, Khem Narayan Poudyal, | (参考訳) 本稿では,脳-コンピュータインタフェース(BCI)を用いた車椅子開発における人工知能(AI)の統合的アプローチについて述べる。
このシステムは、脳波(EEG)データを用いて、随意の左右の動きに基づいて車椅子のナビゲーションをシミュレートするように設計されている。
オープンソースのEEGリポジトリから得られた事前フィルタリングデータセットは、手の動きの開始をキャプチャするために19x200の配列に分割された。
データは実験室実験でサンプリング周波数200Hzで取得された。
このシステムは、車椅子の動きをシミュレートするためのTkinterベースのインターフェースを統合し、ユーザーが機能的で直感的な制御システムを提供する。
Support Vector Machines (SVM)、XGBoost、ランダムフォレスト、双方向長短期記憶(Bi-LSTM)アテンションベースモデルなど、さまざまな機械学習モデルを開発した。
ランダム森林モデルでは79%の精度が得られた。
Logistic Regressionモデルでは、Multi-Layer Perceptron(MLP)モデルでは92%の精度と91%の精度で、他のモデルよりも優れたパフォーマンスが見られた。
Bi-LSTMアテンションベースモデルは,クロスバリデーションにより平均86%の精度を達成し,BCI応用におけるアテンションメカニズムの可能性を示した。
This paper presents an Artificial Intelligence (AI) integrated novel approach to Brain-Computer Interface (BCI)-based wheelchair development, utilizing a voluntary Right Left Hand Movement mechanism for control. The system is designed to simulate wheelchair navigation based on voluntary right and left-hand movements using electroencephalogram (EEG) data. A pre-filtered dataset, obtained from an open-source EEG repository, was segmented into arrays of 19x200 to capture the onset of hand movements. The data was acquired at a sampling frequency 200Hz in the laboratory experiment. The system integrates a Tkinter-based interface for simulating wheelchair movements, offering users a functional and intuitive control system. Various machine learning models, including Support Vector Machines (SVM), XGBoost, random forest, and a Bi-directional Long Short-Term Memory (Bi-LSTM) attention-based model, were developed. The random forest model obtained 79% accuracy. Great performance was seen on the Logistic Regression model which outperforms other models with 92% accuracy and 91% accuracy on the Multi-Layer Perceptron (MLP) model. The Bi-LSTM attention-based model achieved a mean accuracy of 86% through cross-validation, showcasing the potential of attention mechanisms in BCI applications. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# 収束率$O(1/n^2)$の安定性とシャーパリスク境界
Stability and Sharper Risk Bounds with Convergence Rate $O(1/n^2)$ ( http://arxiv.org/abs/2410.09766v1 ) ライセンス: Link先を確認 | Bowei Zhu, Shaojie Li, Yong Liu, | (参考訳) 最も周知な高確率過剰リスク境界は、経験的リスク最小化とアルゴリズム安定性による勾配勾配降下のために最大$O\left(1/n \right)$である(Klochkov \& Zhivotovskiy, 2021)。
本稿では,高い確率過剰リスク境界が$O\left(1/n^2 \right)$まで可能であることを示す。
実験的リスク最小化, 射影勾配降下, 確率勾配降下に対する強い凸性, 滑らか性, リプシッツ連続性仮定の下で, 高確率過剰リスク境界が$O\left(1/n^2 \right)$にどの程度達するかを論じる。
さらに、我々の知る限り、非凸問題に対する勾配によって測定される一般化ギャップに関する高い確率も最も鋭い。
The sharpest known high probability excess risk bounds are up to $O\left( 1/n \right)$ for empirical risk minimization and projected gradient descent via algorithmic stability (Klochkov \& Zhivotovskiy, 2021). In this paper, we show that high probability excess risk bounds of order up to $O\left( 1/n^2 \right)$ are possible. We discuss how high probability excess risk bounds reach $O\left( 1/n^2 \right)$ under strongly convexity, smoothness and Lipschitz continuity assumptions for empirical risk minimization, projected gradient descent and stochastic gradient descent. Besides, to the best of our knowledge, our high probability results on the generalization gap measured by gradients for nonconvex problems are also the sharpest. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# LibEER:脳波による感情認識のための総合ベンチマークとアルゴリズムライブラリ
LibEER: A Comprehensive Benchmark and Algorithm Library for EEG-based Emotion Recognition ( http://arxiv.org/abs/2410.09767v1 ) ライセンス: Link先を確認 | Huan Liu, Shusen Yang, Yuzhe Zhang, Mengze Wang, Fanyu Gong, Chengxi Xie, Guanjian Liu, Dalin Zhang, | (参考訳) 脳波に基づく感情認識(EER)は、人間の感情を理解し分析する可能性から注目を集めている。
近年,EER問題に対処するため,様々な深層学習技術を用いて大幅な進歩が達成されている。
しかし、説得力のあるベンチマークとオープンソースのコードベースがないことは、異なるモデル間の公正な比較を複雑にし、実践者にとって再現性の問題を引き起こす。
これらの問題はこの分野の進歩を著しく妨げた。
そこで本研究では,PyTorchの異なるメソッドの実装詳細を一貫性を持たせ,同一のコードベースをPyTorchで使用することにより,EERにおける公正比較のための総合ベンチマークとアルゴリズムライブラリ(LibEER)を提案する。
これらの課題に対応するため、我々は、様々なメソッドの実装詳細の整合性を確保し、PyTorchの単一コードベースを活用することで、EERにおける公正比較のための包括的なベンチマークおよびアルゴリズムライブラリであるLibEERを提案する。
LibEERは、標準化された実験設定を備えた統一評価フレームワークを確立し、最も一般的に使用される4つのデータセットにわたる10以上の代表的なディープラーニングベースのEERモデルの偏りのない評価を可能にする。
さらに、一般的なモデルの性能と効率を網羅的に再現可能な比較を行い、研究者がEERモデルを選択し設計する上で貴重な洞察を提供する。
我々は,脳波に基づく感情認識の分野に参入する初心者の障壁を低くするだけでなく,この領域における研究の標準化を促進し,安定した開発を促進することを目指しています。
ソースコードは \url{https://github.com/ButterSen/LibEER} で入手できる。
EEG-based emotion recognition (EER) is garnering increasing attention due to its potential in understanding and analyzing human emotions. Recently, significant advancements have been achieved using various deep learning-based techniques to address the EER problem. However, the absence of a convincing benchmark and open-source codebase complicates fair comparisons between different models and poses reproducibility challenges for practitioners. These issues considerably impede progress in this field. In light of this, we propose a comprehensive benchmark and algorithm library (LibEER) for fair comparisons in EER by making most of the implementation details of different methods consistent and using the same single codebase in PyTorch. In response to these challenges, we propose LibEER, a comprehensive benchmark and algorithm library for fair comparisons in EER, by ensuring consistency in the implementation details of various methods and utilizing a single codebase in PyTorch. LibEER establishes a unified evaluation framework with standardized experimental settings, enabling unbiased evaluations of over ten representative deep learning-based EER models across the four most commonly used datasets. Additionally, we conduct an exhaustive and reproducible comparison of the performance and efficiency of popular models, providing valuable insights for researchers in selecting and designing EER models. We aspire for our work to not only lower the barriers for beginners entering the field of EEG-based emotion recognition but also promote the standardization of research in this domain, thereby fostering steady development. The source code is available at \url{https://github.com/ButterSen/LibEER}. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# 圧縮シーンダイナミクス : 生成的アプローチ
Compressing Scene Dynamics: A Generative Approach ( http://arxiv.org/abs/2410.09768v1 ) ライセンス: Link先を確認 | Shanzhi Yin, Zihan Zhang, Bolin Chen, Shiqi Wang, Yan Ye, | (参考訳) 本稿では,生成ビデオ圧縮のための映像コンテンツではなく,動きパターンから生成先行を学習することを提案する。
前者は風に揺れる木や海に浮かぶボートなど、一般的な場面における小さな動きのダイナミクスから派生したものである。
このようなコンパクトな動きを生かして、様々なシーンコンテンツのための超低ビットレート通信と高品質な再構成を実現するために、新しい生成シーンダイナミックス圧縮フレームワークを構築した。
エンコーダ側では、動き先行は密度とスパースな方法でコンパクトな表現として特徴づけられる。
デコーダ側では、デコーダは拡散ベースのフロー駆動ジェネレータを介してシーンダイナミクス再構築のための軌道ヒントとして機能する。
実験結果から,提案手法はより高速な速度歪み性能を実現し,シーン動的シーケンス上での従来のビデオコーデック Versatile Video Coding (VVC) よりも優れることが示された。
プロジェクトページはhttps://github.com/xyzysz/GNVDCで見ることができる。
This paper proposes to learn generative priors from the motion patterns instead of video contents for generative video compression. The priors are derived from small motion dynamics in common scenes such as swinging trees in the wind and floating boat on the sea. Utilizing such compact motion priors, a novel generative scene dynamics compression framework is built to realize ultra-low bit-rate communication and high-quality reconstruction for diverse scene contents. At the encoder side, motion priors are characterized into compact representations in a dense-to-sparse manner. At the decoder side, the decoded motion priors serve as the trajectory hints for scene dynamics reconstruction via a diffusion-based flow-driven generator. The experimental results illustrate that the proposed method can achieve superior rate-distortion performance and outperform the state-of-the-art conventional video codec Versatile Video Coding (VVC) on scene dynamics sequences. The project page can be found at https://github.com/xyzysz/GNVDC. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# 「クイズ・カストディート・イプソス・カストデス」
'Quis custodiet ipsos custodes?' Who will watch the watchmen? On Detecting AI-generated peer-reviews ( http://arxiv.org/abs/2410.09770v1 ) ライセンス: Link先を確認 | Sandeep Kumar, Mohit Sahu, Vardhan Gacche, Tirthankar Ghosal, Asif Ekbal, | (参考訳) ピアレビュープロセスの完全性は、学術コミュニティ内の科学的厳密さと信頼を維持するために不可欠である。
学術的執筆におけるChatGPTのような大規模言語モデル(LLM)の使用が着実に増加する中、AI生成テキストがピアレビューを含む科学出版を損なうのではないかという懸念が高まっている。
これまでの研究は、汎用的なAI生成テキスト検出に重点を置いてきたか、あるいはAI生成可能なピアレビューのごく一部を推定するためのアプローチを提示してきた。
ここでは,ChatGPTによるレビュー作成の有無を判断するために,編集者や議長を支援することで,現実の問題を解決することに焦点を当てている。
これを解決するために、AIがしばしばトークンを繰り返すことを示唆するTF(Term Frequency)モデルと、ChatGPTが再プロンプト時に同様の出力を生成するというアイデアに基づくRR(Review Regeneration)モデルを導入する。
我々はこれらの検出器をトークン攻撃やパラフレージングに対してテストする。
最後に,パラフレージングの効果を抑える効果的な防御戦略を提案する。
以上の結果から,提案手法は,他のAIテキスト検出方法よりも優れていたことが示唆された。
我々の RR モデルはより堅牢であるが、我々の TF モデルは攻撃を受けずに RR モデルより優れている。
コード、データセット、モデルを公開します。
The integrity of the peer-review process is vital for maintaining scientific rigor and trust within the academic community. With the steady increase in the usage of large language models (LLMs) like ChatGPT in academic writing, there is a growing concern that AI-generated texts could compromise scientific publishing, including peer-reviews. Previous works have focused on generic AI-generated text detection or have presented an approach for estimating the fraction of peer-reviews that can be AI-generated. Our focus here is to solve a real-world problem by assisting the editor or chair in determining whether a review is written by ChatGPT or not. To address this, we introduce the Term Frequency (TF) model, which posits that AI often repeats tokens, and the Review Regeneration (RR) model, which is based on the idea that ChatGPT generates similar outputs upon re-prompting. We stress test these detectors against token attack and paraphrasing. Finally, we propose an effective defensive strategy to reduce the effect of paraphrasing on our models. Our findings suggest both our proposed methods perform better than the other AI text detectors. Our RR model is more robust, although our TF model performs better than the RR model without any attacks. We make our code, dataset, and model public. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# 3次元の入射ニューラル表現のためのマグニチュール層
Magnituder Layers for Implicit Neural Representations in 3D ( http://arxiv.org/abs/2410.09771v1 ) ライセンス: Link先を確認 | Sang Min Kim, Byeongchan Kim, Arijit Sehanobish, Krzysztof Choromanski, Dongseok Shim, Avinava Dubey, Min-hwan Oh, | (参考訳) 特にNeRF(Neural Radiance Fields)とSigned Distance Fields(Signed Distance Fields)は、3Dにおける暗黙的な神経表現の効率と性能を向上させることが、リアルタイムアプリケーションでの使用を可能にする上で不可欠である。
これらのモデルは、フォトリアリスティックなノベルビューと詳細な3D再構成を生成することができるが、しばしば高い計算コストと遅い推論時間に悩まされる。
そこで我々は,これらのモデルにおいて,表現力を犠牲にすることなく,トレーニングパラメータの数を削減すべく,新しいニューラルネットワーク層"magnituder"を導入する。
標準フィードフォワード層にマグニチュードを組み込むことで、推論速度と適応性を向上する。
さらに,バックプロパゲーションを伴わない階層的知識伝達により,訓練された暗黙的ニューラル表現モデルにおけるゼロショット性能の向上を実現し,動的環境におけるより効率的なシーン再構築を実現する。
Improving the efficiency and performance of implicit neural representations in 3D, particularly Neural Radiance Fields (NeRF) and Signed Distance Fields (SDF) is crucial for enabling their use in real-time applications. These models, while capable of generating photo-realistic novel views and detailed 3D reconstructions, often suffer from high computational costs and slow inference times. To address this, we introduce a novel neural network layer called the "magnituder", designed to reduce the number of training parameters in these models without sacrificing their expressive power. By integrating magnituders into standard feed-forward layer stacks, we achieve improved inference speed and adaptability. Furthermore, our approach enables a zero-shot performance boost in trained implicit neural representation models through layer-wise knowledge transfer without backpropagation, leading to more efficient scene reconstruction in dynamic environments. | 翻訳日:2024-10-30 05:02:48 公開日:2024-10-13 |
# パーキンソン病における低酸素症検出・リハビリテーションのためのAUを用いたデジタル治療システム
HypomimiaCoach: An AU-based Digital Therapy System for Hypomimia Detection & Rehabilitation with Parkinson's Disease ( http://arxiv.org/abs/2410.09772v1 ) ライセンス: Link先を確認 | Yingjing Xu, Xueyan Cai, Zihong Zhou, Mengru Xue, Bo Wang, Haotian Wang, Zhengke Li, Chentian Weng, Wei Luo, Cheng Yao, Bo Lin, Jianwei Yin, | (参考訳) 失語症はパーキンソン病の非運動症状であり、遅滞した顔の動きや表情として現れ、調音や感情の困難を伴う。
現在、神経科医による主観的評価は低酸素症検出の第一の方法であり、従来のリハビリテーションアプローチはリハビリテーション医からの言葉のプロンプトに大きく依存している。
ユーザフレンドリーで科学的に厳格な補助具が不足している。
そこで我々は,パーキンソン病における低酸素症検出・リハビリテーションのためのAU(Action Unit)を用いたデジタル治療システムであるHypomimaCoachを開発した。
hypomimaCoachシステムは、リラックスとコントロールされたリハビリテーション演習の実施によるエンゲージメントの促進と、従来の顔訓練手法を取り入れたデジタルセラピーの統合によるイニシアチブの促進を目的としている。
動作単位(AU)の特徴を抽出し,その関連性について検討した。
リハビリテーションを促進するために,AU(Action Units)に基づいて一連のトレーニングプログラムが考案され,AU認識モデルを通じて患者にリアルタイムのフィードバックが提供され,トレーニングルーチンをガイドする。
中国で7人の参加者とともにパイロット実験が行われ、全員がパーキンソン病の低血症の症状を示した。
パイロット実験の結果は, 参加者の自己効力感に肯定的な影響を示し, 好意的なフィードバックを得た。
さらに, パーキンソン病の治療におけるシステム適用性, 臨床応用における有用性についても検討した。
Hypomimia is a non-motor symptom of Parkinson's disease that manifests as delayed facial movements and expressions, along with challenges in articulation and emotion. Currently, subjective evaluation by neurologists is the primary method for hypomimia detection, and conventional rehabilitation approaches heavily rely on verbal prompts from rehabilitation physicians. There remains a deficiency in accessible, user-friendly and scientifically rigorous assistive tools for hypomimia treatments. To investigate this, we developed HypomimaCoach, an Action Unit (AU)-based digital therapy system for hypomimia detection and rehabilitation in Parkinson's disease. The HypomimaCoach system was designed to facilitate engagement through the incorporation of both relaxed and controlled rehabilitation exercises, while also stimulating initiative through the integration of digital therapies that incorporated traditional face training methods. We extract action unit(AU) features and their relationship for hypomimia detection. In order to facilitate rehabilitation, a series of training programmes have been devised based on the Action Units (AUs) and patients are provided with real-time feedback through an additional AU recognition model, which guides them through their training routines. A pilot study was conducted with seven participants in China, all of whom exhibited symptoms of Parkinson's disease hypomimia. The results of the pilot study demonstrated a positive impact on participants' self-efficacy, with favourable feedback received. Furthermore, physician evaluations validated the system's applicability in a therapeutic setting for patients with Parkinson's disease, as well as its potential value in clinical applications. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-13 |
# 混合言語多言語ニュース要約データセットとグラフベース抽出生成モデル
A Mixed-Language Multi-Document News Summarization Dataset and a Graphs-Based Extract-Generate Model ( http://arxiv.org/abs/2410.09773v1 ) ライセンス: Link先を確認 | Shengxiang Gao, Fang nan, Yongbing Zhang, Yuxin Huang, Kaiwen Tan, Zhengtao Yu, | (参考訳) ニュース要約に関する既存の研究は、主にシングルランゲージ・シングルドキュメント(SLSD)、シングルランゲージ・マルチドキュメント(SLMD)、クロスランゲージ・シングルドキュメント(CLSD)に焦点を当てている。
しかし、現実のシナリオでは、国際イベントに関するニュースは、しばしば異なる言語、すなわち混合言語多文書(MLMD)の複数のドキュメントを含む。
したがって、MLMDニュースの要約は非常に重要である。
しかし、MLMDニュース要約のためのデータセットの欠如は、この分野の研究の進展を妨げている。
このギャップを埋めるために、4つの異なる言語と10,992のソースドキュメントクラスタとターゲット要約ペアを含む混在言語多文書ニュース要約データセット(MLMD-news)を構築した。
さらに、グラフベースの抽出生成モデルを提案し、MLMD-newsデータセット上で様々な手法をベンチマークし、MLMDシナリオにおける要約の研究を進めることを目的として、データセットとcode\footnote[1]{https://github.com/Southnf9/MLMD-news} を公開リリースする。
Existing research on news summarization primarily focuses on single-language single-document (SLSD), single-language multi-document (SLMD) or cross-language single-document (CLSD). However, in real-world scenarios, news about a international event often involves multiple documents in different languages, i.e., mixed-language multi-document (MLMD). Therefore, summarizing MLMD news is of great significance. However, the lack of datasets for MLMD news summarization has constrained the development of research in this area. To fill this gap, we construct a mixed-language multi-document news summarization dataset (MLMD-news), which contains four different languages and 10,992 source document cluster and target summary pairs. Additionally, we propose a graph-based extract-generate model and benchmark various methods on the MLMD-news dataset and publicly release our dataset and code\footnote[1]{https://github.com/Southnf9/MLMD-news}, aiming to advance research in summarization within MLMD scenarios. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-13 |
# EasyJudge: LLMの総合的応答評価ツール
EasyJudge: an Easy-to-use Tool for Comprehensive Response Evaluation of LLMs ( http://arxiv.org/abs/2410.09775v1 ) ライセンス: Link先を確認 | Yijie Li, Yuan Sun, | (参考訳) 近年,他のLLMの品質を判断するために,大規模言語モデル(LLM)を採用する傾向が高まっている。
多くの研究は、主にGPT-4を評価子として、クローズドソースモデルを採用してきた。
しかし, GPT-4モデルのクローズソース性のため, 透明性, 可制御性, コスト効率などの問題が生じている。
一部の研究者は、細調整されたオープンソースのLCMを評価ツールとして使用することにした。
しかし、既存のオープンソース評価 LLM には一般的にユーザフレンドリな視覚化ツールがなく、モデル推論の高速化に最適化されていないため、限られたリソースを持つ研究者や異なる分野にまたがる研究者にとっては不便な結果となっている。
本稿では,重要な言語モデル応答を評価するために開発された EasyJudge を提案する。
軽量で、正確で、効率的で、ユーザフレンドリで、デプロイや使用が容易な、直感的な視覚化インターフェースを備えている。
EasyJudgeは、詳細なデータセットと洗練されたプロンプトを使用してモデル最適化を行い、人間とプロプライエタリなモデル評価との強い一貫性を実現する。
定量的手法で最適化されたモデルは、EasyJudgeをコンシューマグレードのGPUやCPU上で効率的に動作させることができる。
また,本手法の可能性を明らかにするために,詳細な分析とケーススタディも提供する。
Recently, there has been a growing trend of employing large language models (LLMs) to judge the quality of other LLMs. Many studies have adopted closed-source models, mainly using GPT-4 as the evaluator. However, due to the closed-source nature of the GPT-4 model, employing it as an evaluator has resulted in issues including transparency, controllability, and cost-effectiveness. Some researchers have turned to using fine-tuned open-source LLMs as evaluators. However, existing open-source evaluation LLMs generally lack a user-friendly visualization tool, and they have not been optimized for accelerated model inference, which causes inconvenience for researchers with limited resources and those working across different fields. This paper presents EasyJudge, a model developed to evaluate significant language model responses. It is lightweight, precise, efficient, and user-friendly, featuring an intuitive visualization interface for ease of deployment and use. EasyJudge uses detailed datasets and refined prompts for model optimization, achieving strong consistency with human and proprietary model evaluations. The model optimized with quantitative methods enables EasyJudge to run efficiently on consumer-grade GPUs or even CPUs. We also provide detailed analysis and case studies to further reveal the potential of our method. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-13 |
# ECIS-VQG:ビデオからエンティティ中心の情報検索質問の生成
ECIS-VQG: Generation of Entity-centric Information-seeking Questions from Videos ( http://arxiv.org/abs/2410.09776v1 ) ライセンス: Link先を確認 | Arpan Phukan, Manish Gupta, Asif Ekbal, | (参考訳) ビデオからの質問生成に関するこれまでの研究は、主に共通の対象や属性に関する質問を生成することに焦点を当てており、従ってエンティティ中心ではない。
本研究では,ビデオからエンティティ中心の情報検索質問の生成に焦点をあてる。
このようなシステムはビデオベースの学習に役立ち、 ``People Also Ask''の質問、ビデオベースのチャットボット、ファクトチェックを推奨する。
我々の研究は、質問に値する情報を識別し、エンティティにリンクし、マルチモーダル信号を有効に活用する、という3つの重要な課題に対処する。
さらに、私たちの知る限りでは、このタスクのための大規模なデータセットは存在しません。
ほとんどのビデオ質問生成データセットは、テレビ番組、映画、人間活動、あるいはエンティティ中心の情報検索の質問が欠落している。
これにより、YouTubeビデオの多様なデータセットであるVideoQuestionsを、411の動画と2265の質問を手動でアノテートする。
さらに、トランスフォーマー、リッチコンテキスト信号(字幕、転写文、キャプション、埋め込み)、およびクロスエントロピーとコントラスト損失関数を組み合わせたモデルアーキテクチャを提案し、エンティティ中心の質問生成を促進する。
本手法では, BLEU, ROUGE, CIDEr, METEORスコアが71.3, 78.6, 7.31, 81.9であり, 実用性を示す。
コードとデータセットを公開しています。
https://github.com/thePhukan/ECIS-VQG
Previous studies on question generation from videos have mostly focused on generating questions about common objects and attributes and hence are not entity-centric. In this work, we focus on the generation of entity-centric information-seeking questions from videos. Such a system could be useful for video-based learning, recommending ``People Also Ask'' questions, video-based chatbots, and fact-checking. Our work addresses three key challenges: identifying question-worthy information, linking it to entities, and effectively utilizing multimodal signals. Further, to the best of our knowledge, there does not exist a large-scale dataset for this task. Most video question generation datasets are on TV shows, movies, or human activities or lack entity-centric information-seeking questions. Hence, we contribute a diverse dataset of YouTube videos, VideoQuestions, consisting of 411 videos with 2265 manually annotated questions. We further propose a model architecture combining Transformers, rich context signals (titles, transcripts, captions, embeddings), and a combination of cross-entropy and contrastive loss function to encourage entity-centric question generation. Our best method yields BLEU, ROUGE, CIDEr, and METEOR scores of 71.3, 78.6, 7.31, and 81.9, respectively, demonstrating practical usability. We make the code and dataset publicly available. https://github.com/thePhukan/ECIS-VQG | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-13 |
# リレーダチェーンを用いた絡み合い型ネットワークにおける忠実性のシミュレーション
Simulation of fidelity in entanglement-based networks with repeater chains ( http://arxiv.org/abs/2410.09779v1 ) ライセンス: Link先を確認 | David Pérez Castro, Ana Fernández Vilas, Manuel Fernández-Veiga, Mateo Blanco Rodríguez, Rebeca P. Díaz Redondo, | (参考訳) 我々はNetSquid上にシミュレーション環境を実装し、量子リピータや量子スイッチの経路にまたがるエンドツーエンドの忠実度を推定する。
スイッチモデルには、他のツールでは利用できないいくつかの一般化が含まれており、実際的で現実的な量子ネットワーク工学の問題に対する洞察を得るのに有用である:スイッチの任意の数のメモリレジスタ、絡み合った蒸留機構を含む単純さ、任意のスイッチトポロジ、より正確な偏極ノイズのモデルである。
すなわち、リピータがシーケンシャルにスワップできるリピータチェーンと、複数のスワップ要求を処理できる複数のメモリレジスタを備えた1つのスイッチとのパフォーマンスの比較を行う。
We implement a simulation environment on top of NetSquid that is specifically designed for estimating the end-to-end fidelity across a path of quantum repeaters or quantum switches. The switch model includes several generalizations which are not currently available in other tools, and are useful for gaining insight into practical and realistic quantum network engineering problems: an arbitrary number of memory registers at the switches, simplicity in including entanglement distillation mechanisms, arbitrary switching topologies, and more accurate models for the depolarization noise. An illustrative case study is presented, namely a comparison in terms of performance between a repeater chain where repeaters can only swap sequentially, and a single switch equipped with multiple memory registers, able to handle multiple swapping requests. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-13 |
# 逆プロンプティングエージェントによる探索空間の拡大: LLM数学的推論のための効率的なサンプリング手法
Expanding Search Space with Diverse Prompting Agents: An Efficient Sampling Approach for LLM Mathematical Reasoning ( http://arxiv.org/abs/2410.09780v1 ) ライセンス: Link先を確認 | Gisang Lee, Sangwoo Park, Junyoung Park, Andrew Chung, Sieun Park, Yoonah Park, Byungju Kim, Min-gyu Cho, | (参考訳) 大規模言語モデル(LLM)は、数学的推論を含む多くの複雑なタスクにおいて顕著な機能を示した。
しかし、従来のアプローチは、単一プロンプト方式における自己整合性の確保に大きく依存しており、多様な問題解決戦略の探索を制限している。
本研究では、数学的推論の領域内で異なるプロンプト法を実験的に解析することにより、これらの制限に対処する。
以上の結果から,各手法が異なる探索空間を探索し,この問題の複雑性が増大するにつれて,この微分がより明確になることが示された。
この現象を活用するために,これらの多種多様な手法のサンプルを均一に組み合わせた効率的なサンプリングプロセスを適用した。
特にMATH-hardと命名されたMATHデータセットの難解な質問のサブセットにおいて、最大検索スペースは平均して1つのメソッドよりも約43%少ない実行量で達成された。
これらの知見は, LLMの推論能力を高めるために, 多様な問題解決戦略を統合することの重要性を強調した。
Large Language Models (LLMs) have exhibited remarkable capabilities in many complex tasks including mathematical reasoning. However, traditional approaches heavily rely on ensuring self-consistency within single prompting method, which limits the exploration of diverse problem-solving strategies. This study addresses these limitations by performing an experimental analysis of distinct prompting methods within the domain of mathematical reasoning. Our findings demonstrate that each method explores a distinct search space, and this differentiation becomes more evident with increasing problem complexity. To leverage this phenomenon, we applied efficient sampling process that uniformly combines samples from these diverse methods, which not only expands the maximum search space but achieves higher performance with fewer runs compared to single methods. Especially, within the subset of difficult questions of MATH dataset named MATH-hard, The maximum search space was achieved while utilizing approximately 43% fewer runs than single methods on average. These findings highlight the importance of integrating diverse problem-solving strategies to enhance the reasoning abilities of LLMs. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-13 |
# ContextWIN: ディープRLによるレストレスバンドのためのWhittle Index based Mixture-of-Experts Neural Model
ContextWIN: Whittle Index Based Mixture-of-Experts Neural Model For Restless Bandits Via Deep RL ( http://arxiv.org/abs/2410.09781v1 ) ライセンス: Link先を確認 | Zhanqiu Guo, Wayne Wang, | (参考訳) 本研究では,Neural Whittle Index Network(NeurWIN)モデルを拡張した新しいアーキテクチャであるContextWINを紹介する。
強化学習フレームワークに専門家の混在を統合することで、ContextWINは動的環境、特にレコメンデーションシステムにおいて、コンテキスト情報を利用して意思決定を通知する。
重要なイノベーションは、NeurWINネットワークのサブセットにコンテキスト固有の重みを割り当てることによって、各アームのWhittleインデックス計算の効率と精度を高めることである。
本稿では、ContextWINの概念的基礎から実装と潜在的な応用まで、徹底的に調査する。
RMABの複雑さとコンテキストを統合することの重要性を掘り下げ、ContextWINがこれらの要素をどのように効果的に活用するかを強調します。
NeurWINモデルとContextWINモデルの収束は厳密に証明されており、理論的堅牢性を保証する。
この研究は、複雑な意思決定シナリオに文脈情報を適用し、完全な潜在的な実現のための包括的なデータセット探索と環境開発の必要性を認識し、将来の進歩の基盤となる。
This study introduces ContextWIN, a novel architecture that extends the Neural Whittle Index Network (NeurWIN) model to address Restless Multi-Armed Bandit (RMAB) problems with a context-aware approach. By integrating a mixture of experts within a reinforcement learning framework, ContextWIN adeptly utilizes contextual information to inform decision-making in dynamic environments, particularly in recommendation systems. A key innovation is the model's ability to assign context-specific weights to a subset of NeurWIN networks, thus enhancing the efficiency and accuracy of the Whittle index computation for each arm. The paper presents a thorough exploration of ContextWIN, from its conceptual foundation to its implementation and potential applications. We delve into the complexities of RMABs and the significance of incorporating context, highlighting how ContextWIN effectively harnesses these elements. The convergence of both the NeurWIN and ContextWIN models is rigorously proven, ensuring theoretical robustness. This work lays the groundwork for future advancements in applying contextual information to complex decision-making scenarios, recognizing the need for comprehensive dataset exploration and environment development for full potential realization. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-13 |
# DFIMat: マルチパーソンシナリオにおけるフレキシブルなインタラクティブなマッチングの分離
DFIMat: Decoupled Flexible Interactive Matting in Multi-Person Scenarios ( http://arxiv.org/abs/2410.09788v1 ) ライセンス: Link先を確認 | Siyi Jiao, Wenzheng Zeng, Changxin Gao, Nong Sang, | (参考訳) インタラクティブ・ポートレート・マッティング(Interactive portrait matting)とは、入力によってユーザの意図に最も合う画像からソフト・ポートレートを抽出することである。
既存の手法は、主に3つの要因により、複雑なシナリオでは性能が劣ることが多い。
1)ほとんどの研究は,マッチング結果を直接予測する密結合ネットワークを適用し,解釈性に欠け,モデリングに不適当な結果をもたらす。
2) 既存の作業は1種類のユーザ入力に限られており, 意図的理解には効果がなく, ユーザ操作にも非効率である。
(3) ユーザインタラクションに不可欠なマルチラウンド特性について検討が進められている。
これらの制約を緩和するために,フレキシブルなインタラクティブなマッティングを可能にする非結合フレームワークDFIMatを提案する。
具体的には、まず、シーンの意味やフレキシブルなユーザ入力を理解してターゲットインスタンスをローカライズし、インスタンスレベルのマッチングの洗練を行う。
サブタスクを学習し易くし、柔軟なマルチタイプ入力により効率と効率がさらに向上するので、デカップリングによる明らかなパフォーマンス向上が観察できる。
DFIMatはまた、マルチラウンドの相互作用特性についても検討しており、対照的な推論モジュールは、クロスラウンドの洗練を強化するように設計されている。
マルチパーソンマッチングタスクのもうひとつの制限は、トレーニングデータの欠如である。
我々は,従来よりもはるかにリアルなサンプルを生成することができる新しい合成データ生成パイプラインを導入することで,この問題に対処する。
その後、新たな大規模データセットSMPMatが確立された。
実験はDFIMatの顕著な優位性を検証する。
また、異なる入力タイプの役割も調査し、ユーザにとって価値のある原則を提供します。
私たちのコードとデータセットはhttps://github.com/JiaoSiyi/DFIMat.com/で確認できます。
Interactive portrait matting refers to extracting the soft portrait from a given image that best meets the user's intent through their inputs. Existing methods often underperform in complex scenarios, mainly due to three factors. (1) Most works apply a tightly coupled network that directly predicts matting results, lacking interpretability and resulting in inadequate modeling. (2) Existing works are limited to a single type of user input, which is ineffective for intention understanding and also inefficient for user operation. (3) The multi-round characteristics have been under-explored, which is crucial for user interaction. To alleviate these limitations, we propose DFIMat, a decoupled framework that enables flexible interactive matting. Specifically, we first decouple the task into 2 sub-ones: localizing target instances by understanding scene semantics and the flexible user inputs, and conducting refinement for instance-level matting. We observe a clear performance gain from decoupling, as it makes sub-tasks easier to learn, and the flexible multi-type input further enhances both effectiveness and efficiency. DFIMat also considers the multi-round interaction property, where a contrastive reasoning module is designed to enhance cross-round refinement. Another limitation for multi-person matting task is the lack of training data. We address this by introducing a new synthetic data generation pipeline that can generate much more realistic samples than previous arts. A new large-scale dataset SMPMat is subsequently established. Experiments verify the significant superiority of DFIMat. With it, we also investigate the roles of different input types, providing valuable principles for users. Our code and dataset can be found at https://github.com/JiaoSiyi/DFIMat. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-13 |
# コンフォーメーション最適化による分子基底状態の予測
Predicting Molecular Ground-State Conformation via Conformation Optimization ( http://arxiv.org/abs/2410.09795v1 ) ライセンス: Link先を確認 | Fanmeng Wang, Minjie Cheng, Hongteng Xu, | (参考訳) 対応する分子グラフから基底状態のコンフォメーションを予測することは、分子モデリング、分子ドッキング、分子特性予測などの多くの化学応用にとって重要である。
近年,この作業に要する時間的シミュレーションを代替する学習手法が数多く提案されている。
しかしながら、これらの手法はしばしば非効率で準最適であり、分子グラフ情報にのみ依存してゼロから予測を行う。
本研究では,分子の低品質なコンフォメーションが容易に利用できることを考慮し,コンフォメーション最適化の観点から分子基底状態コンフォメーションを予測するConfOptという新しいフレームワークを提案する。
具体的には、ConfOptは分子グラフとそれに対応する低品質な3Dコンホメーションを入力として取り、その後、分子グラフの誘導の下で低品質なコンホメーションを反復的に最適化することで基底状態コンホメーションを導出する。
ConfOptはトレーニング中、予測された原子3D座標と対応する原子間距離を同時に最適化し、強い予測モデルをもたらす。
大規模な実験により、ConfOptは既存の方法よりも大幅に優れており、分子基底状態の配座を効率的に正確に予測するための新しいパラダイムを提供する。
Predicting ground-state conformation from the corresponding molecular graph is crucial for many chemical applications, such as molecular modeling, molecular docking, and molecular property prediction. Recently, many learning-based methods have been proposed to replace time-consuming simulations for this task. However, these methods are often inefficient and sub-optimal as they merely rely on molecular graph information to make predictions from scratch. In this work, considering that molecular low-quality conformations are readily available, we propose a novel framework called ConfOpt to predict molecular ground-state conformation from the perspective of conformation optimization. Specifically, ConfOpt takes the molecular graph and corresponding low-quality 3D conformation as inputs, and then derives the ground-state conformation by iteratively optimizing the low-quality conformation under the guidance of the molecular graph. During training, ConfOpt concurrently optimizes the predicted atomic 3D coordinates and the corresponding interatomic distances, resulting in a strong predictive model. Extensive experiments demonstrate that ConfOpt significantly outperforms existing methods, thus providing a new paradigm for efficiently and accurately predicting molecular ground-state conformation. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-13 |
# タスク適応的特徴分布に基づくファウショットきめ細粒度分類のためのネットワーク
Task Adaptive Feature Distribution Based Network for Few-shot Fine-grained Target Classification ( http://arxiv.org/abs/2410.09797v1 ) ライセンス: Link先を確認 | Ping Li, Hongbo Wang, Lei Lu, | (参考訳) メトリックベースの数ショットのきめ細かい分類は、その単純さと効率性から、有望であることを示している。
しかし,既存の手法はタスクレベルの特殊事例を見落とし,正確なカテゴリ記述や無関係なサンプル情報に苦慮することが多い。
そこで本研究では,タスク適応型特徴分散ネットワークであるTAFD-Netを提案する。
タスクレベルのニュアンスをキャプチャするための組み込みのためのタスク適応コンポーネント、クエリサンプルとサポートカテゴリ間の特徴分布の類似性を計算するための非対称メトリック、パフォーマンスを高めるための対照的な測定戦略を備えている。
3つのデータセットに対して大規模な実験を行い、実験結果から、提案アルゴリズムが最近の漸進学習アルゴリズムより優れていることが示された。
Metric-based few-shot fine-grained classification has shown promise due to its simplicity and efficiency. However, existing methods often overlook task-level special cases and struggle with accurate category description and irrelevant sample information. To tackle these, we propose TAFD-Net: a task adaptive feature distribution network. It features a task-adaptive component for embedding to capture task-level nuances, an asymmetric metric for calculating feature distribution similarities between query samples and support categories, and a contrastive measure strategy to boost performance. Extensive experiments have been conducted on three datasets and the experimental results show that our proposed algorithm outperforms recent incremental learning algorithms. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-13 |
# EBDM:Brownian-bridge Diffusion Modelを用いた経験的誘導画像変換
EBDM: Exemplar-guided Image Translation with Brownian-bridge Diffusion Models ( http://arxiv.org/abs/2410.09802v1 ) ライセンス: Link先を確認 | Eungbean Lee, Somi Jeong, Kwanghoon Sohn, | (参考訳) 構造制御とスタイル表現の両方に適合するフォトリアリスティックなイメージを合成するExemplar-guided Image Translationが注目されている。
それまでの方法論は、クロスドメイン入力間の密接な対応を確立することに大きく依存していた。
これらの努力にもかかわらず、密度の高い対応を確立するために2次記憶と計算コストがかかり、柔軟性と性能の低下が制限された。
本稿では,B Brownian-Bridge Diffusion Models (EBDM) を用いたExemplar-Guided Image Translation という新しい手法を提案する。
提案手法は, 確率的ブラウン橋プロセス, 固定初期点を有する拡散過程を構造制御として定式化し, 所定の模範画像のみに条件付けしながら, 対応するフォトリアリスティック画像に変換する。
本稿では,グローバルエンコーダ(Global Encoder),Exemplar Network(Exemplar Attention Module),およびExemplar Attention Module(Exemplar Attention Module)の3つの重要なコンポーネントを,グローバルかつ詳細なテクスチャ情報を例示画像から組み込む。
ブリッジ拡散を利用して、ネットワークは、模範的なスタイルでのみ条件付きながら、構造制御からのイメージを変換できるため、より堅牢なトレーニングと推論プロセスが実現される。
本手法は,総合的なベンチマーク評価と視覚的結果を通じて,競合するアプローチよりも優れていることを示す。
Exemplar-guided image translation, synthesizing photo-realistic images that conform to both structural control and style exemplars, is attracting attention due to its ability to enhance user control over style manipulation. Previous methodologies have predominantly depended on establishing dense correspondences across cross-domain inputs. Despite these efforts, they incur quadratic memory and computational costs for establishing dense correspondence, resulting in limited versatility and performance degradation. In this paper, we propose a novel approach termed Exemplar-guided Image Translation with Brownian-Bridge Diffusion Models (EBDM). Our method formulates the task as a stochastic Brownian bridge process, a diffusion process with a fixed initial point as structure control and translates into the corresponding photo-realistic image while being conditioned solely on the given exemplar image. To efficiently guide the diffusion process toward the style of exemplar, we delineate three pivotal components: the Global Encoder, the Exemplar Network, and the Exemplar Attention Module to incorporate global and detailed texture information from exemplar images. Leveraging Bridge diffusion, the network can translate images from structure control while exclusively conditioned on the exemplar style, leading to more robust training and inference processes. We illustrate the superiority of our method over competing approaches through comprehensive benchmark evaluations and visual results. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-13 |
# 単一地盤の真理は十分ではない:アスペクトベースの感性分析評価に言語学的変数を加える
Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation ( http://arxiv.org/abs/2410.09807v1 ) ライセンス: Link先を確認 | Soyoung Yang, Hojun Cho, Jiyoung Lee, Sohee Yoon, Edward Choi, Jaegul Choo, Won Ik Cho, | (参考訳) アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。
自然言語の固有の可変性のため、アスペクト項と意見項は様々な曲面形式で表され、正確な識別が複雑になる。
このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。
この制限に対処するために、アスペクトと意見の用語に対する代替の有効な応答で既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。
このアプローチは、言語多様性を調節することで言語モデルの公平な評価を可能にし、結果として、シングル・アンサー・テストセットよりも高い人間との合意をもたらす(KendallのTauスコアは最大10%改善されている)。
実験の結果,大規模言語モデル(LLM)は拡張テストセットを用いて評価した場合,T5モデルよりも大幅に性能が向上し,ABSAタスクにおけるLLMの能力が過小評価された可能性が示唆された。
この研究はABSAのより包括的な評価フレームワークに寄与し、情報抽出タスク、特にスパン抽出に関わるタスクにおけるモデル性能のより正確な評価につながる可能性がある。
Aspect-based sentiment analysis (ABSA) is the challenging task of extracting sentiment along with its corresponding aspects and opinions from human language. Due to the inherent variability of natural language, aspect and opinion terms can be expressed in various surface forms, making their accurate identification complex. Current evaluation methods for this task often restrict answers to a single ground truth, penalizing semantically equivalent predictions that differ in surface form. To address this limitation, we propose a novel, fully automated pipeline that augments existing test sets with alternative valid responses for aspect and opinion terms. This approach enables a fairer assessment of language models by accommodating linguistic diversity, resulting in higher human agreement than single-answer test sets (up to 10%p improvement in Kendall's Tau score). Our experimental results demonstrate that Large Language Models (LLMs) show substantial performance improvements over T5 models when evaluated using our augmented test set, suggesting that LLMs' capabilities in ABSA tasks may have been underestimated. This work contributes to a more comprehensive evaluation framework for ABSA, potentially leading to more accurate assessments of model performance in information extraction tasks, particularly those involving span extraction. | 翻訳日:2024-10-30 04:42:49 公開日:2024-10-13 |
# コード翻訳における大規模言語モデルの可能性を明らかにする:我々はどこまで遠いのか?
Unraveling the Potential of Large Language Models in Code Translation: How Far Are We? ( http://arxiv.org/abs/2410.09812v1 ) ライセンス: Link先を確認 | Qingxiao Tao, Tingrui Yu, Xiaodong Gu, Beijun Shen, | (参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて最先端のパフォーマンスを示すが、最近の研究でコード翻訳の難しさが明らかにされている。
これは、並列多言語コードで広く事前訓練されていないためである。
さらに、既存のベンチマークは、共通プログラミング言語の限られたサブセットのみをカバーするため、コード翻訳におけるLLMのポテンシャルを完全に反映することはできない。
本稿では,コード翻訳タスクにおけるLLMの能力と能力を活用するための大規模な実証的研究を行う。
我々はまず、HumanEvalを14言語の多言語ベンチマークに拡張することで、PolyHumanEvalと呼ばれる新しいベンチマークを構築した。
PolyHumanEvalでは、出血先端コードLLMで11000以上の翻訳を実行します。
その結果、LLMがPythonを他の言語に最適化する際の最適性能と、従来の事前学習や命令チューニングといった広く採用されているLLM最適化手法がコード翻訳に与える影響が示唆された。
コード翻訳における LLM の可能性を明らかにするために,(1) ソースと対象言語の間の中間言語を選択する中間翻訳,(2) 自己生成した並列データに基づいて LLM を微調整する自己学習という2つの手法を提案する。
CodeLlama-13Bで評価した結果,Python-to- other翻訳における平均計算精度は11.7%向上した。
特に興味深いのは、Goが2つの研究された言語間の翻訳の言語フランカとして機能できることである。
While large language models (LLMs) exhibit state-of-the-art performance in various tasks, recent studies have revealed their struggle for code translation. This is because they haven't been extensively pre-trained with parallel multilingual code, which code translation heavily depends on. Moreover, existing benchmarks only cover a limited subset of common programming languages, and thus cannot reflect the full potential of LLMs in code translation. In this paper, we conduct a large-scale empirical study to exploit the capabilities and incapabilities of LLMs in code translation tasks. We first craft a novel benchmark called PolyHumanEval by extending HumanEval to a multilingual benchmark of 14 languages. With PolyHumanEval, we then perform over 110,000 translations with bleeding-edge code LLMs. The result shows LLMs' suboptimal performance on Python to other languages and the negligible impact of widely adopted LLM optimization techniques such as conventional pre-training and instruction tuning on code translation. To further uncover the potential of LLMs in code translation, we propose two methods: (1) intermediary translation which selects an intermediary language between the source and target ones; and (2) self-training which fine-tunes LLMs on self-generated parallel data. Evaluated with CodeLlama-13B, our approach yields an average improvement of 11.7% computation accuracy on Python-to-other translations. Notably, we interestingly find that Go can serve as a lingua franca for translating between any two studied languages. | 翻訳日:2024-10-30 04:42:49 公開日:2024-10-13 |
# 大規模言語モデルにおける逆モデリング
Reverse Modeling in Large Language Models ( http://arxiv.org/abs/2410.09817v1 ) ライセンス: Link先を確認 | Sicheng Yu, Yuanchen Xu, Cunxiao Du, Yanying Zhou, Minghui Qiu, Qianru Sun, Hao Zhang, Jiawei Wu, | (参考訳) 人間は前方の読み書きに慣れており、この自然なバイアスは、自動回帰的大言語モデル(LLM)におけるテキスト理解にまで及ぶ。
本稿では,LLMが人間と同様,逆モデリング,特に逆テキスト入力に苦慮しているかどうかを考察する。
事前学習したLLMはそのような入力を理解できないことがわかった。
しかし、前方テキストと逆テキストの両方でスクラッチからトレーニングされたLLMは、推論中も同様に理解することができる。
我々のケーススタディでは、異なる内容のテキストが異なる方向の入力(LLMへの)で異なる損失をもたらすことが示されています。
これにより、前方方向と逆方向の損失差に基づいた、単純で優れたデータ選択ソリューションが得られます。
継続事前トレーニングで選択したデータを使用することで、LLMのパフォーマンスを異なる言語理解ベンチマーク間で大きなマージンで向上させることができる。
Humans are accustomed to reading and writing in a forward manner, and this natural bias extends to text understanding in auto-regressive large language models (LLMs). This paper investigates whether LLMs, like humans, struggle with reverse modeling, specifically with reversed text inputs. We found that publicly available pre-trained LLMs cannot understand such inputs. However, LLMs trained from scratch with both forward and reverse texts can understand them equally well during inference. Our case study shows that different-content texts result in different losses if input (to LLMs) in different directions -- some get lower losses for forward while some for reverse. This leads us to a simple and nice solution for data selection based on the loss differences between forward and reverse directions. Using our selected data in continued pretraining can boost LLMs' performance by a large margin across different language understanding benchmarks. | 翻訳日:2024-10-30 04:42:49 公開日:2024-10-13 |
# TopOC:卵巣・乳癌診断のためのトポロジカルディープラーニング
TopOC: Topological Deep Learning for Ovarian and Breast Cancer Diagnosis ( http://arxiv.org/abs/2410.09818v1 ) ライセンス: Link先を確認 | Saba Fatema, Brighton Nuwagira, Sayoni Chakraborty, Reyhan Gedik, Baris Coskunuzer, | (参考訳) 組織サンプルから調製したスライドの顕微鏡検査は、がんの病変を検出し分類するための主要なツールであり、これは時間を要するプロセスであり、経験豊富な病理医の専門知識を必要とする。
近年の深層学習手法の進歩は, 精度, 再現性, 速度を向上し, 臨床医の負担を減らし, 転回時間を短縮することで, 医療診断や治療計画の強化に大きな可能性を秘めている。
しかし、これらのモデルをトレーニングするための大量のラベル付きデータの必要性は、効果的な臨床決定支援システムの開発にとって大きな障害となっている。
本稿では,既存の病理画像解析モデルの精度と堅牢性を高めるため,トポロジカル深層学習手法の統合を提案する。
トポロジカルデータ分析(TDA)は、異なる色チャネルをまたいだトポロジカルパターンの評価を通じて重要な情報を抽出するユニークなアプローチを提供する。
深層学習は画像から局所的な情報をキャプチャするが、TDA機能は補完的なグローバルな特徴を提供する。
病理組織学的データセットを用いた実験により, 卵巣癌および乳癌の腫瘍型の分化が有意に改善することが明らかとなった。
Microscopic examination of slides prepared from tissue samples is the primary tool for detecting and classifying cancerous lesions, a process that is time-consuming and requires the expertise of experienced pathologists. Recent advances in deep learning methods hold significant potential to enhance medical diagnostics and treatment planning by improving accuracy, reproducibility, and speed, thereby reducing clinicians' workloads and turnaround times. However, the necessity for vast amounts of labeled data to train these models remains a major obstacle to the development of effective clinical decision support systems. In this paper, we propose the integration of topological deep learning methods to enhance the accuracy and robustness of existing histopathological image analysis models. Topological data analysis (TDA) offers a unique approach by extracting essential information through the evaluation of topological patterns across different color channels. While deep learning methods capture local information from images, TDA features provide complementary global features. Our experiments on publicly available histopathological datasets demonstrate that the inclusion of topological features significantly improves the differentiation of tumor types in ovarian and breast cancers. | 翻訳日:2024-10-30 04:42:49 公開日:2024-10-13 |
# DAS3D:Dual-modality Anomaly Synthesis for 3D Anomaly Detection
DAS3D: Dual-modality Anomaly Synthesis for 3D Anomaly Detection ( http://arxiv.org/abs/2410.09821v1 ) ライセンス: Link先を確認 | Kecen Li, Bingquan Dai, Jingjing Fu, Xinwen Hou, | (参考訳) 異常サンプルの合成は, 自己監督型産業用2次元異常検出に有効な方法であることが証明されている。
しかし、このアプローチは、特に3DおよびRGB画像を含む多モード異常検出において、めったに研究されていない。
本稿では,3次元異常を再現可能な3次元異常合成のための新しい2次元モード拡張法を提案する。
そこで,本研究では,2つの異常検出のための2つのモダリティのオリジナルおよび再構築された埋め込みを融合させるために,二重モード判別器を用いた再構成に基づく識別異常検出ネットワークを導入する。
さらに,識別器の一般化性を高めるため,拡張ドロップアウト機構を設計する。
広汎な実験により,本手法は検出精度において最先端の手法よりも優れており,MVTec 3D-ADとEyescandiesの双方のデータセット上での競合セグメンテーション性能を実現していることがわかった。
Synthesizing anomaly samples has proven to be an effective strategy for self-supervised 2D industrial anomaly detection. However, this approach has been rarely explored in multi-modality anomaly detection, particularly involving 3D and RGB images. In this paper, we propose a novel dual-modality augmentation method for 3D anomaly synthesis, which is simple and capable of mimicking the characteristics of 3D defects. Incorporating with our anomaly synthesis method, we introduce a reconstruction-based discriminative anomaly detection network, in which a dual-modal discriminator is employed to fuse the original and reconstructed embedding of two modalities for anomaly detection. Additionally, we design an augmentation dropout mechanism to enhance the generalizability of the discriminator. Extensive experiments show that our method outperforms the state-of-the-art methods on detection precision and achieves competitive segmentation performance on both MVTec 3D-AD and Eyescandies datasets. | 翻訳日:2024-10-30 04:42:49 公開日:2024-10-13 |
# 微調整大言語モデルのための同時計算とメモリ効率のゼロ階数最適化
Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models ( http://arxiv.org/abs/2410.09823v1 ) ライセンス: Link先を確認 | Fei Wang, Li Shen, Liang Ding, Chao Xue, Ye Liu, Changxing Ding, | (参考訳) 微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
これを軽減するための有望なアプローチとしてゼロ階数最適化(ZO)がある。これは、一階数(FO)勾配計算を置き換えるために勾配を推定するが、その確率的な性質のため、より長いトレーニング時間を持つ。
メモリ効率の高いZO(MeZO)オプティマイザを再検討することにより、全パラメータの摂動とプロセスの更新が全体的な微調整時間コストの50%以上を消費していることが分かる。
これらの観測結果に基づき,新しいレイヤワイドスパース計算とメモリ効率の高いZOオプティマイザLeZOを導入する。
LeZOはレイヤをスパース化の基本単位として扱い、各ステップで異なるパラメータサブセットを動的に摂動することで、フルパラメータの微調整を実現する。
LeZOは、同時摂動確率近似 (SPSA) とZO確率勾配降下 (ZO-SGD) の過程において、層幅のパラメータ間隔を取り入れている。
メモリオーバーヘッドを増大させることなく、摂動および更新プロセス中の計算を高速化する。
我々は,SuperGLUEベンチマークと2つの生成タスクにおいて,OPTモデルファミリを用いた広範囲な実験を行った。
実験の結果,LZOはZO最適化の性能を損なうことなく,学習を加速することがわかった。
具体的には、SST-2、BoolQ、CopaタスクのMeZOと比較して3倍のスピードアップを実現している。
Fine-tuning is powerful for adapting large language models to downstream tasks, but it often results in huge memory usages. A promising approach to mitigate this is using Zeroth-Order (ZO) optimization, which estimates gradients to replace First-Order (FO) gradient calculations, albeit with longer training time due to its stochastic nature. By revisiting the Memory-efficient ZO (MeZO) optimizer, we discover that the full-parameter perturbation and updating processes consume over 50% of its overall fine-tuning time cost. Based on these observations, we introduce a novel layer-wise sparse computation and memory efficient ZO optimizer, named LeZO. LeZO treats layers as fundamental units for sparsification and dynamically perturbs different parameter subsets in each step to achieve full-parameter fine-tuning. LeZO incorporates layer-wise parameter sparsity in the process of simultaneous perturbation stochastic approximation (SPSA) and ZO stochastic gradient descent (ZO-SGD). It achieves accelerated computation during perturbation and updating processes without additional memory overhead. We conduct extensive experiments with the OPT model family on the SuperGLUE benchmark and two generative tasks. The experiments show that LeZO accelerates training without compromising the performance of ZO optimization. Specifically, it achieves over 3x speedup compared to MeZO on the SST-2, BoolQ, and Copa tasks. | 翻訳日:2024-10-30 04:42:49 公開日:2024-10-13 |
# 会話による運転シミュレーションの生成
Generating Driving Simulations via Conversation ( http://arxiv.org/abs/2410.09829v1 ) ライセンス: Link先を確認 | Rimvydas Rubavicius, Antonio Valerio Miceli-Barone, Alex Lascarides, Subramanian Ramamoorthy, | (参考訳) 自動運転車のようなサイバー物理システムは、シナリオ仕様のためにドメイン固有のプログラムを使用して、展開前にシミュレーションでテストされる。
シミュレーションにおける自律走行車のテストを支援するため,命令追従型大規模言語モデルを用いた自然言語インタフェースを設計し,望まれるシナリオと車両動作の合成において,非コーディング領域の専門家を支援する。
非常に小さなトレーニングデータセットにもかかわらず、発話をシンボルプログラムに変換するのにそれを使うことは可能であることを示す。
人間の実験により、対話はシミュレーション生成の成功に不可欠であることが示され、拡張された会話に関わらず、世代よりも4.5倍の成功率が得られる。
Cyber-physical systems like autonomous vehicles are tested in simulation before deployment, using domain-specific programs for scenario specification. To aid the testing of autonomous vehicles in simulation, we design a natural language interface, using an instruction-following large language model, to assist a non-coding domain expert in synthesising the desired scenarios and vehicle behaviours. We show that using it to convert utterances to the symbolic program is feasible, despite the very small training dataset. Human experiments show that dialogue is critical to successful simulation generation, leading to a 4.5 times higher success rate than a generation without engaging in extended conversation. | 翻訳日:2024-10-30 04:42:49 公開日:2024-10-13 |
# LoLI-Street: 低照度画像の強調とそれ以上のベンチマーク
LoLI-Street: Benchmarking Low-Light Image Enhancement and Beyond ( http://arxiv.org/abs/2410.09831v1 ) ライセンス: Link先を確認 | Md Tanvir Islam, Inzamamul Alam, Simon S. Woo, Saeed Anwar, IK Hyun Lee, Khan Muhammad, | (参考訳) 低照度画像強調(LLIE)は、オブジェクト検出、追跡、セグメンテーション、シーン理解など、多数のコンピュータビジョンタスクに必須である。
未公開の環境で撮影された低画質画像の改善に関するかなりの研究にもかかわらず、明快なビジョンは、しばしば低照度シナリオに苦しむ自動運転車にとって重要なものであり、継続的な研究の必要性を示している。
しかし、LLIE用のペアデータセットは、特にストリートシーンでは不足しており、堅牢なLLIEメソッドの開発が制限されている。
高度なトランスフォーマーと/または拡散ベースモデルを使っているにもかかわらず、現在のLLIE手法は現実世界の低照度環境で苦労し、ストリートシーンのデータセットのトレーニングを欠いているため、自動運転車の有効性を制限している。
これらのギャップを埋めるために、先進都市の街路シーンから33k対の低照度画像と高露光画像を合成したLoLI-Street(Low-Light Images of Streets)を新たに導入し、オブジェクト検出のための19kのオブジェクトクラスをカバーした。
LoLI-Streetデータセットはまた、実環境下でLLIEモデルをテストするための1,000の実際の低照度テストイメージも備えている。
さらに, 変圧器および拡散型LLIEモデル"TriFuse"を提案する。
LoLI-Streetデータセットを活用して、データセット上でベンチマークするために、TriFuseとSOTAモデルをトレーニングし、評価します。
様々なモデルと比較すると、我々のデータセットの一般化実現可能性は、自律運転および監視システムにおける実践的な応用のために、画像とオブジェクト検出を著しく向上させることにより、さまざまな主流データセット間でのテストにおいて明らかである。
完全なコードとデータセットはhttps://github.com/tanvirnwu/TriFuse.comで入手できる。
Low-light image enhancement (LLIE) is essential for numerous computer vision tasks, including object detection, tracking, segmentation, and scene understanding. Despite substantial research on improving low-quality images captured in underexposed conditions, clear vision remains critical for autonomous vehicles, which often struggle with low-light scenarios, signifying the need for continuous research. However, paired datasets for LLIE are scarce, particularly for street scenes, limiting the development of robust LLIE methods. Despite using advanced transformers and/or diffusion-based models, current LLIE methods struggle in real-world low-light conditions and lack training on street-scene datasets, limiting their effectiveness for autonomous vehicles. To bridge these gaps, we introduce a new dataset LoLI-Street (Low-Light Images of Streets) with 33k paired low-light and well-exposed images from street scenes in developed cities, covering 19k object classes for object detection. LoLI-Street dataset also features 1,000 real low-light test images for testing LLIE models under real-life conditions. Furthermore, we propose a transformer and diffusion-based LLIE model named "TriFuse". Leveraging the LoLI-Street dataset, we train and evaluate our TriFuse and SOTA models to benchmark on our dataset. Comparing various models, our dataset's generalization feasibility is evident in testing across different mainstream datasets by significantly enhancing images and object detection for practical applications in autonomous driving and surveillance systems. The complete code and dataset is available on https://github.com/tanvirnwu/TriFuse. | 翻訳日:2024-10-30 04:42:49 公開日:2024-10-13 |
# パッチレベルの分布シフト下での時系列予測のためのパターン特化専門家の学習
Learning Pattern-Specific Experts for Time Series Forecasting Under Patch-level Distribution Shift ( http://arxiv.org/abs/2410.09836v1 ) ライセンス: Link先を確認 | Yanru Sun, Zongxia Xie, Emadeldeen Eldele, Dongyue Chen, Qinghua Hu, Min Wu, | (参考訳) 時系列予測は、過去のデータに基づいて将来の価値を予測することを目的としており、その広範囲な応用により、大きな注目を集めている。
しかし、実世界の時系列は季節、動作条件、意味的な意味など、様々なパターンを持つ複雑な非一様分布を示すことが多く、正確な予測は困難である。
既存のアプローチでは、これらのさまざまなパターンをキャプチャするために単一のモデルをトレーニングするが、しばしばパッチ間のパターンのドリフトに苦しむため、一般化が不十分になる可能性がある。
これらの課題に対処するために,パターン固有のエキスパートを活用してより正確で適応可能な時系列予測を行う新しいアーキテクチャである「textbf{TFPS}」を提案する。
TFPSは、時間領域と周波数領域の両方の特徴を捉えるためにデュアルドメインエンコーダを使用しており、時間的ダイナミクスをより包括的に理解することができる。
次にサブスペースクラスタリングを使用して、データパッチ間で異なるパターンを動的に識別する。
最後に、パターン固有の専門家は、これらのユニークなパターンをモデル化し、パッチ毎にカスタマイズされた予測を提供する。
進化するパターンを明示的に学習し適応することにより、TFPSは予測精度を大幅に改善する。
実世界のデータセットに対する大規模な実験は、TFPSが動的およびパターン認識学習アプローチを通じて、特に長期予測において最先端の手法よりも優れていることを示した。
データとコードは以下の通りである。
Time series forecasting, which aims to predict future values based on historical data, has garnered significant attention due to its broad range of applications. However, real-world time series often exhibit complex non-uniform distribution with varying patterns across segments, such as season, operating condition, or semantic meaning, making accurate forecasting challenging. Existing approaches, which typically train a single model to capture all these diverse patterns, often struggle with the pattern drifts between patches and may lead to poor generalization. To address these challenges, we propose \textbf{TFPS}, a novel architecture that leverages pattern-specific experts for more accurate and adaptable time series forecasting. TFPS employs a dual-domain encoder to capture both time-domain and frequency-domain features, enabling a more comprehensive understanding of temporal dynamics. It then uses subspace clustering to dynamically identify distinct patterns across data patches. Finally, pattern-specific experts model these unique patterns, delivering tailored predictions for each patch. By explicitly learning and adapting to evolving patterns, TFPS achieves significantly improved forecasting accuracy. Extensive experiments on real-world datasets demonstrate that TFPS outperforms state-of-the-art methods, particularly in long-term forecasting, through its dynamic and pattern-aware learning approach. The data and codes are available: \url{https://github.com/syrGitHub/TFPS}. | 翻訳日:2024-10-30 04:42:48 公開日:2024-10-13 |
# RISC-Vはセキュアな"Wheels"を必要としている - MCU開始者側の視点から
RISC-V Needs Secure 'Wheels': the MCU Initiator-Side Perspective ( http://arxiv.org/abs/2410.09839v1 ) ライセンス: Link先を確認 | Sandro Pinto, Jose Martins, Manuel Rodriguez, Luis Cunha, Georg Schmalz, Uwe Moslehner, Kai Dieffenbach, Thomas Roecker, | (参考訳) 自動車業界は大きなパラダイムシフトを経験しています。
車はますます自律的でコネクテッドでコンピュータ化されつつある。
現代の電気/電子(E/E)アーキテクチャは、予期せぬ機能統合密度を推し進めており、物理的に分離された電子制御ユニット(ECU)は仮想化され、単一の物理マイクロコントローラ(MCU)内の論理的パーティションにマッピングされる。
機能安全(FuSa)は、何十年にもわたって車の認証において重要な役割を担ってきたが、コネクティビティ(コネクティ)と進歩によって、多くの自動車ハッキングや攻撃の扉が開かれた。
この開発は自動車のセキュリティ要件を推進し、新しいセキュリティ認証標準ISO21434のリリースの道を開いた。
RISC-Vは、自動車コンピューティングシステムを変革する大きな可能性を秘めていますが、現在のISA/拡張はまだ準備ができていません。
本稿では,既存のRISC-V制限,特に今後のWorldGuard技術に関して,先進的な自動車アプリケーションやISO21434ディレクティブに則って,仮想化MCU要件に対処するための重要な視点を提供する。
次に、主に開始者側の保護を対象とする、そのような制限に対処するために必要なISA拡張の提案を示す。
最後に、オープンソースのRISC-VコアであるQEMUを拡張し、完全なソフトウェアスタックを構築することを含む、完全なオープンソース概念実証(PoC)に向けたロードマップを説明します。
The automotive industry is experiencing a massive paradigm shift. Cars are becoming increasingly autonomous, connected, and computerized. Modern electrical/electronic (E/E) architectures are pushing for an unforeseen functionality integration density, resulting in physically separate Electronic Control Units (ECUs) becoming virtualized and mapped to logical partitions within a single physical microcontroller (MCU). While functional safety (FuSa) has been pivotal for vehicle certification for decades, the increasing connectivity and advances have opened the door for a number of car hacks and attacks. This development drives (cyber-)security requirements in cars, and has paved the way for the release of the new security certification standard ISO21434. RISC-V has great potential to transform automotive computing systems, but we argue that current ISA/extensions are not ready yet. This paper provides our critical perspective on the existing RISC-V limitations, particularly on the upcoming WorldGuard technology, to address virtualized MCU requirements in line with foreseen automotive applications and ISO21434 directives. We then present our proposal for the required ISA extensions to address such limitations, mainly targeting initiator-side protection. Finally, we explain our roadmap towards a full open-source proof-of-concept (PoC), which includes extending QEMU, an open-source RISC-V core, and building a complete software stack. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# 異なるデータ型のための対称性発見
Symmetry Discovery for Different Data Types ( http://arxiv.org/abs/2410.09841v1 ) ライセンス: Link先を確認 | Lexiang Hu, Yikang Li, Zhouchen Lin, | (参考訳) 等価ニューラルネットワークは、そのアーキテクチャに対称性を取り入れ、より高度な一般化性能を実現する。
しかし、同変ニューラルネットワークの構築にはデータ型や対称性に関する事前の知識が必要であり、ほとんどのタスクでは達成が難しい。
本稿では,タスクの入出力マッピングを近似したトレーニングニューラルネットワークによる対称性発見手法であるLieSDを提案する。
リー代数(英語版)を用いて連続群の等分散と不変(特別の場合)を特徴づけ、訓練されたニューラルネットワークの入力、出力、勾配を通じてリー代数空間を直接解決する。
次に,マルチチャネルデータとテンソルデータにそれぞれ適用できるように拡張する。
我々は,2体問題,慣性行列予測のモーメント,トップクォークタグ付けといった課題におけるLieSDの性能を検証した。
ベースラインと比較すると、LieSDは高価なグループサンプリングを必要とせずにリー代数基底の数を正確に決定できる。
さらに、LieSDは非一様データセットでうまく機能するが、GANに基づくメソッドは失敗する。
Equivariant neural networks incorporate symmetries into their architecture, achieving higher generalization performance. However, constructing equivariant neural networks typically requires prior knowledge of data types and symmetries, which is difficult to achieve in most tasks. In this paper, we propose LieSD, a method for discovering symmetries via trained neural networks which approximate the input-output mappings of the tasks. It characterizes equivariance and invariance (a special case of equivariance) of continuous groups using Lie algebra and directly solves the Lie algebra space through the inputs, outputs, and gradients of the trained neural network. Then, we extend the method to make it applicable to multi-channel data and tensor data, respectively. We validate the performance of LieSD on tasks with symmetries such as the two-body problem, the moment of inertia matrix prediction, and top quark tagging. Compared with the baseline, LieSD can accurately determine the number of Lie algebra bases without the need for expensive group sampling. Furthermore, LieSD can perform well on non-uniform datasets, whereas methods based on GANs fail. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# デンプスター・シェーファー理論を用いた融合型手形状認識
Fusion Based Hand Geometry Recognition Using Dempster-Shafer Theory ( http://arxiv.org/abs/2410.09842v1 ) ライセンス: Link先を確認 | Asish Bera, Debotosh Bhattacharjee, Mita Nasipuri, | (参考訳) 本稿では,両手の幾何学的特徴の融合に基づく人物認識のための新しい手法を提案する。
すべての特徴は、正常化された左右の画像から抽出される。
融合は機能レベルでも決定レベルでも適用されます。
確率に基づく2つのアルゴリズムを分類するために提案する。
最初のアルゴリズムは、最も近い3つの隣人の最大確率を計算する。
第2のアルゴリズムは、距離のしきい値に対する一致した特徴数の最大確率を決定する。
これら2つの最も高い確率に基づいて、最初の決定が下される。
最終決定は、証拠のデンプスター・シェーファー理論によって計算される最も高い確率で考慮される。
初期決定の様々な組み合わせにより、識別と検証のための3つのスキームを201の被験者で実験する。
正解率は99.5%、偽受容率(FAR)は0.625%である。
This paper presents a new technique for person recognition based on the fusion of hand geometric features of both the hands without any pose restrictions. All the features are extracted from normalized left and right hand images. Fusion is applied at feature level and also at decision level. Two probability based algorithms are proposed for classification. The first algorithm computes the maximum probability for nearest three neighbors. The second algorithm determines the maximum probability of the number of matched features with respect to a thresholding on distances. Based on these two highest probabilities initial decisions are made. The final decision is considered according to the highest probability as calculated by the Dempster-Shafer theory of evidence. Depending on the various combinations of the initial decisions, three schemes are experimented with 201 subjects for identification and verification. The correct identification rate found to be 99.5%, and the False Acceptance Rate (FAR) of 0.625% has been found during verification. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# HASN:高能率画像超解像のためのハイブリッドアテンション分離ネットワーク
HASN: Hybrid Attention Separable Network for Efficient Image Super-resolution ( http://arxiv.org/abs/2410.09844v1 ) ライセンス: Link先を確認 | Weifeng Cao, Xiaoyan Lei, Jun Shi, Wanyong Liang, Jie Liu, Zongfei Bai, | (参考訳) 近年,シングルイメージ超解像(SISR)の軽量化が注目され,ハードウェアリソースの制限により性能が向上している。
これらの手法は, 残像蒸留の導入が性能向上の有効な方法であることを示す。
しかし,各ブロックの後に残差接続を用いることで,モデルの記憶と計算コストが増大することが判明した。
そこで,ネットワーク構造を単純化し,機能間の高レベルな特徴や関係を学習するために,奥行き分離可能な畳み込み,完全連結層,アクティベーション関数を基本的特徴抽出モジュールとして利用する。
これにより、強力な特徴抽出能力を維持しながら、計算負荷とパラメータの数を大幅に削減できる。
モデル性能をさらに向上するために,チャネルの注意と空間の注意を組み合わせたハイブリッド注意分離ブロック(HASB)を提案する。
さらに、標準的な畳み込みではなく、奥行き分離可能な畳み込みを使い、強力な特徴抽出能力を保ちながら、計算負荷とパラメータ数を大幅に削減する。
トレーニングフェーズでは、モデルの可能性をさらに活用するために、ウォームスタートリトレーニング戦略も採用しています。
大規模な実験は、我々のアプローチの有効性を実証する。
提案手法は, 性能を損なうことなく, モデルサイズを小さくし, 計算複雑性を小さくする。
コードはhttps://github.com/nathan66666/HASN.gitで入手できる。
Recently, lightweight methods for single image super-resolution (SISR) have gained significant popularity and achieved impressive performance due to limited hardware resources. These methods demonstrate that adopting residual feature distillation is an effective way to enhance performance. However, we find that using residual connections after each block increases the model's storage and computational cost. Therefore, to simplify the network structure and learn higher-level features and relationships between features, we use depthwise separable convolutions, fully connected layers, and activation functions as the basic feature extraction modules. This significantly reduces computational load and the number of parameters while maintaining strong feature extraction capabilities. To further enhance model performance, we propose the Hybrid Attention Separable Block (HASB), which combines channel attention and spatial attention, thus making use of their complementary advantages. Additionally, we use depthwise separable convolutions instead of standard convolutions, significantly reducing the computational load and the number of parameters while maintaining strong feature extraction capabilities. During the training phase, we also adopt a warm-start retraining strategy to exploit the potential of the model further. Extensive experiments demonstrate the effectiveness of our approach. Our method achieves a smaller model size and reduced computational complexity without compromising performance. Code can be available at https://github.com/nathan66666/HASN.git | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# 画像分類におけるパラメータ効率の高いチューニングのロバストさの理解
Understanding Robustness of Parameter-Efficient Tuning for Image Classification ( http://arxiv.org/abs/2410.09845v1 ) ライセンス: Link先を確認 | Jiacheng Ruan, Xian Gao, Suncheng Xiang, Mingye Xie, Ting Liu, Yuzhuo Fu, | (参考訳) パラメータ効率チューニング(PET)技術は、事前学習されたモデルの凍結と少数の学習可能なパラメータの導入によって、下流タスクにおけるモデルの予測を調整する。
しかし,多くのPET法が提案されているにもかかわらず,その堅牢性は十分には研究されていない。
本稿では,4つの古典的PET技術(VPT,Adapter,AdaptFormer,LoRA)のロバスト性を,ホワイトボックス攻撃と情報摂動の両方で体系的に検討する。
ホワイトボックス攻撃の場合、まずFGSMとPGD攻撃を用いてPET技術の性能を解析する。
さらに, 学習可能なパラメータ量がPET法のロバスト性に及ぼす影響について検討した。
情報摂動攻撃では,Patch-wise Drop, Pixel-wise Drop, Patch Shuffle, Gaussian Noiseの4つの異なる摂動戦略を導入する。
これらの広範な研究により,PET法の堅牢性に対する理解が深まり,コンピュータビジョンアプリケーションの性能向上に資する貴重な知見が得られている。
コードはhttps://github.com/JCruan519/PETRobustnessで入手できる。
Parameter-efficient tuning (PET) techniques calibrate the model's predictions on downstream tasks by freezing the pre-trained models and introducing a small number of learnable parameters. However, despite the numerous PET methods proposed, their robustness has not been thoroughly investigated. In this paper, we systematically explore the robustness of four classical PET techniques (e.g., VPT, Adapter, AdaptFormer, and LoRA) under both white-box attacks and information perturbations. For white-box attack scenarios, we first analyze the performance of PET techniques using FGSM and PGD attacks. Subsequently, we further explore the transferability of adversarial samples and the impact of learnable parameter quantities on the robustness of PET methods. Under information perturbation attacks, we introduce four distinct perturbation strategies, including Patch-wise Drop, Pixel-wise Drop, Patch Shuffle, and Gaussian Noise, to comprehensively assess the robustness of these PET techniques in the presence of information loss. Via these extensive studies, we enhance the understanding of the robustness of PET methods, providing valuable insights for improving their performance in computer vision applications. The code is available at https://github.com/JCruan519/PETRobustness. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# パラメータ効率学習のための量子回路に基づく圧縮視点
A Quantum Circuit-Based Compression Perspective for Parameter-Efficient Learning ( http://arxiv.org/abs/2410.09846v1 ) ライセンス: Link先を確認 | Chen-Yu Liu, Chao-Han Huck Yang, Min-Hsiu Hsieh, Hsi-Sheng Goan, | (参考訳) 量子中心型スーパーコンピューティングは、大規模ハイブリッド量子古典的タスクのための魅力的なフレームワークを提供する。
量子機械学習(QML)は様々なアプリケーションに理論的利点をもたらすが、入力段階での大規模データ符号化や推論段階での量子リソースへの依存といった課題は、大規模言語モデル(LLM)の微調整のようなタスクに対する実用性を制限する。
QMLの新しいアプローチである量子パラメータ生成は、量子ニューラルネットワーク(QNN)を使用してトレーニング中にのみ古典的なモデルウェイト(パラメータ)を生成し、量子ハードウェアからの推論を分離することで、これらの制限に対処する。
本研究では,量子パラメータ生成のフレームワークに量子パラメータ適応(QPA)を導入し,QNNと古典的多層パーセプトロンマッピングモデルを統合し,微調整手法のパラメータを生成する。
Gemma-2 と GPT-2 をケーススタディとして、QPA は低ランク適応 (LoRA) のようなパラメータ効率の高い微調整手法に対して、テキスト生成タスクにおいて同等あるいは改善された性能を維持しながら、重要なパラメータ削減を示す。
具体的には、QPA はパラメータの数を GPT-2 のオリジナルの LoRA の 52.06\%$ に減らし、パフォーマンスは 0.75\%$ 、Gemma-2 の 16.84\%$ に減らした。
これらの結果から,量子パラメータ生成フレームワークの性能を犠牲にすることなく,効率的なパラメータ削減を実現するQPAの能力を強調した。
この研究は、古典的ハードウェアにおける推論の実現可能性を維持しながら、微調整 LLM のためのスケーラブルな量子古典解を提供する量子拡張パラメータ還元の可能性を示す。
Quantum-centric supercomputing presents a compelling framework for large-scale hybrid quantum-classical tasks. Although quantum machine learning (QML) offers theoretical benefits in various applications, challenges such as large-size data encoding in the input stage and the reliance on quantum resources in the inference stage limit its practicality for tasks like fine-tuning large language models (LLMs). Quantum parameter generation, a novel approach of QML, addresses these limitations by using quantum neural networks (QNNs) to generate classical model weights (parameters) exclusively during training, thereby decoupling inference from quantum hardware. In this work, we introduce Quantum Parameter Adaptation (QPA) in the framework of quantum parameter generation, which integrates QNNs with a classical multi-layer perceptron mapping model to generate parameters for fine-tuning methods. Using Gemma-2 and GPT-2 as case studies, QPA demonstrates significant parameter reduction for parameter-efficient fine-tuning methods, such as Low-Rank Adaptation (LoRA), while maintaining comparable or improved performance in text generation tasks. Specifically, QPA reduces the number of parameters to $52.06\%$ of the original LoRA for GPT-2 with a slight performance gain of $0.75\%$, and to $16.84\%$ for Gemma-2, with a marginal performance improvement of $0.07\%$. These results highlight QPA's ability to achieve efficient parameter reduction without sacrificing performance in the quantum parameter generation framework. This work showcases the potential of quantum-enhanced parameter reduction, offering a scalable quantum-classical solution for fine-tuning LLMs while preserving the feasibility of inference on classical hardware. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# 位相調整によるハイブリッドオプティメカルシステムにおける量子相関
Quantum correlations enhanced in hybrid optomechanical system via phase tuning ( http://arxiv.org/abs/2410.09848v1 ) ライセンス: Link先を確認 | K. B. Emale, J. -X. Peng, P. Djorwe, A. K. Sarma, Abdourahimi, A. -H. Abdel-Aty, K. S. Nisar, S. G. N. Engo, | (参考訳) この研究は、原子アンサンブルをホストするハイブリッド二重キャビティ光学系における量子相関を強化する理論的枠組みを示す。
共振器1と原子アンサンブルの結合位相$\phi$が量子相関、すなわち二部/三部量子絡み合いと量子不協和を最適化する役割について検討する。
両部交絡に対する対数ネガティビティや真の三部交絡に対する最小残差等角といった指標を用いることで、光子-フォノン交絡の最大化には位相 $\phi$ のチューニングが不可欠であることを示す。
具体的には、最適な絡み合いは$\phi=n\pi$で発生し、奇数や偶数に対する異なる条件は$n$である。
また,本システムにおける量子絡み合いは熱ゆらぎに対して頑健であり,量子情報処理や量子コンピューティングへの応用には有望な候補であることを示す。
さらに、量子相関の制御における位相調整の重要性を強調し、量子技術の進歩への道を開く。
This work presents a theoretical framework for enhancing quantum correlations in a hybrid double-cavity optomechanical system that hosts an atomic ensemble. We investigate the role of the coupling phase $\phi$ between cavity 1 and the atomic ensemble in optimizing quantum correlations, i.e., bipartite/tripartite quantum entanglement and quantum discord. By employing metrics such as logarithmic negativity for bipartite entanglement and minimum residual contangle for genuine tripartite entanglement, we demonstrate that tuning the phase $\phi$ is essential for maximizing photon-phonon entanglement. Specifically, we find that optimal entanglement occurs at $\phi=n\pi$, with distinct conditions for odd and even integers $n$. Our results also indicate that the quantum entanglement achieved in this system is robust against thermal fluctuations, making it a promising candidate for applications in quantum information processing and quantum computing. Furthermore, this research highlights the significance of phase tuning in controlling quantum correlations, paving the way for advancements in quantum technologies. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# 単一プロンプトによるモデル構築 - 質問分割によるLLMベースのドメインモデリング
A Model Is Not Built By A Single Prompt: LLM-Based Domain Modeling With Question Decomposition ( http://arxiv.org/abs/2410.09854v1 ) ライセンス: Link先を確認 | Ru Chen, Jingwei Shen, Xiao He, | (参考訳) ドメインモデリングは、モデル駆動エンジニアリングの重要な部分であり、エンジニアから広範なドメイン知識と経験を要求する。
システム記述が非常に複雑になると、モデリングタスクは特に困難になり、時間がかかります。
大規模言語モデル(LLM)は、システム記述から初期オブジェクトモデルを自動的に生成することで支援できる。
LLMは顕著なコード生成能力を示しているが、単一のプロンプトを使ってモデル生成に苦戦している。
現実世界のドメインモデリングでは、エンジニアは通常、複雑なタスクを簡単に解けるサブタスクに分解し、複雑さを著しく制御し、モデル品質を向上させる。
この問題に触発されて,開発者のモデリングプロセスに類似した質問分解によるLLMに基づくドメインモデリング手法を提案する。
従来のモデリングガイドラインに従って、モデル生成タスクをいくつかのサブタスク、すなわちクラス生成、アソシエーションとアグリゲーション生成、継承生成に分割する。
各サブタスクに対して、より効率的なクエリワードを選択し、LLMのモデリングポテンシャルを解き放つために必要なモデリング知識を提供することにより、プロンプトを慎重に設計する。
全てのサブタスクソリューションをまとめるために,標準Ecoreエディタに統合されたオブジェクト証明ツールを実装し,システム記述からオブジェクトモデルを生成する。
異なるアプリケーションドメインから20のシステムでアプローチを評価します。
予備的な結果から,本手法は,クラス,属性,関係性をモデル化するほとんどのシステムにおいて,リコール値とF1スコアを改善することにより,単一プロンプトベースのプロンプトよりも優れていた。
Domain modeling, a crucial part of model-driven engineering, demands extensive domain knowledge and experience from engineers. When the system description is highly complicated, the modeling task can become particularly challenging and time-consuming. Large language Models(LLMs) can assist by automatically generating an initial object model from the system description. Although LLMs have demonstrated remarkable code-generation ability, they still struggle with model-generation using a single prompt. In real-world domain modeling, engineers usually decompose complex tasks into easily solvable sub-tasks, significantly controlling complexity and enhancing model quality. Inspired by this, we propose an LLM-based domain modeling approach via question decomposition, similar to developer's modeling process. Following conventional modeling guidelines, we divide the model generation task into several sub-tasks, i.e., class generation, association and aggregation generation, and inheritance generation. For each sub-task, we carefully design the prompt by choosing more efficient query words and providing essential modeling knowledge to unlock the modeling potential of LLMs. To sum up all the sub-tasks solutions, we implemente a proof-of-object tool integrated into the standard Ecore editor that asks LLMs to generate an object model from the system description. We evaluate our approach with 20 systems from different application domains. The preliminary results show that our approach outperforms the single-prompt-based prompt by improving recall values and F1 scores in most systems for modeling the classes, attributes, and relationships. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# Text4Seg: 画像セグメンテーションをテキスト生成として再定義する
Text4Seg: Reimagining Image Segmentation as Text Generation ( http://arxiv.org/abs/2410.09855v1 ) ライセンス: Link先を確認 | Mengcheng Lan, Chaofeng Chen, Yue Zhou, Jiaxing Xu, Yiping Ke, Xinjiang Wang, Litong Feng, Wayne Zhang, | (参考訳) MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて例外的な機能を示しているが、これらのモデルに画像セグメンテーションを効果的に統合することは大きな課題である。
本稿では,テキスト生成問題としてイメージセグメンテーションを論じ,デコーダの追加の必要性を排除し,セグメンテーションプロセスを大幅に単純化する,新しいテキスト・アズ・マスク・パラダイムであるText4Segを紹介する。
セグメンテーションマスクの新しいテキスト表現で、各画像パッチを対応するテキストラベルにマッピングします。
この統一表現により、MLLMの自動回帰トレーニングパイプラインへのシームレスな統合が可能になり、最適化が容易になる。
16\times16$のセマンティック記述子で画像を表現すれば、競合セグメンテーション性能が得られることを示す。
効率を向上させるために、冗長なテキストシーケンスを圧縮し、セマンティック記述子の長さを74%削減し、性能を損なうことなく$3\times$の推論を高速化するRow-wise Run-Length Encoding (R-RLE)を導入する。
Text4Segは、さまざまなMLLMバックボーンを微調整することで、複数のデータセット上で最先端のパフォーマンスを達成することを示す。
私たちのアプローチは、MLLMフレームワーク内のビジョン中心のタスクに対して、効率的でスケーラブルなソリューションを提供します。
Multimodal Large Language Models (MLLMs) have shown exceptional capabilities in vision-language tasks; however, effectively integrating image segmentation into these models remains a significant challenge. In this paper, we introduce Text4Seg, a novel text-as-mask paradigm that casts image segmentation as a text generation problem, eliminating the need for additional decoders and significantly simplifying the segmentation process. Our key innovation is semantic descriptors, a new textual representation of segmentation masks where each image patch is mapped to its corresponding text label. This unified representation allows seamless integration into the auto-regressive training pipeline of MLLMs for easier optimization. We demonstrate that representing an image with $16\times16$ semantic descriptors yields competitive segmentation performance. To enhance efficiency, we introduce the Row-wise Run-Length Encoding (R-RLE), which compresses redundant text sequences, reducing the length of semantic descriptors by 74% and accelerating inference by $3\times$, without compromising performance. Extensive experiments across various vision tasks, such as referring expression segmentation and comprehension, show that Text4Seg achieves state-of-the-art performance on multiple datasets by fine-tuning different MLLM backbones. Our approach provides an efficient, scalable solution for vision-centric tasks within the MLLM framework. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# フィンガー幾何学的プロファイルから選択された特徴を用いた人間の識別
Human Identification using Selected Features from Finger Geometric Profiles ( http://arxiv.org/abs/2410.09856v1 ) ライセンス: Link先を確認 | Asish Bera, Debotosh Bhattacharjee, | (参考訳) 本稿では,非拘束環境における指の生体計測システムについて述べる。
主手輪郭を指の高さの形状表現に分解する前処理段階で手動画像正規化を行う。
この正規化手法は, 2手輪郭画像から2手輪郭画像に変換された2手輪郭画像のサブトラクションを追従し,指先プロファイル(LSFP)の左側を生成する。
そして、LSFP画像及び手輪郭画像にXORを適用して、指プロファイルの右側(RSFP)を生成する。
特徴抽出の際には、まず、正規化されたすべての指から30の幾何学的特徴が計算される。
ランクベースフォワードフォワードグリーディアルゴリズムは、関連する特徴を選別し、分類精度を高める。
kNNとRandom Forest(RF)を使ってBosphorusハンドデータベースに分類した2つの別々の実験のために、指1本につき9と12の識別的特徴を含む2つの特徴の異なるサブセットが選択される。
親指以外の4本の指の特徴を抽出した実験では,5本の指の特徴や,Bosphorusデータベースで評価された他の方法と比較して,性能が向上した。
RF分類器を用いた96.56%と95.92%の最良の識別精度は、638個のサブオブジェクトの左右の画像に対してそれぞれ達成されている。
両手画像に対して、等値誤差率0.078を得る。
A finger biometric system at an unconstrained environment is presented in this paper. A technique for hand image normalization is implemented at the preprocessing stage that decomposes the main hand contour into finger-level shape representation. This normalization technique follows subtraction of transformed binary image from binary hand contour image to generate the left side of finger profiles (LSFP). Then, XOR is applied to LSFP image and hand contour image to produce the right side of finger profiles (RSFP). During feature extraction, initially, thirty geometric features are computed from every normalized finger. The rank-based forward-backward greedy algorithm is followed to select relevant features and to enhance classification accuracy. Two different subsets of features containing nine and twelve discriminative features per finger are selected for two separate experimentations those use the kNN and the Random Forest (RF) for classification on the Bosphorus hand database. The experiments with the selected features of four fingers except the thumb have obtained improved performances compared to features extracted from five fingers and also other existing methods evaluated on the Bosphorus database. The best identification accuracies of 96.56% and 95.92% using the RF classifier have been achieved for the right- and left-hand images of 638 sub-jects, respectively. An equal error rate of 0.078 is obtained for both types of the hand images. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# 一般特徴指数の潜在表現に基づく点雲の新規性検出
Point Cloud Novelty Detection Based on Latent Representations of a General Feature Extractor ( http://arxiv.org/abs/2410.09861v1 ) ライセンス: Link先を確認 | Shizuka Akahori, Satoshi Iizuka, Ken Mawatari, Kazuhiro Fukui, | (参考訳) 本稿では, 汎用クラウド特徴抽出器と一級分類器を併用した, 効率的な非教師なし3次元点雲ノベルティ検出手法を提案する。
一般的な特徴抽出器は、グラフベースのオートエンコーダからなり、正規/異常カテゴリに依存しない数学的に生成されたフラクタル3Dポイントクラウドデータセットのようなポイントクラウドデータセットで一度訓練される。
入力点雲は、まず一般特徴抽出器によって潜時ベクトルに変換し、次いで潜時ベクトル上で一級分類を行う。
従来の3次元座標空間の再構成誤差測定手法と比較して,形状情報を凝縮した潜在表現を用いて,より直接的かつ効果的な新規性検出を可能にする。
一般特徴抽出器は未知のカテゴリの形状特徴を抽出し,オートエンコーダの再学習の必要性を排除し,計算負担を軽減できることを確認した。
本研究では,ShapeNetデータセットのいくつかのサブセットで実験を行い,提案手法の有効性を検証する。
We propose an effective unsupervised 3D point cloud novelty detection approach, leveraging a general point cloud feature extractor and a one-class classifier. The general feature extractor consists of a graph-based autoencoder and is trained once on a point cloud dataset such as a mathematically generated fractal 3D point cloud dataset that is independent of normal/abnormal categories. The input point clouds are first converted into latent vectors by the general feature extractor, and then one-class classification is performed on the latent vectors. Compared to existing methods measuring the reconstruction error in 3D coordinate space, our approach utilizes latent representations where the shape information is condensed, which allows more direct and effective novelty detection. We confirm that our general feature extractor can extract shape features of unseen categories, eliminating the need for autoencoder re-training and reducing the computational burden. We validate the performance of our method through experiments on several subsets of the ShapeNet dataset and demonstrate that our latent-based approach outperforms the existing methods. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# AuthFace: 顔指向生成拡散を用いた認証ブラインド顔復元に向けて
AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior ( http://arxiv.org/abs/2410.09864v1 ) ライセンス: Link先を確認 | Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang, | (参考訳) ブラインド顔復元(BFR)は、コンピュータビジョンにおける基本的な問題である。
高品質な(本社)写真を品質の悪いものから忠実に復元するために、最近の研究は、主に強力な事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルからの顔画像に頼っている。
しかし、そのような先行は、しばしば非顔的特徴の誤った生成と顔の詳細の不足を招き、現実のアプリケーションでは実用的でない。
本稿では,顔指向生成拡散を先行して探索することにより,顔復元の精度を高める新しいフレームワークであるAuthFaceを提案する。
このような事前を学習するために、私たちはまず1.5Kの高品質な画像のデータセットを収集し、解像度は8Kを超え、プロの写真家が捉えた。
データセットに基づいて、トレーニング済みのT2Iモデルを微調整する、顔指向の復元調整パイプラインを導入する。
画質優先アノテーションと写真誘導アノテーションの重要な基準を同定し、リッチな顔特徴を示す高品質な画像に対する写真家の指導の下で、修正とレビューのプロセスを含む。
写真誘導アノテーションシステムは、これらの高品質な写真画像の可能性を完全に探求する。
このように、事前訓練されたT2I拡散モデルから得られる強力な自然画像は微妙に利用でき、特に顔のディテール復元におけるその能力を高めることができる。
また,目や口などの重要な顔面領域のアーチファクトを最小限に抑えるため,顔の復元過程の学習に時間を要する潜伏顔の特徴損失を提案する。
人工的および実世界のBFRデータセットに関する大規模な実験は、我々のアプローチの優位性を実証している。
Blind face restoration (BFR) is a fundamental and challenging problem in computer vision. To faithfully restore high-quality (HQ) photos from poor-quality ones, recent research endeavors predominantly rely on facial image priors from the powerful pretrained text-to-image (T2I) diffusion models. However, such priors often lead to the incorrect generation of non-facial features and insufficient facial details, thus rendering them less practical for real-world applications. In this paper, we propose a novel framework, namely AuthFace that achieves highly authentic face restoration results by exploring a face-oriented generative diffusion prior. To learn such a prior, we first collect a dataset of 1.5K high-quality images, with resolutions exceeding 8K, captured by professional photographers. Based on the dataset, we then introduce a novel face-oriented restoration-tuning pipeline that fine-tunes a pretrained T2I model. Identifying key criteria of quality-first and photography-guided annotation, we involve the retouching and reviewing process under the guidance of photographers for high-quality images that show rich facial features. The photography-guided annotation system fully explores the potential of these high-quality photographic images. In this way, the potent natural image priors from pretrained T2I diffusion models can be subtly harnessed, specifically enhancing their capability in facial detail restoration. Moreover, to minimize artifacts in critical facial areas, such as eyes and mouth, we propose a time-aware latent facial feature loss to learn the authentic face restoration process. Extensive experiments on the synthetic and real-world BFR datasets demonstrate the superiority of our approach. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# SynFER: 表情認識を合成データで強化する
SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data ( http://arxiv.org/abs/2410.09865v1 ) ライセンス: Link先を確認 | Xilin He, Cheng Luo, Xiaole Xian, Bing Li, Siyang Song, Muhammad Haris Khan, Weicheng Xie, Linlin Shen, Zongyuan Ge, | (参考訳) 顔の表情データセットは、プライバシの懸念、アノテーションの主観性、データ収集の労働集約性により、規模が限られている。
この制限は、最適なパフォーマンスのために大規模データに依存する、現代のディープラーニングベースの表情分析モデル、特に基礎モデルを開発する上で大きな課題となる。
この課題に対処するために,ハイレベルなテキスト記述に基づく表情画像データの合成フレームワークであるSynFER(Synthesis of Facial Expressions with Refined Control)を導入する。
合成データの質と信頼性を確保するため,合成画像の表情ラベルの修正を支援するために,生成プロセスと擬似ラベル生成装置を操る意味指導手法を提案する。
そこで我々は,合成データと実世界のデータの両方を用いた表現学習に関する広範な実験を行った。
実験結果は,提案手法の有効性と合成データの有効性を検証した。
特に,AffectNetのトレーニングセットサイズに相当する合成データのみを用いてトレーニングすると,AffectNetの67.23%の分類精度が達成され,元の5倍までスケールアップすると69.84%に向上する。
私たちのコードは公開されます。
Facial expression datasets remain limited in scale due to privacy concerns, the subjectivity of annotations, and the labor-intensive nature of data collection. This limitation poses a significant challenge for developing modern deep learning-based facial expression analysis models, particularly foundation models, that rely on large-scale data for optimal performance. To tackle the overarching and complex challenge, we introduce SynFER (Synthesis of Facial Expressions with Refined Control), a novel framework for synthesizing facial expression image data based on high-level textual descriptions as well as more fine-grained and precise control through facial action units. To ensure the quality and reliability of the synthetic data, we propose a semantic guidance technique to steer the generation process and a pseudo-label generator to help rectify the facial expression labels for the synthetic images. To demonstrate the generation fidelity and the effectiveness of the synthetic data from SynFER, we conduct extensive experiments on representation learning using both synthetic data and real-world data. Experiment results validate the efficacy of the proposed approach and the synthetic data. Notably, our approach achieves a 67.23% classification accuracy on AffectNet when training solely with synthetic data equivalent to the AffectNet training set size, which increases to 69.84% when scaling up to five times the original size. Our code will be made publicly available. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# 特徴選択を伴うハンドCAPTCHAとアンチスプーフフィンガーバイオメトリックスを用いた2段階人体認証
Two-Stage Human Verification using HandCAPTCHA and Anti-Spoofed Finger Biometrics with Feature Selection ( http://arxiv.org/abs/2410.09866v1 ) ライセンス: Link先を確認 | Asish Bera, Debotosh Bhattacharjee, Hubert P H Shum, | (参考訳) 本稿では、攻撃の脆弱性を克服し、セキュリティを高めるために、2つの独立した段階における人間による検証手法を提案する。
第1段階では、手動画像に基づくCAPTCHA(HandCAPTCHA)がテストされ、その後の生体計測段階における自動ボット攻撃を回避する。
次の段階では、ランダムなHandCAPTCHAチャレンジをパスした人の実手画像を用いて、提示攻撃検出(PAD)を用いて、正当なユーザの指生体認証を行う。
電子スクリーンベースのPADは、画像品質指標を用いてテストされる。
この偽造検出の後、実際のユーザの4本の指(親指を除く)から幾何学的特徴を抽出する。
M-FoBa (Modified forward-backward, M-FoBa) アルゴリズムは, 生体認証に有効な特徴を選択するために考案されたアルゴリズムである。
実験はBogazici University (BU) と IIT-Delhi (IITD) のハンドデータベース上で, k-アネレスト近傍とランダム森林分類器を用いて行った。
正しいHandCAPTCHAソリューションの平均精度は98.5%であり、ボットの偽受け入れ率は1.23%である。
PADはBUの255の被験者でテストされ、最高の平均誤差は0%である。
指の生体認証精度は98%、EERは6.5%である。
IITDの200名に対して、99.5%の識別精度、5.18%のEERが得られる。
This paper presents a human verification scheme in two independent stages to overcome the vulnerabilities of attacks and to enhance security. At the first stage, a hand image-based CAPTCHA (HandCAPTCHA) is tested to avert automated bot-attacks on the subsequent biometric stage. In the next stage, finger biometric verification of a legitimate user is performed with presentation attack detection (PAD) using the real hand images of the person who has passed a random HandCAPTCHA challenge. The electronic screen-based PAD is tested using image quality metrics. After this spoofing detection, geometric features are extracted from the four fingers (excluding the thumb) of real users. A modified forward-backward (M-FoBa) algorithm is devised to select relevant features for biometric authentication. The experiments are performed on the Bogazici University (BU) and the IIT-Delhi (IITD) hand databases using the k-nearest neighbor and random forest classifiers. The average accuracy of the correct HandCAPTCHA solution is 98.5%, and the false accept rate of a bot is 1.23%. The PAD is tested on 255 subjects of BU, and the best average error is 0%. The finger biometric identification accuracy of 98% and an equal error rate (EER) of 6.5% have been achieved for 500 subjects of the BU. For 200 subjects of the IITD, 99.5% identification accuracy, and 5.18% EER are obtained. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# グラフニューラルネットワークにおけるエッジ埋め込み値のキャラクタリゼーション
Towards characterizing the value of edge embeddings in Graph Neural Networks ( http://arxiv.org/abs/2410.09867v1 ) ライセンス: Link先を確認 | Dhruv Rohatgi, Tanya Marwah, Zachary Chase Lipton, Jianfeng Lu, Ankur Moitra, Andrej Risteski, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ上で定義された機械学習問題を解決する主要なアプローチである。
近年の理論的かつ実証的な研究にもかかわらず、GNNのアーキテクチャ設計のよりきめ細かい側面に対する理解はいまだに不足している。
本稿では,エッジ埋め込みの維持と更新を行うアーキテクチャの利点について考察する。
理論的には、モデル内の層に対する適切な計算抽象化と埋め込みのメモリ制約の下では、エッジ埋め込みを利用したアーキテクチャの方がはるかに浅いグラフィカルモデル上での自然なタスクが示される。
我々の技術は、理論計算機科学における時間空間のトレードオフの結果にインスパイアされている。
経験的に、エッジの埋め込みを維持するアーキテクチャは、ほとんど常にノードベースで改善されています。
Graph neural networks (GNNs) are the dominant approach to solving machine learning problems defined over graphs. Despite much theoretical and empirical work in recent years, our understanding of finer-grained aspects of architectural design for GNNs remains impoverished. In this paper, we consider the benefits of architectures that maintain and update edge embeddings. On the theoretical front, under a suitable computational abstraction for a layer in the model, as well as memory constraints on the embeddings, we show that there are natural tasks on graphical models for which architectures leveraging edge embeddings can be much shallower. Our techniques are inspired by results on time-space tradeoffs in theoretical computer science. Empirically, we show architectures that maintain edge embeddings almost always improve on their node-based counterparts -- frequently significantly so in topologies that have ``hub'' nodes. | 翻訳日:2024-10-30 04:32:54 公開日:2024-10-13 |
# オーディオディープフェイク検出のためのプロンプトチューニング:限定ターゲットデータセットを用いた効率的なテスト時間領域適応
Prompt Tuning for Audio Deepfake Detection: Computationally Efficient Test-time Domain Adaptation with Limited Target Dataset ( http://arxiv.org/abs/2410.09869v1 ) ライセンス: Link先を確認 | Hideyuki Oiso, Yuto Matsunaga, Kazuya Kakizaki, Taiki Miyagawa, | (参考訳) オーディオディープフェイク検出(ADD)のためのテスト時間領域適応について検討し,3つの課題に対処する。
(i)ソースターゲットドメインギャップ
(ii)限定目標データセットサイズ、及び
(三)計算コストが高いこと。
本稿では,プラグイン方式のプロンプトチューニングを用いたADD手法を提案する。
最先端のトランスフォーマーモデルや/またはその他の微調整手法とシームレスに統合することで、ドメインギャップをブリッジし、ターゲットデータ(カオス)のパフォーマンスを向上する。
(i)。
さらに,本手法は,多数の余分なパラメータを必要としないため,小さなターゲットデータセットに適合することができる(カオス)。
(II)。
この特徴は計算効率にも寄与し、ADD(challenge)における大規模事前学習モデルに典型的に関連する高い計算コストに対処する。
(三)。
我々は、ドメインギャップ下でのADDの迅速なチューニングは、最小限の目標データと無視可能な余剰計算負荷で精度を高めるための有望な道を示すと結論付けた。
We study test-time domain adaptation for audio deepfake detection (ADD), addressing three challenges: (i) source-target domain gaps, (ii) limited target dataset size, and (iii) high computational costs. We propose an ADD method using prompt tuning in a plug-in style. It bridges domain gaps by integrating it seamlessly with state-of-the-art transformer models and/or with other fine-tuning methods, boosting their performance on target data (challenge (i)). In addition, our method can fit small target datasets because it does not require a large number of extra parameters (challenge (ii)). This feature also contributes to computational efficiency, countering the high computational costs typically associated with large-scale pre-trained models in ADD (challenge (iii)). We conclude that prompt tuning for ADD under domain gaps presents a promising avenue for enhancing accuracy with minimal target data and negligible extra computational burden. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# ChroKnowledge: 複数のドメインにおける言語モデルの時系列知識の公開
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains ( http://arxiv.org/abs/2410.09870v1 ) ライセンス: Link先を確認 | Yein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang, | (参考訳) 大規模言語モデル(LLM)は、私たちの生活の多くの側面に大きな影響を与えています。
しかし、年代学的な知識の評価と確保は依然として困難である。
既存のアプローチは、知識の累積的な性質に対処するのに不足しており、しばしば1つのタイムスタンプに依存している。
この問題を解決するために、複数のドメイン、時間依存性、時間状態の3つの重要な側面で時系列的に蓄積された知識を評価するために設計されたベンチマークデータセットであるChroKnowBenchを紹介した。
我々のベンチマークは、進化する知識(例えば、科学的発見、修正された法則)と一定である知識(例えば、数学的真実、常識的な事実)を区別する。
このベンチマークに基づいて、LLMの非パラメトリック時系列知識を評価し、更新するための新しいサンプリングベースのフレームワークであるChroKnowledge(Chronological Categorization of Knowledge)を紹介する。
1) 時間的知識を抽出する能力は,モデルが訓練したデータ形式によって異なる。
2) LLMは知識のすべての側面を正しく思い出すのではなく,知識を部分的に思い出すか,時間境界で切り離すかを示す。
そこで,我々のChroKnowPromptを応用し,周囲の時間帯をステップバイステップで横断することで,時系列的知識を引き出す方法を提案する。
本フレームワークは,生物医学領域 (+11.9%) と一般領域 (+2.8%) の両方において, 時間的知識の精製に有効であることを示す。
この非パラメトリックアプローチは、オープンソースモデルだけでなく、プロプライエタリなLLMでも知識更新を可能にし、モデルタイプ全体にわたる包括的な適用性を保証する。
我々は,ChroKnowPromptの時間的特性に基づく包括的解析を行い,本手法による内在的時間的知識を引き出す様々なモデルの可能性を検証する。
Large language models (LLMs) have significantly impacted many aspects of our lives. However, assessing and ensuring their chronological knowledge remains challenging. Existing approaches fall short in addressing the accumulative nature of knowledge, often relying on a single time stamp. To overcome this, we introduce ChroKnowBench, a benchmark dataset designed to evaluate chronologically accumulated knowledge across three key aspects: multiple domains, time dependency, temporal state. Our benchmark distinguishes between knowledge that evolves (e.g., scientific discoveries, amended laws) and knowledge that remain constant (e.g., mathematical truths, commonsense facts). Building on this benchmark, we present ChroKnowledge (Chronological Categorization of Knowledge), a novel sampling-based framework for evaluating and updating LLMs' non-parametric chronological knowledge. Our evaluation shows: (1) The ability of eliciting temporal knowledge varies depending on the data format that model was trained on. (2) LLMs partially recall knowledge or show a cut-off at temporal boundaries rather than recalling all aspects of knowledge correctly. Thus, we apply our ChroKnowPrompt, an in-depth prompting to elicit chronological knowledge by traversing step-by-step through the surrounding time spans. We observe that our framework successfully updates the overall knowledge across the entire timeline in both the biomedical domain (+11.9%) and the general domain (+2.8%), demonstrating its effectiveness in refining temporal knowledge. This non-parametric approach also enables knowledge updates not only in open-source models but also in proprietary LLMs, ensuring comprehensive applicability across model types. We perform a comprehensive analysis based on temporal characteristics of ChroKnowPrompt and validate the potential of various models to elicit intrinsic temporal knowledge through our method. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# 再現可能な学習ベース圧縮を目指して
Towards Reproducible Learning-based Compression ( http://arxiv.org/abs/2410.09872v1 ) ライセンス: Link先を確認 | Jiahao Pang, Muhammad Asad Lodhi, Junghyun Ahn, Yuning Huang, Dong Tian, | (参考訳) ディープラーニングシステムは通常、部分的にハードウェアやソフトウェア実装の詳細に根ざした再現性の欠如に悩まされる。
この不再現性は、ディープラーニング技術に懐疑的になり、多くのアプリケーションにデプロイされることを妨げます。
本研究では, 圧縮システムにおいて, 深層学習が用いられている場合の非再現性問題を解析し, 符号化と復号化は異なるメーカーのデバイス上で行うことができる。
復号処理は、学習ベースのエントロピーコーダにおいて、単一のビット差(例えば、等)のためにクラッシュすることもある。
保護のためのリソースが限られているディープラーニングベースのモジュールの場合、まず、ミスマッチがバウンドされた場合にのみ再現性を保証することが提案される。
次に,課題に対処するための保護機構を提案する。
提案手法は, 復号化レベル, 復号化レベル, 復号化レベルのいずれかで異なる保護レベルに適用できる。
さらに、エラー境界が抑制されている場合に、保護のために導入されたオーバーヘッドをスケールダウンすることができる。
画像圧縮および点クラウド圧縮における学習ベース圧縮システムに対する提案手法の有効性を実験により実証した。
A deep learning system typically suffers from a lack of reproducibility that is partially rooted in hardware or software implementation details. The irreproducibility leads to skepticism in deep learning technologies and it can hinder them from being deployed in many applications. In this work, the irreproducibility issue is analyzed where deep learning is employed in compression systems while the encoding and decoding may be run on devices from different manufacturers. The decoding process can even crash due to a single bit difference, e.g., in a learning-based entropy coder. For a given deep learning-based module with limited resources for protection, we first suggest that reproducibility can only be assured when the mismatches are bounded. Then a safeguarding mechanism is proposed to tackle the challenges. The proposed method may be applied for different levels of protection either at the reconstruction level or at a selected decoding level. Furthermore, the overhead introduced for the protection can be scaled down accordingly when the error bound is being suppressed. Experiments demonstrate the effectiveness of the proposed approach for learning-based compression systems, e.g., in image compression and point cloud compression. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# 差分近似による学習自由適応拡散
Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy ( http://arxiv.org/abs/2410.09873v1 ) ライセンス: Link先を確認 | Hancheng Ye, Jiakang Yuan, Renqiu Xia, Xiangchao Yan, Tao Chen, Junchi Yan, Botian Shi, Bo Zhang, | (参考訳) 拡散モデルは近年、高品質の画像やビデオの合成において大きな成功を収めている。
しかし、拡散モデルにおける既存のデノナイジング手法は、通常、高い計算コストに悩まされるステップバイステップノイズ予測に基づいており、対話型アプリケーションでは禁止的な遅延が生じる。
本稿では,このボトルネックを解消するための適応拡散法を提案する。
本手法は,従来の全ステップと同一のノイズ予測結果を維持しつつ,可能な限り多くのノイズ予測ステップをスキップする可能性を考察する。
具体的には, 従来の騒音予測結果の再利用に有効である, 騒音発生過程における時間ステップ間の安定性を示す3次潜時差によって, スキップ戦略を導出する。
画像とビデオの拡散モデルによる大規模な実験により,本手法は劣化を伴わない平均2~5倍の速度アップを実現し,デノナイズ処理を著しく高速化できることを示した。
Diffusion models have recently achieved great success in the synthesis of high-quality images and videos. However, the existing denoising techniques in diffusion models are commonly based on step-by-step noise predictions, which suffers from high computation cost, resulting in a prohibitive latency for interactive applications. In this paper, we propose AdaptiveDiffusion to relieve this bottleneck by adaptively reducing the noise prediction steps during the denoising process. Our method considers the potential of skipping as many noise prediction steps as possible while keeping the final denoised results identical to the original full-step ones. Specifically, the skipping strategy is guided by the third-order latent difference that indicates the stability between timesteps during the denoising process, which benefits the reusing of previous noise prediction results. Extensive experiments on image and video diffusion models demonstrate that our method can significantly speed up the denoising process while generating identical results to the original process, achieving up to an average 2~5x speedup without quality degradation. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# ViFi-ReID: 人物再識別のための2ストリームビジョン-Wi-Fiマルチモーダルアプローチ
ViFi-ReID: A Two-Stream Vision-WiFi Multimodal Approach for Person Re-identification ( http://arxiv.org/abs/2410.09875v1 ) ライセンス: Link先を確認 | Chen Mao, Chong Tan, Jingqi Hu, Min Zheng, | (参考訳) セキュリティ分野において重要な技術である人物再識別(ReID)は、安全検査、人員数えなどにおいて重要な役割を担っている。
現在のReIDアプローチのほとんどは、主に、衣服の変化や閉塞といった客観的な条件の影響を受けやすい画像から特徴を抽出する。
カメラに加えて、WiFi信号のチャネル状態情報(CSI)を介して歩行者からの歩行情報を捕捉し、マルチモーダルデータセットに寄与することにより、広く利用可能なルータをセンサデバイスとして活用する。
我々は,映像理解と信号解析のタスクを別々に処理し,歩行者映像とWiFiデータに対するマルチモーダル融合とコントラスト学習を行うために2ストリームネットワークを採用している。
実世界のシナリオにおける大規模な実験により, 異種データ間の相関関係を効果的に解明し, 視覚と信号の相違を橋渡しし, 感知範囲を大幅に拡大し, 複数センサ間のReID精度を向上することを示した。
Person re-identification(ReID), as a crucial technology in the field of security, plays a vital role in safety inspections, personnel counting, and more. Most current ReID approaches primarily extract features from images, which are easily affected by objective conditions such as clothing changes and occlusions. In addition to cameras, we leverage widely available routers as sensing devices by capturing gait information from pedestrians through the Channel State Information (CSI) in WiFi signals and contribute a multimodal dataset. We employ a two-stream network to separately process video understanding and signal analysis tasks, and conduct multi-modal fusion and contrastive learning on pedestrian video and WiFi data. Extensive experiments in real-world scenarios demonstrate that our method effectively uncovers the correlations between heterogeneous data, bridges the gap between visual and signal modalities, significantly expands the sensing range, and improves ReID accuracy across multiple sensors. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# データ・ポジショニングにおける確率的信頼可能な等角予測セット
Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning ( http://arxiv.org/abs/2410.09878v1 ) ライセンス: Link先を確認 | Yan Scholten, Stephan Günnemann, | (参考訳) コンフォーマル予測は、ユーザーが特定した確率で基底真理を含むことが保証される予測セットを通じて、モデルに依存しない、分布に依存しない不確実性定量化を提供する。
しかし、共形予測は、敵がトレーニングデータと校正データの両方を操作した場合の毒殺攻撃では信頼性が低く、実際には予測セットを著しく変更することができる。
そこで本研究では, 信頼性の高い予測セット (RPS) を提案する。
そこで,本研究では,トレーニングデータの異なる分割に基づいて訓練された分類器の予測を確実に集約するスムーズなスコア関数を導入する。
キャリブレーション中毒下での信頼性を確保するため,キャリブレーションデータの異なるサブセットに基づいて複数の予測セットを構築した。
すると、それらを多数予想集合に集約し、それが個々の集合の過半数に現れる場合にのみクラスを含む。
どちらのアグリゲーションも、最終的な予測セットに対するトレーニングおよびキャリブレーションデータにおけるデータポイントの影響を軽減する。
我々は,画像分類タスクに対する我々のアプローチを実験的に検証し,実用性を維持しつつ信頼性を向上し,クリーンなデータに対するカバレッジを保っている。
全体として、当社のアプローチは、データ中毒の存在下での信頼性の高い不確実性定量化に向けた重要なステップである。
Conformal prediction provides model-agnostic and distribution-free uncertainty quantification through prediction sets that are guaranteed to include the ground truth with any user-specified probability. Yet, conformal prediction is not reliable under poisoning attacks where adversaries manipulate both training and calibration data, which can significantly alter prediction sets in practice. As a solution, we propose reliable prediction sets (RPS): the first efficient method for constructing conformal prediction sets with provable reliability guarantees under poisoning. To ensure reliability under training poisoning, we introduce smoothed score functions that reliably aggregate predictions of classifiers trained on distinct partitions of the training data. To ensure reliability under calibration poisoning, we construct multiple prediction sets, each calibrated on distinct subsets of the calibration data. We then aggregate them into a majority prediction set, which includes a class only if it appears in a majority of the individual sets. Both proposed aggregations mitigate the influence of datapoints in the training and calibration data on the final prediction set. We experimentally validate our approach on image classification tasks, achieving strong reliability while maintaining utility and preserving coverage on clean data. Overall, our approach represents an important step towards more trustworthy uncertainty quantification in the presence of data poisoning. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# TextMaster: Universal Controllable Text Edit
TextMaster: Universal Controllable Text Edit ( http://arxiv.org/abs/2410.09879v1 ) ライセンス: Link先を確認 | Aoqiang Wang, Jian Wang, Zhenyu Yan, Wenxiang Shang, Ran Lin, Zhao Zhang, | (参考訳) 画像編集タスクでは、高品質なテキスト編集機能によって人や素材のコストを大幅に削減することができる。
現在の手法は,OCRテキストセグメント検出に基づくトレーニングデータに大きく依存している。
この依存は、マスク領域に強く依存し、様々なシナリオでテキスト間隔とサイズを調整するモジュールがない。
編集対象のテキスト量が修正領域と一致しない場合や、マスク領域が大きすぎる場合、重大な問題が発生する可能性がある。
さらに,テキスト編集のための制御可能なスタイル転送を探索する手法は存在せず,これらの課題に対処するために,テキストを高いリアリズムで正確に編集し,任意のシナリオや画像領域で適切なレイアウトで編集できるTextMasterを提案する。
本手法では,トレーニングの指導として適応標準文字スペーシングを用い,テキスト位置やサイズ情報の漏洩を防止するために適応マスクブースティングを用いる。
また,各文字のバウンディングボックスの回帰損失を計算し,テキストレイアウト手法を異なるシナリオで学習できるようにする。
テキスト編集領域に高解像度の標準フォント情報を注入し,知覚的損失を付与することにより,テキストのレンダリング精度と忠実度をさらに向上する。
さらに,新しいスタイルインジェクション手法により,修正テキストとターゲットテキスト間のスタイル整合性を実現する。
大規模定性的および定量的評価により,本手法が既存手法より優れていることが示された。
In image editing tasks, high-quality text editing capabilities can significantly reduce human and material resource costs. Current methods rely heavily on training data based on OCR text segment detection, where the text is tightly aligned with the mask area. This reliance creates a strong dependency on the mask area and lacks modules for adjusting text spacing and size in various scenarios. When the amount of text to be edited does not match the modification area or when the mask area is too large, significant issues may arise. Furthermore, no existing methods have explored controllable style transfer for text editing.To address these challenges, we propose TextMaster, a solution capable of accurately editing text with high realism and proper layout in any scenario and image area. Our approach employs adaptive standard letter spacing as guidance during training and uses adaptive mask boosting to prevent the leakage of text position and size information. We also utilize an attention mechanism to calculate the bounding box regression loss for each character, making text layout methods learnable across different scenarios. By injecting high-resolution standard font information and applying perceptual loss in the text editing area, we further enhance text rendering accuracy and fidelity. Additionally, we achieve style consistency between the modified and target text through a novel style injection method. Extensive qualitative and quantitative evaluations demonstrate that our method outperforms all existing approaches. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# 医用画像と記録の予測モデルによる大腸癌検診とリスクアセスメントの改善
Improving Colorectal Cancer Screening and Risk Assessment through Predictive Modeling on Medical Images and Records ( http://arxiv.org/abs/2410.09880v1 ) ライセンス: Link先を確認 | Shuai Jiang, Christina Robinson, Joseph Anderson, William Hisey, Lynn Butterly, Arief Suriawinata, Saeed Hassanpour, | (参考訳) 大腸内視鏡検査は大腸癌(CRC)に進展する前に大腸ポリープの発見と除去に有効な方法である。
現在のフォローアップ・レコメンデーションは、米国多社会タスクフォース(Multi-Society Task Force)によって概説されているように、ポリープを持つことが判明し、主に病理学的特徴に依存しており、他の重要なCRCリスク要因を無視している。
さらに,大腸ポリープの病理組織学的特徴の多様性は,大腸内視鏡の経過観察や観察に困難を呈している。
デジタル病理の進化と近年の深層学習の進歩は、将来のCRCリスクの計算にコンピュータビジョン技術を用いて、追加の医療記録情報や病理スライドの自動処理を含む、追加の利点を調査するユニークな機会を提供する。
5年間のCRCリスク予測において,ニューハンプシャー・コロノスコープ・レジストレーションの広範囲なデータセット,特に経年的大腸内視鏡追跡情報を活用することで,最近開発されたトランスフォーマー・ベース・モデルを用いて病理組織像解析を行った。
さらに,医療記録情報と深層学習によるリスク推定を組み合わせ,様々なマルチモーダル融合手法について検討した。
その結果,中間臨床変数を予測するためのトランスフォーマーモデルをトレーニングすることは,5年間のCRCリスク予測性能の向上に寄与し,AUCは0.630であることがわかった。
さらに,画像と非画像の融合は,顕微鏡画像の手動検査を必要とせず,大腸内視鏡および顕微鏡所見から抽出した変数と比較して,5年間のCRCリスクに対する予測能力の向上が示されている。
本研究は,将来のCRCリスク評価の精度と妥当性を変換する上で,多様なデータソースと高度な計算技術を統合する可能性を示す。
Colonoscopy screening is an effective method to find and remove colon polyps before they can develop into colorectal cancer (CRC). Current follow-up recommendations, as outlined by the U.S. Multi-Society Task Force for individuals found to have polyps, primarily rely on histopathological characteristics, neglecting other significant CRC risk factors. Moreover, the considerable variability in colorectal polyp characterization among pathologists poses challenges in effective colonoscopy follow-up or surveillance. The evolution of digital pathology and recent advancements in deep learning provide a unique opportunity to investigate the added benefits of including the additional medical record information and automatic processing of pathology slides using computer vision techniques in the calculation of future CRC risk. Leveraging the New Hampshire Colonoscopy Registry's extensive dataset, many with longitudinal colonoscopy follow-up information, we adapted our recently developed transformer-based model for histopathology image analysis in 5-year CRC risk prediction. Additionally, we investigated various multimodal fusion techniques, combining medical record information with deep learning derived risk estimates. Our findings reveal that training a transformer model to predict intermediate clinical variables contributes to enhancing 5-year CRC risk prediction performance, with an AUC of 0.630 comparing to direct prediction. Furthermore, the fusion of imaging and non-imaging features, while not requiring manual inspection of microscopy images, demonstrates improved predictive capabilities for 5-year CRC risk comparing to variables extracted from colonoscopy procedure and microscopy findings. This study signifies the potential of integrating diverse data sources and advanced computational techniques in transforming the accuracy and effectiveness of future CRC risk assessments. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# 肢関節拡張に基づく付加的人体電位推定
Occluded Human Pose Estimation based on Limb Joint Augmentation ( http://arxiv.org/abs/2410.09885v1 ) ライセンス: Link先を確認 | Gangtao Han, Chunxiao Song, Song Wang, Hao Wang, Enqing Chen, Guanghui Wang, | (参考訳) 人間のポーズ推定は、画像やビデオから人間の特定の関節を見つけることを目的としている。
既存のディープラーニングベースの手法は高い位置決め精度を達成しているが、隠蔽シナリオの一般化に苦慮することが多い。
本稿では,手足関節拡張に基づく閉鎖型ポーズ推定フレームワークを提案し,閉塞型人体におけるポーズ推定モデルの一般化能力を高める。
具体的には、オクルージョンブロックは、まず、トレーニング画像から人間の手足関節をランダムにカバーするために使用され、対象物や他の人が部分的に人体を閉塞する場面を模倣する。
追加サンプルによって訓練され、ポーズ推定モデルは、目に見えるものに基づいて隠蔽されたキーポイントを正確に見つけることを推奨する。
モデルの局所化能力をさらに高めるため,本論文では,手足グラフに基づく動的構造損失関数を構築し,隣り合う関節間の依存性を評価することにより,閉塞した関節の分布を探索する。
OCHumanとCrowdPoseの2つの排他的データセットに対する大規模な実験的評価は、推論中に計算コストを増大させることなく、大幅なパフォーマンス向上を示す。
Human pose estimation aims at locating the specific joints of humans from the images or videos. While existing deep learning-based methods have achieved high positioning accuracy, they often struggle with generalization in occlusion scenarios. In this paper, we propose an occluded human pose estimation framework based on limb joint augmentation to enhance the generalization ability of the pose estimation model on the occluded human bodies. Specifically, the occlusion blocks are at first employed to randomly cover the limb joints of the human bodies from the training images, imitating the scene where the objects or other people partially occlude the human body. Trained by the augmented samples, the pose estimation model is encouraged to accurately locate the occluded keypoints based on the visible ones. To further enhance the localization ability of the model, this paper constructs a dynamic structure loss function based on limb graphs to explore the distribution of occluded joints by evaluating the dependence between adjacent joints. Extensive experimental evaluations on two occluded datasets, OCHuman and CrowdPose, demonstrate significant performance improvements without additional computation cost during inference. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# ポイントクラウドハイブリッド型マスクオートエンコーダのブロック・ツー・シーン事前学習
Block-to-Scene Pre-training for Point Cloud Hybrid-Domain Masked Autoencoders ( http://arxiv.org/abs/2410.09886v1 ) ライセンス: Link先を確認 | Yaohua Zha, Tao Dai, Yanzi Wang, Hang Guo, Taolin Zhang, Zhihao Ouyang, Chunlin Fan, Bin Chen, Ke Chen, Shu-Tao Xia, | (参考訳) ポイントクラウドは、3Dデータの主表現として、モデル化されたコンテンツに基づいてシーンドメインポイントクラウドとオブジェクトドメインポイントクラウドに分類することができる。
Masked Autoencoders (MAE) は、ポイントクラウドの自己教師型学習において主流のパラダイムとなっている。
しかし、既存のMAEベースの手法はドメイン固有であり、モデルの一般化を制限している。
本稿では,ブロック・ツー・シーン事前学習戦略を用いて,一般のPoint Cloud Hybrid-Domain Masked AutoEncoder (PointHDMAE) の事前学習を提案する。
まず、シーンドメインとオブジェクトドメインに属するエンコーダとデコーダからなるハイブリッドドメインマスク付きオートエンコーダを提案する。
オブジェクトドメインエンコーダは、オブジェクトポイントクラウドの処理を専門とし、複数の共有オブジェクトエンコーダはシーンポイントクラウドの分析においてシーンドメインエンコーダを支援する。
さらに,ハイブリッドドメインモデルを事前学習するためのブロック・ツー・シーン戦略を提案する。
具体的には、まずシーン内の点ブロックをランダムに選択し、各点ブロック座標をシーン空間からオブジェクト空間に変換するために一連の変換を適用する。
次に,オブジェクトレベルのマスクと再構成パイプラインを用いて各ブロックのマスキングポイントを復元し,オブジェクトエンコーダが普遍的なオブジェクト表現を学習できるようにする。
最後に,シーン空間内のブロックの初期位置を回帰するために,オブジェクト空間におけるブロックの特徴を利用するシーンレベルのブロック位置回帰パイプラインを導入し,シーン表現の学習を容易にする。
異なるデータセットやタスクにわたる大規模な実験は、我々のハイブリッドドメインモデルの一般化と優位性を示している。
Point clouds, as a primary representation of 3D data, can be categorized into scene domain point clouds and object domain point clouds based on the modeled content. Masked autoencoders (MAE) have become the mainstream paradigm in point clouds self-supervised learning. However, existing MAE-based methods are domain-specific, limiting the model's generalization. In this paper, we propose to pre-train a general Point cloud Hybrid-Domain Masked AutoEncoder (PointHDMAE) via a block-to-scene pre-training strategy. We first propose a hybrid-domain masked autoencoder consisting of an encoder and decoder belonging to the scene domain and object domain, respectively. The object domain encoder specializes in handling object point clouds and multiple shared object encoders assist the scene domain encoder in analyzing the scene point clouds. Furthermore, we propose a block-to-scene strategy to pre-train our hybrid-domain model. Specifically, we first randomly select point blocks within a scene and apply a set of transformations to convert each point block coordinates from the scene space to the object space. Then, we employ an object-level mask and reconstruction pipeline to recover the masked points of each block, enabling the object encoder to learn a universal object representation. Finally, we introduce a scene-level block position regression pipeline, which utilizes the blocks' features in the object space to regress these blocks' initial positions within the scene space, facilitating the learning of scene representations. Extensive experiments across different datasets and tasks demonstrate the generalization and superiority of our hybrid-domain model. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# 幾何学的文脈を用いた大規模3次元医用画像事前トレーニング
Large-Scale 3D Medical Image Pre-training with Geometric Context Priors ( http://arxiv.org/abs/2410.09890v1 ) ライセンス: Link先を確認 | Linshan Wu, Jiaxin Zhuang, Hao Chen, | (参考訳) アノテーションの不足は、医用画像解析において重要な課題となっている。
大規模事前学習は、大規模データ、大規模モデル、高度な事前学習技術の利用により、有望なラベル効率のソリューションとして登場した。
しかし、医用画像の発達は未解明のままである。
主な課題は、大規模にラベル付けされていないデータを活用することと、アノテーションなしで高度なセマンティクスを学ぶことである。
3次元の医用画像は、一貫した幾何学的文脈、すなわち、異なる臓器間の一貫した幾何学的関係を示すことが観察され、一貫した表現を学習するための有望な方法をもたらす。
これに触発された我々は,自己監督のための幾何学的文脈事前の活用を目的とした,単純なyet- Effective Volume Contrast (VoCo) フレームワークを導入する。
入力体積が与えられた場合、異なる領域から基本作物を抽出し、比較学習のための正と負のペアを構築する。
次に, 基本作物との類似性を対比することにより, ランダムな作物の文脈的位置を推定する。
このように、VoCoは固有の幾何学的コンテキストをモデル表現にエンコードし、アノテーションなしで高度な意味学習を容易にする。
具体的には,(1)最大の医療前トレーニングデータセットであるPreCT-160Kを導入し,(2)スケーリング法を調査し,異なるモデルサイズを様々な医療タスクに合わせるためのガイドラインを提案し,(3)48の医療タスクを含むベンチマークを構築した。
大規模な実験は、VoCoの優位性を強調している。
https://github.com/Luffy03/Large-Scale-Medical.com
The scarcity of annotations poses a significant challenge in medical image analysis. Large-scale pre-training has emerged as a promising label-efficient solution, owing to the utilization of large-scale data, large models, and advanced pre-training techniques. However, its development in medical images remains underexplored. The primary challenge lies in harnessing large-scale unlabeled data and learning high-level semantics without annotations. We observe that 3D medical images exhibit consistent geometric context, i.e., consistent geometric relations between different organs, which leads to a promising way for learning consistent representations. Motivated by this, we introduce a simple-yet-effective Volume Contrast (VoCo) framework to leverage geometric context priors for self-supervision. Given an input volume, we extract base crops from different regions to construct positive and negative pairs for contrastive learning. Then we predict the contextual position of a random crop by contrasting its similarity to the base crops. In this way, VoCo encodes the inherent geometric context into model representations, facilitating high-level semantic learning without annotations. Specifically, we (1) introduce the largest medical pre-training dataset PreCT-160K; (2) investigate scaling laws and propose guidelines for tailoring different model sizes to various medical tasks; (3) build a benchmark encompassing 48 medical tasks. Extensive experiments highlight the superiority of VoCo. Codes at https://github.com/Luffy03/Large-Scale-Medical. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# RMB: LLMアライメントにおけるリワードモデルの総合ベンチマーク
RMB: Comprehensively Benchmarking Reward Models in LLM Alignment ( http://arxiv.org/abs/2410.09893v1 ) ライセンス: Link先を確認 | Enyu Zhou, Guodong Zheng, Binghai Wang, Zhiheng Xi, Shihan Dou, Rong Bao, Wei Shen, Limao Xiong, Jessica Fan, Yurong Mou, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang, | (参考訳) リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドし、人間に好まれる行動に向けてそれらを操る。
RMを評価することがLLMの整合性を高める鍵です。
しかし,現在のRMの評価は,アライメント目的と密接な関係のない評価データや評価方法の分布が限られているため,アライメント性能と直接対応しない場合がある。
これらの制約に対処するため,実世界の49以上のシナリオを網羅する総合的なRMベンチマークであるRMBを提案し,協調最適化におけるRMの有効性をよりよく反映するために,ペアワイズとBest-of-N(BoN)の評価を含む。
我々は、ベンチマークと下流アライメントタスクのパフォーマンスの正の相関を示す。
本ベンチマークでは,従来のベンチマークでは見つからなかった一般化欠陥を明らかにするとともに,生成的RMの可能性を明らかにする。
さらに、報奨モデルにおけるオープンな質問を掘り下げ、報酬モデルの評価に対する多数決の有効性を特に検証し、評価基準や指導方法の影響を含む生成RMの影響要因を分析した。
評価コードとデータセットはhttps://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmarkで公開しています。
Reward models (RMs) guide the alignment of large language models (LLMs), steering them toward behaviors preferred by humans. Evaluating RMs is the key to better aligning LLMs. However, the current evaluation of RMs may not directly correspond to their alignment performance due to the limited distribution of evaluation data and evaluation methods that are not closely related to alignment objectives. To address these limitations, we propose RMB, a comprehensive RM benchmark that covers over 49 real-world scenarios and includes both pairwise and Best-of-N (BoN) evaluations to better reflect the effectiveness of RMs in guiding alignment optimization. We demonstrate a positive correlation between our benchmark and the downstream alignment task performance. Based on our benchmark, we conduct extensive analysis on the state-of-the-art RMs, revealing their generalization defects that were not discovered by previous benchmarks, and highlighting the potential of generative RMs. Furthermore, we delve into open questions in reward models, specifically examining the effectiveness of majority voting for the evaluation of reward models and analyzing the impact factors of generative RMs, including the influence of evaluation criteria and instructing methods. Our evaluation code and datasets are available at https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# データスカシティによるインダクティブ・コンフォーマル予測:非コンフォーマル対策の影響を探る
Inductive Conformal Prediction under Data Scarcity: Exploring the Impacts of Nonconformity Measures ( http://arxiv.org/abs/2410.09894v1 ) ライセンス: Link先を確認 | Yuko Kato, David M. J. Tax, Marco Loog, | (参考訳) データについて分布的な仮定をしないコンフォーマル予測は、実用上の不確実性定量化に対する強力で信頼性の高いアプローチとして現れている。
整合予測に使用される非整合性測定は、試験サンプルがトレーニングデータとどのように異なるかを定量化し、整合性予測間隔の有効性は、使用する正確な測定値に大きく依存する可能性がある。
しかし、この選択の影響は、特に限られた量のデータを扱う場合、広く研究されていない。
本研究の主な目的は, 帰納的共形予測において, 様々な非整合性測定(絶対誤差ベース, 正規化絶対誤差ベース, 量子化値ベース)の性能を有効性と有効性の観点から評価することである。
焦点は小さなデータセットであり、多くの現実世界のアプリケーションでは依然として一般的な設定である。
合成データと実世界のデータを用いて、データセットのサイズ、ノイズ、次元といった異なる特徴が、共形予測間隔の効率にどのように影響するかを評価する。
以上の結果から,各非整合性尺度の有効性はデータの性質に大きく影響していることから,非整合性尺度は相違はあるものの,どの非整合性尺度も他の指標よりも一貫して優れていることが示唆された。
さらに,データセットのサイズが大きくなると必ずしも効率が向上するわけではなく,微調整モデルの重要性が示唆され,また,異なるアプリケーションに対する非整合性尺度を慎重に選択する必要が生じた。
Conformal prediction, which makes no distributional assumptions about the data, has emerged as a powerful and reliable approach to uncertainty quantification in practical applications. The nonconformity measure used in conformal prediction quantifies how a test sample differs from the training data and the effectiveness of a conformal prediction interval may depend heavily on the precise measure employed. The impact of this choice has, however, not been widely explored, especially when dealing with limited amounts of data. The primary objective of this study is to evaluate the performance of various nonconformity measures (absolute error-based, normalized absolute error-based, and quantile-based measures) in terms of validity and efficiency when used in inductive conformal prediction. The focus is on small datasets, which is still a common setting in many real-world applications. Using synthetic and real-world data, we assess how different characteristics -- such as dataset size, noise, and dimensionality -- can affect the efficiency of conformal prediction intervals. Our results show that although there are differences, no single nonconformity measure consistently outperforms the others, as the effectiveness of each nonconformity measure is heavily influenced by the specific nature of the data. Additionally, we found that increasing dataset size does not always improve efficiency, suggesting the importance of fine-tuning models and, again, the need to carefully select the nonconformity measure for different applications. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# バイアス非局所性への還元による多部非局所性の境界
Bounds on Multipartite Nonlocality via Reduction to Biased Nonlocality ( http://arxiv.org/abs/2410.09900v1 ) ライセンス: Link先を確認 | Hafiza Rumlah Amer, Jibran Rashid, | (参考訳) 非局所的な量子相関を理解するためには、多部情報原理が必要である。
そこで我々はLOCCG(Local Operations with Grouping)モデルを用いてTHRESHOLDゲームのクラスに対して,真のマルチパーティト非局所性に対する最適境界を提供する。
本証明は,多部類非局所ゲームとバイアス付き二部類非局所ゲームとの差を小さくするものである。
この還元をより大規模なゲームに一般化することは、多部主義から二部主義の原理への橋を架けることができる。
Multipartite information principles are needed to understand nonlocal quantum correlations. Towards that end, we provide optimal bounds on genuine multipartite nonlocality for classes of THRESHOLD games using the LOCCG (Local Operations with Grouping) model. Our proof develops a reduction between multipartite nonlocal and biased bipartite nonlocal games. Generalizing this reduction to a larger class of games may build a bridge from multipartite to bipartite principles. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# モーションヒストリー画像生成を用いたビデオのマルチクラスアクティビティ分類
Multi class activity classification in videos using Motion History Image generation ( http://arxiv.org/abs/2410.09902v1 ) ライセンス: Link先を確認 | Senthilkumar Gopal, | (参考訳) 人間の行動認識は、セキュリティからエンターテイメントシステムまで、さまざまな分野において関心を集めてきた。
重要なセキュリティシステムには、動作を追跡し、リアルタイムに実行される動作を特定する必要があります。
エンターテイメント、特にゲームにおいて、アクションやジェスチャーに対する即時応答の必要性は、そのシステムの成功にとって最重要である。
動作履歴画像は、時間的・活動的な情報を多次元の細部で捉え、分類を含む様々なユースケースを実現するための、よく確立された枠組みであることを示す。
我々は、MHIを用いてサンプルデータを作成し、分類器を訓練し、単一のマルチアクションビデオにおいて、6つの異なるアクティビティにわたるアクション分類の有効性を実証する。
我々は、分類器の性能を分析し、MHIが適切な活動画像を生成するのに苦労しているユースケースを特定し、それらの制限を克服するためのメカニズムや今後の作業について議論する。
Human action recognition has been a topic of interest across multiple fields ranging from security to entertainment systems. Tracking the motion and identifying the action being performed on a real time basis is necessary for critical security systems. In entertainment, especially gaming, the need for immediate responses for actions and gestures are paramount for the success of that system. We show that Motion History image has been a well established framework to capture the temporal and activity information in multi dimensional detail enabling various usecases including classification. We utilize MHI to produce sample data to train a classifier and demonstrate its effectiveness for action classification across six different activities in a single multi-action video. We analyze the classifier performance and identify usecases where MHI struggles to generate the appropriate activity image and discuss mechanisms and future work to overcome those limitations. | 翻訳日:2024-10-30 04:23:08 公開日:2024-10-13 |
# 正義への平等なアクセス:論理的LLMは約束する
Equitable Access to Justice: Logical LLMs Show Promise ( http://arxiv.org/abs/2410.09904v1 ) ライセンス: Link先を確認 | Manuj Kant, Manav Kant, Marzieh Nabi, Preston Carlson, Megan Ma, | (参考訳) アメリカの司法制度のコストと複雑さは、多くのアメリカ人の法的解決へのアクセスを制限する。
大規模言語モデル(LLM)は、正義へのアクセスを改善する大きな可能性を秘めている。
しかし、一貫性と信頼性が不可欠である法的文脈において、AIとLLMを適用する上での大きな課題は、システム2推論の必要性である。
本稿では,LLMと論理プログラミングの統合による推論能力の向上について検討し,その戦略能力を熟練した弁護士に近づける。
我々の目標は、法律や契約を特定の訴訟に適用可能な論理プログラムに翻訳し、保険契約に焦点をあてることである。
GPT-4oは、単純な健康保険契約を論理コードにエンコードすることができないが、最近リリースされたOpenAI o1-previewモデルは成功し、先進的なシステム2推論能力を持つLCMが正義へのアクセスを拡大する方法を実証している。
The costs and complexity of the American judicial system limit access to legal solutions for many Americans. Large language models (LLMs) hold great potential to improve access to justice. However, a major challenge in applying AI and LLMs in legal contexts, where consistency and reliability are crucial, is the need for System 2 reasoning. In this paper, we explore the integration of LLMs with logic programming to enhance their ability to reason, bringing their strategic capabilities closer to that of a skilled lawyer. Our objective is to translate laws and contracts into logic programs that can be applied to specific legal cases, with a focus on insurance contracts. We demonstrate that while GPT-4o fails to encode a simple health insurance contract into logical code, the recently released OpenAI o1-preview model succeeds, exemplifying how LLMs with advanced System 2 reasoning capabilities can expand access to justice. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# Redditはルーマニア人のための著者プロファイリング
Reddit is all you need: Authorship profiling for Romanian ( http://arxiv.org/abs/2410.09907v1 ) ライセンス: Link先を確認 | Ecaterina Ştefănescu, Alexandru-Iulius Jerpelea, | (参考訳) 著者プロファイリング(英: Authorship profiling)とは、著者の著作に基づいて著者の特徴を特定する過程である。
特に近年の自然言語処理(NLP)の発展により、この世紀は興味深い問題となっている。
本稿では,ルーマニア語における短いテキストのコーパスについて紹介する。
これを実現するために、Redditというソーシャルメディアプラットフォームを利用しています。
我々は,その主題的コミュニティベース構造(従属構造)を活用し,著者の背景に関する情報を提供する。
年齢分類,就業状況,利害関係,社会的指向など,利用者の人口統計学的特徴と幅広い個人的特性をサブレディットやその他の手がかりに基づいて推定する。
その結果,100以上のルーマニア亜種から抽出した23k以上のサンプルコーパスが得られた。
我々はデータセットを分析し、最後にLarge Language Models(LLM)を微調整して評価し、コーパスを用いた著者プロファイルのベースライン機能を証明する。
すべてのリソースを公開しています。
Authorship profiling is the process of identifying an author's characteristics based on their writings. This centuries old problem has become more intriguing especially with recent developments in Natural Language Processing (NLP). In this paper, we introduce a corpus of short texts in the Romanian language, annotated with certain author characteristic keywords; to our knowledge, the first of its kind. In order to do this, we exploit a social media platform called Reddit. We leverage its thematic community-based structure (subreddits structure), which offers information about the author's background. We infer an user's demographic and some broad personal traits, such as age category, employment status, interests, and social orientation based on the subreddit and other cues. We thus obtain a 23k+ samples corpus, extracted from 100+ Romanian subreddits. We analyse our dataset, and finally, we fine-tune and evaluate Large Language Models (LLMs) to prove baselines capabilities for authorship profiling using the corpus, indicating the need for further research in the field. We publicly release all our resources. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# ファインチューニングの代わりに検索する:ゼロショット学習のための検索に基づくパラメータアンサンブル
Retrieval Instead of Fine-tuning: A Retrieval-based Parameter Ensemble for Zero-shot Learning ( http://arxiv.org/abs/2410.09908v1 ) ライセンス: Link先を確認 | Pengfei Jin, Peng Shu, Sekeun Kim, Qing Xiao, Sifan Song, Cheng Chen, Tianming Liu, Xiang Li, Quanzheng Li, | (参考訳) 基礎モデルはディープラーニングの基盤となり、Low-Rank Adaptation (LoRA)のような技術が大きなモデルの効率的な微調整を提供している。
同様に、ベクトル化データベースを利用するRetrieval-Augmented Generation (RAG) のような手法は、外部情報の出力を基底化することによって、モデル性能をさらに向上させた。
これらのアプローチは顕著な成功を収めたものの、リソース制約のある環境での適応性を制限できる広範囲なトレーニングやラベル付きデータを必要とする場合が多い。
これらの課題に対処するために,LRAのベクトル化データベースを作成する新しい手法であるRetrieval-based Parameter Ensemble (RPE)を導入し,新しいタスクへのモデル適応の効率的な検索と適用を可能にした。
RPEは、広範囲なトレーニングの必要性を最小限に抑え、ラベル付きデータの要求を排除し、特にゼロショット学習に有効である。
さらに、RPEは、生のデータにアクセスせずにモデルパラメータを変更するため、ヘルスケアのようなプライバシに敏感なドメインに適している。
医療報告生成や画像セグメント化といったタスクに適用した場合、RPEは効果を証明しただけでなく、特定のケースにおいて教師付き微調整手法を超越し、ディープラーニングアプリケーションにおける計算効率とプライバシの両方を高める可能性を強調した。
Foundation models have become a cornerstone in deep learning, with techniques like Low-Rank Adaptation (LoRA) offering efficient fine-tuning of large models. Similarly, methods such as Retrieval-Augmented Generation (RAG), which leverage vectorized databases, have further improved model performance by grounding outputs in external information. While these approaches have demonstrated notable success, they often require extensive training or labeled data, which can limit their adaptability in resource-constrained environments. To address these challenges, we introduce Retrieval-based Parameter Ensemble (RPE), a new method that creates a vectorized database of LoRAs, enabling efficient retrieval and application of model adaptations to new tasks. RPE minimizes the need for extensive training and eliminates the requirement for labeled data, making it particularly effective for zero-shot learning. Additionally, RPE is well-suited for privacy-sensitive domains like healthcare, as it modifies model parameters without accessing raw data. When applied to tasks such as medical report generation and image segmentation, RPE not only proved effective but also surpassed supervised fine-tuning methods in certain cases, highlighting its potential to enhance both computational efficiency and privacy in deep learning applications. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# UnSeg:1つのUniversal Unlearnableサンプルジェネレータが全画像セグメンテーションに反対
UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation ( http://arxiv.org/abs/2410.09909v1 ) ライセンス: Link先を確認 | Ye Sun, Hao Zhang, Tiehua Zhang, Xingjun Ma, Yu-Gang Jiang, | (参考訳) 画像のセグメンテーションは、画像内のピクセルを意味的に意味のあるセグメンテーションに分類する重要なビジョンタスクである。
しかし、未承認のプライベートデータ上で大規模な画像セグメンテーションモデルをトレーニングすることに関して、プライバシーに関する懸念が高まっている。
本研究では、学習不可能なサンプルの概念を利用して、学習不可能なノイズを原画像に生成・付加することにより、モデルトレーニングに使用不能な画像を作成する。
特に、下流の画像を再生不能なバージョンに変換することができる普遍的非学習可能ノイズ発生装置を訓練するための新しいUnlearnable Segmentation(UnSeg)フレームワークを提案する。
学習不能なノイズ発生装置は、SAMと同一のアーキテクチャを共有するが、スクラッチから訓練される代理モデルのトレーニングエラーを最小限に抑えるために、対話的セグメンテーションデータセットのバイレベル最適化を通じて、SAM(Segment Anything Model)から微調整される。
6つの主流画像セグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証し、未学習画像が大きなマージンでセグメンテーション性能を低下させることができることを示す。
我々の研究は、画像セグメント化モデルから画像を保護するために、基礎モデルをデータ効率が高く、計算に手頃な方法で活用する方法に関する有用な洞察を提供する。
Image segmentation is a crucial vision task that groups pixels within an image into semantically meaningful segments, which is pivotal in obtaining a fine-grained understanding of real-world scenes. However, an increasing privacy concern exists regarding training large-scale image segmentation models on unauthorized private data. In this work, we exploit the concept of unlearnable examples to make images unusable to model training by generating and adding unlearnable noise into the original images. Particularly, we propose a novel Unlearnable Segmentation (UnSeg) framework to train a universal unlearnable noise generator that is capable of transforming any downstream images into their unlearnable version. The unlearnable noise generator is finetuned from the Segment Anything Model (SAM) via bilevel optimization on an interactive segmentation dataset towards minimizing the training error of a surrogate model that shares the same architecture with SAM but is trained from scratch. We empirically verify the effectiveness of UnSeg across 6 mainstream image segmentation tasks, 10 widely used datasets, and 7 different network architectures, and show that the unlearnable images can reduce the segmentation performance by a large margin. Our work provides useful insights into how to leverage foundation models in a data-efficient and computationally affordable manner to protect images against image segmentation models. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# 広角画像補正における生成と幾何学の併用
Combining Generative and Geometry Priors for Wide-Angle Portrait Correction ( http://arxiv.org/abs/2410.09911v1 ) ライセンス: Link先を確認 | Lan Yao, Chaofeng Chen, Xiaoming Li, Zifei Yan, Wangmeng Zuo, | (参考訳) 肖像画における広角レンズの歪みは、写真リアリスティックで美的なイメージを撮影する上で重要な課題である。
このような歪みは特に顔面領域で顕著である。
本研究では, 自然多様体として事前に生成顔をカプセル化して, 顔領域の補正を容易にすることを提案する。
さらに、顔以外の背景には顕著な中心対称性関係が存在しているが、補正過程では研究されていない。
この幾何学は、修正過程を通して対称性を明示的に強制する新しい制約を導入し、非面領域においてより視覚的に魅力的で自然な補正に寄与する。
実験により,本手法は,直線直線性や形状整合性測定などの定量的尺度だけでなく,知覚的視覚的品質の観点からも,従来手法よりも優れた性能を示すことが示された。
すべてのコードとモデルはhttps://github.com/Dev-Mrha/DualPriorsCorrectionで入手できる。
Wide-angle lens distortion in portrait photography presents a significant challenge for capturing photo-realistic and aesthetically pleasing images. Such distortions are especially noticeable in facial regions. In this work, we propose encapsulating the generative face prior as a guided natural manifold to facilitate the correction of facial regions. Moreover, a notable central symmetry relationship exists in the non-face background, yet it has not been explored in the correction process. This geometry prior motivates us to introduce a novel constraint to explicitly enforce symmetry throughout the correction process, thereby contributing to a more visually appealing and natural correction in the non-face region. Experiments demonstrate that our approach outperforms previous methods by a large margin, excelling not only in quantitative measures such as line straightness and shape consistency metrics but also in terms of perceptual visual quality. All the code and models are available at https://github.com/Dev-Mrha/DualPriorsCorrection. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# デジタル時代の発見可能性:理論的枠組み
Navigating Discoverability in the Digital Era: A Theoretical Framework ( http://arxiv.org/abs/2410.09917v1 ) ライセンス: Link先を確認 | Rebecca Salganik, Valdy Wiratama, Heritiana Ranaivoson, Adelaida Afilipoaie, | (参考訳) デジタルコンテンツの流通におけるデジタル技術の普及は、デジタル時代の文化的多様性への影響を懸念している。
発見可能性の概念は、コンテンツが相互作用する可能性を考えるための理論的なツールとして提示されている。
この広いテーマの多面的な性質は、プラットフォーム化の波及効果を探索する様々な領域を通して、それぞれ独自のレキシコグラフィーを用いて探索されてきた。
しかし、発見の複雑な経路を考えるための統一された枠組みはまだ存在しない。
本研究では,開始から終了までの発見の経路を含む,相互接続された6つのコンポーネントからなる発見エコシステムを提示する。
The proliferation of digital technologies in the distribution of digital content has prompted concerns about the effects on cultural diversity in the digital era. The concept of discoverability has been presented as a theoretical tool through which to consider the likelihood that content will be interacted with. The multifaceted nature of this broad theme has been explored through a variety of domains that explore the ripple effects of platformization, each with its own unique lexicography. However, there is yet to be a unified framework through which to consider the complex pathways of discovery. In this work we present the discovery ecosystem, consisting of six individual, interconnected components, that encompass the pathway of discovery from start to finish | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# Dualformer:ランダムな推論トレースによる学習による制御可能な高速・スロー思考
Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces ( http://arxiv.org/abs/2410.09918v1 ) ライセンス: Link先を確認 | DiJia Su, Sainbayar Sukhbaatar, Michael Rabbat, Yuandong Tian, Qinqing Zheng, | (参考訳) 人間の認知理論では、人間の思考は、高速で直感的なシステム1と遅いがより熟考的なシステム2の2つのシステムによって支配される。
近年の研究では,大規模言語モデル(LLM)を含むトランスフォーマーにSystem 2プロセスを導入することにより,推論能力が大幅に向上することが示されている。
それでも、システム2と純粋に類似しているモデルは、計算コストが大幅に高く、応答が遅くなる。
この課題に対処するために,高速かつ低速な推論モードをシームレスに統合する単一トランスフォーマーモデルであるDualformerを提案する。
Dualformerは、ランダムな推論トレースを持つデータに基づいて、トレーニング中にトレースの異なる部分がドロップされるトレーニングによって得られる。
ドロップ戦略は、私たちの思考プロセスを分析し、パターンでショートカットを作成するのと類似した、トレース構造に従って特に調整されます。
推論時に、我々のモデルは、解(高速モード)または推論チェーンと最終解(スローモード)の両方を出力するか、または、どのモードをアクティベートするか(オートモード)を自動的に決定できる。
いずれの場合も、Dualformerはパフォーマンスと計算効率の両方で対応するベースラインモデルを上回っている: (1) 遅いモードでは、Dualformerは30 x 30の迷路ナビゲーションタスクを最適に解き、97.6%はサーチフォーマー(完全な推論トレースを持つデータで訓練されたデータで訓練された)のベースライン性能を93.3%に上回り、45.5%の推論ステップしか使用していない。
数学問題では,LLMファインチューニングによる性能向上も達成されており,タスク固有モデルを超えて一般化されている。
In human cognition theory, human thinking is governed by two systems: the fast and intuitive System 1 and the slower but more deliberative System 2. Recent studies have shown that incorporating System 2 process into Transformers including large language models (LLMs), significantly enhances their reasoning capabilities. Nevertheless, models that purely resemble System 2 thinking require substantially higher computational costs and are much slower to respond. To address this challenge, we present Dualformer, a single Transformer model that seamlessly integrates both the fast and slow reasoning modes. Dualformer is obtained by training on data with randomized reasoning traces, where different parts of the traces are dropped during training. The dropping strategies are specifically tailored according to the trace structure, analogous to analyzing our thinking process and creating shortcuts with patterns. At inference time, our model can be configured to output only the solutions (fast mode) or both the reasoning chain and the final solution (slow mode), or automatically decide which mode to engage (auto mode). In all cases, Dualformer outperforms the corresponding baseline models in both performance and computational efficiency: (1) in slow mode, Dualformer optimally solves unseen 30 x 30 maze navigation tasks 97.6% of the time, surpassing the Searchformer (trained on data with complete reasoning traces) baseline performance of 93.3%, while only using 45.5% fewer reasoning steps; (2) in fast mode, Dualformer completes those tasks with an 80% optimal rate, significantly outperforming the Solution-Only model (trained on solution-only data), which has an optimal rate of only 30%. For math problems, our techniques have also achieved improved performance with LLM fine-tuning, showing its generalization beyond task-specific models. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# 視覚処理における文脈意味的関連尺度の役割
The Roles of Contextual Semantic Relevance Metrics in Human Visual Processing ( http://arxiv.org/abs/2410.09921v1 ) ライセンス: Link先を確認 | Kun Sun, Rong Wang, | (参考訳) 意味的関連性メトリクスは、個々のオブジェクトの本質的意味と、視覚的なシーン内の他の要素との関係の両方をキャプチャすることができる。
過去の多くの研究では、これらの指標が人間の視覚処理に影響を与えることが示されている。
しかし、これらの研究は文脈情報を完全に説明しなかったり、最近のディープラーニングモデルを使ってより正確な計算を行ったりすることが多かった。
本研究では,文脈意味的関連性の指標を導入することにより,人間の視覚知覚と処理について検討する。
対象オブジェクトとその周辺環境間の意味的関係を視覚的・言語的両面から評価する。
視覚的理解から大規模眼球運動データセットをテストし、最先端のディープラーニング技術を用いて、これらのメトリクスを計算し、高度な統計モデルによる人間の視覚処理に対する修正措置への影響を分析する。
これらのメトリクスは、視覚知覚におけるトップダウンとボトムアップの処理をシミュレートすることもできる。
本研究は,視覚的および意味的類似点を別々に扱うことの多い過去の研究において重要なギャップに対処するため,視覚的および言語に基づくメトリクスを新しい組み合わせ尺度に統合する。
結果は、すべての指標が視覚知覚と処理において正確に修正を予測できるが、予測において異なる役割を持つことを示している。
統合されたメトリクスは他の指標よりも優れており、視覚知覚/処理を形作る際に意味情報と視覚情報の相互作用を強調する理論を支持している。
この発見は、人間の認知におけるマルチモーダル情報処理の重要性の認識の高まりと一致している。
これらの知見は、視覚処理の基礎となる認知メカニズムの理解を深め、認知科学や人間とコンピュータの相互作用といった分野において、より正確な計算モデルを開発するための意味を持つ。
Semantic relevance metrics can capture both the inherent semantics of individual objects and their relationships to other elements within a visual scene. Numerous previous research has demonstrated that these metrics can influence human visual processing. However, these studies often did not fully account for contextual information or employ the recent deep learning models for more accurate computation. This study investigates human visual perception and processing by introducing the metrics of contextual semantic relevance. We evaluate semantic relationships between target objects and their surroundings from both vision-based and language-based perspectives. Testing a large eye-movement dataset from visual comprehension, we employ state-of-the-art deep learning techniques to compute these metrics and analyze their impacts on fixation measures on human visual processing through advanced statistical models. These metrics could also simulate top-down and bottom-up processing in visual perception. This study further integrates vision-based and language-based metrics into a novel combined metric, addressing a critical gap in previous research that often treated visual and semantic similarities separately. Results indicate that all metrics could precisely predict fixation measures in visual perception and processing, but with distinct roles in prediction. The combined metric outperforms other metrics, supporting theories that emphasize the interaction between semantic and visual information in shaping visual perception/processing. This finding aligns with growing recognition of the importance of multi-modal information processing in human cognition. These insights enhance our understanding of cognitive mechanisms underlying visual processing and have implications for developing more accurate computational models in fields such as cognitive science and human-computer interaction. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# 動的ユーザ関心モデルに基づくパーソナライズされたレコメンデーションシステムの解析と設計
Analysis and Design of a Personalized Recommendation System Based on a Dynamic User Interest Model ( http://arxiv.org/abs/2410.09923v1 ) ライセンス: Link先を確認 | Chunyan Mao, Shuaishuai Huang, Mingxiu Sui, Haowei Yang, Xueshe Wang, | (参考訳) インターネットの急速な発展と情報の爆発により、利用者に正確なパーソナライズされたレコメンデーションを提供することが重要な研究トピックとなっている。
本稿では,動的ユーザ関心モデルに基づくパーソナライズされたレコメンデーションシステムの設計と分析を行う。
このシステムは、ユーザの行動データをキャプチャし、動的なユーザ関心モデルを構築し、複数のレコメンデーションアルゴリズムを組み合わせて、パーソナライズされたコンテンツをユーザに提供します。
その結果,提案システムは推薦精度とユーザ満足度を大幅に向上させることがわかった。
本稿では,システムのアーキテクチャ設計,アルゴリズムの実装,実験結果について詳述し,今後の研究方向性について検討する。
With the rapid development of the internet and the explosion of information, providing users with accurate personalized recommendations has become an important research topic. This paper designs and analyzes a personalized recommendation system based on a dynamic user interest model. The system captures user behavior data, constructs a dynamic user interest model, and combines multiple recommendation algorithms to provide personalized content to users. The research results show that this system significantly improves recommendation accuracy and user satisfaction. This paper discusses the system's architecture design, algorithm implementation, and experimental results in detail and explores future research directions. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# 深層カーネル学習のための資源効率モデル
A resource-efficient model for deep kernel learning ( http://arxiv.org/abs/2410.09926v1 ) ライセンス: Link先を確認 | Luisa D'Amore, | (参考訳) ヒューズ現象によると、学習モデルを用いた計算で直面する大きな課題は、例えば次元の呪いのような複雑さのスケールにある。
精度の低下を最小限に抑えた学習計算の高速化には,様々なアプローチがある。
これらのアプローチはモデルレベルから実装レベルまで様々です。
私たちの知る限りでは、最初のものは基本形ではほとんど使われない。
おそらくこれは、モデル分解アプローチの数学的洞察の理論的な理解によるもので、数学的改善を開発する能力は後れを取っている。
本稿では,演算子の分解とネットワークの分解を併用したモデルレベルの分解手法について述べる。
得られたアルゴリズムの精度とスケーラビリティの両面から実現可能性解析を行う。
According to the Hughes phenomenon, the major challenges encountered in computations with learning models comes from the scale of complexity, e.g. the so-called curse of dimensionality. There are various approaches for accelerate learning computations with minimal loss of accuracy. These approaches range from model-level to implementation-level approaches. To the best of our knowledge, the first one is rarely used in its basic form. Perhaps, this is due to theoretical understanding of mathematical insights of model decomposition approaches, and thus the ability of developing mathematical improvements has lagged behind. We describe a model-level decomposition approach that combines both the decomposition of the operators and the decomposition of the network. We perform a feasibility analysis on the resulting algorithm, both in terms of its accuracy and scalability. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# M2M-Gen:大規模言語モデルを用いた日本語マンガの背景音楽自動生成のためのマルチモーダルフレームワーク
M2M-Gen: A Multimodal Framework for Automated Background Music Generation in Japanese Manga Using Large Language Models ( http://arxiv.org/abs/2410.09928v1 ) ライセンス: Link先を確認 | Megha Sharma, Muhammad Taimoor Haseeb, Gus Xia, Yoshimasa Tsuruoka, | (参考訳) 本稿では,日本のマンガに合わせた背景音楽を生成するためのマルチモーダルフレームワークであるM2M Genを紹介する。
このタスクの主な課題は、利用可能なデータセットやベースラインの欠如である。
これらの課題に対処するために,入力マンガブックの背景音楽を生成する自動音楽生成パイプラインを提案する。
まず,マンガの対話を用いてシーン境界を検出し,シーン内のキャラクターの顔を用いて感情分類を行う。
そして、GPT4oを用いて、この低レベルシーン情報を高レベル音楽ディレクティブに変換する。
シーン情報と音楽ディレクティブに基づいて、GPT4oの別の例では、ページレベルの音楽キャプションを生成して、テキストを音楽モデルに誘導する。
これにより、マンガの進化する物語に沿った音楽が生み出される。
M2M Genの有効性は広範囲な主観評価を通じて確認され、ベースラインと比較して特定のシーンを補完する高品質で、より関連性があり、一貫した音楽を生成する能力を示す。
This paper introduces M2M Gen, a multi modal framework for generating background music tailored to Japanese manga. The key challenges in this task are the lack of an available dataset or a baseline. To address these challenges, we propose an automated music generation pipeline that produces background music for an input manga book. Initially, we use the dialogues in a manga to detect scene boundaries and perform emotion classification using the characters faces within a scene. Then, we use GPT4o to translate this low level scene information into a high level music directive. Conditioned on the scene information and the music directive, another instance of GPT 4o generates page level music captions to guide a text to music model. This produces music that is aligned with the mangas evolving narrative. The effectiveness of M2M Gen is confirmed through extensive subjective evaluations, showcasing its capability to generate higher quality, more relevant and consistent music that complements specific scenes when compared to our baselines. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# FedECADO:フェデレートラーニングの動的システムモデル
FedECADO: A Dynamical System Model of Federated Learning ( http://arxiv.org/abs/2410.09933v1 ) ライセンス: Link先を確認 | Aayushya Agarwal, Gauri Joshi, Larry Pileggi, | (参考訳) フェデレーション学習は分散最適化の力を活用して、別々のクライアント間で統一された機械学習モデルをトレーニングする。
しかし、不均一なデータ分散と計算ワークロードは、一貫性のない更新とモデルパフォーマンスの制限につながる可能性がある。
この研究は、フェデレート学習プロセスの動的システム表現にインスパイアされた新しいアルゴリズムであるFedECADOを提案し、これらの課題に対処する。
FedECADOは、クライアントが処理するデータの量を反映する集約感度モデルを通じて、非IIDデータ分散に対処する。
不均一な計算に対処するため、アクティブクライアント更新を連続的に同期する適応的なステップサイズ選択を用いたマルチレート統合手法を設計する。
FedProxやFedNovaといった著名な技術と比較して、FedECADOは多くの異種シナリオにおいて高い分類精度を達成する。
Federated learning harnesses the power of distributed optimization to train a unified machine learning model across separate clients. However, heterogeneous data distributions and computational workloads can lead to inconsistent updates and limit model performance. This work tackles these challenges by proposing FedECADO, a new algorithm inspired by a dynamical system representation of the federated learning process. FedECADO addresses non-IID data distribution through an aggregate sensitivity model that reflects the amount of data processed by each client. To tackle heterogeneous computing, we design a multi-rate integration method with adaptive step-size selections that synchronizes active client updates in continuous time. Compared to prominent techniques, including FedProx and FedNova, FedECADO achieves higher classification accuracies in numerous heterogeneous scenarios. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# バージョン管理統合ツールの評価
Evaluation of Version Control Merge Tools ( http://arxiv.org/abs/2410.09934v1 ) ライセンス: Link先を確認 | Benedikt Schesch, Ryan Featherman, Kenneth J. Yang, Ben R. Roberts, Michael D. Ernst, | (参考訳) Gitのようなバージョン管理システムでは、異なる開発者やブランチからの変更を統合する方法が必要になる。
マージのシナリオが与えられた場合、マージツールは変更のクリーンな統合を出力するか、手作業による解決のためにコンフリクトを出力する。
意図したプログラムの動作を保存する場合、クリーンな統合は正しいし、そうでなければ正しくない(例えば、テストの失敗を引き起こす場合)。
手作業による解決は、貴重な開発時間を消費し、不正なマージによって導入された欠陥を修正することは、さらにコストがかかる。
新しいマージツールが提案されているが、まだ互いに評価されていない。
以前の評価では、正しいマージと間違ったマージを適切に区別することはできず、現実的なマージのシナリオでは評価されず、また/または最先端のツールと比較しても評価されない。
私たちはもっと現実的な評価をしました。
結果は、これまでの主張と大きく異なり、記録をまっすぐに設定し、よりよい将来の研究を可能にする。
提案手法は, テストスイートの実行, 削除したブランチ上のマージの検証, 不正なマージのコストを考慮した実験手法である。
これらの評価に基づいて、ほとんどの仮定で以前のツールよりも優れたマージツールを作成しました。
実際に最も一般的なマージシナリオを処理します。
A version control system, such as Git, requires a way to integrate changes from different developers or branches. Given a merge scenario, a merge tool either outputs a clean integration of the changes, or it outputs a conflict for manual resolution. A clean integration is correct if it preserves intended program behavior, and is incorrect otherwise (e.g., if it causes a test failure). Manual resolution consumes valuable developer time, and correcting a defect introduced by an incorrect merge is even more costly. New merge tools have been proposed, but they have not yet been evaluated against one another. Prior evaluations do not properly distinguish between correct and incorrect merges, are not evaluated on a realistic set of merge scenarios, and/or do not compare to state-of-the-art tools. We have performed a more realistic evaluation. The results differ significantly from previous claims, setting the record straight and enabling better future research. Our novel experimental methodology combines running test suites, examining merges on deleted branches, and accounting for the cost of incorrect merges. Based on these evaluations, we created a merge tool that out-performs all previous tools under most assumptions. It handles the most common merge scenarios in practice. | 翻訳日:2024-10-30 04:13:22 公開日:2024-10-13 |
# 学習した機械学習モデルをどうやって学ぶか?
How to unlearn a learned Machine Learning model ? ( http://arxiv.org/abs/2410.09935v1 ) ライセンス: Link先を確認 | Seifeddine Achour, | (参考訳) 現代の機械学習(ML)は多くの領域で目覚ましい革命を引き起こし、人間の期待をはるかに上回っている。
しかし、MLの驚くべき進歩にもかかわらず、その出力と能力を規制する必要性は必然的になっている。
この懸念に対処するための実行可能なアプローチは、より正確には、望ましくないデータからモデルを学習することで、トレーニングに使用されるデータを制御することである。
本稿では,機械学習モデルを学習し,その能力を視覚化するためのエレガントなアルゴリズムを提案する。
さらに、基礎となる数学的理論を解明し、所望のデータに対する未学習モデルの性能と望まないデータに対する無知度の両方を評価するための特定の指標を確立する。
In contemporary times, machine learning (ML) has sparked a remarkable revolution across numerous domains, surpassing even the loftiest of human expectations. However, despite the astounding progress made by ML, the need to regulate its outputs and capabilities has become imperative. A viable approach to address this concern is by exerting control over the data used for its training, more precisely, by unlearning the model from undesired data. In this article, I will present an elegant algorithm for unlearning a machine learning model and visualize its abilities. Additionally, I will elucidate the underlying mathematical theory and establish specific metrics to evaluate both the unlearned model's performance on desired data and its level of ignorance regarding unwanted data. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-13 |
# 法科領域における人工知能 : 法学生の立場から
Artificial Intelligence in the Legal Field: Law Students Perspective ( http://arxiv.org/abs/2410.09937v1 ) ライセンス: Link先を確認 | Daniela Andreeva, Guergana Savova, | (参考訳) 人工知能分野(AI)は、法律、医学、金融など様々な分野で過去数年間にルネッサンスを経験した。
法律分野におけるAIの状況を概説する研究や、法律事務所の現在のAI活動に関する調査もあるが、我々の知る限り、法学生とAIの交わりについての調査は行われていない。
こうした研究は、現行の法科学生が、法律のキャリアに乗り出す際に、この技術を十分に活用する立場にあることを保証するのに役立つだけでなく、既存の法律事務所が、AIスキルセットをよりうまく活用し、業界全体でこの技術を規制するための将来の法的枠組みを定式化するのを助けるためにも重要である。
本論文で示された研究はこのギャップに対処する。
2024年7月22日から19日にかけて行われた調査では、法学生のバックグラウンド、AI利用、法分野におけるAI応用、AI規制、意見を共有するためのオープンなコメントがカバーされた。
本研究の結果は,法学生の独特なコホートとしての特異性を示している。
結果は、特にAIの取り組みにおいて確立された法律事務所と異なり、確立された法律専門家は法学生よりもより従事している。
驚いたことに、法律事務所の参加者は、この学生コホートよりもAIに対する熱意が高い。
コンピュータサイエンス部門とのコラボレーションは、即興技術(ゼロと少数)、チェーン・オブ・シークレット・プロンプト、言語モデル幻覚管理など、AI技術における法学生のAI知識と経験をさらに強化する。
今後の研究として、より多くの変数と、より均等に地方に分布するより大きなコホートを含む研究を拡大したいと考えています。
さらに、現在のコホートと1年で研究を繰り返すことで、学生の視点がどのように進化するかを追跡できるだろう。
The Artificial Intelligence field, or AI, experienced a renaissance in the last few years across various fields such as law, medicine, and finance. While there are studies outlining the landscape of AI in the legal field as well as surveys of the current AI efforts of law firms, to our knowledge there has not been an investigation of the intersection of law students and AI. Such research is critical to help ensure current law students are positioned to fully exploit this technology as they embark on their legal careers but to also assist existing legal firms to better leverage their AI skillset both operationally and in helping to formulate future legal frameworks for regulating this technology across industries. The study presented in this paper addresses this gap. Through a survey conducted from July 22 to Aug 19, 2024, the study covers the law students background, AI usage, AI applications in the legal field, AI regulations and open-ended comments to share opinions. The results from this study show the uniqueness of law students as a distinct cohort. The results differ from the ones of established law firms especially in AI engagement - established legal professionals are more engaged than law students. Somewhat surprising, the law firm participants show higher enthusiasm about AI than this student cohort. Collaborations with Computer Science departments would further enhance the AI knowledge and experience of law students in AI technologies such as prompt engineering (zero and few shot), chain-of-thought prompting, and language model hallucination management. As future work, we would like to expand the study to include more variables and a larger cohort more evenly distributed across locales. In addition, it would be insightful to repeat the study with the current cohort in one year to track how the students viewpoints evolve. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-13 |
# 微分方程式の記号的回復のためのロバスト同定可能性
Robust identifiability for symbolic recovery of differential equations ( http://arxiv.org/abs/2410.09938v1 ) ライセンス: Link先を確認 | Hillary Hauger, Philipp Scholl, Gitta Kutyniok, | (参考訳) 機械学習の最近の進歩は、手動の導出からデータ駆動方式へ移行し、支配方程式の構造とパラメータの両方を同時に学習する物理法則の発見に変化をもたらした。
このシフトは、発見された方程式の妥当性、特にその特異性、従って識別可能性に関する新しい課題をもたらす。
非特異性の問題はパラメータ推定の文脈でよく研究されているが、構造とパラメータの両方を同時に復元するアルゴリズムについては未検討のままである。
初期の研究は主に、完璧なノイズのないデータを持つ理想的なシナリオに焦点を当ててきた。
これとは対照的に、偏微分方程式(PDE)によって支配される物理法則の特異性と識別性にノイズがどう影響するかを考察する。
我々は,ノイズの存在下でのPDEの特異性を分析するための包括的な数学的枠組みを開発し,ノイズを考慮した新しいアルゴリズムを導入し,過度なノイズが信頼できる結論を妨げている状況を特定するためのしきい値を提供する。
数値解析実験は、ノイズの有無にかかわらず、これらのアルゴリズムが特異性を検出することの有効性を実証した。
Recent advancements in machine learning have transformed the discovery of physical laws, moving from manual derivation to data-driven methods that simultaneously learn both the structure and parameters of governing equations. This shift introduces new challenges regarding the validity of the discovered equations, particularly concerning their uniqueness and, hence, identifiability. While the issue of non-uniqueness has been well-studied in the context of parameter estimation, it remains underexplored for algorithms that recover both structure and parameters simultaneously. Early studies have primarily focused on idealized scenarios with perfect, noise-free data. In contrast, this paper investigates how noise influences the uniqueness and identifiability of physical laws governed by partial differential equations (PDEs). We develop a comprehensive mathematical framework to analyze the uniqueness of PDEs in the presence of noise and introduce new algorithms that account for noise, providing thresholds to assess uniqueness and identifying situations where excessive noise hinders reliable conclusions. Numerical experiments demonstrate the effectiveness of these algorithms in detecting uniqueness despite the presence of noise. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-13 |
# 反復的実用性最大化による複数検索対象モデルのランク付け学習
Learning to Rank for Multiple Retrieval-Augmented Models through Iterative Utility Maximization ( http://arxiv.org/abs/2410.09942v1 ) ライセンス: Link先を確認 | Alireza Salemi, Hamed Zamani, | (参考訳) 本稿では,複数の検索拡張世代(RAG)エージェントにそれぞれ異なるタスク,バックボーン大言語モデル(LLM),検索強化戦略を付与する統合検索エンジンの設計について検討する。
本稿では,これらのRAGエージェントの検索結果を検索エンジンが生成し,オフラインで検索した文書の品質に関するフィードバックを収集する反復的手法を提案する。
このフィードバックは、各エージェントのユーティリティ関数の最大化を目標として、新しい期待最大化アルゴリズムを用いて、検索エンジンを反復的に最適化するために使用される。
さらに,この手法をオンライン環境に適応させることで,リアルタイムな個人エージェントのフィードバックに基づいて,検索エンジンの振る舞いを洗練し,それぞれにより良い結果を提供する。
KILT(Knowledge-Intensive Language Tasks)ベンチマークによる多種多様なデータセットの実験により、我々のアプローチが18のRAGモデルで競合ベースラインをはるかに上回ることを示した。
また,収集したフィードバックに基づいて,各RAGエージェントの検索処理を効果的に「個人化」することが実証された。
最後に,本手法の様々な側面を探求する包括的アブレーション研究について述べる。
This paper investigates the design of a unified search engine to serve multiple retrieval-augmented generation (RAG) agents, each with a distinct task, backbone large language model (LLM), and retrieval-augmentation strategy. We introduce an iterative approach where the search engine generates retrieval results for these RAG agents and gathers feedback on the quality of the retrieved documents during an offline phase. This feedback is then used to iteratively optimize the search engine using a novel expectation-maximization algorithm, with the goal of maximizing each agent's utility function. Additionally, we adapt this approach to an online setting, allowing the search engine to refine its behavior based on real-time individual agents feedback to better serve the results for each of them. Experiments on diverse datasets from the Knowledge-Intensive Language Tasks (KILT) benchmark demonstrates that our approach significantly on average outperforms competitive baselines across 18 RAG models. We also demonstrate that our method effectively ``personalizes'' the retrieval process for each RAG agent based on the collected feedback. Finally, we provide a comprehensive ablation study to explore various aspects of our method. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-13 |
# 非線形自己回帰モデルを用いた学習速度の動的推定
Dynamic Estimation of Learning Rates Using a Non-Linear Autoregressive Model ( http://arxiv.org/abs/2410.09943v1 ) ライセンス: Link先を確認 | Ramin Okhrati, | (参考訳) モーメントの概念を取り入れた適応型非線形自己回帰モデルを導入し,反復数の増加に伴って学習速度と運動量の両方を動的に推定する。
本手法では, 勾配の成長はスケーリング(クリッピング)関数を用いて制御され, 安定した収束をもたらす。
本フレームワークでは,学習率の3つの異なる推定器を提案し,それらの収束の理論的証明を提供する。
さらに、これらの推定器が効果的なNlarオプティマイザの開発をいかに支えているかを示す。
提案した推定器とオプティマイザの性能は、複数のデータセットと強化学習環境にわたる広範な実験を通じて厳密に評価される。
この結果からNlarオプティマイザの2つの重要な特徴を浮き彫りにした: 大きな初期学習率を含む基礎パラメータの変動にもかかわらず、頑健な収束と、初期時代における急激な収束を伴う強い適応性である。
We introduce a new class of adaptive non-linear autoregressive (Nlar) models incorporating the concept of momentum, which dynamically estimate both the learning rates and momentum as the number of iterations increases. In our method, the growth of the gradients is controlled using a scaling (clipping) function, leading to stable convergence. Within this framework, we propose three distinct estimators for learning rates and provide theoretical proof of their convergence. We further demonstrate how these estimators underpin the development of effective Nlar optimizers. The performance of the proposed estimators and optimizers is rigorously evaluated through extensive experiments across several datasets and a reinforcement learning environment. The results highlight two key features of the Nlar optimizers: robust convergence despite variations in underlying parameters, including large initial learning rates, and strong adaptability with rapid convergence during the initial epochs. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-13 |
# 中点誘導による変動拡散後腹側サンプリング
Variational Diffusion Posterior Sampling with Midpoint Guidance ( http://arxiv.org/abs/2410.09945v1 ) ライセンス: Link先を確認 | Badr Moufad, Yazid Janati, Lisa Bedin, Alain Durmus, Randal Douc, Eric Moulines, Jimmy Olsson, | (参考訳) 拡散モデルは最近、ベイズ的逆問題(英語版)を前もって解くことにかなりの可能性を示している。
しかし、結果として生じる後部分布からのサンプリングは、難解な項を含むため、依然として困難である。
この問題に対処するために、最先端のアプローチは、後部を対象とする代理拡散モデルからのサンプリングとして問題を定式化し、そのスコアを、先行スコアと難解なガイダンス項の2つの項に分解する。
前者は事前学習した拡散モデルのスコアに置き換えられるが、誘導項は推定する必要がある。
本稿では,従来の手法とは対照的に,難解な誘導項の複雑さと先行的な遷移の複雑さとのトレードオフを可能にする,遷移の分解を利用した新しいアプローチを提案する。
本研究は, 線形および非線形逆問題に関する広範囲な実験により, 遅延拡散モデルを先行例とする挑戦事例を含む手法の有効性を検証し, 心電図(ECG)の再構築に有効であることを示す。
Diffusion models have recently shown considerable potential in solving Bayesian inverse problems when used as priors. However, sampling from the resulting denoising posterior distributions remains a challenge as it involves intractable terms. To tackle this issue, state-of-the-art approaches formulate the problem as that of sampling from a surrogate diffusion model targeting the posterior and decompose its scores into two terms: the prior score and an intractable guidance term. While the former is replaced by the pre-trained score of the considered diffusion model, the guidance term has to be estimated. In this paper, we propose a novel approach that utilises a decomposition of the transitions which, in contrast to previous methods, allows a trade-off between the complexity of the intractable guidance term and that of the prior transitions. We validate the proposed approach through extensive experiments on linear and nonlinear inverse problems, including challenging cases with latent diffusion models as priors, and demonstrate its effectiveness in reconstructing electrocardiogram (ECG) from partial measurements for accurate cardiac diagnosis. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-13 |
# 可塑性認知下での効果的なフェデレーション・アンラーニング
Efficient Federated Unlearning under Plausible Deniability ( http://arxiv.org/abs/2410.09947v1 ) ライセンス: Link先を確認 | Ayush K. Varshney, Vicenç Torra, | (参考訳) 欧州のGDPRや米国のCCPAのようなプライバシー規制により、ユーザはデータMLアプリケーションを削除できる。
機械学習は、特定のデータポイントが重みに与える影響を忘れるため、MLパラメータを変更することでこの問題に対処する。
最近の文献では、データポイント(s)からのコントリビューションが、確率が1に近いデータセット内の他のデータポイントで鍛えられることが強調されている。
これにより、モデルパラメータを実際に変更することなく、サーバは誤ってアンラーニングを主張できる。
しかし、FLのような分散パラダイムでは、サーバーがデータセットにアクセスできず、クライアントの数も限られており、そのような場合の未学習は課題となる。
本稿では、FLサーバがクライアントのトレーニングへの参加をある程度否定できるプライバシーモデルを用いて、フェデレートされたアンラーニングを実現する効率的な方法を提案する。
サーバがProof-of-Deniabilityを生成し、各集約された更新を少なくともx個のクライアント更新に関連付けることができることを示す。
これにより、サーバはクライアントの参加を確実に否定することができる。
しかし、頻繁なアンラーニング要求の場合、サーバはアンラーニング戦略を採用し、従ってモデルパラメータを更新する必要がある。
また、正直だが好奇心の強いサーバからの推論を避けるために、クラスタ内のクライアント更新も妨害します。
我々は,グローバルモデルがTラウンド後の差分プライバシを満たすことを示す。
提案手法はプライバシー設定の異なる複数のデータセットで評価されている。
実験結果から,本フレームワークはメモリ容量の大幅な削減(30倍)と再トレーニング時間(1.6~500769倍)を実現していることがわかった。
論文のソースコードは公開されている。
Privacy regulations like the GDPR in Europe and the CCPA in the US allow users the right to remove their data ML applications. Machine unlearning addresses this by modifying the ML parameters in order to forget the influence of a specific data point on its weights. Recent literature has highlighted that the contribution from data point(s) can be forged with some other data points in the dataset with probability close to one. This allows a server to falsely claim unlearning without actually modifying the model's parameters. However, in distributed paradigms such as FL, where the server lacks access to the dataset and the number of clients are limited, claiming unlearning in such cases becomes a challenge. This paper introduces an efficient way to achieve federated unlearning, by employing a privacy model which allows the FL server to plausibly deny the client's participation in the training up to a certain extent. We demonstrate that the server can generate a Proof-of-Deniability, where each aggregated update can be associated with at least x number of client updates. This enables the server to plausibly deny a client's participation. However, in the event of frequent unlearning requests, the server is required to adopt an unlearning strategy and, accordingly, update its model parameters. We also perturb the client updates in a cluster in order to avoid inference from an honest but curious server. We show that the global model satisfies differential privacy after T number of communication rounds. The proposed methodology has been evaluated on multiple datasets in different privacy settings. The experimental results show that our framework achieves comparable utility while providing a significant reduction in terms of memory (30 times), as well as retraining time (1.6-500769 times). The source code for the paper is available. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-13 |
# ケニアにおけるNLPの現状:調査
State of NLP in Kenya: A Survey ( http://arxiv.org/abs/2410.09948v1 ) ライセンス: Link先を確認 | Cynthia Jayne Amol, Everlyn Asiko Chimoto, Rose Delilah Gesicho, Antony M. Gitau, Naome A. Etori, Caringtone Kinyanjui, Steven Ndung'u, Lawrence Moruye, Samson Otieno Ooko, Kavengi Kitonga, Brian Muhia, Catherine Gitau, Antony Ndolo, Lilian D. A. Wanzare, Albert Njoroge Kahira, Ronald Tombe, | (参考訳) ケニアは言語的な多様性で知られており、自然言語処理(NLP)技術の進歩に固有の課題と有望な機会に直面する。
本調査はケニアにおけるNLPの現状を詳細に評価し,Kiswahili, Dholuo, Kikuyu, Luhyaなどの地方方言に対するデータセット作成, 機械翻訳, 感情分析, 音声認識の継続的な取り組みを強調した。
これらの進歩にもかかわらず、ケニアにおけるNLPの発展は限られた資源や道具によって制約され続けており、デジタル空間におけるほとんどの先住民言語が不足している。
本稿では、利用可能なデータセットと既存のNLPモデルを批判的に評価することで、大きなギャップを明らかにする。
また, 機械翻訳, 情報検索, 感情分析などの主要なNLPアプリケーションについても分析を行った。
さらに、ケニアにおけるAIとNLPの将来を形作るガバナンス、ポリシー、規制について検討し、今後の研究開発を導くための戦略ロードマップを提案する。
我々の目標は、ケニアの多様な言語的要求を満たすNLP技術の成長を促進する基盤を提供することです。
Kenya, known for its linguistic diversity, faces unique challenges and promising opportunities in advancing Natural Language Processing (NLP) technologies, particularly for its underrepresented indigenous languages. This survey provides a detailed assessment of the current state of NLP in Kenya, emphasizing ongoing efforts in dataset creation, machine translation, sentiment analysis, and speech recognition for local dialects such as Kiswahili, Dholuo, Kikuyu, and Luhya. Despite these advancements, the development of NLP in Kenya remains constrained by limited resources and tools, resulting in the underrepresentation of most indigenous languages in digital spaces. This paper uncovers significant gaps by critically evaluating the available datasets and existing NLP models, most notably the need for large-scale language models and the insufficient digital representation of Indigenous languages. We also analyze key NLP applications: machine translation, information retrieval, and sentiment analysis-examining how they are tailored to address local linguistic needs. Furthermore, the paper explores the governance, policies, and regulations shaping the future of AI and NLP in Kenya and proposes a strategic roadmap to guide future research and development efforts. Our goal is to provide a foundation for accelerating the growth of NLP technologies that meet Kenya's diverse linguistic demands. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-13 |
# EITNet: リアルタイムバスケットボールアクション認識のためのIoT拡張フレームワーク
EITNet: An IoT-Enhanced Framework for Real-Time Basketball Action Recognition ( http://arxiv.org/abs/2410.09954v1 ) ライセンス: Link先を確認 | Jingyu Liu, Xinyu Liu, Mingzhe Qu, Tianyi Lyu, | (参考訳) IoT技術をバスケットボールのアクション認識に統合することで、スポーツ分析を強化し、プレイヤーのパフォーマンスとゲーム戦略に関する重要な洞察を提供する。
しかし、既存の手法は精度と効率の点で不足することが多く、特にプレイヤーの動きが頻繁に妨げられ、複雑な相互作用が伴う複雑なリアルタイム環境では顕著である。
これらの課題を克服するために,オブジェクト検出のためのEfficientDet,時空間特徴抽出のためのI3D,時間解析のためのTimeSformerを組み合わせたディープラーニングフレームワークであるEITNetモデルを提案する。
私たちの貢献は、認識精度を92\%に向上する堅牢なアーキテクチャの開発、ベースラインのEfficientDetモデルの87\%を超えること、EfficientDetの9.0以上の50のエポックに比べて5.0未満の損失削減などです。
さらに、IoTテクノロジの統合は、リアルタイムデータ処理を強化し、プレイヤーのパフォーマンスと戦略に関する適応的な洞察を提供する。
本稿では,EITNetの設計と実装,実験検証,既存モデルに対する総合評価について述べる。
その結果、EITNetが自動スポーツ分析を大幅に進歩させ、選手のパフォーマンスと戦略改善のためのデータ利用を最適化する可能性を実証した。
Integrating IoT technology into basketball action recognition enhances sports analytics, providing crucial insights into player performance and game strategy. However, existing methods often fall short in terms of accuracy and efficiency, particularly in complex, real-time environments where player movements are frequently occluded or involve intricate interactions. To overcome these challenges, we propose the EITNet model, a deep learning framework that combines EfficientDet for object detection, I3D for spatiotemporal feature extraction, and TimeSformer for temporal analysis, all integrated with IoT technology for seamless real-time data collection and processing. Our contributions include developing a robust architecture that improves recognition accuracy to 92\%, surpassing the baseline EfficientDet model's 87\%, and reducing loss to below 5.0 compared to EfficientDet's 9.0 over 50 epochs. Furthermore, the integration of IoT technology enhances real-time data processing, providing adaptive insights into player performance and strategy. The paper details the design and implementation of EITNet, experimental validation, and a comprehensive evaluation against existing models. The results demonstrate EITNet's potential to significantly advance automated sports analysis and optimize data utilization for player performance and strategy improvement. | 翻訳日:2024-10-30 04:03:30 公開日:2024-10-13 |
# 細胞内遺伝子発現の低次元投射は単細胞RNAシークエンシングから細胞型分類を改善する
Lower-dimensional projections of cellular expression improves cell type classification from single-cell RNA sequencing ( http://arxiv.org/abs/2410.09964v1 ) ライセンス: Link先を確認 | Muhammad Umar, Muhammad Asif, Arif Mahmood, | (参考訳) 単細胞RNAシークエンシング(scRNA-seq)は単細胞レベルでの細胞多様性の研究を可能にする。
これは、発生過程やヒトの器官形成などの生物学的機構の開始時に、細胞型仕様のグローバルなビューを提供する。
細胞型分類には, 統計的, 機械的, 深層学習に基づく様々な手法が提案されている。
これらの手法のほとんどは、大規模な参照データのために得られた教師なしの下次元の射影を利用する。
本研究では,EnProCellと呼ばれる細胞型分類のための参照型手法を提案する。
EnProCellはまず、原理成分分析と多重判別分析のアンサンブルを通じて、高分散とクラス分離性の両方をキャプチャする低次元射影を計算する。
第2フェーズでは、EnProCellは、データの低次元表現にディープニューラルネットワークをトレーニングして、細胞のタイプを分類する。
提案手法は, シングルセルシークエンシング技術を用いて生成した4つの異なるデータセットに対して, 既存の最先端手法よりも優れていた。
EnProCellは、参照データセットから参照を予測する他の方法よりも高い精度(98.91)とF1スコア(98.64)を示した。
同様に、EnProCellは参照データセット(精度:99.52; F1スコア:99.07)から未知のセルタイプ(クエリ)を持つデータのセルタイプを予測する既存の方法よりも優れたパフォーマンスを示した。
性能の改善に加えて,提案手法は単純で,計算資源や時間を必要としない。
EnProCellはhttps://github.com/umar1196/EnProCellで入手できる。
Single-cell RNA sequencing (scRNA-seq) enables the study of cellular diversity at single cell level. It provides a global view of cell-type specification during the onset of biological mechanisms such as developmental processes and human organogenesis. Various statistical, machine and deep learning-based methods have been proposed for cell-type classification. Most of the methods utilizes unsupervised lower dimensional projections obtained from for a large reference data. In this work, we proposed a reference-based method for cell type classification, called EnProCell. The EnProCell, first, computes lower dimensional projections that capture both the high variance and class separability through an ensemble of principle component analysis and multiple discriminant analysis. In the second phase, EnProCell trains a deep neural network on the lower dimensional representation of data to classify cell types. The proposed method outperformed the existing state-of-the-art methods when tested on four different data sets produced from different single-cell sequencing technologies. The EnProCell showed higher accuracy (98.91) and F1 score (98.64) than other methods for predicting reference from reference datasets. Similarly, EnProCell also showed better performance than existing methods in predicting cell types for data with unknown cell types (query) from reference datasets (accuracy:99.52; F1 score: 99.07). In addition to improved performance, the proposed methodology is simple and does not require more computational resources and time. the EnProCell is available at https://github.com/umar1196/EnProCell. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-13 |
# 推論時間擬似ラベルによる3次元ショットセグメンテーションの改善
Improving 3D Few-Shot Segmentation with Inference-Time Pseudo-Labeling ( http://arxiv.org/abs/2410.09967v1 ) ライセンス: Link先を確認 | Mohammad Mozafari, Hosein Hasani, Reza Vahidimajd, Mohamadreza Fereydooni, Mahdieh Soleymani Baghshah, | (参考訳) 近年,少数ショットセグメンテーション(FSS)モデルが医用画像解析において有望なアプローチとして登場し,注釈付きデータに制限のある新規クラスに顕著な適応性を提供している。
数発のセグメンテーションに対する既存のアプローチは、クエリ自体の可能性を見落としていることが多く、それに含まれる貴重な情報を十分に活用できていない。
しかし、クエリをラベルのないデータとして扱うことで、予測精度を高めることができる。
具体的には、医用画像の領域において、クエリのボリューム構造は、ターゲットスライスセグメンテーションを改善するために使用できる貴重な情報のかなりの情報源を提供する。
そこで本研究では,クエリサンプルの固有情報を推論中の最終セグメンテーションに有効活用するための新しい手法を提案する。
まず,参照ボリュームからサポートスライスを使用して,クエリスライスの初期セグメンテーションスコアを生成する。
次に,信頼性に敏感な疑似ラベル処理手法を適用し,クエリスライスの最も情報性の高い部分をサポートセットに転送する。
最終的な予測は、新しい拡張サポートセットに基づいて行われ、クエリボリュームのより正確なセグメンテーションマスクの予測を可能にする。
大規模な実験により,提案手法は多様な設定やデータセット間で性能を効果的に向上させることができることが示された。
In recent years, few-shot segmentation (FSS) models have emerged as a promising approach in medical imaging analysis, offering remarkable adaptability to segment novel classes with limited annotated data. Existing approaches to few-shot segmentation have often overlooked the potential of the query itself, failing to fully utilize the valuable information it contains. However, treating the query as unlabeled data provides an opportunity to enhance prediction accuracy. Specifically in the domain of medical imaging, the volumetric structure of queries offers a considerable source of valuable information that can be used to improve the target slice segmentation. In this work, we present a novel strategy to efficiently leverage the intrinsic information of the query sample for final segmentation during inference. First, we use the support slices from a reference volume to generate an initial segmentation score for the query slices through a prototypical approach. Subsequently, we apply a confidence-aware pseudo-labeling procedure to transfer the most informative parts of query slices to the support set. The final prediction is performed based on the new expanded support set, enabling the prediction of a more accurate segmentation mask for the query volume. Extensive experiments show that the proposed method can effectively boost performance across diverse settings and datasets. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-13 |
# 視覚障害者の視覚障害に対するタスク関連再建
Make the Pertinent Salient: Task-Relevant Reconstruction for Visual Control with Distractions ( http://arxiv.org/abs/2410.09972v1 ) ライセンス: Link先を確認 | Kyungmin Kim, JB Lanier, Pierre Baldi, Charless Fowlkes, Roy Fox, | (参考訳) モデルベース強化学習(MBRL)の最近の進歩は、視覚制御タスクのための強力なツールとなった。
データ効率が向上したにもかかわらず、汎用的な認識でMBRLエージェントを訓練することは依然として困難である。
視覚的注意散らしの存在下でのトレーニングは、表現学習に導入される高いバリエーションのため、特に困難である。
一般的なMBRL手法であるDREAMERをベースとして,分散環境における表現学習を容易にするための,シンプルかつ効果的な補助タスクを提案する。
画像観察のタスク関連成分が与えられたタスクの事前知識と容易に識別できるという仮定の下で,画像観察のセグメンテーションマスクを用いてタスク関連成分の再構成を行う。
そこで我々は,タスク非関連オブジェクトを潜在表現にエンコードする必要をなくし,表現学習の複雑さを大幅に減らした。
提案手法であるセグメンテーション・ドリーマー (SD) は, シミュレーションや潜在的に不完全なセグメンテーション基礎モデルを活用することにより, グラウンドトルースマスクで容易に利用することができる。
マスク予測誤差による誤解を招く学習信号の提供を避けるため、再構成損失を選択的に適用することにより、後者をさらに改善する。
改良されたDeepMind Control Suite(DMC)とMeta-Worldタスクでは、SDは以前の作業よりもはるかに優れたサンプル効率と最終的なパフォーマンスを実現している。
SDは従来の作業では解決不可能な疎結合な報酬タスクにおいて特に有用であり,広範囲な報酬工学を必要とせず,視覚的に堅牢なエージェントのトレーニングを可能にする。
Recent advancements in Model-Based Reinforcement Learning (MBRL) have made it a powerful tool for visual control tasks. Despite improved data efficiency, it remains challenging to train MBRL agents with generalizable perception. Training in the presence of visual distractions is particularly difficult due to the high variation they introduce to representation learning. Building on DREAMER, a popular MBRL method, we propose a simple yet effective auxiliary task to facilitate representation learning in distracting environments. Under the assumption that task-relevant components of image observations are straightforward to identify with prior knowledge in a given task, we use a segmentation mask on image observations to only reconstruct task-relevant components. In doing so, we greatly reduce the complexity of representation learning by removing the need to encode task-irrelevant objects in the latent representation. Our method, Segmentation Dreamer (SD), can be used either with ground-truth masks easily accessible in simulation or by leveraging potentially imperfect segmentation foundation models. The latter is further improved by selectively applying the reconstruction loss to avoid providing misleading learning signals due to mask prediction errors. In modified DeepMind Control suite (DMC) and Meta-World tasks with added visual distractions, SD achieves significantly better sample efficiency and greater final performance than prior work. We find that SD is especially helpful in sparse reward tasks otherwise unsolvable by prior work, enabling the training of visually robust agents without the need for extensive reward engineering. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-13 |
# グラディエント・スパン・アルゴリズムは高次元で予測可能な進歩をもたらす
Gradient Span Algorithms Make Predictable Progress in High Dimension ( http://arxiv.org/abs/2410.09973v1 ) ライセンス: Link先を確認 | Felix Benning, Leif Döring, | (参考訳) 我々は、すべての「漸進スパンアルゴリズム」が、次元が無限大になる傾向があるため、スケールしたガウスランダム関数に対して漸近的に決定論的挙動を持つことを証明した。
特に、この結果は、複雑な非凸ランドスケープ上でランダムに初期化されているにもかかわらず、多くの大きな機械学習モデルの異なるトレーニングがほぼ同じコスト曲線をもたらすという、直感的な現象を説明する。
非定常な)等方的ガウス確率関数の分布仮定は、機械学習訓練の現実的モデルとして機能するだけでなく、スピングラスやランダム二次関数も含む。
We prove that all 'gradient span algorithms' have asymptotically deterministic behavior on scaled Gaussian random functions as the dimension tends to infinity. In particular, this result explains the counterintuitive phenomenon that different training runs of many large machine learning models result in approximately equal cost curves despite random initialization on a complicated non-convex landscape. The distributional assumption of (non-stationary) isotropic Gaussian random functions we use is sufficiently general to serve as realistic model for machine learning training but also encompass spin glasses and random quadratic functions. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-13 |
# ニュートラル・サマリーがニュートラルでないとき--LLM生成ニューズ・サマリーにおける政治中立性の定量化
When Neutral Summaries are not that Neutral: Quantifying Political Neutrality in LLM-Generated News Summaries ( http://arxiv.org/abs/2410.09978v1 ) ライセンス: Link先を確認 | Supriti Vijay, Aman Priyanshu, Ashique R. KhudaBukhsh, | (参考訳) アルゴリズム的キュレーションによって社会的な物語がますます形作られる時代において、LLMの政治的中立性の調査は重要な研究課題である。
本研究では, ニュース記事の抽象的要約によるLLMの政治的中立性の定量化について, 新たな視点を提示する。
我々は、中絶、銃規制/権利、医療、移民、LGBTQ+の権利という、現在のアメリカの政治における5つの迫る問題について検討する。
20,344のニュース記事の実質的なコーパスから、我々の研究は、いくつかの有名なLLMにおいて、民主主義支持バイアスに対する一貫した傾向を示し、銃規制と医療は最も顕著なバイアスを示す(最大偏極差は-9.49%と-6.14%)。
さらなる分析により、これらの異なるトピックに対するLLMのアウトプットの語彙の強い収束が明らかになった(民主党寄りの表現では55%が重複し、共和党では52%が重複している)。
米国の選挙結果から数ヶ月遅れているので、我々の発見は重要だと考えています。
In an era where societal narratives are increasingly shaped by algorithmic curation, investigating the political neutrality of LLMs is an important research question. This study presents a fresh perspective on quantifying the political neutrality of LLMs through the lens of abstractive text summarization of polarizing news articles. We consider five pressing issues in current US politics: abortion, gun control/rights, healthcare, immigration, and LGBTQ+ rights. Via a substantial corpus of 20,344 news articles, our study reveals a consistent trend towards pro-Democratic biases in several well-known LLMs, with gun control and healthcare exhibiting the most pronounced biases (max polarization differences of -9.49% and -6.14%, respectively). Further analysis uncovers a strong convergence in the vocabulary of the LLM outputs for these divisive topics (55% overlap for Democrat-leaning representations, 52% for Republican). Being months away from a US election of consequence, we consider our findings important. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-13 |
# 顔の幅と高さの比率は、自己申告された行動傾向を予測しない
Facial Width-to-Height Ratio Does Not Predict Self-Reported Behavioral Tendencies ( http://arxiv.org/abs/2410.09979v1 ) ライセンス: Link先を確認 | Michal Kosinski, | (参考訳) 顔の幅と高さの比率(fWHR)は、様々な反社会的または暴力的な行動傾向と結びついている研究が増えている。
しかし、これらの研究は主に実験室ベースで低出力である。
この研究は、137,163人の被験者を対象に、fWHRと行動傾向の関係を再検討した。
行動傾向は,5段階の人格モデル,衝動性,公正感,感覚的関心,自己監視,印象管理,生活への満足感の自己申告尺度を含む55種類の心理測定尺度を用いて測定した。
その結果、fWHRは、これらの自己報告された行動傾向の指標と実質的には関連していないことが明らかとなり、fWHRと行動の関係が、過去のfWHR研究で使用されてきた小さなサンプルや特定の実験環境を超えて一般化するかどうかという疑問が投げかけられた。
A growing number of studies have linked facial width-to-height ratio (fWHR) with various antisocial or violent behavioral tendencies. However, those studies have predominantly been laboratory based and low powered. This work reexamined the links between fWHR and behavioral tendencies in a large sample of 137,163 participants. Behavioral tendencies were measured using 55 well-established psychometric scales, including self-report scales measuring intelligence, domains and facets of the five-factor model of personality, impulsiveness, sense of fairness, sensational interests, self-monitoring, impression management, and satisfaction with life. The findings revealed that fWHR is not substantially linked with any of these self-reported measures of behavioral tendencies, calling into question whether the links between fWHR and behavior generalize beyond the small samples and specific experimental settings that have been used in past fWHR research. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-13 |
# グローバルコンテキストにおける責任あるAI:成熟度モデルと調査
Responsible AI in the Global Context: Maturity Model and Survey ( http://arxiv.org/abs/2410.09985v1 ) ライセンス: Link先を確認 | Anka Reuel, Patrick Connolly, Kiana Jafari Meimandi, Shekhar Tewari, Jakub Wiatrak, Dikshita Venkatesh, Mykel Kochenderfer, | (参考訳) 責任AI(Responsible AI, RAI)は、リスクを軽減し、組織のレベルと社会的レベルの両方においてAIのメリットを最大化することを目的として、産業、政策立案、学界に重点を置いている。
本研究は、20の産業と19の地理的地域にまたがる1000の組織を調査し、このトピックに関する最も広範な調査の1つを通じて、RAIのグローバルな状況を調査した。
組織におけるRAIの成熟度モデルを定義し、組織的かつ運用的なRAI対策の実施方法のマップを作成します。
このモデルに基づいて、この調査は、差別、信頼性、プライバシなどの特定リスクを軽減するためのシステムレベル対策の導入を評価し、ガバナンス、リスク管理、監視および管理に関連する主要な組織プロセスをカバーする。
この研究はAIリスクの展望の拡大を強調し、包括的なリスク軽減戦略の必要性を強調している。
この結果はまた、AIシステムからの(公的な)リスクの増加につながる可能性のあるRAI実装のギャップも明らかになった。
この研究は、RAIの実践を世界規模で評価し、改善するための構造化されたアプローチを提供し、AIの進歩と人間の福祉と社会的利益との整合性を確保するために、RAI計画と実行のギャップを埋める重要な必要性を浮き彫りにしている。
Responsible AI (RAI) has emerged as a major focus across industry, policymaking, and academia, aiming to mitigate the risks and maximize the benefits of AI, both on an organizational and societal level. This study explores the global state of RAI through one of the most extensive surveys to date on the topic, surveying 1000 organizations across 20 industries and 19 geographical regions. We define a conceptual RAI maturity model for organizations to map how well they implement organizational and operational RAI measures. Based on this model, the survey assesses the adoption of system-level measures to mitigate identified risks related to, for example, discrimination, reliability, or privacy, and also covers key organizational processes pertaining to governance, risk management, and monitoring and control. The study highlights the expanding AI risk landscape, emphasizing the need for comprehensive risk mitigation strategies. The findings also reveal significant strides towards RAI maturity, but we also identify gaps in RAI implementation that could lead to increased (public) risks from AI systems. This research offers a structured approach to assess and improve RAI practices globally and underscores the critical need for bridging the gap between RAI planning and execution to ensure AI advancement aligns with human welfare and societal benefits. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-13 |
# HARDMath: 応用数学における問題解決のためのベンチマークデータセット
HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics ( http://arxiv.org/abs/2410.09988v1 ) ライセンス: Link先を確認 | Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Jonah Brenner, Danxian Liu, Nianli Peng, Corey Wang, Michael P. Brenner, | (参考訳) 高度な応用数学の問題は、既存のLarge Language Model (LLM)ベンチマークデータセットでは不足している。
そこで本研究では, 漸近的手法を応用したHARDMathを提案する。
これらの問題は、数学的推論、計算ツール、主観的判断の組み合わせを必要とするため、LLMでは難しい。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
GPT-4のような主要なクローズドソースモデルでさえ、数ショットのChain-of-Thoughtのプロンプトで全体の43.8%の精度しか達成していない。
また, LLMの故障事例の知見を得るために, 詳細な誤り解析を行う。
これらの結果は、先進的な段階の応用数学問題に対する現在のLLM性能の限界を示し、LLMの数学的能力を向上させるためにHARDMathのようなデータセットの重要性を強調している。
Advanced applied mathematics problems are underrepresented in existing Large Language Model (LLM) benchmark datasets. To address this, we introduce HARDMath, a dataset inspired by a graduate course on asymptotic methods, featuring challenging applied mathematics problems that require analytical approximation techniques. These problems demand a combination of mathematical reasoning, computational tools, and subjective judgment, making them difficult for LLMs. Our framework auto-generates a large number of problems with solutions validated against numerical ground truths. We evaluate both open- and closed-source LLMs on HARDMath-mini, a sub-sampled test set of 366 problems, as well as on 40 word problems formulated in applied science contexts. Even leading closed-source models like GPT-4 achieve only 43.8% overall accuracy with few-shot Chain-of-Thought prompting, and all models demonstrate significantly lower performance compared to results on existing mathematics benchmark datasets. We additionally conduct a detailed error analysis to gain insights into the failure cases of LLMs. These results demonstrate limitations of current LLM performance on advanced graduate-level applied math problems and underscore the importance of datasets like HARDMath to advance mathematical abilities of LLMs. | 翻訳日:2024-10-30 03:43:37 公開日:2024-10-13 |
# MARS:多言語アスペクト中心レビュー要約
MARS: Multilingual Aspect-centric Review Summarisation ( http://arxiv.org/abs/2410.09991v1 ) ライセンス: Link先を確認 | Sandeep Sricharan Mukku, Abinesh Kanagarajan, Chetan Aggarwal, Promod Yenigalla, | (参考訳) 大規模な製品やサービスに対して実用的な洞察を提供するために顧客からのフィードバックを要約することは、業界全体のビジネスにとって重要な問題である。
近年、レビューボリュームは地域や言語によって増加しており、複数の言語にまたがる顧客感情の集約と理解の課題がますます重要になっている。
本稿では,2段階のパラダイムである「textit{Extract-then-Summarise}」を取り入れた新しいフレームワークを提案する。
大規模な自動評価と人的評価は、我々のアプローチが、リアルタイムシステムに抽象的ベースラインと効率を大幅に改善することを示している。
Summarizing customer feedback to provide actionable insights for products/services at scale is an important problem for businesses across industries. Lately, the review volumes are increasing across regions and languages, therefore the challenge of aggregating and understanding customer sentiment across multiple languages becomes increasingly vital. In this paper, we propose a novel framework involving a two-step paradigm \textit{Extract-then-Summarise}, namely MARS to revolutionise traditions and address the domain agnostic aspect-level multilingual review summarisation. Extensive automatic and human evaluation shows that our approach brings substantial improvements over abstractive baselines and efficiency to real-time systems. | 翻訳日:2024-10-30 03:43:37 公開日:2024-10-13 |
# 道徳判断におけるLCMの性バイアス評価
Evaluating Gender Bias of LLMs in Making Morality Judgements ( http://arxiv.org/abs/2410.09992v1 ) ライセンス: Link先を確認 | Divij Bajaj, Yuanyuan Lei, Jonathan Tong, Ruihong Huang, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクで顕著な機能を示している。
しかし、これらのモデルは、社会的偏見、特にジェンダー偏見のような制限にまだ免疫がない。
この研究は、特に道徳的意見を求めるとき、現在のクローズドでオープンソースなLLMが性バイアスを持っているかどうかを調査する。
これらのモデルを評価するために,男性と女性を特徴とする平行した短編記事からなる新しいデータセットGenMO(Gender-bias in Morality Opinions)をキュレートし,導入した。
具体的には、GPTファミリー(GPT-3.5-turbo, GPT-3.5-turbo-instruct, GPT-4-turbo)、Llama 3および3.1ファミリー(8B/70B)、Mistral-7BおよびClaude 3ファミリー(SonnetとOpus)のモデルをテストする。
GPT-3.5-turboで男女差を有意に示し、サンプルの24%に偏りが認められた。
さらに、すべてのモデルは女性キャラクタを常に好んでおり、GPTは68~85%、Llama 3は81~85%である。
さらに,モデルパラメータがジェンダーバイアスに与える影響について検討し,LLMが道徳的意思決定におけるバイアスを明らかにする現実世界の状況について検討した。
Large Language Models (LLMs) have shown remarkable capabilities in a multitude of Natural Language Processing (NLP) tasks. However, these models are still not immune to limitations such as social biases, especially gender bias. This work investigates whether current closed and open-source LLMs possess gender bias, especially when asked to give moral opinions. To evaluate these models, we curate and introduce a new dataset GenMO (Gender-bias in Morality Opinions) comprising parallel short stories featuring male and female characters respectively. Specifically, we test models from the GPT family (GPT-3.5-turbo, GPT-3.5-turbo-instruct, GPT-4-turbo), Llama 3 and 3.1 families (8B/70B), Mistral-7B and Claude 3 families (Sonnet and Opus). Surprisingly, despite employing safety checks, all production-standard models we tested display significant gender bias with GPT-3.5-turbo giving biased opinions in 24% of the samples. Additionally, all models consistently favour female characters, with GPT showing bias in 68-85% of cases and Llama 3 in around 81-85% instances. Additionally, our study investigates the impact of model parameters on gender bias and explores real-world situations where LLMs reveal biases in moral decision-making. | 翻訳日:2024-10-30 03:43:37 公開日:2024-10-13 |
# SoK: プリント基板攻撃のセキュリティアーキテクトの視点
SoK: A Security Architect's View of Printed Circuit Board Attacks ( http://arxiv.org/abs/2410.09993v1 ) ライセンス: Link先を確認 | Jacob Harrison, Nathan Jessurun, Mark Tehranipoor, | (参考訳) 近年の多くの論文では、プリント基板(PCB)とプリント基板集合体(PCBA)の改ざん防止のための新しい電気的測定技術や物理的検査技術が提案されている。
モチベーションとして、これらの論文はブルームバーグ・ニュースの「The Big Hack」、ビデオゲームのモチップ、IT機器に対する「干渉攻撃」をしばしば引用している。
この傾向には2つの理由がある。
第一に、最近のPCBAセキュリティ研究において、これらの一般的な攻撃の根本原因であるにもかかわらず、実装エラーとセキュリティアーキテクチャが議論されることはめったにない。
このことは、攻撃が十分に理解されていないことを示唆している。
第二に、新たな対策と検証手法がこれらの攻撃に合わせたものであると仮定した場合、最近の重要な研究は、オープンな問題ではなく、既に緩和可能な攻撃に焦点を当てている。
これらの懸念に対処するために、このSoKを書きます。
我々は、PCBAセキュリティアーキテクチャにより、脅威の改ざんを軽減できるかを説明している。
そして、セキュリティアーキテクチャが依存する仮定を列挙します。
セキュリティアーキテクチャによる保証と、最近提案された電気またはインスペクションに基づくタンパ検出による保証を比較して比較する。
最後に、50以上のPCBA攻撃をレビューし、適切なアーキテクチャと慎重に実装することで、最も多くが防げることを示す。
Many recent papers have proposed novel electrical measurements or physical inspection technologies for defending printed circuit boards (PCBs) and printed circuit board assemblies (PCBAs) against tampering. As motivation, these papers frequently cite Bloomberg News' "The Big Hack", video game modchips, and "interdiction attacks" on IT equipment. We find this trend concerning for two reasons. First, implementation errors and security architecture are rarely discussed in recent PCBA security research, even though they were the root causes of these commonly-cited attacks and most other attacks that have occurred or been proposed by researchers. This suggests that the attacks may be poorly understood. Second, if we assume that novel countermeasures and validation methodologies are tailored to these oft-cited attacks, then significant recent work has focused on attacks that can already be mitigated instead of on open problems. We write this SoK to address these concerns. We explain which tampering threats can be mitigated by PCBA security architecture. Then, we enumerate assumptions that security architecture depends on. We compare and contrast assurances achieved by security architecture vs. by recently-proposed electrical or inspection-based tamper detection. Finally, we review over fifty PCBA attacks to show how most can be prevented by proper architecture and careful implementation. | 翻訳日:2024-10-30 03:43:37 公開日:2024-10-13 |
# Collu-Bench: コード内の言語モデルの幻覚を予測するベンチマーク
Collu-Bench: A Benchmark for Predicting Language Model Hallucinations in Code ( http://arxiv.org/abs/2410.09997v1 ) ライセンス: Link先を確認 | Nan Jiang, Qi Li, Lin Tan, Tianyi Zhang, | (参考訳) 彼らの成功にもかかわらず、大きな言語モデル(LLM)は幻覚の重要な課題に直面し、もっともらしいが誤った内容を生成する。
多くの研究は、画像や自然言語テキストを含む複数のモダリティにおける幻覚に焦点を当てているが、ソースコードの幻覚にはあまり注目されていない。
コード生成(CG)と自動プログラム修復(APR)タスクにわたるLLMのコード幻覚を予測するベンチマークであるColru-Benchを紹介した。
Collu-Benchには、オープンソースモデルから商用モデルまで、5つのデータセットから収集された13,234のコード幻覚インスタンスと11のさまざまなLSMが含まれている。
コード幻覚をよりよく理解し、予測するために、Colru-Bench氏は、LLMの出力のステップごとのログ確率、トークンタイプ、詳細な分析のためにLLMの生成したコードの実行フィードバックなど、詳細な機能を提供している。
さらに、従来の機械学習技術とニューラルネットワークの両方を用いて、Colul-Benchの幻覚を予測する実験を行い、22.03 -- 33.15%の精度を達成した。
我々の実験は、コード幻覚パターンの洞察に富んだ発見を導き、LLMの幻覚を正確にローカライズすることの難しさを明らかにし、より高度な技術の必要性を強調する。
Despite their success, large language models (LLMs) face the critical challenge of hallucinations, generating plausible but incorrect content. While much research has focused on hallucinations in multiple modalities including images and natural language text, less attention has been given to hallucinations in source code, which leads to incorrect and vulnerable code that causes significant financial loss. To pave the way for research in LLMs' hallucinations in code, we introduce Collu-Bench, a benchmark for predicting code hallucinations of LLMs across code generation (CG) and automated program repair (APR) tasks. Collu-Bench includes 13,234 code hallucination instances collected from five datasets and 11 diverse LLMs, ranging from open-source models to commercial ones. To better understand and predict code hallucinations, Collu-Bench provides detailed features such as the per-step log probabilities of LLMs' output, token types, and the execution feedback of LLMs' generated code for in-depth analysis. In addition, we conduct experiments to predict hallucination on Collu-Bench, using both traditional machine learning techniques and neural networks, which achieves 22.03 -- 33.15% accuracy. Our experiments draw insightful findings of code hallucination patterns, reveal the challenge of accurately localizing LLMs' hallucinations, and highlight the need for more sophisticated techniques. | 翻訳日:2024-10-30 03:43:37 公開日:2024-10-13 |
# SlimSeiz: マンバ強化ネットワークを用いた効率の良いチャネル適応型シーズーア予測
SlimSeiz: Efficient Channel-Adaptive Seizure Prediction Using a Mamba-Enhanced Network ( http://arxiv.org/abs/2410.09998v1 ) ライセンス: Link先を確認 | Guorui Lu, Jing Peng, Bingyuan Huang, Chang Gao, Todor Stefanov, Yong Hao, Qinyu Chen, | (参考訳) てんかん発作は異常な脳活動を引き起こし、その予測不能は事故を引き起こし、長期の発作予測の必要性を暗示する。
発作は脳波(EEG)信号を解析することで予測できるが、既存の方法では電極チャネルが多すぎるか、より大きなモデルが必要であり、移動体の使用性が制限される。
本稿では,軽量ニューラルネットワークモデルを用いた適応チャネル選択を利用したSlimSeizフレームワークを提案する。
SlimSeizは2つの状態で動作する。第1ステージは機械学習アルゴリズムを使用して発作予測のための最適なチャネルセットを選択し、第2ステージは畳み込みとMambaに基づく軽量ニューラルネットワークを使用して予測を行う。
小児病院ボストン-MIT(CHB-MIT)のEEGデータセットでは、SlimSeizは、94.8%の精度、95.5%の感度、94.0%の特異性を達成しつつ、22から8までのチャネルを削減できる。
また,上海連日病院から収集した新たな脳波データセットSRH-LEIを用いて,SlimSeizの有効性を検証した。
コードとSRH-LEIデータセットはhttps://github.com/guoruilu/SlimSeiz.comで公開されている。
Epileptic seizures cause abnormal brain activity, and their unpredictability can lead to accidents, underscoring the need for long-term seizure prediction. Although seizures can be predicted by analyzing electroencephalogram (EEG) signals, existing methods often require too many electrode channels or larger models, limiting mobile usability. This paper introduces a SlimSeiz framework that utilizes adaptive channel selection with a lightweight neural network model. SlimSeiz operates in two states: the first stage selects the optimal channel set for seizure prediction using machine learning algorithms, and the second stage employs a lightweight neural network based on convolution and Mamba for prediction. On the Children's Hospital Boston-MIT (CHB-MIT) EEG dataset, SlimSeiz can reduce channels from 22 to 8 while achieving a satisfactory result of 94.8% accuracy, 95.5% sensitivity, and 94.0% specificity with only 21.2K model parameters, matching or outperforming larger models' performance. We also validate SlimSeiz on a new EEG dataset, SRH-LEI, collected from Shanghai Renji Hospital, demonstrating its effectiveness across different patients. The code and SRH-LEI dataset are available at https://github.com/guoruilu/SlimSeiz. | 翻訳日:2024-10-30 03:43:37 公開日:2024-10-13 |
# マルチモーダルインサイト抽出のための顧客フィードバックの活用
Leveraging Customer Feedback for Multi-modal Insight Extraction ( http://arxiv.org/abs/2410.09999v1 ) ライセンス: Link先を確認 | Sandeep Sricharan Mukku, Abinesh Kanagarajan, Pushpendu Ghosh, Chetan Aggarwal, | (参考訳) 企業は、製品やサービスを強化するために、テキストや画像など、さまざまなモダリティで顧客からのフィードバックの恩恵を受けることができる。
しかし、1回のパスで顧客からのフィードバックから行動可能なテキストセグメントと画像のペアを抽出することは困難である。
本稿では,画像テキストグラウンドドテキストデコーダを用いて,画像とテキスト情報を潜伏空間に融合し,関連するフィードバックセグメントを抽出する,新しいマルチモーダル手法を提案する。
また、このタスクのためのトレーニングデータを生成する弱教師付きデータ生成手法も導入する。
我々は、不適切なデータに基づいてモデルを評価し、F1スコアにおいて既存のベースラインを14ドルポイント上回る、マルチモーダルな顧客フィードバックから実行可能な洞察を効果的にマイニングできることを実証した。
Businesses can benefit from customer feedback in different modalities, such as text and images, to enhance their products and services. However, it is difficult to extract actionable and relevant pairs of text segments and images from customer feedback in a single pass. In this paper, we propose a novel multi-modal method that fuses image and text information in a latent space and decodes it to extract the relevant feedback segments using an image-text grounded text decoder. We also introduce a weakly-supervised data generation technique that produces training data for this task. We evaluate our model on unseen data and demonstrate that it can effectively mine actionable insights from multi-modal customer feedback, outperforming the existing baselines by $14$ points in F1 score. | 翻訳日:2024-10-30 03:43:37 公開日:2024-10-13 |
# 臨床知識によるラベル平滑化を伴う肝腫瘍分節化に対する全能的弱視的アプローチ
A Holistic Weakly Supervised Approach for Liver Tumor Segmentation with Clinical Knowledge-Informed Label Smoothing ( http://arxiv.org/abs/2410.10005v1 ) ライセンス: Link先を確認 | Hairong Wang, Lingchao Mao, Zihan Zhang, Jing Li, | (参考訳) 肝癌は世界中で死亡の主因であり,診断と治療にはCTベースの腫瘍分節が不可欠である。
手動のデライン化は時間集約的であり、変動しがちであり、信頼性の高い自動化の必要性を強調している。
深層学習は、自動肝セグメンテーションを約束しているが、腫瘍の異種性、不正確な腫瘍マージン、限られたラベル付きデータのために、正確な肝腫瘍セグメンテーションは依然として困難である。
これらの課題に対処するために,臨床知識を融合して,(1)臨床データを活用してスムーズなラベルを生成する知識インフォームド・ラベル・スムージング技術,(2)過剰適合のリスクを軽減し,モデル性能を向上させるためのモデルトレーニングを標準化する,(2)グローバル・ローカル・ビュー・セグメンテーション・フレームワーク,(2)タスクを2つのシンプルなサブタスクに分割し,それぞれに最適化された前処理とトレーニングを可能にする,(3)各サブタスクの課題に合わせてカスタマイズされた前処理と後処理のパイプライン。
提案手法をHCC-TACE-Segデータセット上で評価し,これらの3つの鍵成分が相補的に性能改善に寄与することを示した。
最後に,MedAssistLiverという自動肝腫瘍分割・診断要約生成ツールの試作を行った。
アプリとコードはhttps://github.com/lingchm/medassist-liver-cancer.comで公開されている。
Liver cancer is a leading cause of mortality worldwide, and accurate CT-based tumor segmentation is essential for diagnosis and treatment. Manual delineation is time-intensive, prone to variability, and highlights the need for reliable automation. While deep learning has shown promise for automated liver segmentation, precise liver tumor segmentation remains challenging due to the heterogeneous nature of tumors, imprecise tumor margins, and limited labeled data. We present a novel holistic weakly supervised framework that integrates clinical knowledge to address these challenges with (1) A knowledge-informed label smoothing technique that leverages clinical data to generate smooth labels, which regularizes model training reducing the risk of overfitting and enhancing model performance; (2) A global and local-view segmentation framework, breaking down the task into two simpler sub-tasks, allowing optimized preprocessing and training for each; and (3) Pre- and post-processing pipelines customized to the challenges of each subtask, which enhances tumor visibility and refines tumor boundaries. We evaluated the proposed method on the HCC-TACE-Seg dataset and showed that these three key components complementarily contribute to the improved performance. Lastly, we prototyped a tool for automated liver tumor segmentation and diagnosis summary generation called MedAssistLiver. The app and code are published at https://github.com/lingchm/medassist-liver-cancer. | 翻訳日:2024-10-30 03:43:37 公開日:2024-10-13 |
# TapWeight: タスク適応型事前トレーニングのための事前トレーニング対象の再重み付け
TapWeight: Reweighting Pretraining Objectives for Task-Adaptive Pretraining ( http://arxiv.org/abs/2410.10006v1 ) ライセンス: Link先を確認 | Ruiyi Zhang, Sai Ashish Somayajula, Pengtao Xie, | (参考訳) 大規模汎用ドメイン事前トレーニングと下流特化ファインタニングが機械学習の主要なパラダイムとなっている。
しかしながら、プレトレーニングとターゲットドメインの相違は、タスク適応型継続的プレトレーニング(TAP)の必要性を強調し、一部のケースでパフォーマンスの低下につながる可能性がある。
TAP手法は一般的に、タスク固有の未ラベルデータセットのトレーニングを継続することや、モデル機能を強化するために教師なし学習目的を導入することを含む。
多くのTAP手法は、複数の事前訓練対象で継続事前訓練を行うが、それらはしばしば、目的間のトレードオフパラメータを手動で決定し、最適以下の結果とより高い計算コストをもたらす。
本稿では,タスク適応型事前学習フレームワークであるTapWeightを提案する。
TapWeightは、複数のレベルの最適化問題を解くことで、事前学習目標を重み付けする。
我々はTapWeightを分子特性予測と自然言語理解タスクの両方に適用し,ベースライン法をはるかに上回った。
TapWeightの有効性と一般化性を検証する実験結果が得られた。
Large-scale general domain pretraining followed by downstream-specific finetuning has become a predominant paradigm in machine learning. However, discrepancies between the pretraining and target domains can still lead to performance degradation in certain cases, underscoring the need for task-adaptive continued pretraining (TAP). TAP methods typically involve continued pretraining on task-specific unlabeled datasets or introducing additional unsupervised learning objectives to enhance model capabilities. While many TAP methods perform continued pretraining with multiple pretraining objectives, they often determine the tradeoff parameters between objectives manually, resulting in suboptimal outcomes and higher computational costs. In this paper, we propose TapWeight, a task-adaptive pretraining framework which automatically determines the optimal importance of each pretraining objective based on downstream feedback. TapWeight reweights each pretraining objective by solving a multi-level optimization problem. We applied TapWeight to both molecular property prediction and natural language understanding tasks, significantly surpassing baseline methods. Experimental results validate the effectiveness and generalizability of TapWeight. | 翻訳日:2024-10-30 03:43:37 公開日:2024-10-13 |
# 天文学におけるピアレビューの強化 - ALMAのレビューアサインに対する機械学習と最適化アプローチ
Enhancing Peer Review in Astronomy: A Machine Learning and Optimization Approach to Reviewer Assignments for ALMA ( http://arxiv.org/abs/2410.10009v1 ) ライセンス: Link先を確認 | John M. Carpenter, Andrea Corvillón, Nihar B. Shah, | (参考訳) ピアレビュー中の論文や提案の量の増加は、拡大するスケールを効果的に管理するために、より大きな自動化の必要性を強く求めている。
本研究では,2023年に発行されたCycle 10 Call for Proposalsにおいて,アタカマ大型ミリ波サブミリ波アレイ(ALMA)用に開発されたレビュアーに提案を割り当てるための機械学習および最適化手法の展開と評価を行う。
トピックモデリングアルゴリズムを利用することで、提案トピックを特定し、過去のALMA提案に基づいてレビュアーの専門知識を評価する。
次にPeerReview4All(Stelmakh et al 2021a)の代入最適化アルゴリズムの適応版を適用し,提案トピックとレビュアーの専門知識の整合性を最大化する。
本評価では,提案トピックとレビュアの専門知識の平均的類似度スコアは,前回のサイクルに比べて51ポイント上昇し,アサインされた提案の専門知識を報告するレビュアの割合は20ポイント上昇した。
さらに、この割当てプロセスは、大きなミスマッチのために再割り当てが必要とせず、3~5日間のマニュアル作業が省かれ、非常に効果的であることが判明した。
The increasing volume of papers and proposals undergoing peer review emphasizes the pressing need for greater automation to effectively manage the growing scale. In this study, we present the deployment and evaluation of machine learning and optimization techniques for assigning proposals to reviewers that was developed for the Atacama Large Millimeter/submillimeter Array (ALMA) during the Cycle 10 Call for Proposals issued in 2023. By utilizing topic modeling algorithms, we identify the proposal topics and assess reviewers' expertise based on their historical ALMA proposal submissions. We then apply an adapted version of the assignment optimization algorithm from PeerReview4All (Stelmakh et al. 2021a) to maximize the alignment between proposal topics and reviewer expertise. Our evaluation shows a significant improvement in matching reviewer expertise: the median similarity score between the proposal topic and reviewer expertise increased by 51 percentage points compared to the previous cycle, and the percentage of reviewers reporting expertise in their assigned proposals rose by 20 percentage points. Furthermore, the assignment process proved highly effective in that no proposals required reassignment due to significant mismatches, resulting in a savings of 3 to 5 days of manual effort. | 翻訳日:2024-10-30 03:43:37 公開日:2024-10-13 |
# PDDL計画のための解釈可能な分類器の学習
Learning Interpretable Classifiers for PDDL Planning ( http://arxiv.org/abs/2410.10011v1 ) ライセンス: Link先を確認 | Arnaud Lequen, | (参考訳) 我々は,PDDLで表される同様の計画課題の集合において,エージェントの動作を認識する解釈可能なモデルを他のエージェントと比較する問題を考える。
我々のアプローチは、エージェントが小さなプランニングインスタンスをどのように解決したかを示す小さな例から、論理式を学習することで構成される。
これらの式は、我々の計画形式に合わせた一階テンポラル論理(FTL)のバージョンで表現される。
このような公式は可読性があり、エージェントのポリシーの(部分的な)記述として機能し、目に見えないインスタンスに一般化する。
このような公式の学習はNPハード問題であるため、計算的に難解であることが示される。
そこで我々は,これらの振る舞い分類器をMaxSATへのトポロジ誘導コンパイルにより学習し,多種多様な式を生成することを提案する。
実験により、興味深い正確な公式が妥当な時間で学習できることが示されている。
We consider the problem of synthesizing interpretable models that recognize the behaviour of an agent compared to other agents, on a whole set of similar planning tasks expressed in PDDL. Our approach consists in learning logical formulas, from a small set of examples that show how an agent solved small planning instances. These formulas are expressed in a version of First-Order Temporal Logic (FTL) tailored to our planning formalism. Such formulas are human-readable, serve as (partial) descriptions of an agent's policy, and generalize to unseen instances. We show that learning such formulas is computationally intractable, as it is an NP-hard problem. As such, we propose to learn these behaviour classifiers through a topology-guided compilation to MaxSAT, which allows us to generate a wide range of different formulas. Experiments show that interesting and accurate formulas can be learned in reasonable time. | 翻訳日:2024-10-30 03:43:37 公開日:2024-10-13 |
# NARAIM: ネイティブアスペクト比自動回帰画像モデル
NARAIM: Native Aspect Ratio Autoregressive Image Models ( http://arxiv.org/abs/2410.10012v1 ) ライセンス: Link先を確認 | Daniel Gallo Fernández, Robert van der Klis, Rǎzvan-Andrei Matişan, Janusz Partyka, Efstratios Gavves, Samuele Papa, Phillip Lippe, | (参考訳) 視覚変換器は様々なコンピュータビジョンタスクを解くことができるが、事前学習法は言語モデルで見られるようなスケーリング法則をまだ示していない。
自己回帰モデルは有望な結果を示すが、通常、トリミングされたり、正方形に変換された画像に基づいて訓練され、入力に存在する情報を歪ませたり破壊したりする。
この制限を克服するために,NARAIMという視覚モデルを提案する。
ネイティブアスペクト比を維持することにより、元の空間的コンテキストを保存し、視覚情報を解釈するモデルの能力を高める。
実験では, アスペクト比の維持が下流分類タスクの性能を向上させることを示す。
While vision transformers are able to solve a wide variety of computer vision tasks, no pre-training method has yet demonstrated the same scaling laws as observed in language models. Autoregressive models show promising results, but are commonly trained on images that are cropped or transformed into square images, which distorts or destroys information present in the input. To overcome this limitation, we propose NARAIM, a vision model pre-trained with an autoregressive objective that uses images in their native aspect ratio. By maintaining the native aspect ratio, we preserve the original spatial context, thereby enhancing the model's ability to interpret visual information. In our experiments, we show that maintaining the aspect ratio improves performance on a downstream classification task. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# 大規模言語モデルの安全性を考慮した微調整
Safety-Aware Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2410.10014v1 ) ライセンス: Link先を確認 | Hyeong Kyu Choi, Xuefeng Du, Yixuan Li, | (参考訳) 細調整された大規模言語モデル(LLM)は、個々のニーズや好みに合わせてモデルを調整するための一般的なプラクティスとして現れています。
微調整のためのデータセットの選択は多種多様であり、有害なデータサンプルを含む可能性に関する安全上の懸念がもたらされる。
しかし、このようなサンプルを手動でフィルターしたり、避けたりすることは、労働集約的で主観的である。
このような問題に対処するために,有害・良質なサンプルのサブスペース情報を利用するスコアリング機能を活用することにより,潜在的有害データを自動検出・除去する新しいSAFTフレームワークを提案する。
実験の結果、様々なLSMに対してSAFTの有効性が示され、有害度を最大27.8%まで下げることに成功した。
現実のシナリオにおける実践的な課題に対処する上で、私たちのアプローチのメカニズムを掘り下げて、その汎用性を検証します。
Fine-tuning Large Language Models (LLMs) has emerged as a common practice for tailoring models to individual needs and preferences. The choice of datasets for fine-tuning can be diverse, introducing safety concerns regarding the potential inclusion of harmful data samples. Manually filtering or avoiding such samples, however, can be labor-intensive and subjective. To address these difficulties, we propose a novel Safety-Aware Fine-Tuning (SAFT) framework designed to automatically detect and remove potentially harmful data, by leveraging a scoring function that exploits the subspace information of harmful and benign samples. Experimental results demonstrate the efficacy of SAFT across different LLMs and varying contamination rates, achieving reductions in harmfulness of up to 27.8%. Going beyond, we delve into the mechanism of our approach and validate its versatility in addressing practical challenges in real-world scenarios. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# REPeat:ロボット支援給餌におけるソフト食品の事前取得のためのReal2Sim2Realアプローチ
REPeat: A Real2Sim2Real Approach for Pre-acquisition of Soft Food Items in Robot-assisted Feeding ( http://arxiv.org/abs/2410.10017v1 ) ライセンス: Link先を確認 | Nayoung Ha, Ruolin Ye, Ziang Liu, Shubhangi Sinha, Tapomayukh Bhattacharjee, | (参考訳) 本稿では,ロボットによる軟質食品の摂食における噛み込みの促進を目的としたReal2Sim2RealフレームワークであるREPeatを提案する。
プッシュ、カット、フリップなどの「事前取得アクション」を使用して、ストーピング、スクーピング、ツイリングなどの噛み込み獲得アクションの成功率を向上させる。
データ駆動モデルが直接噛み付き獲得の成功率の低いことを予測した場合、システムはReal2Simフェーズを開始し、シミュレーションで食品の形状を再構築する。
ロボットはシミュレーションで様々な事前取得動作を探索し、次にSim2Realのステップでフォトリアリスティックな画像をレンダリングして成功率を再評価する。
成功が向上すれば、ロボットは実際にアクションを適用します。
軟食食用食材10種類からなる15枚の多種多様な食材について評価を行い,全食材の平均接ぎ取り成功率を27 %向上させた。
プロジェクトのWebサイトはhttps://emprise.cs.cornell.edu/repeat.com。
The paper presents REPeat, a Real2Sim2Real framework designed to enhance bite acquisition in robot-assisted feeding for soft foods. It uses `pre-acquisition actions' such as pushing, cutting, and flipping to improve the success rate of bite acquisition actions such as skewering, scooping, and twirling. If the data-driven model predicts low success for direct bite acquisition, the system initiates a Real2Sim phase, reconstructing the food's geometry in a simulation. The robot explores various pre-acquisition actions in the simulation, then a Sim2Real step renders a photorealistic image to reassess success rates. If the success improves, the robot applies the action in reality. We evaluate the system on 15 diverse plates with 10 types of food items for a soft food diet, showing improvement in bite acquisition success rates by 27\% on average across all plates. See our project website at https://emprise.cs.cornell.edu/repeat. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# 電力グリッドにおける一般化DER予測のためのフェデレーション学習エッジ計算手法の精度と収束性の改善
Improving accuracy and convergence of federated learning edge computing methods for generalized DER forecasting applications in power grid ( http://arxiv.org/abs/2410.10018v1 ) ライセンス: Link先を確認 | Vineet Jagadeesan Nair, Lucas Pereira, | (参考訳) 本提案では, コンバージェンス特性の高速化と通信要求の低減を図り, 再生可能エネルギー, エネルギー貯蔵, 負荷等の分散エネルギー資源(DER)の予測を行う。
これが達成される。
i)最近開発された階層的クラスタリングや反復クラスタリングといったFLの拡張を活用して,非IIDデータの性能向上を図る。
(二)時系列データに適した様々なFLグローバルモデルの実験、及び
三 電力システムからのドメイン固有の知識を取り入れて、負荷予測だけでなく、異種クライアントにも適用可能な、より一般的なFLフレームワークとアーキテクチャを構築します。
This proposal aims to develop more accurate federated learning (FL) methods with faster convergence properties and lower communication requirements, specifically for forecasting distributed energy resources (DER) such as renewables, energy storage, and loads in modern, low-carbon power grids. This will be achieved by (i) leveraging recently developed extensions of FL such as hierarchical and iterative clustering to improve performance with non-IID data, (ii) experimenting with different types of FL global models well-suited to time-series data, and (iii) incorporating domain-specific knowledge from power systems to build more general FL frameworks and architectures that can be applied to diverse types of DERs beyond just load forecasting, and with heterogeneous clients. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# 医療用言語エージェントにおける適応推論と行動
Adaptive Reasoning and Acting in Medical Language Agents ( http://arxiv.org/abs/2410.10020v1 ) ライセンス: Link先を確認 | Abhishek Dutta, Yen-Che Hsiao, | (参考訳) 本稿では,AgentClinicベンチマークを用いて,シミュレートされた臨床環境における診断精度を向上させるための,革新的な大規模言語モデル(LLM)エージェントフレームワークを提案する。
提案した自動修正により、医師は誤診後の推論と行動を反復的に洗練し、時間とともに意思決定を改善することができる。
実験により, LLMをベースとした適応型医師エージェントの実装は, シミュレーション患者との動的相互作用を通じて正しい診断を行うことができた。
評価は、複雑な医療シナリオに適応し、改善する自律エージェントの能力を強調している。
今後の強化は、アルゴリズムの精細化と、幅広いタスクとさまざまな大きな言語モデルにわたる適用性の拡大に重点を置いている。
This paper presents an innovative large language model (LLM) agent framework for enhancing diagnostic accuracy in simulated clinical environments using the AgentClinic benchmark. The proposed automatic correction enables doctor agents to iteratively refine their reasoning and actions following incorrect diagnoses, fostering improved decision-making over time. Experiments show that the implementation of the adaptive LLM-based doctor agents achieve correct diagnoses through dynamic interactions with simulated patients. The evaluations highlight the capacity of autonomous agents to adapt and improve in complex medical scenarios. Future enhancements will focus on refining the algorithm and expanding its applicability across a wider range of tasks and different large language models. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# オンラインマルチモーダルルート原因解析
Online Multi-modal Root Cause Analysis ( http://arxiv.org/abs/2410.10021v1 ) ライセンス: Link先を確認 | Lecheng Zheng, Zhengzhang Chen, Haifeng Chen, Jingrui He, | (参考訳) ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
従来のデータ駆動型RCA法は高い計算要求のためにオフラインアプリケーションに限られており、既存のオンラインRCA法は単一のモーダルデータのみを処理し、マルチモーダルシステムの複雑な相互作用を見渡す。
本稿では,根本原因の局在化のためのオンライン多モード因果構造学習手法であるOCEANを紹介する。
OCEANは拡張畳み込みニューラルネットワークを使用して、長期の時間的依存関係をキャプチャし、グラフニューラルネットワークを使用して、システムエンティティと重要なパフォーマンス指標間の因果関係を学習する。
さらに、オンライン因果グラフ学習の強化のために、異なるメトリクスとログインジケータ/属性間の関係を分析し、再評価する多要素アテンション機構を設計する。
さらに、相互情報最大化に基づくグラフ融合モジュールを開発し、様々なモーダル間の関係を効果的にモデル化する。
実世界の3つのデータセットに対する大規模な実験により,提案手法の有効性と有効性を示した。
Root Cause Analysis (RCA) is essential for pinpointing the root causes of failures in microservice systems. Traditional data-driven RCA methods are typically limited to offline applications due to high computational demands, and existing online RCA methods handle only single-modal data, overlooking complex interactions in multi-modal systems. In this paper, we introduce OCEAN, a novel online multi-modal causal structure learning method for root cause localization. OCEAN employs a dilated convolutional neural network to capture long-term temporal dependencies and graph neural networks to learn causal relationships among system entities and key performance indicators. We further design a multi-factor attention mechanism to analyze and reassess the relationships among different metrics and log indicators/attributes for enhanced online causal graph learning. Additionally, a contrastive mutual information maximization-based graph fusion module is developed to effectively model the relationships across various modalities. Extensive experiments on three real-world datasets demonstrate the effectiveness and efficiency of our proposed method. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# 非線形力学系を表すPDEの発見のための物理インフォームAIとMLに基づくスパースシステム同定アルゴリズム
Physics-informed AI and ML-based sparse system identification algorithm for discovery of PDE's representing nonlinear dynamic systems ( http://arxiv.org/abs/2410.10023v1 ) ライセンス: Link先を確認 | Ashish Pal, Sutanu Bhowmick, Satish Nagarajaiah, | (参考訳) 非線形力学系のスパース系同定は、特にノイズ測定データに対する硬度および高次微分方程式では、依然として困難である。
高相関関数の使用により、真函数と偽函数の区別が難しくなり、関数の選択が制限される。
本研究では,これらの問題に対処するための方程式探索法を提案する。
主な要素は
a) 数値デリバティブよりも優れた解析的デリバティブを得るためのデータ適合のためのBスプラインの使用
b) システム情報損失のない信号からノイズを除去するのに非常に有効なSRDDアルゴリズムの逐次正規化デリバティブ
c)非相関成分分析(UCA)アルゴリズム
d) スプラインフィッティングを徐々に更新する物理インフォームドスプラインフィッティング(PISF)において、候補関数の辞書で支配方程式を満足させ、適切な方程式に順次収束させる。
完全なフレームワークは、最適化プロセスを簡単にする統合されたディープラーニングアーキテクチャの上に構築されている。
提案手法は, 3次元, 4次, 剛性方程式を含む, 様々な雑音レベルの微分方程式を探索する。
パラメータ推定は変動係数が小さい真の値に正確に収束し、ノイズに頑健性を示す。
Sparse system identification of nonlinear dynamic systems is still challenging, especially for stiff and high-order differential equations for noisy measurement data. The use of highly correlated functions makes distinguishing between true and false functions difficult, which limits the choice of functions. In this study, an equation discovery method has been proposed to tackle these problems. The key elements include a) use of B-splines for data fitting to get analytical derivatives superior to numerical derivatives, b) sequentially regularized derivatives for denoising (SRDD) algorithm, highly effective in removing noise from signal without system information loss, c) uncorrelated component analysis (UCA) algorithm that identifies and eliminates highly correlated functions while retaining the true functions, and d) physics-informed spline fitting (PISF) where the spline fitting is updated gradually while satisfying the governing equation with a dictionary of candidate functions to converge to the correct equation sequentially. The complete framework is built on a unified deep-learning architecture that eases the optimization process. The proposed method is demonstrated to discover various differential equations at various noise levels, including three-dimensional, fourth-order, and stiff equations. The parameter estimation converges accurately to the true values with a small coefficient of variation, suggesting robustness to the noise. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# グラディエント手法を用いたニューラルネットワーク分類器学習のためのシャーパ保証
Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods ( http://arxiv.org/abs/2410.10024v1 ) ライセンス: Link先を確認 | Hossein Taheri, Christos Thrampoulidis, Arya Mazumdar, | (参考訳) 本稿では,スムーズなアクティベーションを有するニューラルネットワークの勾配法におけるデータ依存収束と一般化挙動について検討する。
最初の結果は、ロジスティック損失によって訓練されたディープネットワークの過大なリスクに、漸進的安定性解析を通じて縛られている。
従来の研究と比較して、この結果は、確立されたRadecher複雑性に基づく境界の欠点を改善する。
重要なことは,本論文の導出する境界はより厳密であり,狭い幅のニューラルネットワークでも保持でき,幅に不利なスケーリングをせず,アルゴリズム依存であり,その結果,ディープネットの勾配勾配勾配のサンプル複雑性における初期化の役割を捉えることである。
帯域幅$\Omega(\poly(\log(n)))$,テストエラー率を$e^{O(L)}/{\gamma^2 n}$とする。
これは、多対数幅条件を維持しながら、以前の作業と比べてテスト損失が改善したことを意味する。
さらに,ネットワーク幅の多項式条件下では,勾配降下が最適余剰リスクを達成できることを示すため,ノイズデータで訓練したディープネットの過大なリスク境界についても検討する。
最後に,大きなステップサイズは,XOR分布の分類においてNTK体制の結果を大きく改善することを示す。
特に,定幅$m$,2次アクティベーションと標準ガウス初期化を備えた一層ニューラルネットワークにおいて,線形サンプルの複雑度を持つミニバッチSGDが,データ次元が$d$である場合,ステップサイズ$\eta=m$で完全テスト精度に達することを示す。
In this paper, we study the data-dependent convergence and generalization behavior of gradient methods for neural networks with smooth activation. Our first result is a novel bound on the excess risk of deep networks trained by the logistic loss, via an alogirthmic stability analysis. Compared to previous works, our results improve upon the shortcomings of the well-established Rademacher complexity-based bounds. Importantly, the bounds we derive in this paper are tighter, hold even for neural networks of small width, do not scale unfavorably with width, are algorithm-dependent, and consequently capture the role of initialization on the sample complexity of gradient descent for deep nets. Specialized to noiseless data separable with margin $\gamma$ by neural tangent kernel (NTK) features of a network of width $\Omega(\poly(\log(n)))$, we show the test-error rate to be $e^{O(L)}/{\gamma^2 n}$, where $n$ is the training set size and $L$ denotes the number of hidden layers. This is an improvement in the test loss bound compared to previous works while maintaining the poly-logarithmic width conditions. We further investigate excess risk bounds for deep nets trained with noisy data, establishing that under a polynomial condition on the network width, gradient descent can achieve the optimal excess risk. Finally, we show that a large step-size significantly improves upon the NTK regime's results in classifying the XOR distribution. In particular, we show for a one-hidden-layer neural network of constant width $m$ with quadratic activation and standard Gaussian initialization that mini-batch SGD with linear sample complexity and with a large step-size $\eta=m$ reaches the perfect test accuracy after only $\ceil{\log(d)}$ iterations, where $d$ is the data dimension. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# グレーダの混合に向けてのステップ:既存自動評価指標の統計的解析
A Step Towards Mixture of Grader: Statistical Analysis of Existing Automatic Evaluation Metrics ( http://arxiv.org/abs/2410.10030v1 ) ライセンス: Link先を確認 | Yun Joon Soh, Jishen Zhao, | (参考訳) オープンソースモデルとQAデータセットの爆発は、自動QA評価の重要性を強調している。
既存の評価指標の統計を調査し,その限界をよりよく理解した。
1) 既存の指標は, 質問タイプ(例えば, 単語, 単語, 単語など)に関して高い相関性を持ち, 2) 人間の評価を適切に評価できる指標は存在しない。
潜在的な解決策として、Mixture Of Graderが自動QA評価器の品質を向上する可能性について論じる。
The explosion of open-sourced models and Question-Answering (QA) datasets emphasizes the importance of automated QA evaluation. We studied the statistics of the existing evaluation metrics for a better understanding of their limitations. By measuring the correlation coefficients of each evaluation metric concerning human-like evaluation score, we observed the following: (1) existing metrics have a high correlation among them concerning the question type (e.g., single word, single phrase, etc.), (2) no single metric can adequately estimate the human-like evaluation. As a potential solution, we discuss how a Mixture Of Grader could potentially improve the auto QA evaluator quality. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# TULIP: トークン長のアップグレードCLIP
TULIP: Token-length Upgraded CLIP ( http://arxiv.org/abs/2410.10034v1 ) ライセンス: Link先を確認 | Ivona Najdenkoska, Mohammad Mahdi Derakhshani, Yuki M. Asano, Nanne van Noord, Marcel Worring, Cees G. M. Snoek, | (参考訳) 私たちは、CLIPのような視覚言語モデルで長いキャプションを表現するという課題に対処する。
これらのモデルは固定された絶対的な位置符号化によって制限され、入力を最大77個のトークンに制限し、長い記述を必要とするタスクのパフォーマンスを妨げている。
最近の研究は、この制限を克服しようと試みているが、彼らの提案したアプローチは、より長い距離でトークンの関係をモデル化し、単純に固定された新しいトークン長まで拡張するのに苦労している。
代わりに、CLIPのようなモデルに対してトークン長を任意の長さにアップグレードできるTULIPという一般化可能な手法を提案する。
相対的な位置エンコーディングによるアーキテクチャの改善と,それに続くトレーニング手順によって実現しています。
i) 元のCLIPテキストエンコーダを相対位置エンコーダ付きエンコーダに蒸留し、
(ii)長文キャプションと画像との整合モデルを強化する。
デフォルトの77トークンよりも長い字幕を効果的に符号化することにより、検索やテキスト・ツー・イメージ生成といったクロスモーダルなタスクのベースラインよりも優れています。
We address the challenge of representing long captions in vision-language models, such as CLIP. By design these models are limited by fixed, absolute positional encodings, restricting inputs to a maximum of 77 tokens and hindering performance on tasks requiring longer descriptions. Although recent work has attempted to overcome this limit, their proposed approaches struggle to model token relationships over longer distances and simply extend to a fixed new token length. Instead, we propose a generalizable method, named TULIP, able to upgrade the token length to any length for CLIP-like models. We do so by improving the architecture with relative position encodings, followed by a training procedure that (i) distills the original CLIP text encoder into an encoder with relative position encodings and (ii) enhances the model for aligning longer captions with images. By effectively encoding captions longer than the default 77 tokens, our model outperforms baselines on cross-modal tasks such as retrieval and text-to-image generation. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# GALA:詳細な3次元生成のための幾何学的局所適応格子
GALA: Geometry-Aware Local Adaptive Grids for Detailed 3D Generation ( http://arxiv.org/abs/2410.10037v1 ) ライセンス: Link先を確認 | Dingdong Yang, Yizhi Wang, Konrad Schindler, Ali Mahdavi Amiri, Hao Zhang, | (参考訳) 我々は3次元形状を表現した新しいGALAを提案する。
一 複雑な地形及び表面の細部を捉え再生すること。
(ii) 計算効率が高く
(iii)近代的な拡散型スキームによる3次元生成モデルの構築に寄与する。
GALAの鍵となる考え方は、3次元体積内の表面のグローバルな空間と、その局所的な表面特性の両方を活用することである。
空間は空ではなく3Dオブジェクトの境界のみを木根ボクセルのアンサンブルで覆うことで、スパーシティが促進される。
それぞれのボクセルは、ストレージを制限し、表面を含む領域に計算するオクツリーを含んでいる。
適応性は、各空でない葉ノードに1つの局所的および幾何学的座標フレームを組み込むことによって達成される。
局所格子の配向と、その軸の異方性スケールを局所表面形状に調整することで、与えられたメモリ量に格納できるディテールの量を大幅に増加させ、それによって品質を損なうことなく量子化することができる。
最適化されたC++/CUDA実装では、GALAをオブジェクトに10秒以内で適用することができます。
さらに、この表現を効率よくフラット化し、トランスネットワークで操作することができる。
幾何学的なディテールで3次元形状を生成することができるカスケード生成パイプラインを提供する。
We propose GALA, a novel representation of 3D shapes that (i) excels at capturing and reproducing complex geometry and surface details, (ii) is computationally efficient, and (iii) lends itself to 3D generative modelling with modern, diffusion-based schemes. The key idea of GALA is to exploit both the global sparsity of surfaces within a 3D volume and their local surface properties. Sparsity is promoted by covering only the 3D object boundaries, not empty space, with an ensemble of tree root voxels. Each voxel contains an octree to further limit storage and compute to regions that contain surfaces. Adaptivity is achieved by fitting one local and geometry-aware coordinate frame in each non-empty leaf node. Adjusting the orientation of the local grid, as well as the anisotropic scales of its axes, to the local surface shape greatly increases the amount of detail that can be stored in a given amount of memory, which in turn allows for quantization without loss of quality. With our optimized C++/CUDA implementation, GALA can be fitted to an object in less than 10 seconds. Moreover, the representation can efficiently be flattened and manipulated with transformer networks. We provide a cascaded generation pipeline capable of generating 3D shapes with great geometric detail. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# Kanは時系列における概念ドリフトの同定と追跡に有効か?
Are KAN Effective for Identifying and Tracking Concept Drift in Time Series? ( http://arxiv.org/abs/2410.10041v1 ) ライセンス: Link先を確認 | Kunpeng Xu, Lifei Chen, Shengrui Wang, | (参考訳) 時系列における動的な概念は、金融市場、医療、オンライン活動ログといった複雑なシステムを理解するために不可欠である。
これらの概念は、より優れた意思決定と予測のために、シーケンシャルなデータの構造と振舞いを明らかにするのに役立つ。
既存のモデルでは、解釈可能性と適応性に制限があるため、コンセプトドリフトの検出と追跡に苦労している。
本稿では,KAN(Kolmogorov-Arnold Networks)を時系列に導入し,共進化時系列における概念ドリフトに対応する自動エンコーダであるWormKANを提案する。
WormKANは、エンコーダ、デコーダ、自己表現層をkan上に構築するkan-SRモジュールと、概念遷移をキャプチャするための時間的制約を統合する。
これらの遷移は「ワームホール」を通過するのに似ているが、潜伏空間の急激な変化によって同定される。
実験の結果, カンモデルとカンモデル (WormKAN) は, 時系列を意味のある概念に分割し, 概念ドリフトの識別と追跡を強化した。
Dynamic concepts in time series are crucial for understanding complex systems such as financial markets, healthcare, and online activity logs. These concepts help reveal structures and behaviors in sequential data for better decision-making and forecasting. Existing models struggle with detecting and tracking concept drift due to limitations in interpretability and adaptability. This paper introduces Kolmogorov-Arnold Networks (KAN) into time series and proposes WormKAN, a KAN-based auto-encoder to address concept drift in co-evolving time series. WormKAN integrates the KAN-SR module, in which the encoder, decoder, and self-representation layer are built on KAN, along with a temporal constraint to capture concept transitions. These transitions, akin to passing through a "wormhole", are identified by abrupt changes in the latent space. Experiments show that KAN and KAN-based models (WormKAN) effectively segment time series into meaningful concepts, enhancing the identification and tracking of concept drifts. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# Lore: オープンドメインの質問応答を促進するために、ロジト対応のレトリバーアンサンブル
LoRE: Logit-Ranked Retriever Ensemble for Enhancing Open-Domain Question Answering ( http://arxiv.org/abs/2410.10042v1 ) ライセンス: Link先を確認 | Saikrishna Sanniboina, Shiv Trivedi, Sreenidhi Vijayaraghavan, | (参考訳) 検索に基づく質問応答システムは、しばしば位置バイアスに悩まされ、最適以下の回答が生成される。
位置バイアスを緩和することで解答精度と妥当性を向上させる新しいアプローチであるLoRE(Logit-Ranked Retriever Ensemble)を提案する。
LoREはBM25やFAISSインデックス付き文変換器といった多様なレトリバーのアンサンブルを使用している。
重要な革新は、ログベースの回答ランキングアルゴリズムで、大きな言語モデル(LLM)からのロジットスコアと、パスの検索ランクを組み合わせたものである。
NarrativeQA, SQuADの実験結果から, LoREは一致率とF1スコアの点で, 既存の検索手法を著しく上回っていることが示された。
SQuADでは、ROUGE-L、EM、F1のベースラインよりも14.5\%、22.83\%、14.95\%改善されている。
定性的には、LoREは特に複雑なクエリに対して、より関連性があり正確な回答を生成する。
Retrieval-based question answering systems often suffer from positional bias, leading to suboptimal answer generation. We propose LoRE (Logit-Ranked Retriever Ensemble), a novel approach that improves answer accuracy and relevance by mitigating positional bias. LoRE employs an ensemble of diverse retrievers, such as BM25 and sentence transformers with FAISS indexing. A key innovation is a logit-based answer ranking algorithm that combines the logit scores from a large language model (LLM), with the retrieval ranks of the passages. Experimental results on NarrativeQA, SQuAD demonstrate that LoRE significantly outperforms existing retrieval-based methods in terms of exact match and F1 scores. On SQuAD, LoRE achieves 14.5\%, 22.83\%, and 14.95\% improvements over the baselines for ROUGE-L, EM, and F1, respectively. Qualitatively, LoRE generates more relevant and accurate answers, especially for complex queries. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# 因果効果推定のためのDAG対応変圧器
DAG-aware Transformer for Causal Effect Estimation ( http://arxiv.org/abs/2410.10044v1 ) ライセンス: Link先を確認 | Manqing Liu, David R. Bellamy, Andrew L. Beam, | (参考訳) 因果推論は、医療、経済学、社会科学などの分野における重要な課題である。
機械学習、特にディープラーニングアーキテクチャに基づく最近の進歩は因果効果を推定する可能性を示しているが、既存のアプローチは複雑な因果構造を扱うのに不足し、様々な因果シナリオにおける適応性に欠けることが多い。
本稿では,これらの課題を克服する因果推論のためのトランスフォーマーを用いた新しい手法を提案する。
我々のモデルの中核となる革新は、因果非巡回グラフ(DAG)を直接注意機構に統合することであり、基礎となる因果構造を正確にモデル化することができる。
これにより、平均治療効果(ATE)と条件付き平均治療効果(CATE)の両方を柔軟に推定できる。
合成と実世界の両方のデータセットに対する大規模な実験は、我々のアプローチが様々なシナリオで因果効果を推定する既存の手法を超えることを示した。
我々のモデルの柔軟性と堅牢性は、複雑な因果推論問題に取り組む研究者や実践者にとって貴重なツールとなる。
Causal inference is a critical task across fields such as healthcare, economics, and the social sciences. While recent advances in machine learning, especially those based on the deep-learning architectures, have shown potential in estimating causal effects, existing approaches often fall short in handling complex causal structures and lack adaptability across various causal scenarios. In this paper, we present a novel transformer-based method for causal inference that overcomes these challenges. The core innovation of our model lies in its integration of causal Directed Acyclic Graphs (DAGs) directly into the attention mechanism, enabling it to accurately model the underlying causal structure. This allows for flexible estimation of both average treatment effects (ATE) and conditional average treatment effects (CATE). Extensive experiments on both synthetic and real-world datasets demonstrate that our approach surpasses existing methods in estimating causal effects across a wide range of scenarios. The flexibility and robustness of our model make it a valuable tool for researchers and practitioners tackling complex causal inference problems. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# VQ-CNMP:バイレベルプランニングのためのニューロシンボリックスキル学習
VQ-CNMP: Neuro-Symbolic Skill Learning for Bi-Level Planning ( http://arxiv.org/abs/2410.10045v1 ) ライセンス: Link先を確認 | Hakan Aktas, Emre Ugur, | (参考訳) 本稿では,ラベルのない実演データから高いレベルのスキル表現を発見できる新しいニューラルネットワークモデルを提案する。
また、勾配に基づく計画手法を用いて、我々のモデルを利用する二段階計画パイプラインを提案する。
ハイレベルな表現を抽出しながら、低レベルなアクションプランニングに使用できる低レベルな情報も保存する。
実験では、異なる条件下でモデルのスキル発見性能を検証し、学習したハイレベルなスキル表現をラベル付けするためにマルチモーダルLCMを使用できるかどうかを検証し、最終的にパイプラインのハイレベルかつ低レベルな計画性能をテストした。
This paper proposes a novel neural network model capable of discovering high-level skill representations from unlabeled demonstration data. We also propose a bi-level planning pipeline that utilizes our model using a gradient-based planning approach. While extracting high-level representations, our model also preserves the low-level information, which can be used for low-level action planning. In the experiments, we tested the skill discovery performance of our model under different conditions, tested whether Multi-Modal LLMs can be utilized to label the learned high-level skill representations, and finally tested the high-level and low-level planning performance of our pipeline. | 翻訳日:2024-10-30 03:33:49 公開日:2024-10-13 |
# ソフトウェア欠陥予測のためのハイブリッドサンプリングと多目的最適化手法
A Hybrid Sampling and Multi-Objective Optimization Approach for Enhanced Software Defect Prediction ( http://arxiv.org/abs/2410.10046v1 ) ライセンス: Link先を確認 | Jie Zhang, Dongcheng Li, W. Eric Wong, Shengrong Wang, | (参考訳) ソフトウェアの欠陥の正確な早期予測は、ソフトウェア品質の維持とメンテナンスコストの削減に不可欠である。
しかし、ソフトウェア欠陥予測(SDP)の分野は、クラス不均衡、高次元特徴空間、最適下予測精度といった課題に直面している。
本稿では,これらの課題を軽減するために,Borderline SMOTEとTomek Linksというハイブリッドサンプリング技術とNSGA-II,MOPSO,MODEを含む多目的最適化アルゴリズムを統合する新しいSDPフレームワークを提案する。
提案モデルは,多目的最適化による特徴融合を適用し,一般化能力と予測の安定性を両立させる。
さらに、これらの最適化アルゴリズムに対する並列処理の統合により、モデルの計算効率が大幅に向上する。
NASAとPROMISEレポジトリのデータセットで実施された包括的な実験は、提案されたハイブリッドサンプリングと多目的最適化アプローチがデータのバランスを改善し、冗長な特徴を排除し、予測精度を高めることを実証している。
実験結果はまた、機能融合アプローチの堅牢性を強調し、様々なデータセットにわたる予測性能と適用性の観点から、既存の最先端技術よりも優れていることを確認した。
Accurate early prediction of software defects is essential to maintain software quality and reduce maintenance costs. However, the field of software defect prediction (SDP) faces challenges such as class imbalances, high-dimensional feature spaces, and suboptimal prediction accuracy. To mitigate these challenges, this paper introduces a novel SDP framework that integrates hybrid sampling techniques, specifically Borderline SMOTE and Tomek Links, with a suite of multi-objective optimization algorithms, including NSGA-II, MOPSO, and MODE. The proposed model applies feature fusion through multi-objective optimization, enhancing both the generalization capability and stability of the predictions. Furthermore, the integration of parallel processing for these optimization algorithms significantly boosts the computational efficiency of the model. Comprehensive experiments conducted on datasets from NASA and PROMISE repositories demonstrate that the proposed hybrid sampling and multi-objective optimization approach improves data balance, eliminates redundant features, and enhances prediction accuracy. The experimental results also highlight the robustness of the feature fusion approach, confirming its superiority over existing state-of-the-art techniques in terms of predictive performance and applicability across diverse datasets. | 翻訳日:2024-10-30 03:23:50 公開日:2024-10-13 |