このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240926となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 脳モデルとしての概念価値ネットワーク
A Concept-Value Network as a Brain Model ( http://arxiv.org/abs/1904.04579v6 ) ライセンス: Link先を確認 | Kieran Greer, | (参考訳) 本稿では,脳様モデルの物理的実体と概念的実体の関係を記述するための統計的枠組みを提案する。
特徴と概念のインスタンスはコンテキストに置かれ、化学接続も可能であるが、この論文は特徴が電気配線である可能性を示唆している。
この考え方では、実際の接続長は、発射速度とニューロン同期と関係があるため重要であるが、信号タイプはそれほど重要ではない。
この論文は、概念が特徴集合と概念インスタンスをリンクするニューロン群であり、それらのグループからの化学信号によって決定されることを示唆している。
したがって、特徴はニューラルネットワークの静的水平フレームワークとなり、概念はこれらを垂直に相互に結合する。
機能に関して、ニューロンは機能的と考えられ、より水平な記憶構造はグリアとなる。
これはまた、機能が分散エンティティであり、単一の領域に集中していないことを示唆する。
もう一つの側面は、パターンを分解し、神経結合に役立つシグナル「ブレーク」である。
This paper suggests a statistical framework for describing the relations between the physical and conceptual entities of a brain-like model. Features and concept instances are put into context, where the paper suggests that features may be the electrical wiring, although chemical connections are also possible. With this idea, the actual length of the connection is important, because it is related to firing rates and neuron synchronization, but the signal type is less important. The paper then suggests that concepts are neuron groups that link feature sets and concept instances are determined by chemical signals from those groups. Therefore, features become the static horizontal framework of the neural system and concepts are vertically interconnected combinations of these. With regards to functionality, the neuron is then considered to be functional and the more horizontal memory structures can even be glial. This would also suggest that features can be distributed entities and not concentrated to a single area. Another aspect could be signal 'breaks' that compartmentalise a pattern and may help with neural binding. | 翻訳日:2024-11-09 16:01:17 公開日:2024-09-26 |
# 脳発見のためのマルチレゾリューショングラフエッジ埋め込みの学習
神経疾患におけるネットワーク機能障害
Learning Multi-resolution Graph Edge Embedding for Discovering Brain Network Dysfunction in Neurological Disorders ( http://arxiv.org/abs/1912.01181v1 ) ライセンス: Link先を確認 | Xin Ma, Guorong Wu, Seong Jae Hwang, Won Hwa Kim | (参考訳) 最近の異種の文献では、異なる脳領域、すなわち脳の接続が神経疾患の早期症状をもたらすことが示されている。
グラフニューラルネットワーク(GNN)技術に対する大きな取り組みにも関わらず、グラフノードに重点を置いているため、現在の最先端のGNNメソッドは、グラフリンク上の疾患関連ネットワーク障害パターンを特徴付けることを目的としたグラフとして、脳接続を分類するのに適さない。
この問題に対処するために,診断カテゴリ間で高い判別能力を有する病原性結合性ベンチマークを検出するためのマルチレゾリューションエッジネットワーク(MENET)を提案する。
MENETの中核は、我々が提案する新しいグラフエッジワイド変換であり、マルチ解像度 ``connectomic'' 機能をキャプチャすることができる。
連結特徴の豊富な集合を用いて、識別エッジを共同で選択し、グラフの診断ラベルを割り当てるグラフ学習フレームワークを考案する。
2つの実際のデータセットでの実験により、MENETは診断ラベルを正確に予測し、アルツハイマー病や注意・抑止・多動性障害などの神経疾患と密接に関連している脳の結合性を特定する。
Tremendous recent literature show that associations between different brain regions, i.e., brain connectivity, provide early symptoms of neurological disorders. Despite significant efforts made for graph neural network (GNN) techniques, their focus on graph nodes makes the state-of-the-art GNN methods not suitable for classifying brain connectivity as graphs where the objective is to characterize disease-relevant network dysfunction patterns on graph links. To address this issue, we propose Multi-resolution Edge Network (MENET) to detect disease-specific connectomic benchmarks with high discrimination power across diagnostic categories. The core of MENET is a novel graph edge-wise transform that we propose, which allows us to capture multi-resolution ``connectomic'' features. Using a rich set of the connectomic features, we devise a graph learning framework to jointly select discriminative edges and assign diagnostic labels for graphs. Experiments on two real datasets show that MENET accurately predicts diagnostic labels and identify brain connectivities highly associated with neurological disorders such as Alzheimer's Disease and Attention-Deficit/Hyperactivity Disorder. | 翻訳日:2024-11-09 16:01:17 公開日:2024-09-26 |
# 神経障害における脳ネットワーク障害発見のための多分解能グラフエッジ埋め込みの学習
Learning Multi-resolution Graph Edge Embedding for Discovering Brain Network Dysfunction in Neurological Disorders ( http://arxiv.org/abs/1912.01181v2 ) ライセンス: Link先を確認 | Xin Ma, Guorong Wu, Seong Jae Hwang, Won Hwa Kim, | (参考訳) 最近の異種の文献では、異なる脳領域、すなわち脳の接続が神経疾患の早期症状をもたらすことが示されている。
グラフニューラルネットワーク(GNN)技術に対する大きな取り組みにも関わらず、グラフノードに重点を置いているため、現在の最先端のGNNメソッドは、グラフリンク上の疾患関連ネットワーク障害パターンを特徴付けることを目的としたグラフとして、脳接続を分類するのに適さない。
この問題に対処するために,診断カテゴリ間で高い判別能力を有する病原性結合性ベンチマークを検出するためのマルチレゾリューションエッジネットワーク(MENET)を提案する。
MENETの中核は、我々が提案する新しいグラフエッジワイド変換であり、マルチ解像度 ``connectomic'' 機能をキャプチャすることができる。
連結特徴の豊富な集合を用いて、識別エッジを共同で選択し、グラフの診断ラベルを割り当てるグラフ学習フレームワークを考案する。
2つの実際のデータセットでの実験により、MENETは診断ラベルを正確に予測し、アルツハイマー病や注意・抑止・多動性障害などの神経疾患と密接に関連している脳の結合性を特定する。
Tremendous recent literature show that associations between different brain regions, i.e., brain connectivity, provide early symptoms of neurological disorders. Despite significant efforts made for graph neural network (GNN) techniques, their focus on graph nodes makes the state-of-the-art GNN methods not suitable for classifying brain connectivity as graphs where the objective is to characterize disease-relevant network dysfunction patterns on graph links. To address this issue, we propose Multi-resolution Edge Network (MENET) to detect disease-specific connectomic benchmarks with high discrimination power across diagnostic categories. The core of MENET is a novel graph edge-wise transform that we propose, which allows us to capture multi-resolution ``connectomic'' features. Using a rich set of the connectomic features, we devise a graph learning framework to jointly select discriminative edges and assign diagnostic labels for graphs. Experiments on two real datasets show that MENET accurately predicts diagnostic labels and identify brain connectivities highly associated with neurological disorders such as Alzheimer's Disease and Attention-Deficit/Hyperactivity Disorder. | 翻訳日:2024-11-09 15:57:56 公開日:2024-09-26 |
# 教師なしの学習表現:クエストは終わりか?
Unsupervisedly Learned Representations: Should the Quest be Over? ( http://arxiv.org/abs/2001.07495v1 ) ライセンス: Link先を確認 | Daniel N. Nissani (Nissensohn) | (参考訳) 研究から40年経っても、最良の教師なし学習表現法と知的動物が達成した精度率との間には、およそ20%の分類精度のギャップが残っている。
したがって、間違った方向を向いているのかもしれない。
このパズルの解法が提示される。
強化学習が動物と同じ精度の表現を学習できることを実証する。
私たちの主な貢献は、以下の観察にある。
a) 実環境に適用する場合は、強化学習はラベルを必要としないため、正当に教師なし学習とみなすことができる。
対照的に、強化学習をシミュレーション環境で適用する場合は、本質的にラベルを必要とするため、一般的には監督学習とみなすべきである。
これらの観察の要点は、シミュレーション環境で訓練される可能性のある教師なし学習の競争パラダイムのさらなる探索が無駄になる可能性があるということである。
After four decades of research there still exists a Classification accuracy gap of about 20% between our best Unsupervisedly Learned Representations methods and the accuracy rates achieved by intelligent animals. It thus may well be that we are looking in the wrong direction. A possible solution to this puzzle is presented. We demonstrate that Reinforcement Learning can learn representations which achieve the same accuracy as that of animals. Our main modest contribution lies in the observations that: a. when applied to a real world environment Reinforcement Learning does not require labels, and thus may be legitimately considered as Unsupervised Learning, and b. in contrast, when Reinforcement Learning is applied in a simulated environment it does inherently require labels and should thus be generally be considered as Supervised Learning. The corollary of these observations is that further search for Unsupervised Learning competitive paradigms which may be trained in simulated environments may be futile. | 翻訳日:2024-11-09 15:57:56 公開日:2024-09-26 |
# 教師なしの学習表現:クエストは終わりか?
Unsupervisedly Learned Representations: Should the Quest be Over? ( http://arxiv.org/abs/2001.07495v4 ) ライセンス: Link先を確認 | Daniel N. Nissani, | (参考訳) 研究から40年経っても、最良の教師なし学習表現法と知的動物が達成した精度率との間には、およそ20%の分類精度のギャップが残っている。
したがって、間違った方向を向いているのかもしれない。
このパズルの解法が提示される。
強化学習が動物と同じ精度の表現を学習できることを実証する。
私たちの主な貢献は、以下の観察にある。
a) 実環境に適用する場合は、強化学習はラベルを必要としないため、正当に教師なし学習とみなすことができる。
対照的に、強化学習をシミュレーション環境で適用する場合は、本質的にラベルを必要とするため、一般的には監督学習とみなすべきである。
これらの観察の要点は、シミュレーション環境で訓練される可能性のある教師なし学習の競争パラダイムのさらなる探索が無駄になる可能性があるということである。
After four decades of research there still exists a Classification accuracy gap of about 20% between our best Unsupervisedly Learned Representations methods and the accuracy rates achieved by intelligent animals. It thus may well be that we are looking in the wrong direction. A possible solution to this puzzle is presented. We demonstrate that Reinforcement Learning can learn representations which achieve the same accuracy as that of animals. Our main modest contribution lies in the observations that: a. when applied to a real world environment Reinforcement Learning does not require labels, and thus may be legitimately considered as Unsupervised Learning, and b. in contrast, when Reinforcement Learning is applied in a simulated environment it does inherently require labels and should thus be generally be considered as Supervised Learning. The corollary of these observations is that further search for Unsupervised Learning competitive paradigms which may be trained in simulated environments may be futile. | 翻訳日:2024-11-09 15:57:56 公開日:2024-09-26 |
# 教師なしの学習表現:クエストは終わりか?
Unsupervisedly Learned Representations: Should the Quest be Over? ( http://arxiv.org/abs/2001.07495v5 ) ライセンス: Link先を確認 | Daniel N. Nissani, | (参考訳) 研究から40年経っても、最良の教師なし学習表現法と知的動物が達成した精度率との間には、およそ20%の分類精度のギャップが残っている。
したがって、間違った方向を向いているのかもしれない。
このパズルの解法が提示される。
強化学習が動物と同じ精度の表現を学習できることを実証する。
私たちの主な貢献は、以下の観察にある。
a) 実環境に適用する場合は、強化学習はラベルを必要としないため、正当に教師なし学習とみなすことができる。
対照的に、強化学習をシミュレーション環境で適用する場合は、本質的にラベルを必要とするため、一般的には監督学習とみなすべきである。
これらの観察の要点は、シミュレーション環境で訓練される可能性のある教師なし学習の競争パラダイムのさらなる探索が無駄になる可能性があるということである。
After four decades of research there still exists a Classification accuracy gap of about 20% between our best Unsupervisedly Learned Representations methods and the accuracy rates achieved by intelligent animals. It thus may well be that we are looking in the wrong direction. A possible solution to this puzzle is presented. We demonstrate that Reinforcement Learning can learn representations which achieve the same accuracy as that of animals. Our main modest contribution lies in the observations that: a. when applied to a real world environment Reinforcement Learning does not require labels, and thus may be legitimately considered as Unsupervised Learning, and b. in contrast, when Reinforcement Learning is applied in a simulated environment it does inherently require labels and should thus be generally be considered as Supervised Learning. The corollary of these observations is that further search for Unsupervised Learning competitive paradigms which may be trained in simulated environments may be futile. | 翻訳日:2024-11-09 15:57:56 公開日:2024-09-26 |
# 直交性制約問題に対する高速ランダム化法
Faster Randomized Methods for Orthogonality Constrained Problems ( http://arxiv.org/abs/2106.12060v2 ) ライセンス: Link先を確認 | Boris Shustin, Haim Avron, | (参考訳) 近年の文献では、データサイエンスや計算科学を通じて生じる様々な行列問題の解法を高速化するためのランダム化手法の使用が提唱されている。
ランダム化を利用する一般的な戦略の1つは、問題のサイズを減らす方法として使うことである。
しかし、この戦略に基づく手法は、いくつかのアプリケーションに十分な精度を欠いている。
ランダム化プレコンディショニング(Randomized preconditioning)は、より高精度なランダム化手法である。
乱数化プレコンディショニングの最大の課題は、根底にある反復的手法の必要性であり、そのため、これまでは回帰問題や線形システムにのみランダム化プレコンディショニングが適用されてきた。
本稿では、乱数化前提条件の適用を、データサイエンスで広く普及している別の重要な問題、すなわち(一般化された)直交制約による最適化問題にどのように拡張するかを示す。
我々は、リーマン最適化とリーマン事前条件の枠組みに基づく、支配的な正準相関の計算問題とフィッシャー線形判別分析問題に基づくアプローチを実証する。
両問題に対して,プレコンディショニングが計算コストと漸近収束に及ぼす影響を評価し,本手法の有効性を実証的に示す。
Recent literature has advocated the use of randomized methods for accelerating the solution of various matrix problems arising throughout data science and computational science. One popular strategy for leveraging randomization is to use it as a way to reduce problem size. However, methods based on this strategy lack sufficient accuracy for some applications. Randomized preconditioning is another approach for leveraging randomization, which provides higher accuracy. The main challenge in using randomized preconditioning is the need for an underlying iterative method, thus randomized preconditioning so far have been applied almost exclusively to solving regression problems and linear systems. In this article, we show how to expand the application of randomized preconditioning to another important set of problems prevalent across data science: optimization problems with (generalized) orthogonality constraints. We demonstrate our approach, which is based on the framework of Riemannian optimization and Riemannian preconditioning, on the problem of computing the dominant canonical correlations and on the Fisher linear discriminant analysis problem. For both problems, we evaluate the effect of preconditioning on the computational costs and asymptotic convergence, and demonstrate empirically the utility of our approach. | 翻訳日:2024-11-09 15:57:56 公開日:2024-09-26 |
# 汎用エージェント研究のためのサンドボックス環境
The Sandbox Environment for Generalizable Agent Research (SEGAR) ( http://arxiv.org/abs/2203.10351v2 ) ライセンス: Link先を確認 | R Devon Hjelm, Bogdan Mazoure, Florian Golemo, Samira Ebrahimi Kahou, Pedro Braga, Felipe Frujeri, Mihai Jalobeanu, Andrey Kolobov, | (参考訳) 対話型環境における逐次意思決定タスクの一般化に関する研究の課題は、明らかに進歩を示すベンチマークを設計することである。
目立った道のりはあったが、現在のベンチマークでは、適切な露出や根底にある要因の直感的な制御を提供しておらず、簡単に実装でき、カスタマイズ可能で、拡張可能でもなく、計算に費用がかかる。
汎用エージェント研究のためのサンドボックス環境(SEGAR)を構築した。
SEGARは、一般化目的をタスク分布を指定することで容易に設計できるので、RLにおける一般化研究の容易さと説明責任を向上させる。
本稿では、SEGARの概要と、SEGARがこれらの目標にどのように貢献するか、および、SEGARが答えられるいくつかの研究課題を実証する実験を紹介する。
A broad challenge of research on generalization for sequential decision-making tasks in interactive environments is designing benchmarks that clearly landmark progress. While there has been notable headway, current benchmarks either do not provide suitable exposure nor intuitive control of the underlying factors, are not easy-to-implement, customizable, or extensible, or are computationally expensive to run. We built the Sandbox Environment for Generalizable Agent Research (SEGAR) with all of these things in mind. SEGAR improves the ease and accountability of generalization research in RL, as generalization objectives can be easy designed by specifying task distributions, which in turns allows the researcher to measure the nature of the generalization objective. We present an overview of SEGAR and how it contributes to these goals, as well as experiments that demonstrate a few types of research questions SEGAR can help answer. | 翻訳日:2024-11-09 15:46:48 公開日:2024-09-26 |
# 人間の目に触発されたリカレントニューラルネットワークは、敵の騒音に対してよりロバストである
Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises ( http://arxiv.org/abs/2206.07282v2 ) ライセンス: Link先を確認 | Minkyu Choi, Yizhen Zhang, Kuan Han, Xiaokai Wang, Zhongming Liu, | (参考訳) 人間は、静かな物体に焦点をあて、自明な詳細を無視して、視覚的な環境を積極的に観察する。
しかし、畳み込みニューラルネットワーク(CNN)に基づくコンピュータビジョンモデルは、単一のフィードフォワードパスを通じて、視覚的な入力を一度に分析することが多い。
本研究では、人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルは、画像認識に基づいて、様々な部分に焦点を当てる度に、一連の固定を通して画像を検査し、画像の表現を段階的に構築する。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
以上の結果から,本モデルは人間の注意を模倣する訓練を受けずに,人間と類似した形で観察し,網膜サンプリングや反復処理による敵の攻撃に対する堅牢性を高めることが可能であることが示唆された。
特に、このモデルは、フィードフォワードのみのモデルとは切り離して、よりよく見ることによって、知覚上のエラーを修正することができる。
結論として, 網膜サンプリング, 眼球運動, リカレントダイナミクスの相互作用は, 人間の視覚的探索や推論において重要である。
Humans actively observe the visual surroundings by focusing on salient objects and ignoring trivial details. However, computer vision models based on convolutional neural networks (CNN) often analyze visual input all at once through a single feed-forward pass. In this study, we designed a dual-stream vision model inspired by the human brain. This model features retina-like input layers and includes two streams: one determining the next point of focus (the fixation), while the other interprets the visuals surrounding the fixation. Trained on image recognition, this model examines an image through a sequence of fixations, each time focusing on different parts, thereby progressively building a representation of the image. We evaluated this model against various benchmarks in terms of object recognition, gaze behavior and adversarial robustness. Our findings suggest that the model can attend and gaze in ways similar to humans without being explicitly trained to mimic human attention, and that the model can enhance robustness against adversarial attacks due to its retinal sampling and recurrent processing. In particular, the model can correct its perceptual errors by taking more glances, setting itself apart from all feed-forward-only models. In conclusion, the interactions of retinal sampling, eye movement, and recurrent dynamics are important to human-like visual exploration and inference. | 翻訳日:2024-11-09 15:46:48 公開日:2024-09-26 |
# IDP-PGFE:物理誘導特徴抽出に基づく解釈可能な破壊予測器
IDP-PGFE: An Interpretable Disruption Predictor based on Physics-Guided Feature Extraction ( http://arxiv.org/abs/2208.13197v2 ) ライセンス: Link先を確認 | Chengshuo Shen, Wei Zheng, Yonghua Ding, Xinkun Ai, Fengming Xue, Yu Zhong, Nengchao Wang, Li Gao, Zhipeng Chen, Zhoujun Yang, Zhongyong Chen, Yuan Pan, J-TEXT team, | (参考訳) ディスラプション予測は、特に機械学習(ML)ベースの手法において、近年急速に進歩している。
予測器が特定の予測を行う理由を理解することは、将来のトカマク破壊予測器の予測精度と同じくらい重要である。
ほとんどの破壊予測器の目的は、精度またはクロスマシン能力である。
しかし、ディスラプション予測モデルが解釈可能であれば、特定のサンプルがディスラプション前駆体として分類される理由を知ることができる。
これにより、入ってくる破壊のタイプを判断し、破壊のメカニズムについて洞察することが可能になる。
本稿では,J-TEXT上での物理誘導特徴抽出(IDP-PGFE)に基づく解釈破壊予測器を設計する。
物理誘導された特徴を抽出することにより、モデルの予測性能を効果的に向上する。
解釈結果の妥当性を保証するためには,高性能モデルが必要である。
IDP-PGFEの解釈可能性の研究は、J-TEXT破壊の理解を提供し、一般に既存の破壊の理解と一致している。
IDP-PGFEは, J-TEXTにおける密度限界実験に向けて, 連続的に密度を増大させることにより, 破壊に応用されている。
PGFEの特徴の時間的進化は、ECRHの応用によって放射線による破壊が引き起こされ、破壊時の密度が低下することを示す。
RMPの適用は確かにJ-TEXTの密度限界を上昇させる。
この解釈可能性の研究は、RMPがMHD不安定性だけでなく、密度限界破壊を遅らせる放射プロファイルにも影響を及ぼす密度限界破壊の物理的メカニズムの直観を導く。
Disruption prediction has made rapid progress in recent years, especially in machine learning (ML)-based methods. Understanding why a predictor makes a certain prediction can be as crucial as the prediction's accuracy for future tokamak disruption predictors. The purpose of most disruption predictors is accuracy or cross-machine capability. However, if a disruption prediction model can be interpreted, it can tell why certain samples are classified as disruption precursors. This allows us to tell the types of incoming disruption and gives us insight into the mechanism of disruption. This paper designs a disruption predictor called Interpretable Disruption Predictor based On Physics-guided feature extraction (IDP-PGFE) on J-TEXT. The prediction performance of the model is effectively improved by extracting physics-guided features. A high-performance model is required to ensure the validity of the interpretation results. The interpretability study of IDP-PGFE provides an understanding of J-TEXT disruption and is generally consistent with existing comprehension of disruption. IDP-PGFE has been applied to the disruption due to continuously increasing density towards density limit experiments on J-TEXT. The time evolution of the PGFE features contribution demonstrates that the application of ECRH triggers radiation-caused disruption, which lowers the density at disruption. While the application of RMP indeed raises the density limit in J-TEXT. The interpretability study guides intuition on the physical mechanisms of density limit disruption that RMPs affect not only the MHD instabilities but also the radiation profile, which delays density limit disruption. | 翻訳日:2024-11-09 15:46:48 公開日:2024-09-26 |
# 政策学習の「無」重複:ペシミズムと経験的バーンスタインの不平等の一般化
Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality ( http://arxiv.org/abs/2212.09900v3 ) ライセンス: Link先を確認 | Ying Jin, Zhimei Ren, Zhuoran Yang, Zhaoran Wang, | (参考訳) 本論文は, 偏在政策学習において, 事前に収集した事前観測(固定的あるいは適応的に進化する行動方針)を活用して, 与えられた集団に最適な総合的な結果をもたらす最適な個別化決定ルールを学習することを目的とした。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
データ収集プロセスをコントロールすることができないため、この仮定は多くの状況において非現実的になり得る。
本稿では,政策値の点推定の代わりに低信頼境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
LCBは、オフラインデータを収集するための行動ポリシーの知識を用いて構築される。
均一な重なり条件を仮定せずに、我々はアルゴリズムの準最適性に対するデータ依存上界を確立する。
一 最適方針の重複、及び
(ii) 最適化したポリシークラスの複雑さ。
すなわち、適応的に収集されたデータに対して、最適動作の確率が時間とともに低い限り、効率的なポリシー学習を確保する一方、最適動作の確率は任意に高速に減少する。
理論解析において、逆正当性重み付け推定器のための新しい自己正規化型濃度不等式を開発し、よく知られた経験的ベルンシュタインの不等式を非有界および非非非等式データに一般化する。
我々はPPLの有効性を実証する広範囲なシミュレーション研究や実世界の応用と同様に、偏極化とポリシーツリー探索による効率的な最適化アルゴリズムを用いて、我々の理論を補完する。
This paper studies offline policy learning, which aims at utilizing observations collected a priori (from either fixed or adaptively evolving behavior policies) to learn an optimal individualized decision rule that achieves the best overall outcomes for a given population. Existing policy learning methods rely on a uniform overlap assumption, i.e., the propensities of exploring all actions for all individual characteristics must be lower bounded. As one has no control over the data collection process, this assumption can be unrealistic in many situations, especially when the behavior policies are allowed to evolve over time with diminishing propensities for certain actions. In this paper, we propose Pessimistic Policy Learning (PPL), a new algorithm that optimizes lower confidence bounds (LCBs) -- instead of point estimates -- of the policy values. The LCBs are constructed using knowledge of the behavior policies for collecting the offline data. Without assuming any uniform overlap condition, we establish a data-dependent upper bound for the suboptimality of our algorithm, which only depends on (i) the overlap for the optimal policy, and (ii) the complexity of the policy class we optimize over. As an implication, for adaptively collected data, we ensure efficient policy learning as long as the propensities for optimal actions are lower bounded over time, while those for suboptimal ones are allowed to diminish arbitrarily fast. In our theoretical analysis, we develop a new self-normalized type concentration inequality for inverse-propensity-weighting estimators, generalizing the well-known empirical Bernstein's inequality to unbounded and non-i.i.d. data. We complement our theory with an efficient optimization algorithm via Majorization-Minimization and policy tree search, as well as extensive simulation studies and real-world applications that demonstrate the efficacy of PPL. | 翻訳日:2024-11-09 15:35:37 公開日:2024-09-26 |
# 局所駆動型量子磁石の空間熱化
Real space thermalization of locally driven quantum magnets ( http://arxiv.org/abs/2212.13790v2 ) ライセンス: Link先を確認 | Ronald Melendrez, Bhaskar Mukherjee, Prakash Sharma, Arijeet Pal, Hitesh J. Changlani, | (参考訳) 孤立系における熱化とその分解の研究は、非平衡量子状態とその初期状態への依存性の深い理解につながった。
初期状態の役割は、量子多体散乱(英語版)の存在によって顕著に強調され、基礎となる効果的なスーパースピン構造を持つ特別な熱水状態は、他のカオス多体スペクトルに埋め込まれている。
スピン・ハイゼンベルクと$XXZ$モデルとその一次元および高次元の変種は、正確な量子多体傷を負い、合成および凝縮物質系において実現可能なスピンヘリックス状態の完全な復活を示すことが示されている。
これらの進歩に触発されて、空間熱化プロファイルを探索し、システムの異なる部位がスーパースピンの寿命にどのように影響するかを明らかにするために、実験的にアクセス可能で、局所的、時間に依存したプロトコルを提案する。
我々は、駆動スピンと他のスピンとの相互作用に基づいて、強磁性(X$偏極)初期状態の異なるパラメトリックな状態を特定する。
また,スーパースピンが長時間の局所運転に対して回復力を持つパラメータ機構も同定する。
数値観測を解説した実空間図とフロケット空間図を作成し,様々な実験装置で検証可能な予測を行う。
The study of thermalization and its breakdown in isolated systems has led to a deeper understanding of non-equilibrium quantum states and their dependence on initial conditions. The role of initial conditions is prominently highlighted by the existence of quantum many-body scars, special athermal states with an underlying effective superspin structure, embedded in an otherwise chaotic many-body spectrum. Spin Heisenberg and $XXZ$ models and their variants in one and higher dimension have been shown to host exact quantum many-body scars, exhibiting perfect revivals of spin helix states that are realizable in synthetic and condensed matter systems. Motivated by these advances, we propose experimentally accessible, local, time-dependent protocols to explore the spatial thermalization profile and highlight how different parts of the system thermalize and affect the fate of the superspin. We identify distinct parametric regimes for the ferromagnetic ($X$-polarized) initial state based on the interplay between the driven spin and the rest, including local athermal behavior where the driven spin effectively decouples, acting like a ``cold" spot while being instrumental in heating up the other spins. We also identify parameter regimes where the superspin remains resilient to local driving for long time scales. We develop a real and Floquet space picture that explains our numerical observations, and make predictions that can be tested in various experimental setups. | 翻訳日:2024-11-09 15:24:36 公開日:2024-09-26 |
# 授業増分学習における効果的な意思決定境界学習
Effective Decision Boundary Learning for Class Incremental Learning ( http://arxiv.org/abs/2301.05180v4 ) ライセンス: Link先を確認 | Kunchi Li, Jun Wan, Shan Yu, | (参考訳) クラスインクリメンタルラーニング(CIL)におけるリハーサルアプローチは、知識蒸留のための古いクラスデータの不足と、記憶メモリが限られているため、学習と新しいクラス間の不均衡なデータ学習という2つの要因によって、新しいクラスに過度に適合する決定境界に悩まされる。
本研究では,これらの2つの要因に対処するための,単純かつ効果的なアプローチを提案する。
まず、再サンプリング戦略とMixup K {\displaystyle K}nowledge D}istillation (Re-MKD)を用いて、KDの性能を改善する。
具体的には、学習されたクラスと新しいクラス間の潜伏分布とより整合したKDトレーニングで使用される適切なデータを合成するために、ミックスアップと再サンプリングの戦略を組み合わせる。
次に, インフルエンスバランス法をCIL設定に拡張することにより, インクリメンタルインフルエンスバランス(IIB)法を提案する。
これら2つの改善により、KDの性能を改善し、不均衡なデータ学習を同時に扱う効果的な決定境界学習アルゴリズム(EDBL)を提案する。
実験の結果、EDBLはいくつかのCILベンチマークで最先端のパフォーマンスを達成できた。
Rehearsal approaches in class incremental learning (CIL) suffer from decision boundary overfitting to new classes, which is mainly caused by two factors: insufficiency of old classes data for knowledge distillation and imbalanced data learning between the learned and new classes because of the limited storage memory. In this work, we present a simple but effective approach to tackle these two factors. First, we employ a re-sampling strategy and Mixup K}nowledge D}istillation (Re-MKD) to improve the performances of KD, which would greatly alleviate the overfitting problem. Specifically, we combine mixup and re-sampling strategies to synthesize adequate data used in KD training that are more consistent with the latent distribution between the learned and new classes. Second, we propose a novel incremental influence balance (IIB) method for CIL to tackle the classification of imbalanced data by extending the influence balance method into the CIL setting, which re-weights samples by their influences to create a proper decision boundary. With these two improvements, we present the effective decision boundary learning algorithm (EDBL) which improves the performance of KD and deals with the imbalanced data learning simultaneously. Experiments show that the proposed EDBL achieves state-of-the-art performances on several CIL benchmarks. | 翻訳日:2024-11-09 15:24:36 公開日:2024-09-26 |
# 位相遷移を厳密に探究する普遍記号を定義する
Defining a universal sign to strictly probe a phase transition ( http://arxiv.org/abs/2301.12438v4 ) ライセンス: Link先を確認 | Nvsen Ma, Jun-Song Sun, Gaopei Pan, Chen Cheng, Zheng Yan, | (参考訳) 量子モンテカルロシミュレーションにおける悪名高い符号問題の謎は、フェルミオン系およびフラストレーション系における手法の適用を効果的に制限している。
最近の研究 (Science 375, 418 (2022)) では, 相転移の探索に符号を使用できることを指摘し, 符号問題において顕著なブレークスルーをおこなった。
本研究では,符号問題と位相遷移が常に厳密に関連付けられないことを示すために,原点と参照系の間の自由エネルギーの差に関連する符号の定義に基づく一般論を提案した。
符号は、基準系の自由エネルギーが変数パラメータの下で平坦である場合にのみ、位相遷移を正確にプローブすることができるが、設計はほぼ不可能である。
一般に、記号が位相遷移を探索できるという結論は、普遍性のない生存バイアスである。
この問題を解決するために,参照システムの影響を排除し,位相遷移を厳密に探索する修正符号を定義する。
この研究は、新しい修飾符号によって相転移を検出する不偏解を与える。
The mystery of the infamous sign problem in quantum Monte Carlo simulations mightily restricts applications of the method in fermionic and frustrated systems. A recent work [Science 375, 418 (2022)] made a remarkable breakthrough in the sign problem by pointing out that the sign can be used to probe phase transition. In this work, we proposed a general argument based on the definition of the sign that is related to the difference in free energy between the original and reference systems to clarify that the sign problem and phase transition cannot always be strictly related. The sign can exactly probe phase transition only if the free energy in the reference system is flat under variable parameters, which is almost impossible to design. Generally speaking, the conclusion that the sign can probe phase transition is survivorship bias without universality. To solve this problem, we define a modified sign that excludes the influence of the reference system, which can probe the phase transition strictly. The work gives an unbiased solution for detecting phase transition by the new modified sign. | 翻訳日:2024-11-09 15:24:36 公開日:2024-09-26 |
# ベイズ行列分解とその応用
Bayesian Matrix Decomposition and Applications ( http://arxiv.org/abs/2302.11337v3 ) ライセンス: Link先を確認 | Jun Lu, | (参考訳) 本書の唯一の目的は、行列分解技法をシームレスに導入するために、ベイズ行列分解における概念と数学的ツールを自己完結的に導入することである。
しかし、ベイズ行列の分解に関する有用かつ興味深い結果をすべてカバーできないことは明らかであり、最適化を行うための変分推論の分離解析を例に挙げる。
ベイズ解析の分野における文献を参照し、関連する分野についてより詳細な解説を行う。
この本は、主に目的、重要なベイズ行列分解法、例えば実数値分解、非負行列分解、ベイズ補間分解、およびそれらの応用に光を当てた方法の起源と複雑さの要約である。
数学の前提条件は統計学と線型代数の最初のコースである。
この控えめな背景以外は、開発は自己完結しており、厳密な証明が提供される。
The sole aim of this book is to give a self-contained introduction to concepts and mathematical tools in Bayesian matrix decomposition in order to seamlessly introduce matrix decomposition techniques and their applications in subsequent sections. However, we clearly realize our inability to cover all the useful and interesting results concerning Bayesian matrix decomposition and given the paucity of scope to present this discussion, e.g., the separated analysis of variational inference for conducting the optimization. We refer the reader to literature in the field of Bayesian analysis for a more detailed introduction to the related fields. This book is primarily a summary of purpose, significance of important Bayesian matrix decomposition methods, e.g., real-valued decomposition, nonnegative matrix factorization, Bayesian interpolative decomposition, and the origin and complexity of the methods which shed light on their applications. The mathematical prerequisite is a first course in statistics and linear algebra. Other than this modest background, the development is self-contained, with rigorous proof provided throughout. | 翻訳日:2024-11-09 15:24:36 公開日:2024-09-26 |
# 審美的不確実性のモデル化のための確率的統一関係--定理証明による意味論と自動推論
Probabilistic unifying relations for modelling epistemic and aleatoric uncertainty: semantics and automated reasoning with theorem proving ( http://arxiv.org/abs/2303.09692v3 ) ライセンス: Link先を確認 | Kangfeng Ye, Jim Woodcock, Simon Foster, | (参考訳) 確率的プログラミングは、一般的なコンピュータプログラミング、統計的推論、フォーマルセマンティクスを組み合わせて、不確実性に直面した時にシステムが決定を下すのを助ける。
確率的プログラムはユビキタスであり、マシンインテリジェンスに大きな影響を与えている。
多くの確率的アルゴリズムは、実際には異なる領域で使われているが、形式的意味論に基づく自動検証は、まだ比較的新しい研究分野である。
過去20年間、多くの関心を集めてきた。
しかし、多くの課題が残っている。
本稿では,確率的統一関係(ProbURel)について述べる。
私たちの仕事は、Hehner氏の予測確率的プログラミングに基づいていますが、彼の仕事が広く採用されるにはいくつかの障害があります。
ここでのコントリビューションは,(1)Iverson Bracket表記を算術と区別するために導入した文法と意味論の形式化,(2)Unified Theories of Programming(UTP)を用いた関係の形式化,(3)実数の位相空間上の和を用いたブラケット外の確率化,(3)Kleeneの固定点定理を用いた確率ループの構成的意味論,(4)構成的意味論を扱うための分布から部分分布へのセマンティクスと超分布へのセマンティクスの強化,(5)確率ループの推論を単純化するための一意的不動点定理,(6)Isabelle/UTPにおける理論の機械化,そして(6)Isabel/UTTP/HOLにおける実装。
ロボットのローカライゼーションの問題,機械学習の分類,確率ループの終了など,6つの事例で研究成果を実演する。
Probabilistic programming combines general computer programming, statistical inference, and formal semantics to help systems make decisions when facing uncertainty. Probabilistic programs are ubiquitous, including having a significant impact on machine intelligence. While many probabilistic algorithms have been used in practice in different domains, their automated verification based on formal semantics is still a relatively new research area. In the last two decades, it has attracted much interest. Many challenges, however, remain. The work presented in this paper, probabilistic unifying relations (ProbURel), takes a step towards our vision to tackle these challenges. Our work is based on Hehner's predicative probabilistic programming, but there are several obstacles to the broader adoption of his work. Our contributions here include (1) the formalisation of its syntax and semantics by introducing an Iverson bracket notation to separate relations from arithmetic; (2) the formalisation of relations using Unifying Theories of Programming (UTP) and probabilities outside the brackets using summation over the topological space of the real numbers; (3) the constructive semantics for probabilistic loops using Kleene's fixed-point theorem; (4) the enrichment of its semantics from distributions to subdistributions and superdistributions to deal with the constructive semantics; (5) the unique fixed-point theorem to simplify the reasoning about probabilistic loops; and (6) the mechanisation of our theory in Isabelle/UTP, an implementation of UTP in Isabelle/HOL, for automated reasoning using theorem proving. We demonstrate our work with six examples, including problems in robot localisation, classification in machine learning, and the termination of probabilistic loops. | 翻訳日:2024-11-09 15:24:36 公開日:2024-09-26 |
# サービス拒否とファイングラインド制御--フレキシブルモデルによるフェデレート学習への攻撃に向けて
Denial-of-Service or Fine-Grained Control: Towards Flexible Model Poisoning Attacks on Federated Learning ( http://arxiv.org/abs/2304.10783v3 ) ライセンス: Link先を確認 | Hangtao Zhang, Zeming Yao, Leo Yu Zhang, Shengshan Hu, Chao Chen, Alan Liew, Zhetao Li, | (参考訳) フェデレーテッド・ラーニング(FL)は、敵がグローバルアグリゲーションの結果を腐敗させ、DoS(DoS)を否定する有害な攻撃に対して脆弱である。
特定方向の悪意的摂動の振幅を最適化してDoSを発生させる最近のモデル中毒攻撃とは違って,汎用的な攻撃目標を達成するフレキシブルモデル中毒攻撃(FMPA)を提案する。
FLシステムに関する余分な知識(例えば、アグリゲーションルールやベニグナブルデバイスのアップデートなど)を敵に提供できない現実的な脅威シナリオを考える。
FMPAは、グローバルな歴史的情報を利用して、グローバルモデルの次のラウンドを良心的な参照として予測する推定器を構築する。
その後、基準モデルを微調整し、低い精度と小さな摂動で所望の有毒モデルを得る。
DoSを発生させる目的の他に、FMPAを自然に拡張して細かい制御可能な攻撃を発射することで、グローバルな精度を正確に低減することができる。
厳格なコントロールで武装した悪意のあるFLサービスプロバイダは、注意を払わずに競合相手に対してアドバンテージを得られるため、DoS以外のFLに新たな攻撃サーフェスを開くことができる。
DoSの目的においても、FMPAは世界の精度を著しく低下させ、最先端の6つの攻撃を上回ります。
Federated learning (FL) is vulnerable to poisoning attacks, where adversaries corrupt the global aggregation results and cause denial-of-service (DoS). Unlike recent model poisoning attacks that optimize the amplitude of malicious perturbations along certain prescribed directions to cause DoS, we propose a Flexible Model Poisoning Attack (FMPA) that can achieve versatile attack goals. We consider a practical threat scenario where no extra knowledge about the FL system (e.g., aggregation rules or updates on benign devices) is available to adversaries. FMPA exploits the global historical information to construct an estimator that predicts the next round of the global model as a benign reference. It then fine-tunes the reference model to obtain the desired poisoned model with low accuracy and small perturbations. Besides the goal of causing DoS, FMPA can be naturally extended to launch a fine-grained controllable attack, making it possible to precisely reduce the global accuracy. Armed with precise control, malicious FL service providers can gain advantages over their competitors without getting noticed, hence opening a new attack surface in FL other than DoS. Even for the purpose of DoS, experiments show that FMPA significantly decreases the global accuracy, outperforming six state-of-the-art attacks. | 翻訳日:2024-11-09 15:13:22 公開日:2024-09-26 |
# 人工知能によるアグリフードシステムの構築 : 進歩・課題・機会に関する調査
Empowering Agrifood System with Artificial Intelligence: A Survey of the Progress, Challenges and Opportunities ( http://arxiv.org/abs/2305.01899v2 ) ライセンス: Link先を確認 | Tao Chen, Liang Lv, Di Wang, Jing Zhang, Yue Yang, Zeyang Zhao, Chen Wang, Xiaowei Guo, Hao Chen, Qingye Wang, Yufei Xu, Qiming Zhang, Bo Du, Liangpei Zhang, Dacheng Tao, | (参考訳) 世界人口が急増するにつれて、アグリフードのシステムはより生産的、効率的、安全、持続的へと変化し、潜在的な食糧不足を緩和するためには不可欠である。
近年、ディープラーニング(DL)のような人工知能(AI)技術は、言語、視覚、リモートセンシング(RS)、アグリフードシステムアプリケーションなど、様々な分野でその強みを実証している。
しかし、アグリフードシステムに対するAIの全体的な影響は、まだ不明である。
本稿では,AI技術がアグリフードシステムをどのように変革し,現代のアグリフード産業に貢献するかを,徹底的にレビューする。
まず,アグリファドシステムにおけるデータ取得手法について概説する。
第2に,農業,畜産,漁業などのアグリフードシステムにおけるAI手法の進歩を概観し,アグリフード分類,成長モニタリング,収量予測,品質評価などのトピックについて紹介する。
さらに、AIで現代のアグリファドシステムを変革するための潜在的な課題と有望な研究機会を強調します。
この調査が、この分野の新参者に全体像を提供し、さらなる研究の出発点になることを期待している。
プロジェクトのWebサイトはhttps://github.com/Frenkie14/Agrifood-Surveyである。
With the world population rapidly increasing, transforming our agrifood systems to be more productive, efficient, safe, and sustainable is crucial to mitigate potential food shortages. Recently, artificial intelligence (AI) techniques such as deep learning (DL) have demonstrated their strong abilities in various areas, including language, vision, remote sensing (RS), and agrifood systems applications. However, the overall impact of AI on agrifood systems remains unclear. In this paper, we thoroughly review how AI techniques can transform agrifood systems and contribute to the modern agrifood industry. Firstly, we summarize the data acquisition methods in agrifood systems, including acquisition, storage, and processing techniques. Secondly, we present a progress review of AI methods in agrifood systems, specifically in agriculture, animal husbandry, and fishery, covering topics such as agrifood classification, growth monitoring, yield prediction, and quality assessment. Furthermore, we highlight potential challenges and promising research opportunities for transforming modern agrifood systems with AI. We hope this survey could offer an overall picture to newcomers in the field and serve as a starting point for their further research. The project website is https://github.com/Frenkie14/Agrifood-Survey. | 翻訳日:2024-11-09 15:13:22 公開日:2024-09-26 |
# 教師なし要約の最近の動向
Recent Trends in Unsupervised Summarization ( http://arxiv.org/abs/2305.11231v2 ) ライセンス: Link先を確認 | Mohammad Khosravani, Amine Trabelsi, | (参考訳) 教師なしの要約は、ラベル付きデータセットを必要とせずにモデルを要約する訓練を可能にする強力なテクニックである。
このサーベイは、教師なし要約に使用される様々な手法とモデルをカバーしている。
我々は、教師なし要約を実現するために用いられる抽出的、抽象的、ハイブリッドなモデルと戦略を網羅する。
この調査の主な焦点は最近の研究であるが、過去の重要な研究についても紹介する。
さらに分類学を導入し、教師なしトレーニングへのアプローチに基づいて異なる研究を分類する。
最後に、現在のアプローチについて議論し、いくつかのデータセットと評価手法について述べる。
Unsupervised summarization is a powerful technique that enables training summarizing models without requiring labeled datasets. This survey covers different recent techniques and models used for unsupervised summarization. We cover extractive, abstractive, and hybrid models and strategies used to achieve unsupervised summarization. While the main focus of this survey is on recent research, we also cover some of the important previous research. We additionally introduce a taxonomy, classifying different research based on their approach to unsupervised training. Finally, we discuss the current approaches and mention some datasets and evaluation methods. | 翻訳日:2024-11-09 15:13:22 公開日:2024-09-26 |
# 合成能動推論エージェントの実現 その2: 変分メッセージ更新
Realising Synthetic Active Inference Agents, Part II: Variational Message Updates ( http://arxiv.org/abs/2306.02733v3 ) ライセンス: Link先を確認 | Thijs van de Laar, Magnus Koudahl, Bert de Vries, | (参考訳) 自由エネルギー原則(FEP)は、(生物学的)エージェントを、環境の生成モデルに関する変動自由エネルギー(FE)を最小化するものとして記述している。
アクティブ推論(英: Active Inference、AIF)は、エージェントが期待されるFE目標を最小化することによって環境を探索し、活用する方法を記述するFEPのまとめである。
2つの関連論文において、自由形式のForney-style Factor Graphs (FFGs) 上のメッセージパッシングによるAIFのスケーラブルでエピステマティックなアプローチについて述べる。
共用紙(第1部)は、AFFのFE目標を視覚的に(一般化)する制約付きFFG(CFFG)表記法を導入する。
現在の論文(パートII)は、変分法によりCFFG上のFE目的を最小化(一般化)するメッセージパッシングアルゴリズムを導出する。
シミュレーションされたBetheと一般化されたFEエージェントの比較は、合成AIFへのメッセージパッシングアプローチがT迷路ナビゲーションタスクにおいてどのようにててんかん行動を引き起こすかを示している。
T迷路シミュレーションの拡張
1)目標統計の学習、及び
2)マルチエージェントバーゲティング設定は、このアプローチがノードの再利用と代替設定の更新をいかに促すかを示している。
合成AIFエージェントの完全なメッセージパッシングアカウントにより、モデル間でのメッセージ更新を導出し再利用し、合成AIFの産業的応用に近づくことができる。
The Free Energy Principle (FEP) describes (biological) agents as minimising a variational Free Energy (FE) with respect to a generative model of their environment. Active Inference (AIF) is a corollary of the FEP that describes how agents explore and exploit their environment by minimising an expected FE objective. In two related papers, we describe a scalable, epistemic approach to synthetic AIF, by message passing on free-form Forney-style Factor Graphs (FFGs). A companion paper (part I) introduces a Constrained FFG (CFFG) notation that visually represents (generalised) FE objectives for AIF. The current paper (part II) derives message passing algorithms that minimise (generalised) FE objectives on a CFFG by variational calculus. A comparison between simulated Bethe and generalised FE agents illustrates how the message passing approach to synthetic AIF induces epistemic behaviour on a T-maze navigation task. Extension of the T-maze simulation to 1) learning goal statistics, and 2) a multi-agent bargaining setting, illustrate how this approach encourages reuse of nodes and updates in alternative settings. With a full message passing account of synthetic AIF agents, it becomes possible to derive and reuse message updates across models and move closer to industrial applications of synthetic AIF. | 翻訳日:2024-11-09 15:02:22 公開日:2024-09-26 |
# 時間と状態依存型ニューラル遅延微分方程式
Time and State Dependent Neural Delay Differential Equations ( http://arxiv.org/abs/2306.14545v2 ) ライセンス: Link先を確認 | Thibault Monsel, Onofrio Semeraro, Lionel Mathelin, Guillaume Charpiat, | (参考訳) 物理学や工学から医学、経済学まで、幅広い種類の問題の統治方程式において、不連続性と遅延項が遭遇する。
これらのシステムは、標準常微分方程式(ODE)やニューラル常微分方程式(NODE)のようなデータ駆動近似で適切にモデル化およびシミュレーションすることはできない。
この問題を回避するために、潜伏変数は一般に高次元空間における系の力学を解き、元の空間への射影として解を得るために導入される。
しかし、この解は物理的解釈可能性に欠ける。
対照的に、DDE(Delay Differential Equations)とそのデータ駆動の近似方程式は、このようなシステムを特徴づける良い候補として自然に現れる。
本稿では,複数および状態依存遅延をモデル化可能な汎用かつ柔軟なフレームワークであるNeural State-Dependent DDE(SDDDE)を導入することで,最近提案されたNeural DDEを再考する。
提案手法は競争力があり,様々な遅延力学系における他の連続クラスモデルよりも優れていることを示す。
コードはリポジトリ \href{https://github.com/thibmonsel/Time-and-State-Dependent-Neural-Delay-Differential-Equations}{here} で公開されている。
Discontinuities and delayed terms are encountered in the governing equations of a large class of problems ranging from physics and engineering to medicine and economics. These systems cannot be properly modelled and simulated with standard Ordinary Differential Equations (ODE), or data-driven approximations such as Neural Ordinary Differential Equations (NODE). To circumvent this issue, latent variables are typically introduced to solve the dynamics of the system in a higher dimensional space and obtain the solution as a projection to the original space. However, this solution lacks physical interpretability. In contrast, Delay Differential Equations (DDEs), and their data-driven approximated counterparts, naturally appear as good candidates to characterize such systems. In this work we revisit the recently proposed Neural DDE by introducing Neural State-Dependent DDE (SDDDE), a general and flexible framework that can model multiple and state- and time-dependent delays. We show that our method is competitive and outperforms other continuous-class models on a wide variety of delayed dynamical systems. Code is available at the repository \href{https://github.com/thibmonsel/Time-and-State-Dependent-Neural-Delay-Differential-Equations}{here}. | 翻訳日:2024-11-09 14:51:04 公開日:2024-09-26 |
# ボソニックガウス流路の低地・高地容量領域解析
Low-ground/High ground capacity regions analysis for Bosonic Gaussian Channels ( http://arxiv.org/abs/2306.16350v2 ) ライセンス: Link先を確認 | Farzad Kianvash, Marco Fanizza, Vittorio Giovannetti, | (参考訳) 本稿では, 単一モード, 位相非感受性ガウスボソニックチャネル間の相互接続の包括的特性について述べる。
この特徴付けにより、これらのマップのパラメータ空間において、低地と高地という2つの異なる領域を特定できる。
低地領域では、情報容量は指定基準値よりも小さく、高地領域では、確実に大きい。
直接的な結果として、これらの写像の量子的およびプライベートな容量について、既知の上界と合成規則を組み合わせた明示的な上界の集合を体系的に概説し、既存の結果を改善する。
We present a comprehensive characterization of the interconnections between single-mode, phaseinsensitive Gaussian Bosonic Channels resulting from channel concatenation. This characterization enables us to identify, in the parameter space of these maps, two distinct regions: low-ground and high-ground. In the low-ground region, the information capacities are smaller than a designated reference value, while in the high-ground region, they are provably greater. As a direct consequence, we systematically outline an explicit set of upper bounds for the quantum and private capacity of these maps, which combine known upper bounds and composition rules, improving upon existing results. | 翻訳日:2024-11-09 14:51:04 公開日:2024-09-26 |
# 風場の大規模空間補間のための二変量深絞り
Bivariate DeepKriging for Large-scale Spatial Interpolation of Wind Fields ( http://arxiv.org/abs/2307.08038v2 ) ライセンス: Link先を確認 | Pratik Nag, Ying Sun, Brian J Reich, | (参考訳) 高空間分解能風速データは、気候、海洋学、気象学研究における幅広い応用に不可欠である。
2次元の速度を持つ二変量風の大規模空間補間または下降は、風データが高空間変動と不均一性を有する非ガウス的である傾向があるため、難しい課題である。
空間統計学において、コクリギングは二変量空間場を予測するのに一般的に用いられる。
しかし、コクリグ予測子はガウス過程を除いて最適ではない。
さらに、コクリギングは大規模データセットでは計算が禁じられている。
本稿では,2変数空間データ予測のための空間ラジアル基底関数によって構築された埋め込み層を備えた空間依存型ディープニューラルネットワーク(DNN)であるバイバリアレートディープクリグ法を提案する。
そこで我々は,ブートストラップとアンサンブルDNNに基づく分布自由不確実性定量化手法を開発した。
提案手法は,コリージョン化の線形モデルやフレキシブル二変量Mat\ern共分散などの共分散関数を用いた従来の共分散予測器よりも優れている。
提案したDNNモデルの計算効率とスケーラビリティを,従来の手法に比べて平均20倍高速な計算で実証する。
両変数のDeepKriging法を中東の506,771箇所の風速データに適用した。
提案手法の予測性能はコクリグ予測よりも優れており,計算時間を劇的に短縮する。
High spatial resolution wind data are essential for a wide range of applications in climate, oceanographic and meteorological studies. Large-scale spatial interpolation or downscaling of bivariate wind fields having velocity in two dimensions is a challenging task because wind data tend to be non-Gaussian with high spatial variability and heterogeneity. In spatial statistics, cokriging is commonly used for predicting bivariate spatial fields. However, the cokriging predictor is not optimal except for Gaussian processes. Additionally, cokriging is computationally prohibitive for large datasets. In this paper, we propose a method, called bivariate DeepKriging, which is a spatially dependent deep neural network (DNN) with an embedding layer constructed by spatial radial basis functions for bivariate spatial data prediction. We then develop a distribution-free uncertainty quantification method based on bootstrap and ensemble DNN. Our proposed approach outperforms the traditional cokriging predictor with commonly used covariance functions, such as the linear model of co-regionalization and flexible bivariate Mat\'ern covariance. We demonstrate the computational efficiency and scalability of the proposed DNN model, with computations that are, on average, 20 times faster than those of conventional techniques. We apply the bivariate DeepKriging method to the wind data over the Middle East region at 506,771 locations. The prediction performance of the proposed method is superior over the cokriging predictors and dramatically reduces computation time. | 翻訳日:2024-11-09 14:51:04 公開日:2024-09-26 |
# ローカル・ミニマを飛び抜ける:視覚変換器の失われた景観の量子化
Jumping through Local Minima: Quantization in the Loss Landscape of Vision Transformers ( http://arxiv.org/abs/2308.10814v3 ) ライセンス: Link先を確認 | Natalia Frumkin, Dibakar Gope, Diana Marculescu, | (参考訳) 量子化スケールとビット幅は、ニューラルネットワークの量子化方法を考える上で最も重要なパラメータである。
先行研究は、勾配法 (gradient descent \& Hessian analysis) を通じて、グローバルな方法で量子化スケールを最適化することに焦点を当てている。
しかし、量子化スケールに摂動を適用すると、非常にジャグリングされ、非常に滑らかなテスト損失の風景が観察される。
実際、量子化スケールでの小さな摂動は精度に大きな影響を与え、4ビット量子化ビジョントランス (ViT) において0.5-0.8\%の精度向上をもたらす。
この体制では、勾配法は局所最小値に確実に到達できないため、崩壊する。
Evol-Qと呼ばれる我々の研究では、進化的探索を用いて非滑らかな風景を効果的に横断する。
さらに我々は,小キャリブレーションデータセット(1,000ドル画像)のオーバーフィッティングに有効であるだけでなく,そのような非滑らかな表面のトラバースを容易にするインフォネッセロスを提案する。
Evol-Q は完全量子化された ViT-Base のトップ-1 の精度を 10.30 %$,$0.78 %$,$0.15 %$ で3$-bit,$4$-bit,$8$-bit で改善している。
様々なCNNおよびViTアーキテクチャに関する大規模な実験は、極端量子化シナリオにおけるその堅牢性をさらに証明している。
私たちのコードはhttps://github.com/enyac-group/evol-qで利用可能です。
Quantization scale and bit-width are the most important parameters when considering how to quantize a neural network. Prior work focuses on optimizing quantization scales in a global manner through gradient methods (gradient descent \& Hessian analysis). Yet, when applying perturbations to quantization scales, we observe a very jagged, highly non-smooth test loss landscape. In fact, small perturbations in quantization scale can greatly affect accuracy, yielding a $0.5-0.8\%$ accuracy boost in 4-bit quantized vision transformers (ViTs). In this regime, gradient methods break down, since they cannot reliably reach local minima. In our work, dubbed Evol-Q, we use evolutionary search to effectively traverse the non-smooth landscape. Additionally, we propose using an infoNCE loss, which not only helps combat overfitting on the small calibration dataset ($1,000$ images) but also makes traversing such a highly non-smooth surface easier. Evol-Q improves the top-1 accuracy of a fully quantized ViT-Base by $10.30\%$, $0.78\%$, and $0.15\%$ for $3$-bit, $4$-bit, and $8$-bit weight quantization levels. Extensive experiments on a variety of CNN and ViT architectures further demonstrate its robustness in extreme quantization scenarios. Our code is available at https://github.com/enyac-group/evol-q | 翻訳日:2024-11-09 14:40:04 公開日:2024-09-26 |
# 時空間グラフ条件拡散モデルを用いた多変量時系列異常検出
Contaminated Multivariate Time-Series Anomaly Detection with Spatio-Temporal Graph Conditional Diffusion Models ( http://arxiv.org/abs/2308.12563v3 ) ライセンス: Link先を確認 | Thi Kieu Khanh Ho, Narges Armanfard, | (参考訳) 主流の教師なし異常検出アルゴリズムは、しばしば学術データセットで優れているが、クリーンなトレーニングデータを含む制御された実験条件のため、実際の性能は制限されている。
ノイズによるトレーニングの課題に対処するためには,現実的な異常検出の課題として,しばしば見落とされがちである。
先駆的な試みとして,感覚時系列異常検出(TSAD)におけるラベルレベルのノイズの領域について検討した。
本稿では,トレーニングデータを異常で汚染した場合に,新しいかつ実用的な非教師付きTSADを提案する。
TSAD-Cと呼ばれるアプローチでは、トレーニングフェーズ中に異常ラベルにアクセスできない。
TSAD-Cは、トレーニング中に発生する異常(いわゆるノイズ)を修正できるデコンタミネータ、純粋な正規データのサロゲートと見なされるデコンタミネートデータ内の長期的な内部および変数間の依存関係をキャプチャするロングレンジ可変依存性モデリングモジュール、あらゆるタイプの異常を検出するアノマリー・スコーリングモジュールの3つのコアモジュールを含んでいる。
TSAD-Cが既存の手法を超越し,TSAD分野における新たな最先端技術を確立したことを,信頼性と多種多様な4つのデータセットで実証した。
Mainstream unsupervised anomaly detection algorithms often excel in academic datasets, yet their real-world performance is restricted due to the controlled experimental conditions involving clean training data. Addressing the challenge of training with noise, a prevalent issue in practical anomaly detection, is frequently overlooked. In a pioneering endeavor, this study delves into the realm of label-level noise within sensory time-series anomaly detection (TSAD). This paper presents a novel and practical end-to-end unsupervised TSAD when the training data is contaminated with anomalies. The introduced approach, called TSAD-C, is devoid of access to abnormality labels during the training phase. TSAD-C encompasses three core modules: a Decontaminator to rectify anomalies (aka noise) present during training, a Long-range Variable Dependency Modeling module to capture long-term intra- and inter-variable dependencies within the decontaminated data that is considered as a surrogate of the pure normal data, and an Anomaly Scoring module to detect anomalies from all types. Our extensive experiments conducted on four reliable and diverse datasets conclusively demonstrate that TSAD-C surpasses existing methodologies, thus establishing a new state-of-the-art in the TSAD field. | 翻訳日:2024-11-09 14:40:04 公開日:2024-09-26 |
# 短絡-断熱による高忠実度マクロ微視的重ね合わせ状態
High fidelity macroscopic superposition states via shortcut to adiabaticity ( http://arxiv.org/abs/2309.06031v2 ) ライセンス: Link先を確認 | Mehdi Aslani, Vahid Salari, Mehdi Abdi, | (参考訳) 巨視的空間重畳状態の大規模物体を調製するために, 断熱方式のショートカットを提案する。
本稿では, トラップ電位をパラボラから二重井戸に調整しながら, 即時ハミルトニアンの基底状態におけるシステム維持に反断熱駆動を用いることを提案する。
これは、制御パラメータを適切に傾斜させて行われる。
いくつかの反断熱ドライブは、ほとんどのケースで十分であることを示す。
この実装のために超伝導回路のハイブリッド電気機械構成を提案する。
本手法の効率は,ノイズや不完全性の存在下でのシステムの力学を数値的に解くことで評価される。
その結果,高忠実度で空間的に識別可能な猫状態を持つ機械共振器をプロトコルを用いて作成できることが示唆された。
さらに、このプロトコルはノイズや不完全性に対して堅牢である。
また、結合回路電気力学キャビティモードの分光による最終状態の検証手法についても検討する。
我々の研究は、将来の実験において、マクロな重ね合わせ状態を実現し、検証するための基礎研究として役立てることができる。
A shortcut to an adiabatic scheme is proposed for preparing a massive object in a macroscopic spatial superposition state. In this scheme we propose to employ counterdiabatic driving to maintain the system in the ground state of its instantaneous Hamiltonian while the trap potential is tuned from a parabola to a double well. This, in turn, is performed by properly ramping a control parameter. We show that a few counterdiabatic drives are enough for most practical cases. A hybrid electromechanical setup in superconducting circuits is proposed for the implementation. The efficiency of our scheme is benchmarked by numerically solving the system dynamics in the presence of noises and imperfections. The results show that a mechanical resonator with very-high-fidelity spatially distinguishable cat states can be prepared with our protocol. Furthermore, the protocol is robust against noises and imperfections. We also discuss a method for verifying the final state via spectroscopy of a coupled circuit electrodynamical cavity mode. Our work can serve as the ground work to feasibly realize and verify macroscopic superposition states in future experiments. | 翻訳日:2024-11-09 14:28:50 公開日:2024-09-26 |
# EPTQ: Hessian-Guided Network-wise Optimization による学習後量子化の強化
EPTQ: Enhanced Post-Training Quantization via Hessian-guided Network-wise Optimization ( http://arxiv.org/abs/2309.11531v2 ) ライセンス: Link先を確認 | Ofir Gordon, Elad Cohen, Hai Victor Habi, Arnon Netzer, | (参考訳) 量子化は、メモリと計算リソースが限られているエッジデバイスにディープニューラルネットワークをデプロイするための重要な方法である。
ポストトレーニング量子化法(PTQ)の最近の改良は、重み量子化ラウンドリングポリシーを学習するための局所最適化プロセスによって達成された。
しかし、小さな代表データセットでネットワークワイズ最適化を採用する場合、ギャップが存在する。
本稿では,ネットワークワイド量子化最適化プロセスを利用するEPTQ(Advanced PTQ)の新たな手法を提案する。
EPTQは,ラベルフリーなヘッセン行列上界に基づく新しいサンプル層アテンションスコアを用いた,小さな代表データセットによるネットワークワイズ最適化を実現する。
ラベルのない手法はPTQ方式に適合する。
以上の境界について理論的解析を行い、それを用いて、より繊細な層やサンプルに焦点を合わせるよう最適化する知識蒸留損失を構築する。
さらに,重みテンソルの高感度要素に着目し,重み量子化パラメータの選択を改善するためにヘッセン上界を利用する。
EPTQを用いることで、ImageNet分類、COCOオブジェクト検出、意味的セグメンテーションのためのPascal-VOCなど、さまざまなモデル、タスク、データセットの最先端結果が得られる。
Quantization is a key method for deploying deep neural networks on edge devices with limited memory and computation resources. Recent improvements in Post-Training Quantization (PTQ) methods were achieved by an additional local optimization process for learning the weight quantization rounding policy. However, a gap exists when employing network-wise optimization with small representative datasets. In this paper, we propose a new method for enhanced PTQ (EPTQ) that employs a network-wise quantization optimization process, which benefits from considering cross-layer dependencies during optimization. EPTQ enables network-wise optimization with a small representative dataset using a novel sample-layer attention score based on a label-free Hessian matrix upper bound. The label-free approach makes our method suitable for the PTQ scheme. We give a theoretical analysis for the said bound and use it to construct a knowledge distillation loss that guides the optimization to focus on the more sensitive layers and samples. In addition, we leverage the Hessian upper bound to improve the weight quantization parameters selection by focusing on the more sensitive elements in the weight tensors. Empirically, by employing EPTQ we achieve state-of-the-art results on various models, tasks, and datasets, including ImageNet classification, COCO object detection, and Pascal-VOC for semantic segmentation. | 翻訳日:2024-11-09 14:28:50 公開日:2024-09-26 |
# 機械学習のためのハミングウェイト保存量子回路の訓練性と表現性
Trainability and Expressivity of Hamming-Weight Preserving Quantum Circuits for Machine Learning ( http://arxiv.org/abs/2309.15547v2 ) ライセンス: Link先を確認 | Léo Monbroussou, Eliott Z. Mamon, Jonas Landman, Alex B. Grilo, Romain Kukla, Elham Kashefi, | (参考訳) 量子機械学習(QML)は、量子コンピュータの現実的な応用にとって有望な分野となっているが、短期的手法とその拡張性は依然として重要な研究トピックである。
この文脈では、変動量子回路(VQC)を保存した特定のハミング重みのトレーナビリティと制御性について分析する。
これらの回路は、ヒルベルト空間の部分空間を保存するクォービットゲートを使用し、固定ハミング重み$k$の基底状態で区切られている。
本研究では、まず、新しいヒューリスティックなデータローダの実現可能性を示し、$n$-qubit量子回路をトレーニングすることにより、$\binom{n}{k}$-dimensionalベクトルの量子振幅符号化を行う。
これらのデータローダは、QFIM(Quantum Fisher Information Matrix)のランクをチェックし、次元削減技術を用いて得られる。
第2に、任意の VQC 状態の QFIM のランクがほぼどこでも一定であり、これは別の関心事であるという事実を理論的に正当化する。
最後に、ハミング重み保存回路のトレーニング可能性を分析し、その部分空間の次元$\binom{n}{k}$に応じて、$l_2$コスト関数勾配のばらつきが有界であることを示す。
このことは、これらの回路に対するバレンプラトーの存在/欠如の条件を証明し、近年の制御可能性と変分量子回路のトレーニング可能性の関係に関する予想が適用されない状況を強調している。
Quantum machine learning (QML) has become a promising area for real world applications of quantum computers, but near-term methods and their scalability are still important research topics. In this context, we analyze the trainability and controllability of specific Hamming weight preserving variational quantum circuits (VQCs). These circuits use qubit gates that preserve subspaces of the Hilbert space, spanned by basis states with fixed Hamming weight $k$. In this work, we first design and prove the feasibility of new heuristic data loaders, performing quantum amplitude encoding of $\binom{n}{k}$-dimensional vectors by training an $n$-qubit quantum circuit. These data loaders are obtained using dimensionality reduction techniques, by checking the Quantum Fisher Information Matrix (QFIM)'s rank. Second, we provide a theoretical justification for the fact that the rank of the QFIM of any VQC state is almost-everywhere constant, which is of separate interest. Lastly, we analyze the trainability of Hamming weight preserving circuits, and show that the variance of the $l_2$ cost function gradient is bounded according to the dimension $\binom{n}{k}$ of the subspace. This proves conditions of existence/lack of Barren Plateaus for these circuits, and highlights a setting where a recent conjecture on the link between controllability and trainability of variational quantum circuits does not apply. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-26 |
# ミューオン崩壊における相対論的絡み合い
Relativistic entanglement in muon decay ( http://arxiv.org/abs/2309.15863v2 ) ライセンス: Link先を確認 | S. Carneiro, F. C. Sobrinho, | (参考訳) 非折り畳み相互作用の存在下での量子絡みの時間進化について論じる。
特に、磁場中におけるミューオン崩壊生成物の絡み合いを再考する。
これは角運動量保存の結果であり、ブルックヘイブンとフェルミラブの実験によって報告されたものと正確な一致で測定されたミューオンg因子の異常をもたらす。
We discuss the time evolution of quantum entanglement in presence of non-collapsing interactions. In particular, the entanglement between the products of a muon decay in a magnetic field is revisited. It results from angular momentum conservation and leads to an anomaly in the measured muon g factor in precise agreement with that reported by the Brookhaven and Fermilab experiments. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-26 |
# 支援を受けるための学習: 介入を意識した概念埋め込みモデル
Learning to Receive Help: Intervention-Aware Concept Embedding Models ( http://arxiv.org/abs/2309.16928v3 ) ライセンス: Link先を確認 | Mateo Espinosa Zarlenga, Katherine M. Collins, Krishnamurthy Dvijotham, Adrian Weller, Zohreh Shams, Mateja Jamnik, | (参考訳) 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、高レベルの概念セットを使用して予測を構築し、説明することによって、ニューラルネットワークの不透明さに対処する。
これらのモデルの特別な特性は、ユーザーが誤予測された概念を修正でき、それによってモデルの性能が向上する、概念の介入を許すことである。
しかし、最近の研究は、介入効果は概念が介入される順序やモデルのアーキテクチャやハイパーパラメーターの訓練に大きく依存することを示した。
これは、モデルが概念的介入に適切に受容されるための、CBMの列車時のインセンティブの欠如に起因している、と我々は主張する。
そこで我々は,新しいCBMアーキテクチャとトレーニングパラダイムであるIntervention-Aware Concept Embedding Model (IntCEMs)を提案する。
我々のモデルは、列車の時間に意味のある介入経路をサンプリングできるエンド・ツー・エンド方式の概念介入ポリシーを学習する。
この条件では、IntCEMは、テスト時にデプロイされたコンセプトの介入を効果的に選択し、受け取ります。
実験の結果,IntCEMはテスト時間の概念介入を施す場合,最先端の概念解釈モデルよりも優れており,本手法の有効性が示された。
Concept Bottleneck Models (CBMs) tackle the opacity of neural architectures by constructing and explaining their predictions using a set of high-level concepts. A special property of these models is that they permit concept interventions, wherein users can correct mispredicted concepts and thus improve the model's performance. Recent work, however, has shown that intervention efficacy can be highly dependent on the order in which concepts are intervened on and on the model's architecture and training hyperparameters. We argue that this is rooted in a CBM's lack of train-time incentives for the model to be appropriately receptive to concept interventions. To address this, we propose Intervention-aware Concept Embedding models (IntCEMs), a novel CBM-based architecture and training paradigm that improves a model's receptiveness to test-time interventions. Our model learns a concept intervention policy in an end-to-end fashion from where it can sample meaningful intervention trajectories at train-time. This conditions IntCEMs to effectively select and receive concept interventions when deployed at test-time. Our experiments show that IntCEMs significantly outperform state-of-the-art concept-interpretable models when provided with test-time concept interventions, demonstrating the effectiveness of our approach. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-26 |
# 誘引子ダイナミクスによる離散的、構成的、象徴的表現
Discrete, compositional, and symbolic representations through attractor dynamics ( http://arxiv.org/abs/2310.01807v2 ) ライセンス: Link先を確認 | Andrew Nam, Eric Elmoznino, Nikolay Malkin, James McClelland, Yoshua Bengio, Guillaume Lajoie, | (参考訳) シンボリックシステムは、人間の推論と行動の多くの側面に根ざしたルールと関係をカプセル化するので、認知過程をモデル化するための強力なフレームワークである。
これらのモデルの中心は、体系性、構成性、生産性であり、認知科学と人工知能の両方において貴重である。
しかし、いくつかの制限が残っている。
例えば、構造化された記号過程と潜在サブシンボル過程の統合は、量子化やソフトマックスサンプリングのようなフィアット手法によって計算レベルで実装されている。
そこで本研究では,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラル確率力学系モデルを提案する。
我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。
さらに、PLoTと同様に、入力データとシンボルエンコーディングの相互情報を反映したアトラクタ状態の多種多様な分布のサンプルを学習する。
このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIで表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
Symbolic systems are powerful frameworks for modeling cognitive processes as they encapsulate the rules and relationships fundamental to many aspects of human reasoning and behavior. Central to these models are systematicity, compositionality, and productivity, making them invaluable in both cognitive science and artificial intelligence. However, certain limitations remain. For instance, the integration of structured symbolic processes and latent sub-symbolic processes has been implemented at the computational level through fiat methods such as quantization or softmax sampling, which assume, rather than derive, the operations underpinning discretization and symbolicization. In this work, we introduce a novel neural stochastic dynamical systems model that integrates attractor dynamics with symbolic representations to model cognitive processes akin to the probabilistic language of thought (PLoT). Our model segments the continuous representational space into discrete basins, with attractor states corresponding to symbolic sequences, that reflect the semanticity and compositionality characteristic of symbolic systems through unsupervised learning, rather than relying on pre-defined primitives. Moreover, like PLoT, our model learns to sample a diverse distribution of attractor states that reflect the mutual information between the input data and the symbolic encodings. This approach establishes a unified framework that integrates both symbolic and sub-symbolic processing through neural dynamics, a neuro-plausible substrate with proven expressivity in AI, offering a more comprehensive model that mirrors the complex duality of cognitive operations. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-26 |
# リレーショナル・コンボリューションによる階層的関係表現の学習
Learning Hierarchical Relational Representations through Relational Convolutions ( http://arxiv.org/abs/2310.03240v3 ) ライセンス: Link先を確認 | Awni Altabaa, John Lafferty, | (参考訳) ディープラーニングの研究分野は、関係的特徴表現の学習を支援するアーキテクチャと帰納的バイアスの研究である。
本稿では,階層的関係の表現を学習する上での課題,すなわちオブジェクト群間の高次関係パターンについて述べる。
本稿では,単純なモジュールを構成することで,より複雑な関係性を段階的に捉える計算機構を備えたニューラルネットワークである「リレーショナル畳み込みネットワーク」を紹介する。
このフレームワークの重要なコンポーネントは、グラフレットフィルタを結合することで、オブジェクトのグループ内のリレーショナルパターンをキャプチャする新しい操作である。
関係的畳み込みを構成することは、高次の階層的関係の表現を学ぶ深いアーキテクチャをもたらす。
アーキテクチャのモチベーションと詳細、およびリレーショナル畳み込みネットワークが階層構造を持つリレーショナルタスクをモデル化するための効果的なフレームワークを提供するための一連の実験を示す。
An evolving area of research in deep learning is the study of architectures and inductive biases that support the learning of relational feature representations. In this paper, we address the challenge of learning representations of hierarchical relations--that is, higher-order relational patterns among groups of objects. We introduce "relational convolutional networks", a neural architecture equipped with computational mechanisms that capture progressively more complex relational features through the composition of simple modules. A key component of this framework is a novel operation that captures relational patterns in groups of objects by convolving graphlet filters--learnable templates of relational patterns--against subsets of the input. Composing relational convolutions gives rise to a deep architecture that learns representations of higher-order, hierarchical relations. We present the motivation and details of the architecture, together with a set of experiments to demonstrate how relational convolutional networks can provide an effective framework for modeling relational tasks that have hierarchical structure. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-26 |
# リレーショナルデータベースにおけるディープラーニングモデルの実現
Serving Deep Learning Model in Relational Databases ( http://arxiv.org/abs/2310.04696v3 ) ライセンス: Link先を確認 | Lixi Zhou, Qi Lin, Kanchan Chowdhury, Saif Masood, Alexandre Eichenberger, Hong Min, Alexander Sim, Jie Wang, Yida Wang, Kesheng Wu, Binhang Yuan, Jia Zou, | (参考訳) リレーショナルデータ上での深層学習(DL)モデルの実現は、さまざまな商業および科学分野において重要な要件となり、近年の関心が高まっている。
本稿では,その要件に対処する代表的アーキテクチャを包括的に探求する。
最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF中心アーキテクチャは1つ以上のテンソル計算をリレーショナルデータベース管理システム(RDBMS)内のユーザ定義関数(UDF)にカプセル化する。
潜在的な関係中心アーキテクチャは、関係演算子による大規模テンソル計算を表現することを目的としている。
これらのアーキテクチャはそれぞれ、特定のユースケースにおける約束を実証していますが、これらのアーキテクチャのシームレスな統合と、これらのアーキテクチャの中間部分に対する緊急の要件を特定します。
統合を妨げるギャップを掘り下げて、それらを閉じるための革新的な戦略を探求します。
本稿では、多種多様なデータ集約型DL推論アプリケーションを実現するための新しいRDBMSを確立するための経路を提案する。
Serving deep learning (DL) models on relational data has become a critical requirement across diverse commercial and scientific domains, sparking growing interest recently. In this visionary paper, we embark on a comprehensive exploration of representative architectures to address the requirement. We highlight three pivotal paradigms: The state-of-the-art DL-centric architecture offloads DL computations to dedicated DL frameworks. The potential UDF-centric architecture encapsulates one or more tensor computations into User Defined Functions (UDFs) within the relational database management system (RDBMS). The potential relation-centric architecture aims to represent a large-scale tensor computation through relational operators. While each of these architectures demonstrates promise in specific use scenarios, we identify urgent requirements for seamless integration of these architectures and the middle ground in-between these architectures. We delve into the gaps that impede the integration and explore innovative strategies to close them. We present a pathway to establish a novel RDBMS for enabling a broad class of data-intensive DL inference applications. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-26 |
# ZSC-Eval:マルチエージェントゼロショットコーディネーションのための評価ツールキットとベンチマーク
ZSC-Eval: An Evaluation Toolkit and Benchmark for Multi-agent Zero-shot Coordination ( http://arxiv.org/abs/2310.05208v3 ) ライセンス: Link先を確認 | Xihuai Wang, Shao Zhang, Wenhao Zhang, Wentao Dong, Jingxiao Chen, Ying Wen, Weinan Zhang, | (参考訳) ゼロショットコーディネート(ZSC)は、エゴエージェントが展開中に、多様な、目に見えないパートナーと連携するように訓練することを目的とした、新しい協調型マルチエージェント強化学習(MARL)チャレンジである。
トレーニングアルゴリズムによって決定される、デプロイメント時パートナーの配布とトレーニングパートナの配布との大きな違いは、ZSCを独自のアウト・オブ・ディストリビューション(OOD)一般化の課題にしている。
評価とデプロイメントタイムのパートナ間の潜在的な分散ギャップは、適切な評価指標の欠如によって悪化する不適切な評価につながる。
本稿では,ZSCアルゴリズムの最初の評価ツールキットおよびベンチマークであるZSC-Evalを提案する。
ZSC-Eval は以下の通りである。
1【配置時パートナーの分布を近似する行動優先報酬による評価パートナー候補の生成】
2)Best-Response Diversity(BR-Div)による評価パートナーの選択
3)Best-Response Proximity(BR-Prox)測定により,各種評価パートナーを用いた一般化性能の測定を行った。
我々は、ZSC-Evalを用いて、オーバークッキングおよびGoogle Research Football環境でZSCアルゴリズムをベンチマークし、新しい経験的発見を得る。
また,人間の評価とZSC-Evalの整合性を検証するため,現行のZSCアルゴリズムの人間実験を行った。
ZSC-Evalは現在https://github.com/sjtu-marl/ZSC-Evalで利用可能である。
Zero-shot coordination (ZSC) is a new cooperative multi-agent reinforcement learning (MARL) challenge that aims to train an ego agent to work with diverse, unseen partners during deployment. The significant difference between the deployment-time partners' distribution and the training partners' distribution determined by the training algorithm makes ZSC a unique out-of-distribution (OOD) generalization challenge. The potential distribution gap between evaluation and deployment-time partners leads to inadequate evaluation, which is exacerbated by the lack of appropriate evaluation metrics. In this paper, we present ZSC-Eval, the first evaluation toolkit and benchmark for ZSC algorithms. ZSC-Eval consists of: 1) Generation of evaluation partner candidates through behavior-preferring rewards to approximate deployment-time partners' distribution; 2) Selection of evaluation partners by Best-Response Diversity (BR-Div); 3) Measurement of generalization performance with various evaluation partners via the Best-Response Proximity (BR-Prox) metric. We use ZSC-Eval to benchmark ZSC algorithms in Overcooked and Google Research Football environments and get novel empirical findings. We also conduct a human experiment of current ZSC algorithms to verify the ZSC-Eval's consistency with human evaluation. ZSC-Eval is now available at https://github.com/sjtu-marl/ZSC-Eval. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-26 |
# 対話型実世界シミュレータの学習
Learning Interactive Real-World Simulators ( http://arxiv.org/abs/2310.06114v3 ) ライセンス: Link先を確認 | Sherry Yang, Yilun Du, Kamyar Ghasemipour, Jonathan Tompson, Leslie Kaelbling, Dale Schuurmans, Pieter Abbeel, | (参考訳) インターネットデータでトレーニングされた生成モデルは、テキスト、画像、ビデオコンテンツの作成方法に革命をもたらした。
生成モデルの次のマイルストーンは、人間、ロボット、その他の対話的エージェントによるアクションに反応して、現実的な体験をシミュレートすることだ。
実世界のシミュレーターの応用は、ゲームや映画の制御可能なコンテンツ作成から、実世界で直接デプロイできるシミュレーションで純粋にエンボディされたエージェントを訓練することまで様々である。
生成モデルを用いて実世界の相互作用の普遍的シミュレータ(UniSim)を学習する可能性について検討する。
まず、実世界のシミュレータを学習するために利用可能な自然データセットが、しばしば異なる次元(画像データにおける豊富なオブジェクト、ロボットデータにおける密集したアクション、ナビゲーションデータにおける多様な動き)に沿ってリッチである、という重要な観察を行う。
多様なデータセットを慎重にオーケストレーションし、それぞれが経験の異なる側面を提供することにより、静的なシーンやオブジェクトから"引き出しを開く"といった高レベルの命令と低レベルのコントロールの両方の視覚的な結果をシミュレートすることができます。
我々はシミュレータを用いて高レベル視覚言語ポリシーと低レベル強化学習ポリシーの両方を訓練し、それぞれがシミュレーションで純粋に訓練した後、ゼロショットで現実世界に展開できる。
また、ビデオキャプションモデルのような他のインテリジェンスも、シミュレーション体験によるトレーニングの恩恵を受け、より広い範囲のアプリケーションを開くことができることを示す。
ビデオデモはhttps://universal-simulator.github.io.comで見ることができる。
Generative models trained on internet data have revolutionized how text, image, and video content can be created. Perhaps the next milestone for generative models is to simulate realistic experience in response to actions taken by humans, robots, and other interactive agents. Applications of a real-world simulator range from controllable content creation in games and movies, to training embodied agents purely in simulation that can be directly deployed in the real world. We explore the possibility of learning a universal simulator (UniSim) of real-world interaction through generative modeling. We first make the important observation that natural datasets available for learning a real-world simulator are often rich along different dimensions (e.g., abundant objects in image data, densely sampled actions in robotics data, and diverse movements in navigation data). With careful orchestration of diverse datasets, each providing a different aspect of the overall experience, we can simulate the visual outcome of both high-level instructions such as "open the drawer" and low-level controls from otherwise static scenes and objects. We use the simulator to train both high-level vision-language policies and low-level reinforcement learning policies, each of which can be deployed in the real world in zero shot after training purely in simulation. We also show that other types of intelligence such as video captioning models can benefit from training with simulated experience, opening up even wider applications. Video demos can be found at https://universal-simulator.github.io. | 翻訳日:2024-11-09 10:01:09 公開日:2024-09-26 |
# フーリエニューラル演算子の表現性と訓練性:平均的視点
Understanding the Expressivity and Trainability of Fourier Neural Operator: A Mean-Field Perspective ( http://arxiv.org/abs/2310.06379v3 ) ライセンス: Link先を確認 | Takeshi Koshizuka, Masahiro Fujisawa, Yusuke Tanaka, Issei Sato, | (参考訳) 本稿では,フーリエニューラル演算子(FNO)の表現性と訓練性について検討する。
我々は、カオスの観点から、ランダムなFNOの挙動を解析し、FNOの平均場理論を確立する。
ランダムなFNOの表現性について,重み分布に基づくネットワークの秩序-カオス相転移について検討する。
この相転移は、モード切断によって誘導されるFNOに特有の特性を示すと同時に、密結合ネットワークと類似点を示す。
さらに, 規則相とカオス相は, それぞれ消失勾配と爆発勾配の領域に対応する。
この発見は、FNOの安定した訓練のための実践的な前提条件を提供する。
実験結果は理論的な結果と相関する。
In this paper, we explores the expressivity and trainability of the Fourier Neural Operator (FNO). We establish a mean-field theory for the FNO, analyzing the behavior of the random FNO from an edge of chaos perspective. Our investigation into the expressivity of a random FNO involves examining the ordered-chaos phase transition of the network based on the weight distribution. This phase transition demonstrates characteristics unique to the FNO, induced by mode truncation, while also showcasing similarities to those of densely connected networks. Furthermore, we identify a connection between expressivity and trainability: the ordered and chaotic phases correspond to regions of vanishing and exploding gradients, respectively. This finding provides a practical prerequisite for the stable training of the FNO. Our experimental results corroborate our theoretical findings. | 翻訳日:2024-11-09 10:01:09 公開日:2024-09-26 |
# 分散推論と学習における指数量子通信の利点
Exponential Quantum Communication Advantage in Distributed Inference and Learning ( http://arxiv.org/abs/2310.07136v3 ) ライセンス: Link先を確認 | Dar Gilboa, Hagay Michaeli, Daniel Soudry, Jarrod R. McClean, | (参考訳) 個々のデバイスのメモリ容量をはるかに超える大規模な機械学習モデルによるトレーニングと推論は、分散アーキテクチャの設計を必要とするため、通信制約と競合せざるを得ない。
本稿では、データを特殊な量子状態に符号化する量子ネットワーク上での分散計算のためのフレームワークを提案する。
このフレームワーク内のモデルでは、従来のアナログよりも指数関数的に少ない通信で、標準勾配に基づく手法と比較して比較的緩やかなオーバーヘッドで、勾配降下を用いた推論と訓練を行うことができることを証明している。
特定のグラフニューラルネットワークがこのフレームワークの実装に特に適していることを示し、さらに標準ベンチマークでうまく動作することを示す実証的な証拠を提示する。
我々の知る限り、これはデータ符号化コストに関係なく保持される一般的な機械学習問題に対する指数量子優位の最初の例である。
さらに,このクラスのモデルでは,入力の非線形な特徴を符号化することができ,その表現性はモデル深度とともに指数関数的に増大することを示す。
また,指数的通信の優位性が線形分類には耐えられないことを示すことによって,モデル空間を導出する。
我々の結果は、データとモデルパラメータについてそれらから抽出できる情報の量を制限する、通信された量子状態における自然なプライバシー上の利点と組み合わせることができる。
全体として見れば、これらの発見は量子ネットワーク上で分散機械学習を実現する上で有望な基盤となっている。
Training and inference with large machine learning models that far exceed the memory capacity of individual devices necessitates the design of distributed architectures, forcing one to contend with communication constraints. We present a framework for distributed computation over a quantum network in which data is encoded into specialized quantum states. We prove that for models within this framework, inference and training using gradient descent can be performed with exponentially less communication compared to their classical analogs, and with relatively modest overhead relative to standard gradient-based methods. We show that certain graph neural networks are particularly amenable to implementation within this framework, and moreover present empirical evidence that they perform well on standard benchmarks. To our knowledge, this is the first example of exponential quantum advantage for a generic class of machine learning problems that hold regardless of the data encoding cost. Moreover, we show that models in this class can encode highly nonlinear features of their inputs, and their expressivity increases exponentially with model depth. We also delineate the space of models for which exponential communication advantages hold by showing that they cannot hold for linear classification. Our results can be combined with natural privacy advantages in the communicated quantum states that limit the amount of information that can be extracted from them about the data and model parameters. Taken as a whole, these findings form a promising foundation for distributed machine learning over quantum networks. | 翻訳日:2024-11-09 10:01:09 公開日:2024-09-26 |
# 因果発見における推定違反とスコアマッチングの堅牢性
Assumption violations in causal discovery and the robustness of score matching ( http://arxiv.org/abs/2310.13387v2 ) ライセンス: Link先を確認 | Francesco Montagna, Atalanti A. Mastakouri, Elias Eulig, Nicoletta Noceti, Lorenzo Rosasco, Dominik Janzing, Bryon Aragam, Francesco Locatello, | (参考訳) ドメイン知識が制限され、倫理的、財政的、時間的制約によって実験が制限される場合、実践者は因果構造を回復するために観察因果的発見法に目を向け、データの統計的特性を利用する。
因果発見がさらなる仮定なしでは不十分な問題であるため、それぞれのアルゴリズムは、通常証明不可能な仮定の集合を持ち、その一部は実際のデータセットでは達成が難しい。
これらの考察により,本論文は,近年の観測的背景条件の異なるデータに対する因果発見手法の実証的性能を広範囲に評価し,各選択したアプローチが要求する臨界仮定を破ることを可能にした。
実験結果から,これらの難解なシナリオにおいて,評価法は偽陽性および偽陰性率において驚くべき性能を示し,その性能に関する理論的知見を提供する。
この研究は、ハイパーパラメータの値に関して因果発見アルゴリズムの安定性をベンチマークする最初の試みでもある。
最後に、本論文では、因果発見手法の評価のための新しい標準を設定し、フィールドに関心のある実践者にとってアクセス可能なエントリポイントとして機能し、異なるアルゴリズム選択の実証的意味を強調することを期待する。
When domain knowledge is limited and experimentation is restricted by ethical, financial, or time constraints, practitioners turn to observational causal discovery methods to recover the causal structure, exploiting the statistical properties of their data. Because causal discovery without further assumptions is an ill-posed problem, each algorithm comes with its own set of usually untestable assumptions, some of which are hard to meet in real datasets. Motivated by these considerations, this paper extensively benchmarks the empirical performance of recent causal discovery methods on observational i.i.d. data generated under different background conditions, allowing for violations of the critical assumptions required by each selected approach. Our experimental findings show that score matching-based methods demonstrate surprising performance in the false positive and false negative rate of the inferred graph in these challenging scenarios, and we provide theoretical insights into their performance. This work is also the first effort to benchmark the stability of causal discovery algorithms with respect to the values of their hyperparameters. Finally, we hope this paper will set a new standard for the evaluation of causal discovery methods and can serve as an accessible entry point for practitioners interested in the field, highlighting the empirical implications of different algorithm choices. | 翻訳日:2024-11-09 10:01:09 公開日:2024-09-26 |
# AI研究の人間参加者:実践における倫理と透明性
Human participants in AI research: Ethics and transparency in practice ( http://arxiv.org/abs/2311.01254v3 ) ライセンス: Link先を確認 | Kevin R. McKee, | (参考訳) 近年、人工知能(AI)と機械学習(ML)の進歩、特に会話、人間互換、協調AIの分野において、人間の参加者を巻き込んだ研究が重要になっている。
例えば、最近のAAAIおよびNeurIPSカンファレンスの出版物の約9%は、オリジナルの人間のデータの収集を示している。
しかし、AIとMLの研究者は、人間の参加者による倫理的研究のガイドラインを欠いている。
これら4つのAAAIおよびNeurIPS論文のうち1つ以下では、独立した倫理的レビュー、インフォームド・コンセントの収集、または参加者報酬が確認されている。
本稿では,AI研究とその関連分野の規範的類似点と相違点を調べることによって,このギャップを埋めることを目的とする。
心理学、人間とコンピュータの相互作用、その他の隣接する分野は歴史的教訓と有益な洞察を提供するが、AI研究はいくつかの異なる考察を提示している。
これらの懸念に対処するため、本書はAIとML研究の参加者による倫理的かつ透明な実践に関する一連のガイドラインを概説する。
本論文は, 技術研究者に実践的な知識を付与し, 社会科学者, 行動研究者, 倫理学者とのさらなる対話の場として位置づけることを目的とする。
In recent years, research involving human participants has been critical to advances in artificial intelligence (AI) and machine learning (ML), particularly in the areas of conversational, human-compatible, and cooperative AI. For example, roughly 9% of publications at recent AAAI and NeurIPS conferences indicate the collection of original human data. Yet AI and ML researchers lack guidelines for ethical research practices with human participants. Fewer than one out of every four of these AAAI and NeurIPS papers confirm independent ethical review, the collection of informed consent, or participant compensation. This paper aims to bridge this gap by examining the normative similarities and differences between AI research and related fields that involve human participants. Though psychology, human-computer interaction, and other adjacent fields offer historic lessons and helpful insights, AI research presents several distinct considerations$\unicode{x2014}$namely, participatory design, crowdsourced dataset development, and an expansive role of corporations$\unicode{x2014}$that necessitate a contextual ethics framework. To address these concerns, this manuscript outlines a set of guidelines for ethical and transparent practice with human participants in AI and ML research. Overall, this paper seeks to equip technical researchers with practical knowledge for their work, and to position them for further dialogue with social scientists, behavioral researchers, and ethicists. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-26 |
# FaithScore:大規模視覚言語モデルにおける幻覚のきめ細かい評価
FaithScore: Fine-grained Evaluations of Hallucinations in Large Vision-Language Models ( http://arxiv.org/abs/2311.01477v2 ) ライセンス: Link先を確認 | Liqiang Jing, Ruosen Li, Yunmo Chen, Xinya Du, | (参考訳) 本稿では,大規模な視覚言語モデル(LVLM)から生成した自由形式の回答の忠実度を測定するための基準フリーできめ細かな評価指標であるFaithScore(Faithfulness to Atomic Image Facts Score)を紹介する。
FaithScoreの評価は、まず検証が必要な記述文を含むサブ文を特定し、次にこれらのサブ文から包括的な原子事実のリストを抽出し、最後に粒度の細かい原子事実と入力画像との整合性検証を行う。
メタ評価は、我々の測定基準が忠実性の人間の判断と非常に相関していることを示している。
LVLMの指示追従幻覚を評価するために2つのベンチマークデータセット(LLaVA-1kとMSCOCO-Cap)を収集する。
最新のLVLMにおける幻覚を、データセット上でFaithScoreを用いて測定する。
その結果、現在のシステムは、画像に不満足な幻覚コンテンツを生成する傾向にあり、将来の改善の余地が残されていることが明らかとなった。
当社のメトリクスであるFaithScoreは、今後のLVLMを忠実性の観点から評価し、LVLMの忠実性を高めるための洞察に富んだアドバイスを期待する。
We introduce FaithScore (Faithfulness to Atomic Image Facts Score), a reference-free and fine-grained evaluation metric that measures the faithfulness of the generated free-form answers from large vision-language models (LVLMs). The FaithScore evaluation first identifies sub-sentences containing descriptive statements that need to be verified, then extracts a comprehensive list of atomic facts from these sub-sentences, and finally conducts consistency verification between fine-grained atomic facts and the input image. Meta-evaluation demonstrates that our metric highly correlates with human judgments of faithfulness. We collect two benchmark datasets (i.e. LLaVA-1k and MSCOCO-Cap) for evaluating LVLMs instruction-following hallucinations. We measure hallucinations in state-of-the-art LVLMs with FaithScore on the datasets. Results reveal that current systems are prone to generate hallucinated content unfaithful to the image, which leaves room for future improvements. We hope our metric FaithScore can help evaluate future LVLMs in terms of faithfulness and provide insightful advice for enhancing LVLMs' faithfulness. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-26 |
# 確率量子進化のための安定化制御のロバスト性を探る
Exploring the Robustness of stabilizing controls for stochastic quantum evolutions ( http://arxiv.org/abs/2311.04428v2 ) ライセンス: Link先を確認 | Weichao Liang, Kentaro Ohki, Francesco Ticozzi, | (参考訳) この研究は、量子確率進化のための純粋状態や部分空間の安定化に対するモデル誤差の効果を解析し、束縛する。
オープンループとフィードバックコントロールプロトコルには,さまざまなアプローチが使用されている。
どちらも、標的の動的不変性の鍵となる役割を強調し、摂動が不変性を保存するならば、追加の仮定の下で、誘引性も保たれることを証明できる。
さらに,オープンループプロトコル下での摂動システムの解について,有界性を示す。
フィードバック戦略では、一般の場合、不変性に関する仮定のない場合、予測および確率における摂動効果のバウンダリと、非分解名目システムに対する特定のバウンダリを提供する。
In this work we analyze and bound the effect of modeling errors on the stabilization of pure states or subspaces for quantum stochastic evolutions. Different approaches are used for open-loop and feedback control protocols. For both, we highlight the key role of dynamical invariance of the target: if the perturbation preserves invariance, it is possible to prove that it also preserves its attractivity, under some additional assumptions. In addition, we prove boundedness in mean of the solutions of perturbed systems under open-loop protocols. For the feedback strategies, in the general case without assumptions on invariance, we provide bounds on the perturbation effect in expectation and in probability, as well as specific bounds for non-demolition nominal systems. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-26 |
# 3次元イベント表現を用いたイベントベースヒューマンポース推定の探索
Exploring Event-based Human Pose Estimation with 3D Event Representations ( http://arxiv.org/abs/2311.04591v4 ) ライセンス: Link先を確認 | Xiaoting Yin, Hao Shi, Jiaan Chen, Ze Wang, Yaozu Ye, Kailun Yang, Kaiwei Wang, | (参考訳) 人間のポーズ推定はコンピュータビジョンの基本的で魅力的なタスクである。
従来のカメラは一般的に適用されるが、その信頼性は高いダイナミックレンジや激しい動きのぼかしのシナリオにおいて低下し、イベントカメラは堅牢なソリューションを提供する。
イベントベースの優先度の高いメソッドは、イベントをフレームに蓄積し、異なるアクションを区別するために不可欠な、非同期かつ高時間解像度を無視します。
この問題に対処し、イベント情報の3Dポテンシャルを解き放つために、Rasterized Event Point Cloud(RasEPC)とDecoupled Event Voxel(DEV)という2つの3Dイベント表現を導入します。
RasEPCは、簡潔な時間スライス内のイベントを同じ位置で集約し、それらの3D属性を統計情報と共に保存し、メモリと計算要求を大幅に削減する。
一方、Dev表現はイベントをボクセルに識別し、3つの直交平面に投影する。
さらに,屋外シーンでのトレーニングや定量的分析を容易にするために,イベントベースの合成データセットであるEV-3DPWを開発し,リリースする。
提案手法は,DHP19公開データセット,MMHPSDデータセット,EV-3DPWデータセットで検証し,誘導駆動シーンデータセットEV-JAADと屋外収集車両によるさらなる定性検証を行った。
私たちのコードとデータセットはhttps://github.com/MasterHow/EventPointPose.comで公開されています。
Human pose estimation is a fundamental and appealing task in computer vision. Although traditional cameras are commonly applied, their reliability decreases in scenarios under high dynamic range or heavy motion blur, where event cameras offer a robust solution. Predominant event-based methods accumulate events into frames, ignoring the asynchronous and high temporal resolution that is crucial for distinguishing distinct actions. To address this issue and to unlock the 3D potential of event information, we introduce two 3D event representations: the Rasterized Event Point Cloud (RasEPC) and the Decoupled Event Voxel (DEV). The RasEPC aggregates events within concise temporal slices at identical positions, preserving their 3D attributes along with statistical information, thereby significantly reducing memory and computational demands. Meanwhile, the DEV representation discretizes events into voxels and projects them across three orthogonal planes, utilizing decoupled event attention to retrieve 3D cues from the 2D planes. Furthermore, we develop and release EV-3DPW, a synthetic event-based dataset crafted to facilitate training and quantitative analysis in outdoor scenes. Our methods are tested on the DHP19 public dataset, MMHPSD dataset, and our EV-3DPW dataset, with further qualitative validation via a derived driving scene dataset EV-JAAD and an outdoor collection vehicle. Our code and dataset have been made publicly available at https://github.com/MasterHow/EventPointPose. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-26 |
# 因果的・信頼性の高い推論証明を提供するニューロ・シンボリック統合
Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs ( http://arxiv.org/abs/2311.09802v2 ) ライセンス: Link先を確認 | Sen Yang, Xin Li, Leyang Cui, Lidong Bing, Wai Lam, | (参考訳) LLMの複雑な推論には2行のアプローチが採用されている。
1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。
もう一つの行では、LCMのない宣言的解法を推論タスクに採用し、推論精度を高くするが、解法のブラックボックスの性質のため解釈性に欠ける。
解答精度と解答可能性のトレードオフを解決するため,後者の作業ラインへの簡単な拡張を提案する。
具体的には、Prologインタプリタが生成した中間探索ログにアクセスし、人間可読な推論証明に解釈可能であることを示す。
LLMが問題記述をProlog表現に正しく翻訳する限り、対応する推論証明は因果的かつ信頼性が保証される。
2つの論理的推論と1つの算術的推論データセットに基づいて、我々のフレームワークは、解答精度と解答精度の両方において、大幅な改善が得られる。
私たちのコードはhttps://github.com/DAMO-NLP-SG/CaRingで公開されています。
Two lines of approaches are adopted for complex reasoning with LLMs. One line of work prompts LLMs with various reasoning structures, while the structural outputs can be naturally regarded as intermediate reasoning steps. Another line of work adopt LLM-free declarative solvers to do the reasoning task, rendering higher reasoning accuracy but lacking interpretability due to the black-box nature of the solvers. Aiming to resolve the trade-off between answer accuracy and interpretability, we present a simple extension to the latter line of work. Specifically, we showcase that the intermediate search logs generated by Prolog interpreters can be accessed and interpreted into human-readable reasoning proofs. As long as LLMs correctly translate problem descriptions into Prolog representations, the corresponding reasoning proofs are ensured to be causal and reliable. On two logical reasoning and one arithmetic reasoning datasets, our framework obtains significant improvements in terms of both answer accuracy and reasoning proof accuracy. Our code is released at https://github.com/DAMO-NLP-SG/CaRing | 翻訳日:2024-11-09 09:38:58 公開日:2024-09-26 |
# ニューラル・ダイナミック・オペレーター:グラディエント・ベース・デリバティブ・フリー最適化法を用いた連続空間時間モデル
Neural Dynamical Operator: Continuous Spatial-Temporal Model with Gradient-Based and Derivative-Free Optimization Methods ( http://arxiv.org/abs/2311.11798v4 ) ライセンス: Link先を確認 | Chuanqi Chen, Jin-Long Wu, | (参考訳) データ駆動モデリング技術は、多くの工学的応用のための複雑な力学系の時空間モデリングにおいて研究されている。
しかし、体系的なアプローチでは、空間的および時間的解像度の異なる異なるデータ、例えば、異なるタイプのデータからの情報を活用することができず、短期軌跡と長期統計の併用は依然として不十分である。
本研究では,ニューラル演算子の最近の進歩に基づいて,空間と時間の両方で連続的なニューラル力学演算子と呼ばれるデータ駆動モデリングフレームワークを提案する。
神経力学演算子の鍵となる特徴は、時間分解能の異なる豊富なトレーニングデータを必要とせず、空間的および時間的離散化の両方に関して分解能不変性である。
キャリブレーションモデルの長期性能を改善するため,勾配法と微分自由度最適化の両手法を併用し,短期的時系列と長期的統計の双方を効率的に学習するハイブリッド最適化手法を提案する。
本研究では, 粘性バーガース方程式, Navier-Stokes方程式, Kuramoto-Sivashinsky方程式の3つの数値例を用いて, 神経力学演算子の性能について検討した。
その結果,提案するモデリングフレームワークの分解能不変性を確認し,短期時系列データのみを用いた安定な長期シミュレーションを実証した。
さらに,提案手法は,短期データと長期データを組み合わせたハイブリッド最適化手法により,より長期統計を予測できることを示す。
Data-driven modeling techniques have been explored in the spatial-temporal modeling of complex dynamical systems for many engineering applications. However, a systematic approach is still lacking to leverage the information from different types of data, e.g., with different spatial and temporal resolutions, and the combined use of short-term trajectories and long-term statistics. In this work, we build on the recent progress of neural operator and present a data-driven modeling framework called neural dynamical operator that is continuous in both space and time. A key feature of the neural dynamical operator is the resolution-invariance with respect to both spatial and temporal discretizations, without demanding abundant training data in different temporal resolutions. To improve the long-term performance of the calibrated model, we further propose a hybrid optimization scheme that leverages both gradient-based and derivative-free optimization methods and efficiently trains on both short-term time series and long-term statistics. We investigate the performance of the neural dynamical operator with three numerical examples, including the viscous Burgers' equation, the Navier-Stokes equations, and the Kuramoto-Sivashinsky equation. The results confirm the resolution-invariance of the proposed modeling framework and also demonstrate stable long-term simulations with only short-term time series data. In addition, we show that the proposed model can better predict long-term statistics via the hybrid optimization scheme with a combined use of short-term and long-term data. | 翻訳日:2024-11-09 09:38:57 公開日:2024-09-26 |
# ロボットのためのGPT-4V:人間によるマルチモーダルタスク計画
GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration ( http://arxiv.org/abs/2311.12015v4 ) ライセンス: Link先を確認 | Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi, | (参考訳) 本稿では,汎用視覚言語モデル(GPT-4V(ision))を強化し,ロボット操作のためのワンショット視覚教育を容易にするパイプラインを提案する。
このシステムは、人間がタスクを実行する様子を解析し、アベイランスに対する洞察を取り入れた実行可能なロボットプログラムを出力する。
このプロセスは、GPT-4Vでビデオを分析し、環境や行動の詳細についてテキストで説明することから始まる。
GPT-4ベースのタスクプランナーは、これらの詳細をシンボリックタスクプランにエンコードする。
その後、視覚システムは映像中のタスクプランを空間的・時間的に根拠づける。
オープンボキャブラリオブジェクト検出器を用いてオブジェクトを識別し、手動物体の相互作用を分析して、把握と解放のピンポイントモーメントを解析する。
この時空間的接地により、ロボットの実行に不可欠な余裕情報(例えば、把握タイプ、ウェイポイント、体姿勢)を収集することができる。
様々なシナリオにわたる実験は、実際のロボットが1発の人間のデモンストレーションから操作できるようにする方法の有効性を実証している。
一方、定量検査ではGPT-4Vの幻覚の事例が明らかにされており、パイプラインに人間の監督を組み込むことの重要性が強調されている。
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
We introduce a pipeline that enhances a general-purpose Vision Language Model, GPT-4V(ision), to facilitate one-shot visual teaching for robotic manipulation. This system analyzes videos of humans performing tasks and outputs executable robot programs that incorporate insights into affordances. The process begins with GPT-4V analyzing the videos to obtain textual explanations of environmental and action details. A GPT-4-based task planner then encodes these details into a symbolic task plan. Subsequently, vision systems spatially and temporally ground the task plan in the videos. Objects are identified using an open-vocabulary object detector, and hand-object interactions are analyzed to pinpoint moments of grasping and releasing. This spatiotemporal grounding allows for the gathering of affordance information (e.g., grasp types, waypoints, and body postures) critical for robot execution. Experiments across various scenarios demonstrate the method's efficacy in enabling real robots to operate from one-shot human demonstrations. Meanwhile, quantitative tests have revealed instances of hallucination in GPT-4V, highlighting the importance of incorporating human supervision within the pipeline. The prompts of GPT-4V/GPT-4 are available at this project page: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/ | 翻訳日:2024-11-09 09:38:57 公開日:2024-09-26 |
# 射影トーリック設計、量子状態設計、相互非バイアス基底
Projective toric designs, quantum state designs, and mutually unbiased bases ( http://arxiv.org/abs/2311.13479v2 ) ライセンス: Link先を確認 | Joseph T. Iosue, T. C. Mooney, Adam Ehrenberg, Alexey V. Gorshkov, | (参考訳) トーリック$t$-設計(トーリック$t$-設計、英: Toric $t$-designs)は、ユニタリ群の対角部分群上の$t$-設計であり、和がトーラス上の次数$t$単項積分を再現するトーラス上の点の集合である。
量子力学の射影構造に動機付けられて、射影トーラス上の$t$-designsという概念を開発し、完全なトーラス上のそれよりもはるかに制限された構造を持つ。
トーリックおよび射影トーリックデザインの様々な新しい構成を提供し、そのサイズに限界を証明している。
我々は、射影トーリック設計と、加法コンビネータの分野からの差分とシドン集合、対称的、情報的に完備な正の演算子値測度、量子情報理論から相互に偏りのない基底(MUB)の完全集合、および特定の根格子の結晶球列を含む様々な数学的対象との接続を描く。
これらの接続を用いて、高密度な$B_t \bmod m$集合の最大サイズ上の有界性を証明する。
また、射影トーリック設計を用いて量子状態設計のファミリを構築する。
特に、(一様に重み付けられた)量子状態の族を、寸法$d$の次元で$d$(d+1)$で構成し、MUBの完全な集合を成さないため、設計とMUBの関係に関する予想を否定する(Zhu 2015)。
次に、ズー予想の修正を提案し、この予想を証明するための潜在的経路について議論する。
素数次元における MUB の完全集合と6$(およびすべての非素数次元において予想される)次元における MUB の基本的な区別を証明し、対応する射影トーリック設計の群構造に関する区別を示す。
最後に、これらの射影トーリック設計の性質や、数論、幾何学、量子情報における他の問題との関係について、多くのオープンな疑問を議論する。
Toric $t$-designs, or equivalently $t$-designs on the diagonal subgroup of the unitary group, are sets of points on the torus over which sums reproduce integrals of degree $t$ monomials over the full torus. Motivated by the projective structure of quantum mechanics, we develop the notion of $t$-designs on the projective torus, which have a much more restricted structure than their counterparts on full tori. We provide various new constructions of toric and projective toric designs and prove bounds on their size. We draw connections between projective toric designs and a diverse set of mathematical objects, including difference and Sidon sets from the field of additive combinatorics, symmetric, informationally complete positive operator valued measures and complete sets of mutually unbiased bases (MUBs) from quantum information theory, and crystal ball sequences of certain root lattices. Using these connections, we prove bounds on the maximal size of dense $B_t \bmod m$ sets. We also use projective toric designs to construct families of quantum state designs. In particular, we construct families of (uniformly-weighted) quantum state $2$-designs in dimension $d$ of size exactly $d(d+1)$ that do not form complete sets of MUBs, thereby disproving a conjecture concerning the relationship between designs and MUBs (Zhu 2015). We then propose a modification of Zhu's conjecture and discuss potential paths towards proving this conjecture. We prove a fundamental distinction between complete sets of MUBs in prime-power dimensions versus in dimension $6$ (and, we conjecture, in all non-prime-power dimensions), the distinction relating to group structure of the corresponding projective toric design. Finally, we discuss many open questions about the properties of these projective toric designs and how they relate to other questions in number theory, geometry, and quantum information. | 翻訳日:2024-11-09 09:38:57 公開日:2024-09-26 |
# CompGS:ベクトル量子化によるガウススプラッティングの小型化と高速化
CompGS: Smaller and Faster Gaussian Splatting with Vector Quantization ( http://arxiv.org/abs/2311.18159v3 ) ライセンス: Link先を確認 | KL Navaneet, Kossar Pourahmadi Meibodi, Soroush Abbasi Koohpayegani, Hamed Pirsiavash, | (参考訳) 3D Gaussian Splatting (3DGS)は,SOTA NeRF法と比較して学習時間とレンダリング時間を高速化する3Dラディアンス場をモデリング・レンダリングする新しい手法である。
しかし、複数の3Dガウスのパラメータを格納する必要があるため、NeRF法に比べてはるかに大きなストレージ需要の欠点がある。
多くのガウスが類似したパラメータを共有できることに気付き、K平均に基づく単純なベクトル量子化法を導入し、ガウスのパラメータを最適化しながら定量化する。
次に、小さなコードブックと各ガウス語のコードのインデックスを格納する。
我々は、それらをソートし、ラン長エンコーディングに類似した手法を用いることで、インデックスをさらに圧縮する。
さらに、単純な正規化器を用いてゼロ不透明性(可視ガウス)を奨励し、ガウスの数を減らし、保存時間とレンダリング時間を大幅に短縮する。
我々は、標準ベンチマークと、この分野で使用されている標準ベンチマークよりも桁違いに大きい既存の3Dデータセットに関する広範な実験を行っている。
本稿では,3DGSのストレージコストを40倍から50倍に削減し,レンダリング時間を2倍から3倍に削減し,レンダリング画像の品質を低下させる方法を提案する。
3D Gaussian Splatting (3DGS) is a new method for modeling and rendering 3D radiance fields that achieves much faster learning and rendering time compared to SOTA NeRF methods. However, it comes with a drawback in the much larger storage demand compared to NeRF methods since it needs to store the parameters for several 3D Gaussians. We notice that many Gaussians may share similar parameters, so we introduce a simple vector quantization method based on K-means to quantize the Gaussian parameters while optimizing them. Then, we store the small codebook along with the index of the code for each Gaussian. We compress the indices further by sorting them and using a method similar to run-length encoding. Moreover, we use a simple regularizer to encourage zero opacity (invisible Gaussians) to reduce the storage and rendering time by a large factor through reducing the number of Gaussians. We do extensive experiments on standard benchmarks as well as an existing 3D dataset that is an order of magnitude larger than the standard benchmarks used in this field. We show that our simple yet effective method can reduce the storage cost for 3DGS by 40 to 50x and rendering time by 2 to 3x with a very small drop in the quality of rendered images. | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-26 |
# 高速指紋照合のための固定長Dense Descriptor
Fixed-length Dense Descriptor for Efficient Fingerprint Matching ( http://arxiv.org/abs/2311.18576v5 ) ライセンス: Link先を確認 | Zhiyu Pan, Yongjie Duan, Jianjiang Feng, Jie Zhou, | (参考訳) 指紋照合では、固定長ディスクリプタは一般的に、ミツイアセットよりも効率が良いが、認識精度は後者ほど良くない。
近年、深層学習に基づく固定長記述法で多くの進歩が見られたが、不完全な指紋や部分的な指紋、多様な指紋のポーズ、大きな背景雑音を扱う場合、しばしば不足する。
本稿では,指紋照合のためのFDD(Fixed-length Dense Descriptor)という3次元表現を提案する。
FDDには大きな空間特性があり、元の指紋の空間的関係を捉え、解釈性と堅牢性を高めることができる。
各種指紋データセットに対する実験により,FDDは他の固定長ディスクリプタよりも優れており,特に異なる領域の指紋のマッチング,クロスモーダル指紋のマッチング,背景雑音の指紋のマッチングにおいて優れていた。
In fingerprint matching, fixed-length descriptors generally offer greater efficiency compared to minutiae set, but the recognition accuracy is not as good as that of the latter. Although much progress has been made in deep learning based fixed-length descriptors recently, they often fall short when dealing with incomplete or partial fingerprints, diverse fingerprint poses, and significant background noise. In this paper, we propose a three-dimensional representation called Fixed-length Dense Descriptor (FDD) for efficient fingerprint matching. FDD features great spatial properties, enabling it to capture the spatial relationships of the original fingerprints, thereby enhancing interpretability and robustness. Our experiments on various fingerprint datasets reveal that FDD outperforms other fixed-length descriptors, especially in matching fingerprints of different areas, cross-modal fingerprint matching, and fingerprint matching with background noise. | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-26 |
# 約5ステップでの拡散モデルの高速ODEサンプリング
Fast ODE-based Sampling for Diffusion Models in Around 5 Steps ( http://arxiv.org/abs/2312.00094v3 ) ライセンス: Link先を確認 | Zhenyu Zhou, Defang Chen, Can Wang, Chun Chen, | (参考訳) 拡散モデルからのサンプリングは、可能な限り少数の関数評価(NFE)で正確な解を得る目的で、対応する常微分方程式(ODE)を解くものとして扱うことができる。
近年,高次ODEソルバを用いた高速サンプリング器が登場し,初期1次よりも優れた性能を実現している。
しかし,これらの数値解法は特定の近似誤差を生じさせ,非常に小さいNFE(例:5)で試料品質を著しく低下させる。
対照的に,各サンプリング軌道はほぼ周囲空間に埋め込まれた2次元部分空間にあるという幾何学的観測に基づいて,高速拡散サンプリングのための平均方向を直接学習することにより,乱れ誤差を解消する近似平均方向ソルバー(AMED-Solver)を提案する。
さらに,本手法は,既存のODEベースのサンプルを改良するためのプラグインとして容易に利用できる。
解像度32~512の画像合成実験により,本手法の有効性が示された。
5 NFEでCIFAR-10で6.61 FID、ImageNet 64$\times$64で10.74 FID、LSUN Bedroomで13.20 FIDを得る。
私たちのコードはhttps://github.com/zju-pi/diff-sampler.comから入手可能です。
Sampling from diffusion models can be treated as solving the corresponding ordinary differential equations (ODEs), with the aim of obtaining an accurate solution with as few number of function evaluations (NFE) as possible. Recently, various fast samplers utilizing higher-order ODE solvers have emerged and achieved better performance than the initial first-order one. However, these numerical methods inherently result in certain approximation errors, which significantly degrades sample quality with extremely small NFE (e.g., around 5). In contrast, based on the geometric observation that each sampling trajectory almost lies in a two-dimensional subspace embedded in the ambient space, we propose Approximate MEan-Direction Solver (AMED-Solver) that eliminates truncation errors by directly learning the mean direction for fast diffusion sampling. Besides, our method can be easily used as a plugin to further improve existing ODE-based samplers. Extensive experiments on image synthesis with the resolution ranging from 32 to 512 demonstrate the effectiveness of our method. With only 5 NFE, we achieve 6.61 FID on CIFAR-10, 10.74 FID on ImageNet 64$\times$64, and 13.20 FID on LSUN Bedroom. Our code is available at https://github.com/zju-pi/diff-sampler. | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-26 |
# 量子計算のためのロデオアルゴリズムによる状態数推定
Estimating the Number of States via the Rodeo Algorithm for Quantum Computation ( http://arxiv.org/abs/2312.04322v3 ) ライセンス: Link先を確認 | Julio Cesar Siqueira Rocha, Raphael Fortes Infante Gomes, Wallon Anderson Tadaiesky Nogueira, Rodrigo Alves Dias, | (参考訳) 統計物理学の領域では、与えられたエネルギーで系が実現できる状態の数は、物理系の顕微鏡的およびマクロ的記述を橋渡しする重要な概念である。
量子系では、多くのアプローチはシュリンガー方程式の解に依存する。
本研究では、最近開発されたロデオアルゴリズムを用いて、固有状態に関する事前の知識を必要とせずに、すべてのエネルギーレベルに関連する状態の数を決定する方法を示す。
量子コンピュータは、量子システムの複雑さに対処する能力を持っているため、このアプローチはこれらのシステムの熱力学の研究に特に有望である。
本手法の有効性を説明するために, 1次元横フィールドイジングモデルの状態を計算し, その比熱を計算し, 提案手法の信頼性を検証した。
In the realm of statistical physics, the number of states in which a system can be realized with a given energy is a key concept that bridges the microscopic and macroscopic descriptions of physical systems. For quantum systems, many approaches rely on the solution of the Schr\"odinger equation. In this work, we demonstrate how the recently developed rodeo algorithm can be utilized to determine the number of states associated with all energy levels without any prior knowledge of the eigenstates. Quantum computers, with their innate ability to address the intricacies of quantum systems, make this approach particularly promising for the study of the thermodynamics of those systems. To illustrate the procedure's effectiveness, we apply it to compute the number of states of the 1D transverse-field Ising model and, consequently, its specific heat, proving the reliability of the method presented here. | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-26 |
# EAGLES: 軽量エンコーディングによる効率的な3Dガウスの高速化
EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS ( http://arxiv.org/abs/2312.04564v3 ) ライセンス: Link先を確認 | Sharath Girish, Kamal Gupta, Abhinav Shrivastava, | (参考訳) 近年,3次元ガウシアンスプラッティング(3D-GS)が新規シーン合成で人気を博している。
これは、Neural Radiance Fields(NeRF)に関連する、長いトレーニング時間と遅いレンダリング速度の課題に対処する。
3Dガウスの高速かつ微分可能なラスタ化により、3D-GSはリアルタイムレンダリングと高速トレーニングを実現する。
しかし、トレーニングとストレージの両方にかなりのメモリリソースを必要とするため、各シーンに何百万人ものガウシアンが必要なのだ。
本稿では,ガウス点雲の高速で安定な最適化のために,量子埋め込みを利用してポイント単位のメモリ記憶要求を大幅に削減する手法を提案する。
提案手法では,ガウスの少ないシーン表現が実現し,高速なトレーニング時間と高解像度シーンのリアルタイムレンダリングのためのレンダリング速度が向上する。
復元品質を維持しながら、記憶容量を1桁以上削減する。
10~20倍少ないメモリと高速なトレーニング/推論速度を消費しながら、視覚的品質を保ったさまざまなデータセットやシーンに対するアプローチの有効性を検証する。
プロジェクトページとコードはhttps://efficientgaussian.github.ioで入手できる。
Recently, 3D Gaussian splatting (3D-GS) has gained popularity in novel-view scene synthesis. It addresses the challenges of lengthy training times and slow rendering speeds associated with Neural Radiance Fields (NeRFs). Through rapid, differentiable rasterization of 3D Gaussians, 3D-GS achieves real-time rendering and accelerated training. They, however, demand substantial memory resources for both training and storage, as they require millions of Gaussians in their point cloud representation for each scene. We present a technique utilizing quantized embeddings to significantly reduce per-point memory storage requirements and a coarse-to-fine training strategy for a faster and more stable optimization of the Gaussian point clouds. Our approach develops a pruning stage which results in scene representations with fewer Gaussians, leading to faster training times and rendering speeds for real-time rendering of high resolution scenes. We reduce storage memory by more than an order of magnitude all while preserving the reconstruction quality. We validate the effectiveness of our approach on a variety of datasets and scenes preserving the visual quality while consuming 10-20x lesser memory and faster training/inference speed. Project page and code is available https://efficientgaussian.github.io | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-26 |
# Tenplex: 並列化可能なテンソルコレクションを用いたディープラーニングのための動的並列処理
Tenplex: Dynamic Parallelism for Deep Learning using Parallelizable Tensor Collections ( http://arxiv.org/abs/2312.05181v3 ) ライセンス: Link先を確認 | Marcel Wagenländer, Guo Li, Bo Zhao, Luo Mai, Peter Pietzuch, | (参考訳) ディープラーニング(DL)ジョブは多次元の並列性、すなわちデータ、モデル、パイプラインの並列性を組み合わせて、大きなGPUクラスタを効率的に使用する。
長時間稼働するジョブは、GPUアロケーションの変更を経験することがある。
i) トレーニング中のリソースの弾力性は、GPUを追加または削除する。
(ii)ハードウェアのメンテナンスには、異なるGPUの再デプロイが必要かもしれない。
3)GPUの故障により、少ないデバイスでジョブを実行せざるを得ない。
現在のDLフレームワークはジョブをGPUのセットに結びつけるため、これらのシナリオをサポートしない。
特に、既に実行されているジョブの多次元並列性は、効率的でモデルに依存しない方法では変更できない。
Scalaiは、実行時にGPU割り当てが更新された後、ジョブが動的に並列性を変更することができるDLシステムのための状態管理ライブラリである。
Scalaiは、トレーニング中にジョブ状態を外部化する並列化可能なテンソルコレクション(PTC)という、新たな抽象化を通じてこれを実現している。
PTCはデータ並列性の下でデータセット状態を分割し、仮想ファイルシステムを通じてDLワーカーに公開し、PTCは分割されたチェックポイントとしてモデル状態を取得し、それらを新しい並列化設定を反映するように変換する。
効率性のために、Scalaiはワーカ間の最小データ移動と並行してPTC変換を実行する。
実験の結果、ScalaiはDLジョブを低オーバーヘッドで動的並列化をサポートできることがわかった。
Deep learning (DL) jobs use multi-dimensional parallelism, i.e. combining data, model, and pipeline parallelism, to use large GPU clusters efficiently. Long-running jobs may experience changes to their GPU allocation: (i) resource elasticity during training adds or removes GPUs; (ii) hardware maintenance may require redeployment on different GPUs; and (iii) GPU failures force jobs to run with fewer devices. Current DL frameworks tie jobs to a set of GPUs and thus lack support for these scenarios. In particular, they cannot change the multi-dimensional parallelism of an already-running job in an efficient and model-independent way. We describe Scalai, a state management library for DL systems that enables jobs to change their parallelism dynamically after the GPU allocation is updated at runtime. Scalai achieves this through a new abstraction, a parallelizable tensor collection (PTC), that externalizes the job state during training. After a GPU change, Scalai uses the PTC to transform the job state: the PTC repartitions the dataset state under data parallelism and exposes it to DL workers through a virtual file system; and the PTC obtains the model state as partitioned checkpoints and transforms them to reflect the new parallelization configuration. For efficiency, Scalai executes PTC transformations in parallel with minimum data movement between workers. Our experiments show that Scalai enables DL jobs to support dynamic parallelization with low overhead. | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-26 |
# SlimSAM: 0.1%のデータでセグメンテーションがスリムになる
SlimSAM: 0.1% Data Makes Segment Anything Slim ( http://arxiv.org/abs/2312.05284v4 ) ライセンス: Link先を確認 | Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang, | (参考訳) SAM(Segment Anything Model)を圧縮するための現在のアプローチでは、圧縮可能な結果が得られるが、スクラッチから新しいネットワークをトレーニングするためには、広範なデータが必要である。
従来のプルーニング技術を用いることで、データ要求を大幅に削減できるが、性能の低下に悩まされる。
そこで本研究では,SlimSAMというデータ効率のよいSAM圧縮手法を導入する。
SlimSAMの本質は、極めて限られたトレーニングデータ可用性と例外的な刈り取り率の下で、知識継承を効果的に強化する代替スリム化フレームワークにカプセル化されている。
従来の手法から切り離された我々のフレームワークは、異なる分離されたサブ構造を交互に刈り取り、蒸留することによって、モデルを段階的に圧縮する。
また, 切断対象とトレーニング対象との相違に対処するため, 破砕後の蒸留を促進させるため, 破砕したテイラープルーニングも提案されている。
SlimSAMは、既存の圧縮方法の10倍以上のトレーニングデータを要求する一方で、大幅なパフォーマンス向上を実現している。
オリジナルのSAMと比較しても、SlimSAMはパラメータカウントをわずか1.4% (9.1M)、MACを0.8% (23G)、SAMトレーニングデータの0.1% (10k) に減らしながら、接近性能を達成する。
コードはhttp://github.com/czg1225/SlimSAMで入手できる。
Current approaches for compressing the Segment Anything Model (SAM) yield commendable results, yet necessitate extensive data to train a new network from scratch. Employing conventional pruning techniques can remarkably reduce data requirements but would suffer from a degradation in performance. To address this challenging trade-off, we introduce SlimSAM, a novel data-efficient SAM compression method that achieves superior performance with extremely less training data. The essence of SlimSAM is encapsulated in the alternate slimming framework which effectively enhances knowledge inheritance under severely limited training data availability and exceptional pruning ratio. Diverging from prior techniques, our framework progressively compresses the model by alternately pruning and distilling distinct, decoupled sub-structures. Disturbed Taylor pruning is also proposed to address the misalignment between the pruning objective and training target, thereby boosting the post-distillation after pruning. SlimSAM yields significant performance improvements while demanding over 10 times less training data than any other existing compression methods. Even when compared to the original SAM, SlimSAM achieves approaching performance while reducing parameter counts to merely 1.4% (9.1M), MACs to 0.8% (23G), and requiring only 0.1% (10k) of the SAM training data. The code is available at http://github.com/czg1225/SlimSAM. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-26 |
# テキスト記述によるアンタングル型アバター生成
Disentangled Clothed Avatar Generation from Text Descriptions ( http://arxiv.org/abs/2312.05295v2 ) ライセンス: Link先を確認 | Jionghao Wang, Yuan Liu, Zhiyang Dou, Zhengming Yu, Yongqing Liang, Cheng Lin, Xin Li, Wenping Wang, Rong Xie, Li Song, | (参考訳) 本稿では,人体と衣服を別々に生成し,生成したアバターに高品質なアニメーションを可能にする新しいテキスト・アバター生成手法を提案する。
近年のテキストとアバターの生成は、テキストプロンプトから多様な人間のアバターを生み出しているが、これらの手法は典型的には、衣服、髪、ボディインボディーを1つの3D表現に組み合わせている。
このような絡み合ったアプローチは、編集やアニメーションといった下流タスクに課題をもたらします。
これらの制約を克服するため、SMPLモデルに基づくSequentially Offset-SMPL (SO-SMPL) と呼ばれる新しい3次元アバター表現を提案する。
SO-SMPLは、人体と服を2つの異なるメッシュで表現するが、体と服の間の物理的整合性を確保するためにオフセットを関連付ける。
次に,テキストプロンプトから提案したSO-SMPL表現を生成するために,スコア蒸留サンプリング(SDS)に基づく蒸留フレームワークを設計する。
我々のアプローチは、テクスチャや幾何学的品質の向上とテキストプロンプトとのセマンティックアライメントの向上だけでなく、キャラクターアニメーション、仮想トライオン、アバター編集の視覚的品質向上にも寄与する。
プロジェクトページ:https://shanemankiw.github.io/SO-SMPL/。
In this paper, we introduce a novel text-to-avatar generation method that separately generates the human body and the clothes and allows high-quality animation on the generated avatar. While recent advancements in text-to-avatar generation have yielded diverse human avatars from text prompts, these methods typically combine all elements-clothes, hair, and body-into a single 3D representation. Such an entangled approach poses challenges for downstream tasks like editing or animation. To overcome these limitations, we propose a novel disentangled 3D avatar representation named Sequentially Offset-SMPL (SO-SMPL), building upon the SMPL model. SO-SMPL represents the human body and clothes with two separate meshes but associates them with offsets to ensure the physical alignment between the body and the clothes. Then, we design a Score Distillation Sampling (SDS)-based distillation framework to generate the proposed SO-SMPL representation from text prompts. Our approach not only achieves higher texture and geometry quality and better semantic alignment with text prompts, but also significantly improves the visual quality of character animation, virtual try-on, and avatar editing. Project page: https://shanemankiw.github.io/SO-SMPL/. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-26 |
# 化学に着想を得た変分量子アルゴリズムにおけるバレンプラトーの存在決定に向けて
Towards determining the presence of barren plateaus in some chemically inspired variational quantum algorithms ( http://arxiv.org/abs/2312.08105v2 ) ライセンス: Link先を確認 | Rui Mao, Guojing Tian, Xiaoming Sun, | (参考訳) 量子化学において、変分量子固有解法(VQE)は、短期量子コンピュータにおける分子シミュレーションのための有望なアルゴリズムである。
しかし、ハードウェア効率のよい回路を用いたVQEは、不毛高原問題によるスケーリングの課題に直面している。
これにより、一元結合クラスタ(UCC)法から化学的にインスパイアされた回路がこの問題を回避することができるのかという疑問が提起される。
ここでは、それらがそうでないことを示す理論的証拠を提供する。
交互にdUCC ans\atzeと緩和されたTrotterized UCC ans\atzeを調べることで、無限の深さ制限において、粒子ホール1体と2体のユニタリ作用素の間で分離が発生することが分かる。
一体項は多項式的に集中したエネルギーランドスケープをもたらすが、二体項を加えると指数集中となる。
数値シミュレーションによりこれらの知見が裏付けられ、シングルとダブルス(UCCSD)の1段階のトロッター化ユニタリ結合クラスタはスケールしない可能性が示唆された。
本研究は,学習性と回路表現性の関係を強調し,古典的手法を超越するVQEの能力に疑問を呈するものである。
In quantum chemistry, the variational quantum eigensolver (VQE) is a promising algorithm for molecular simulations on near-term quantum computers. However, VQEs using hardware-efficient circuits face scaling challenges due to the barren plateau problem. This raises the question of whether chemically inspired circuits from unitary coupled cluster (UCC) methods can avoid this issue. Here we provide theoretical evidence indicating they may not. By examining alternated dUCC ans\"atze and relaxed Trotterized UCC ans\"atze, we find that in the infinite depth limit, a separation occurs between particle-hole one- and two-body unitary operators. While one-body terms yield a polynomially concentrated energy landscape, adding two-body terms leads to exponential concentration. Numerical simulations support these findings, suggesting that popular 1-step Trotterized unitary coupled-cluster with singles and doubles (UCCSD) ans\"atze may not scale. Our results emphasize the link between trainability and circuit expressiveness, raising doubts about VQEs' ability to surpass classical methods. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-26 |
# スパースおよび高次イジングマシンによるオール・ツー・オール再構成性
All-to-all reconfigurability with sparse and higher-order Ising machines ( http://arxiv.org/abs/2312.08748v3 ) ライセンス: Link先を確認 | Srijan Nikhar, Sidharth Kannan, Navid Anjum Aadit, Shuvro Chowdhury, Kerem Y. Camsari, | (参考訳) 計算的にハードな最適化問題を解決するためのドメイン固有ハードウェアは、非常に興奮した。
本稿では,3正規な3つの排他的OR満足度(3R3X)に基づく確率ビット(pビット)ベースのIsing Machines(IM)を代表的ハード最適化問題として評価する。
まず、全ネットワーク機能をエミュレートし、高度に並列化された色付きギブズサンプリングを維持しながら多重化アーキテクチャを導入する。
本研究では,このアーキテクチャを単一FPGA(Field-Programmable Gate Array)に実装し,D-Wave,Toshiba,Fujitsuによる代替IMに対して,適応並列テンパリングアルゴリズムの実行により,競合するアルゴリズムと事前ファクタの優位性を示すことを示す。
また、XORSAT問題に対するアルゴリズムスケーリングを変更することなく、より優れたプレファクターをもたらす高次相互作用を実装している。
pビットのFPGA実装は、GPU(Graphics Processing Units)上で加速される最良のグリードアルゴリズムほど高速ではないが、スケールしたpビットIMの磁気バージョンは、汎用最適化の最先端よりも大幅に改善される可能性がある。
Domain-specific hardware to solve computationally hard optimization problems has generated tremendous excitement. Here, we evaluate probabilistic bit (p-bit) based Ising Machines (IM) on the 3-regular 3-Exclusive OR Satisfiability (3R3X), as a representative hard optimization problem. We first introduce a multiplexed architecture that emulates all-to-all network functionality while maintaining highly parallelized chromatic Gibbs sampling. We implement this architecture in single Field-Programmable Gate Arrays (FPGA) and show that running the adaptive parallel tempering algorithm demonstrates competitive algorithmic and prefactor advantages over alternative IMs by D-Wave, Toshiba, and Fujitsu. We also implement higher-order interactions that lead to better prefactors without changing algorithmic scaling for the XORSAT problem. Even though FPGA implementations of p-bits are still not quite as fast as the best possible greedy algorithms accelerated on Graphics Processing Units (GPU), scaled magnetic versions of p-bit IMs could lead to orders of magnitude improvements over the state of the art for generic optimization. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-26 |
# 分布潜在変数モデルとアクティブ認知テストへの応用
Distributional Latent Variable Models with an Application in Active Cognitive Testing ( http://arxiv.org/abs/2312.09316v2 ) ライセンス: Link先を確認 | Robert Kasumba, Dom CP Marticorena, Anja Pahor, Geetha Ramani, Imani Goffney, Susanne M Jaeggi, Aaron Seitz, Jacob R Gardner, Dennis L Barbour, | (参考訳) 認知モデリングは一般的に、注意力や作業記憶、その他の潜伏変数を推定するために、様々なテストのバッテリーを完了するよう参加者に求めることに依存する。
多くの場合、これらのテストは高度に変動する観測モデルをもたらす。
ほぼユビキタスなアプローチは、各テストに対して個別に多くの観察を繰り返すことであり、結果として各被験者に与えられた各テストの結果にまたがる分布をもたらす。
潜在変数モデル(LVM)は、データ収集後にのみ追加される。
本稿では,複数の変数を同時に学習するためのLVMの利用について検討する。
我々はLVMを、各被験者の観測データが再構成される単純なベクトルではなく、多くの異なる分布からの一連の観測であるような設定に拡張する。
集団間で共同で訓練された潜伏空間に、テストバッテリ結果を埋め込むことにより、単一参加者の異なるテストデータと複数の参加者の相関関係を利用することができる。
次に、このモデルを利用してより効率的な認知テストバッテリを動作させる能動的学習フレームワークを提案する。
テスト項目の少ないアイテムレベルの予測を行う上で,従来の手法と同等に動作することを示すことによって,我々のアプローチを検証する。
Cognitive modeling commonly relies on asking participants to complete a battery of varied tests in order to estimate attention, working memory, and other latent variables. In many cases, these tests result in highly variable observation models. A near-ubiquitous approach is to repeat many observations for each test independently, resulting in a distribution over the outcomes from each test given to each subject. Latent variable models (LVMs), if employed, are only added after data collection. In this paper, we explore the usage of LVMs to enable learning across many correlated variables simultaneously. We extend LVMs to the setting where observed data for each subject are a series of observations from many different distributions, rather than simple vectors to be reconstructed. By embedding test battery results for individuals in a latent space that is trained jointly across a population, we can leverage correlations both between disparate test data for a single participant and between multiple participants. We then propose an active learning framework that leverages this model to conduct more efficient cognitive test batteries. We validate our approach by demonstrating with real-time data acquisition that it performs comparably to conventional methods in making item-level predictions with fewer test items. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-26 |
# アルツハイマー病検出のための分散型プライバシ保存モデル
A Distributed Privacy Preserving Model for the Detection of Alzheimer's Disease ( http://arxiv.org/abs/2312.10237v5 ) ライセンス: Link先を確認 | Paul K. Mandal, | (参考訳) 急速に進歩する医療技術の時代には、医療データのセグメンテーションは避けられなくなり、分散データでトレーニングできるプライバシー保護機械学習アルゴリズムの開発が必要とされるようになった。
特に、健康保険可搬性会計法(HIPAA)が課している厳格なプライバシー規制のために、機密性の高い医療データを統合することは、必ずしも選択肢ではない。
本稿では,分散データからトレーニングできるHIPAA準拠のフレームワークについて紹介する。
次に、認知症、重度の脳機能障害、特に予防的ケアを伴わない簡単な作業の妨げとなる重度の神経変性疾患であるアルツハイマー病(AD)検出のための多モード垂直連合モデルを提案する。
この垂直連合学習(VFL)モデルは、HIPAAが課したプライバシー制約を尊重しながら、さまざまな医療データのソースをまたいだ協調学習を可能にする分散アーキテクチャを提供する。
ここで提案されたVFLアーキテクチャは、法的なプライバシー制約を尊重しながら、さまざまな医療データのソースをまたいだ協調学習を可能にする、新しい分散アーキテクチャを提供する。
複数のデータモダリティを活用することにより、AD検出の堅牢性と精度を向上させることができる。
このモデルは、フェデレーション学習技術の進歩に寄与するだけでなく、医学研究におけるデータセグメンテーションによるハードルを克服する公約も持つ。
In the era of rapidly advancing medical technologies, the segmentation of medical data has become inevitable, necessitating the development of privacy preserving machine learning algorithms that can train on distributed data. Consolidating sensitive medical data is not always an option particularly due to the stringent privacy regulations imposed by the Health Insurance Portability and Accountability Act (HIPAA). In this paper, I introduce a HIPAA compliant framework that can train from distributed data. I then propose a multimodal vertical federated model for Alzheimer's Disease (AD) detection, a serious neurodegenerative condition that can cause dementia, severely impairing brain function and hindering simple tasks, especially without preventative care. This vertical federated learning (VFL) model offers a distributed architecture that enables collaborative learning across diverse sources of medical data while respecting privacy constraints imposed by HIPAA. The VFL architecture proposed herein offers a novel distributed architecture, enabling collaborative learning across diverse sources of medical data while respecting statutory privacy constraints. By leveraging multiple modalities of data, the robustness and accuracy of AD detection can be enhanced. This model not only contributes to the advancement of federated learning techniques but also holds promise for overcoming the hurdles posed by data segmentation in medical research. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-26 |
# 局所測定による量子メモリ支援絡み合い状態検証
Quantum memory assisted entangled state verification with local measurements ( http://arxiv.org/abs/2312.11066v4 ) ライセンス: Link先を確認 | Siyuan Chen, Wei Xie, Ping Xu, Kun Wang, | (参考訳) 本稿では,量子メモリを用いた量子状態検証タスクについて考察する。敵が独立した多部絡み合った状態を作成し,局所的な検証者に送信し,複数のコピーを量子メモリに格納し,それらを集合的に測定して決定する。
検証器は2つのコピーを格納し、ベル測度のみを含むマルチキュービットグラフ状態に対して、大域的に最適な2つのコピー戦略を与える。
検証者が任意に多くのコピーを格納できる場合、この場合の効率的な検証戦略を設計し、GHZライクな状態を効率的に検証するための応用を示すディメンション拡張手法を提案する。
これらの戦略はメモリ資源の増大によってますます有利になり、最終的には効率の理論的限界に近づいた。
以上の結果から,量子メモリは状態検証効率の向上,エラー耐性戦略の隠蔽光,大規模量子メモリ支援検証の実用化が示唆された。
We consider the quantum memory assisted quantum state verification task, where an adversary prepare independent multipartite entangled states and send to the local verifiers, who then store several copies in the quantum memory and measure them collectively to make decision. We establish an exact analytic formula for optimizing two-copy state verification, where the verifiers store two copies, and give a globally optimal two-copy strategy for multi-qubit graph states involving only Bell measurements. When the verifiers can store arbitrarily many copies, we present a dimension expansion technique that designs efficient verification strategies for this case, showcasing its application to efficiently verifying GHZ-like states. These strategies become increasingly advantageous with growing memory resources, ultimately approaching the theoretical limit of efficiency. Our findings demonstrate that quantum memories enhance state verification efficiency, sheding light on error-resistant strategies and practical applications of large-scale quantum memory-assisted verification. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-26 |
# 共鳴および強装束Rydberg-Kerr相互作用による高速多成分猫状態生成
Fast multicomponent cat-state generation under resonant or strong-dressing Rydberg-Kerr interaction ( http://arxiv.org/abs/2312.11432v2 ) ライセンス: Link先を確認 | Mohammadsadegh Khazali, | (参考訳) 猫の状態は、気象学とフォールトトレラント量子計算の応用で最大に絡み合った状態である。
実験により、Rydberg集団のアバランシェ・デコヒーレンス(英語版)が、Rydberg原子による猫の創造のボトルネックとなることが明らかとなった。
この過程は、黒体放射(BBR-)によるライドバーグ原子の崩壊の後に始まり、猫の生成時間に強い制限を課す。
これらの発見は、現在のRydberg cat schemeを加速する新しいアイデアの探索を必要とする。
相互作用-損失比を高めるために, この論文は, 非線形性の複雑な順序があるにもかかわらず, 猫状態の出現を明らかにするために, 強いライドバーグドレッシング体制における猫状態形成に寄与する。
この未発見の体制は、特にライドバーグ研究所の典型的な2次元格子の操作に有益である急激な猫状態形成の可能性を実証している。
極端な場合、この論文は、多くの原子が閉塞体積内に収容されている場合、リドベルクの共振の下で二階非線形性が分離可能であることを示した。
共振モデルは、断熱条件を回避しつつ、相互作用-損失比を著しく向上し、レーザの高速スイッチングを可能にする。
さらに,コヒーレントスピン状態(|m-\text{CSS}\rangle$)を重畳した多成分猫状態を生成する手法を提案する。
m$の最大値は、ブロック半径内の原子の数によって決定され、$m=\sqrt{N}$である。
より大きい$m$の状態は、強いドレッシングハミルトニアンにおいて複数の非線形性の存在に対してより堅牢であり、伝統的な2成分の猫の状態と比較してはるかに短い時間でアクセス可能である。
Cat states are maximally entangled states with applications in metrology and fault-tolerant quantum computation. The experiments have revealed that Rydberg collective avalanche decoherence acts as the bottleneck for cat creation with Rydberg atoms. This process initiates after the black body radiation (BBR-)induced decay of Rydberg atoms and sets a strong limit on the cat creation time. These findings necessitate the exploration of new ideas to accelerate current Rydberg cat schemes. To enhance the interaction-to-loss ratio, this paper delves into cat state formation in the strong Rydberg dressing regime, uncovering the emergence of cat states despite the presence of complex orders of nonlinearities. This unexplored regime demonstrates the potential for rapid cat state formation, particularly beneficial for operation in typical 2D lattices in Rydberg Labs. In an extreme case, this article demonstrates that second-order nonlinearity could be isolated under resonant Rydberg driving if a large number of atoms are accommodated inside the blockade volume. The resonant model significantly enhances the interaction-to-loss ratio while circumventing the adiabaticity condition, allowing fast switching of lasers. In addition, the paper presents a method for generating multi-component cat states, which are superpositions of $m$ coherent spin states ($|m-\text{CSS}\rangle$). The maximum value of $m$ is determined by the number of atoms within the blockade radius, where $m=\sqrt{N}$. The states with larger $m$ are more robust against the presence of multiple orders of nonlinearity in the strong dressing Hamiltonian and are accessible in a much shorter time compared to traditional 2-component cat states. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-26 |
# ウィグナーのすべての友人にとって1つの時空は小さすぎる
A single space-time is too small for all of Wigner's friends ( http://arxiv.org/abs/2312.11759v2 ) ライセンス: Link先を確認 | Jacques L. Pienaar, | (参考訳) 観測事象の絶対性」 (AOE) を仮定した量子論の解釈に関する最近のノーゴーの定理は、予期しないほど強い系を持つことが示されている: AOE を拒絶することはできず、同時に、問題の 'オブザーブドイベント' はすべての観測者に共通する単一の背景空間時間内に埋め込むことができると仮定する。
その結果、AOEを拒絶する解釈は時空の「ブロック宇宙」の見方とは相容れない。
Recent no-go theorems on interpretations of quantum theory featuring an assumption of `Absoluteness of Observed Events' (AOE) are shown to have an unexpectedly strong corollary: one cannot reject AOE and at the same time assume that the `observed events' in question can all be embedded within a single background space-time common to all observers. Consequently, interpretations that reject AOE appear incompatible with a `block universe' view of space-time. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-26 |
# LingoQA: 自動運転のためのビデオ質問回答
LingoQA: Video Question Answering for Autonomous Driving ( http://arxiv.org/abs/2312.14115v3 ) ライセンス: Link先を確認 | Ana-Maria Marcu, Long Chen, Jan Hünermann, Alice Karnsund, Benoit Hanotte, Prajwal Chidananda, Saurabh Nair, Vijay Badrinarayanan, Alex Kendall, Jamie Shotton, Elahe Arani, Oleg Sinavski, | (参考訳) 本稿では,自律運転における視覚的質問応答のための新しいデータセットとベンチマークであるLingoQAを紹介する。
データセットには28Kのユニークなショートビデオシナリオと419Kアノテーションが含まれている。
我々のベンチマークで最先端のビジョン言語モデルを評価すると、GPT-4Vは人間の96.6%に比べて59.6%の回答を示した。
評価には,METEOR,BLEU,CIDEr,GPT-4といった既存の手法を超越して,人間の評価に対して0.95のスピアマン相関係数を実現する「Lingo-Judge」という真正性分類器を提案する。
ベースライン視覚言語モデルを構築し、その性能を理解するために広範囲にわたるアブレーション研究を行う。
我々は、自動運転におけるビジョン言語モデルの評価プラットフォームとして、データセットとベンチマーク https://github.com/wayveai/LingoQAをリリースする。
We introduce LingoQA, a novel dataset and benchmark for visual question answering in autonomous driving. The dataset contains 28K unique short video scenarios, and 419K annotations. Evaluating state-of-the-art vision-language models on our benchmark shows that their performance is below human capabilities, with GPT-4V responding truthfully to 59.6% of the questions compared to 96.6% for humans. For evaluation, we propose a truthfulness classifier, called Lingo-Judge, that achieves a 0.95 Spearman correlation coefficient to human evaluations, surpassing existing techniques like METEOR, BLEU, CIDEr, and GPT-4. We establish a baseline vision-language model and run extensive ablation studies to understand its performance. We release our dataset and benchmark https://github.com/wayveai/LingoQA as an evaluation platform for vision-language models in autonomous driving. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-26 |
# LingoQA: 自律運転のための視覚的質問応答
LingoQA: Visual Question Answering for Autonomous Driving ( http://arxiv.org/abs/2312.14115v4 ) ライセンス: Link先を確認 | Ana-Maria Marcu, Long Chen, Jan Hünermann, Alice Karnsund, Benoit Hanotte, Prajwal Chidananda, Saurabh Nair, Vijay Badrinarayanan, Alex Kendall, Jamie Shotton, Elahe Arani, Oleg Sinavski, | (参考訳) 本稿では,自律運転における視覚的質問応答のための新しいデータセットとベンチマークであるLingoQAを紹介する。
データセットには28Kのユニークなショートビデオシナリオと419Kアノテーションが含まれている。
我々のベンチマークで最先端のビジョン言語モデルを評価すると、GPT-4Vは人間の96.6%に比べて59.6%の回答を示した。
評価には,METEOR,BLEU,CIDEr,GPT-4といった既存の手法を超越して,人間の評価に対して0.95のスピアマン相関係数を実現する「Lingo-Judge」という真正性分類器を提案する。
ベースライン視覚言語モデルを構築し、その性能を理解するために広範囲にわたるアブレーション研究を行う。
自動運転におけるビジョン言語モデルの評価プラットフォームとして、データセットとベンチマークをリリースする。
We introduce LingoQA, a novel dataset and benchmark for visual question answering in autonomous driving. The dataset contains 28K unique short video scenarios, and 419K annotations. Evaluating state-of-the-art vision-language models on our benchmark shows that their performance is below human capabilities, with GPT-4V responding truthfully to 59.6% of the questions compared to 96.6% for humans. For evaluation, we propose a truthfulness classifier, called Lingo-Judge, that achieves a 0.95 Spearman correlation coefficient to human evaluations, surpassing existing techniques like METEOR, BLEU, CIDEr, and GPT-4. We establish a baseline vision-language model and run extensive ablation studies to understand its performance. We release our dataset and benchmark as an evaluation platform for vision-language models in autonomous driving. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-26 |
# 写真における環境特有な人物の合成
Synthesizing Environment-Specific People in Photographs ( http://arxiv.org/abs/2312.14579v2 ) ライセンス: Link先を確認 | Mirela Ostrek, Carol O'Sullivan, Michael J. Black, Justus Thies, | (参考訳) 入力写真に描かれたシーンにセマンティックに適した衣服を着る人々の写真リアルな合成と着色を可能にする,コンテキスト対応フルボディ生成の新しい手法であるESPを提案する。
ESPは、シーンの写真から抽出され、生成プロセスに統合された2Dポーズとコンテキストキューに条件付けされ、そこでは、衣服をヒューマンパーシングマスク(HPM)で明示的にモデル化する。
生成したHPMは塗布のためのタイトなガイドマスクとして使用され、元の背景には何の変化も与えない。
当社のモデルは、さまざまな環境をカバーしている人々の、Wild内の一連の写真を含むデータセットでトレーニングされています。
本手法は定量的かつ定性的に解析され,ESPがコンテキストフルボディ生成のタスクにおいて,最先端技術よりも優れていることを示す。
We present ESP, a novel method for context-aware full-body generation, that enables photo-realistic synthesis and inpainting of people wearing clothing that is semantically appropriate for the scene depicted in an input photograph. ESP is conditioned on a 2D pose and contextual cues that are extracted from the photograph of the scene and integrated into the generation process, where the clothing is modeled explicitly with human parsing masks (HPM). Generated HPMs are used as tight guiding masks for inpainting, such that no changes are made to the original background. Our models are trained on a dataset containing a set of in-the-wild photographs of people covering a wide range of different environments. The method is analyzed quantitatively and qualitatively, and we show that ESP outperforms the state-of-the-art on the task of contextual full-body generation. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-26 |
# TypeFly:大きな言語モデルでドローンを飛ばす
TypeFly: Flying Drones with Large Language Model ( http://arxiv.org/abs/2312.14950v2 ) ライセンス: Link先を確認 | Guojun Chen, Xiaojing Yu, Neiwen Ling, Lin Zhong, | (参考訳) 大規模言語モデル(LLM)を用いたロボット制御の最近の進歩は、LLMが自然言語コマンドを理解し、様々な言語で実行可能な計画を生成する能力によって、大きな可能性を秘めている。
しかし、移動ロボット、特にドローンを含むリアルタイムおよびインタラクティブなアプリケーションでは、LSM固有のシーケンシャルトークン生成プロセスは、応答時間、すなわち制御計画生成にかなりの遅延をもたらす。
本稿では,この問題を解決するために,MiniSpecという新しいプログラム言語とその実行環境を組み合わせて,計画生成時間とドローン応答時間を短縮するChatFlyを提案する。
すなわち、LLMに人気のあるPythonでプログラム(ロボティックプラン)を書く代わりに、ChatFlyはトークン効率とストリーム解釈のために特別に設計されたMiniSpecでプログラムを実行できる。
難易度の高いドローンタスクのセットを使用することで、ChatFlyによる設計選択が最大62%の応答時間を短縮し、より一貫性のあるユーザエクスペリエンスを提供することで、応答性とインテリジェントなLLMベースのドローン制御を効率よく実現できることが示される。
Recent advancements in robot control using large language models (LLMs) have demonstrated significant potential, primarily due to LLMs' capabilities to understand natural language commands and generate executable plans in various languages. However, in real-time and interactive applications involving mobile robots, particularly drones, the sequential token generation process inherent to LLMs introduces substantial latency, i.e. response time, in control plan generation. In this paper, we present a system called ChatFly that tackles this problem using a combination of a novel programming language called MiniSpec and its runtime to reduce the plan generation time and drone response time. That is, instead of asking an LLM to write a program (robotic plan) in the popular but verbose Python, ChatFly gets it to do it in MiniSpec specially designed for token efficiency and stream interpretation. Using a set of challenging drone tasks, we show that design choices made by ChatFly can reduce up to 62% response time and provide a more consistent user experience, enabling responsive and intelligent LLM-based drone control with efficient completion. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-26 |
# オープンセット分散ロボットローカライゼーションのための再帰蒸留法
Recursive Distillation for Open-Set Distributed Robot Localization ( http://arxiv.org/abs/2312.15897v2 ) ライセンス: Link先を確認 | Kenta Tsukahara, Kanji Tanaka, | (参考訳) 最先端の自己ローカライゼーションモデルにおける典型的な仮定は、ターゲットのワークスペースに注釈付きトレーニングデータセットが利用できるということである。
しかし、ロボットが一般のオープンワールドを旅するときは必ずしもそうではない。
本研究は,オープンワールド分散ロボットシステムのための新しいトレーニングスキームを導入する。
提案手法では,ロボット ( ``student) が,未知の場所で遭遇する他のロボット (``teachers) に指導を依頼する。
具体的には、擬似学習データセットを教師モデルから再構成し、ドメイン、クラス、語彙の漸進的な設定の下で学生モデルの継続的な学習に使用する。
一般的な知識伝達方式とは異なり、我々の手法は教師モデルに対する最小限の仮定しか導入せず、非協調的で訓練不能な(画像検索エンジンなど)教師やブラックボックスの教師(データプライバシーなど)など、様々な種類のオープンセットの教師を扱えるようにしている。
本稿では, 学生が学習したデータフリー再帰蒸留のシナリオを用いて, 次世代のオープン教師セットに再帰的に参加できるような, 汎用モデルの事例としてのランキング関数について検討する。
A typical assumption in state-of-the-art self-localization models is that an annotated training dataset is available for the target workspace. However, this is not necessarily true when a robot travels around the general open world. This work introduces a novel training scheme for open-world distributed robot systems. In our scheme, a robot (``student") can ask the other robots it meets at unfamiliar places (``teachers") for guidance. Specifically, a pseudo-training dataset is reconstructed from the teacher model and then used for continual learning of the student model under domain, class, and vocabulary incremental setup. Unlike typical knowledge transfer schemes, our scheme introduces only minimal assumptions on the teacher model, so that it can handle various types of open-set teachers, including those uncooperative, untrainable (e.g., image retrieval engines), or black-box teachers (i.e., data privacy). In this paper, we investigate a ranking function as an instance of such generic models, using a challenging data-free recursive distillation scenario, where a student once trained can recursively join the next-generation open teacher set. | 翻訳日:2024-11-09 05:28:28 公開日:2024-09-26 |
# 拡散モデルにおける注意マップの再利用による高速サンプリング
Fast Sampling Through The Reuse Of Attention Maps In Diffusion Models ( http://arxiv.org/abs/2401.01008v3 ) ライセンス: Link先を確認 | Rosco Hunter, Łukasz Dudziak, Mohamed S. Abdelfattah, Abhinav Mehrotra, Sourav Bhattacharya, Hongkai Wen, | (参考訳) テキストと画像の拡散モデルは、フレキシブルでリアルな画像合成のための前例のない能力を示している。
それでもこれらのモデルは、レイテンシの削減に動機づけられた、時間を要するサンプリング手順に依存している。
効率を改善するために、研究者はしばしば元の拡散モデルを使用して、高速な画像生成のために設計された追加のネットワークを訓練する。
対照的に、我々のアプローチは、再訓練、微調整、知識蒸留なしに、直接遅延を減らそうとしている。
特に、注意マップの繰り返し計算はコストがかかるが冗長であり、サンプリング時に再利用することを推奨する。
我々の具体的な再利用戦略はODE理論に基づいており、後者の写像が再利用されると最終像の歪みが小さくなることを意味する。
我々は,これらの再利用戦略と同等のレイテンシの少数のサンプリング手順を経験的に比較し,再利用が元の高遅延拡散モデルにより生成された画像に近い画像を生成することを発見した。
Text-to-image diffusion models have demonstrated unprecedented capabilities for flexible and realistic image synthesis. Nevertheless, these models rely on a time-consuming sampling procedure, which has motivated attempts to reduce their latency. When improving efficiency, researchers often use the original diffusion model to train an additional network designed specifically for fast image generation. In contrast, our approach seeks to reduce latency directly, without any retraining, fine-tuning, or knowledge distillation. In particular, we find the repeated calculation of attention maps to be costly yet redundant, and instead suggest reusing them during sampling. Our specific reuse strategies are based on ODE theory, which implies that the later a map is reused, the smaller the distortion in the final image. We empirically compare these reuse strategies with few-step sampling procedures of comparable latency, finding that reuse generates images that are closer to those produced by the original high-latency diffusion model. | 翻訳日:2024-11-09 05:28:28 公開日:2024-09-26 |
# SPEER: 組込みエンティティ検索による長期臨床サプリメントの文レベルプランニング
SPEER: Sentence-Level Planning of Long Clinical Summaries via Embedded Entity Retrieval ( http://arxiv.org/abs/2401.02369v2 ) ライセンス: Link先を確認 | Griffin Adams, Jason Zucker, Noémie Elhadad, | (参考訳) 臨床医は、患者が退院するたびに、長い要約を書かなければならない。
このタスクは、入院時にカバーされるユニークな臨床概念の数が多いため、時間がかかります。
要約が臨床的に有用であるためには、健全な実体を同定し、カバーすることが不可欠である。
我々は、そのタスクにオープンソースのLCM(Mistral-7B-InstructとZephyr-7B-beta)を微調整し、不完全で不誠実な要約を生成する。
エンティティのカバレッジを高めるために,LLMをガイドするコンテンツプランとして扱われる有能なエンティティを予測するために,より小さなエンコーダのみのモデルを訓練する。
LLMがソースノートの特定の言及に集中するよう促すため、私たちはSPEER: Embedded Entity Retrievalによる文レベルのプランニングを提案します。
具体的には、それぞれの有意なエンティティに特別な"{{ }}"境界タグを付けてマークし、各文を生成する前に、LLMにマークされたスパンを検索するように指示する。
文レベルのプランニングは、モデルが使用するエンティティを明示的に記録している状態追跡の一形態として機能する。
Mistral と Zephyr の変異は, 大規模で多種多様で, 入院時に約167万件のデータセットを抽出し, 3つのデータセットで評価した。
SPEERは、非ガイド付きベースラインとガイド付きベースラインよりも、カバレッジと忠実度の両方が向上していることを示している。
Clinician must write a lengthy summary each time a patient is discharged from the hospital. This task is time-consuming due to the sheer number of unique clinical concepts covered in the admission. Identifying and covering salient entities is vital for the summary to be clinically useful. We fine-tune open-source LLMs (Mistral-7B-Instruct and Zephyr-7B-beta) on the task and find that they generate incomplete and unfaithful summaries. To increase entity coverage, we train a smaller, encoder-only model to predict salient entities, which are treated as content-plans to guide the LLM. To encourage the LLM to focus on specific mentions in the source notes, we propose SPEER: Sentence-level Planning via Embedded Entity Retrieval. Specifically, we mark each salient entity span with special "{{ }}" boundary tags and instruct the LLM to retrieve marked spans before generating each sentence. Sentence-level planning acts as a form of state tracking in that the model is explicitly recording the entities it uses. We fine-tune Mistral and Zephyr variants on a large-scale, diverse dataset of ~167k in-patient hospital admissions and evaluate on 3 datasets. SPEER shows gains in both coverage and faithfulness metrics over non-guided and guided baselines. | 翻訳日:2024-11-09 05:28:28 公開日:2024-09-26 |
# 非線形偏微分方程式を含むフォワードおよび逆問題の解法のためのガウス過程フレームワーク
A Gaussian Process Framework for Solving Forward and Inverse Problems Involving Nonlinear Partial Differential Equations ( http://arxiv.org/abs/2401.03492v2 ) ライセンス: Link先を確認 | Carlos Mora, Amin Yousefpour, Shirin Hosseinmardi, Ramin Bostanabad, | (参考訳) 物理インフォームド・機械学習(PIML)は、偏微分方程式(PDE)を解くための従来の数値法に代わる有望な代替手段として登場した。
PIMLモデルは、アーキテクチャとトレーニングプロセスが設計されているディープニューラルネットワーク(NN)を介して、ネットワークがPDEシステムを満たすように、ますます構築される。
このようなPIMLモデルはここ数年で大幅に進歩してきたが、その性能はNNのアーキテクチャや損失関数に非常に敏感である。
この制限により、カーネルメソッドとディープNNの強みを統合するためにカーネル重み付き補正残差(CoRes)を導入し、非線形PDEシステムを解決する。
この統合を実現するために、我々は幅広いベンチマーク問題の解決において競合する手法を一貫して上回るモジュラーでロバストなフレームワークを設計する。
この性能改善は理論的に正当化されており、トレーニングプロセスを単純化し、推論コストを過度に増加させるため、特に魅力的である。
さらに、複数のPDEを解くことで、カーネル重み付きCoReは、ランダム初期化、アーキテクチャタイプ、オプティマイザの選択などの要因に対するNNの感度を著しく低下させることを示す。
我々はPDEの解決にカーネル手法を活用することに新たな関心を喚起する可能性があると考えている。
Physics-informed machine learning (PIML) has emerged as a promising alternative to conventional numerical methods for solving partial differential equations (PDEs). PIML models are increasingly built via deep neural networks (NNs) whose architecture and training process are designed such that the network satisfies the PDE system. While such PIML models have substantially advanced over the past few years, their performance is still very sensitive to the NN's architecture and loss function. Motivated by this limitation, we introduce kernel-weighted Corrective Residuals (CoRes) to integrate the strengths of kernel methods and deep NNs for solving nonlinear PDE systems. To achieve this integration, we design a modular and robust framework which consistently outperforms competing methods in solving a broad range of benchmark problems. This performance improvement has a theoretical justification and is particularly attractive since we simplify the training process while negligibly increasing the inference costs. Additionally, our studies on solving multiple PDEs indicate that kernel-weighted CoRes considerably decrease the sensitivity of NNs to factors such as random initialization, architecture type, and choice of optimizer. We believe our findings have the potential to spark a renewed interest in leveraging kernel methods for solving PDEs. | 翻訳日:2024-11-09 05:28:28 公開日:2024-09-26 |
# EDA-DM:拡散モデルのポストトレーニング量子化のための分散アライメント強化
EDA-DM: Enhanced Distribution Alignment for Post-Training Quantization of Diffusion Models ( http://arxiv.org/abs/2401.04585v2 ) ライセンス: Link先を確認 | Xuewen Liu, Zhikai Li, Junrui Xiao, Qingyi Gu, | (参考訳) 拡散モデルは反復雑音推定により画像生成タスクにおいて大きな成功を収めた。
しかし、重いノイズ発生プロセスと複雑なニューラルネットワークは、現実のシナリオにおける低レイテンシアプリケーションを妨げる。
量子化はモデルの複雑性を効果的に低減し、微調整を必要としない後学習量子化(PTQ)は拡散モデルの圧縮と加速に非常に有望である。
不運なことに, 従来の拡散モデルのPTQ法は, キャリブレーションサンプルレベルとリコンストラクション出力レベルの両方の分布ミスマッチ問題に悩まされており, 特に低ビットの場合において, 性能が満足できないことが判明した。
本稿では,拡散モデル(EDA-DM)の学習後量子化のための分散アライメントの強化について述べる。
具体的には、キャリブレーションサンプルレベルでは、潜伏空間の密度と多様性に基づいてキャリブレーションサンプルを選択し、その分布と全体サンプルとのアライメントを容易にし、再構成出力レベルでは、ブロック再構成の損失を層損失と調整し、量子化モデルと完全精度モデルの出力を異なるネットワーク粒度で調整する。
EDA-DMは様々なモデル(DDIM, LDM-4, LDM-8, LDM-Diffusion)と異なるデータセット(CIFAR-10, LSUN-Bedroom, LSUN-Church, ImageNet, MS-COCO)で、既存のPTQ法よりも大幅に優れていた。
Diffusion models have achieved great success in image generation tasks through iterative noise estimation. However, the heavy denoising process and complex neural networks hinder their low-latency applications in real-world scenarios. Quantization can effectively reduce model complexity, and post-training quantization (PTQ), which does not require fine-tuning, is highly promising for compressing and accelerating diffusion models. Unfortunately, we find that due to the highly dynamic distribution of activations in different denoising steps, existing PTQ methods for diffusion models suffer from distribution mismatch issues at both calibration sample level and reconstruction output level, which makes the performance far from satisfactory, especially in low-bit cases. In this paper, we propose Enhanced Distribution Alignment for Post-Training Quantization of Diffusion Models (EDA-DM) to address the above issues. Specifically, at the calibration sample level, we select calibration samples based on the density and variety in the latent space, thus facilitating the alignment of their distribution with the overall samples; and at the reconstruction output level, we modify the loss of block reconstruction with the losses of layers, aligning the outputs of quantized model and full-precision model at different network granularity. Extensive experiments demonstrate that EDA-DM significantly outperforms the existing PTQ methods across various models (DDIM, LDM-4, LDM-8, Stable-Diffusion) and different datasets (CIFAR-10, LSUN-Bedroom, LSUN-Church, ImageNet, MS-COCO). | 翻訳日:2024-11-09 05:28:28 公開日:2024-09-26 |
# 学習率適応型CMA-ES
CMA-ES with Learning Rate Adaptation ( http://arxiv.org/abs/2401.15876v2 ) ライセンス: Link先を確認 | Masahiro Nomura, Youhei Akimoto, Isao Ono, | (参考訳) 共分散行列適応進化戦略(CMA-ES)は連続ブラックボックス最適化問題の解法として最も成功した手法の1つである。
CMA-ESの実用的な側面は、ハイパーパラメータチューニングなしで使用できることである。
しかし、ハイパーパラメータ設定は、特にマルチモーダルやノイズなどの困難なタスクにおいて、パフォーマンスにかなりの影響を与えている。
本研究は,CMA-ESの性能に及ぼす学習率の影響を包括的に検討し,通常の微分方程式を考慮した学習率の必要性を実証する。
その後、理想的な学習率の設定について論じる。
これらの議論に基づき,定値信号対雑音比を維持するCMA-ESの学習率適応機構を開発した。
さらに,CMA-ESと提案した学習率適応機構を数値実験により検討し,CMA-ESと固定学習率,人口規模適応とを比較した。
提案した学習率適応型CMA-ESは,高コストの学習率チューニングを伴わないマルチモーダルおよび/またはノイズ問題に対して有効であることを示す。
The covariance matrix adaptation evolution strategy (CMA-ES) is one of the most successful methods for solving continuous black-box optimization problems. A practically useful aspect of the CMA-ES is that it can be used without hyperparameter tuning. However, the hyperparameter settings still have a considerable impact on performance, especially for difficult tasks, such as solving multimodal or noisy problems. This study comprehensively explores the impact of learning rate on the CMA-ES performance and demonstrates the necessity of a small learning rate by considering ordinary differential equations. Thereafter, it discusses the setting of an ideal learning rate. Based on these discussions, we develop a novel learning rate adaptation mechanism for the CMA-ES that maintains a constant signal-to-noise ratio. Additionally, we investigate the behavior of the CMA-ES with the proposed learning rate adaptation mechanism through numerical experiments, and compare the results with those obtained for the CMA-ES with a fixed learning rate and with population size adaptation. The results show that the CMA-ES with the proposed learning rate adaptation works well for multimodal and/or noisy problems without extremely expensive learning rate tuning. | 翻訳日:2024-11-09 05:06:11 公開日:2024-09-26 |
# 量子多重固有値ガウスフィルタ探索:効率的かつ汎用的な量子位相推定法
Quantum Multiple Eigenvalue Gaussian filtered Search: an efficient and versatile quantum phase estimation method ( http://arxiv.org/abs/2402.01013v2 ) ライセンス: Link先を確認 | Zhiyan Ding, Haoya Li, Lin Lin, HongKang Ni, Lexing Ying, Ruizhe Zhang, | (参考訳) 量子位相推定は最も強力な量子プリミティブの1つである。
本研究は、量子多重固有値ガウスフィルタ(QMEGS)という、多重固有値推定問題に対する新しいアプローチを提案する。
QMEGSはアダマール試験回路構造を利用しており、単純な古典的な後処理しか必要としない。
QMEGSは以下の2つの特性を同時に満たす最初のアルゴリズムである。
2) 正のエネルギーギャップと初期状態への追加仮定により、QMEGSは標準量子位相推定アルゴリズムと比較して回路深度を著しく低減した回路深度を利用して、すべての支配固有値を$\epsilon$精度で推定することができる。
最も好ましいシナリオでは、最大ランタイムを$\log(1/\epsilon)$まで下げることができる。
これはQMEGSが効率的で汎用的なアプローチとして機能し、ギャップ付きシステムとギャップレスシステムの両方で最もよく知られた結果を達成することを意味する。
計算結果から,提案アルゴリズムの有効性を検証した。
Quantum phase estimation is one of the most powerful quantum primitives. This work proposes a new approach for the problem of multiple eigenvalue estimation: Quantum Multiple Eigenvalue Gaussian filtered Search (QMEGS). QMEGS leverages the Hadamard test circuit structure and only requires simple classical postprocessing. QMEGS is the first algorithm to simultaneously satisfy the following two properties: (1) It can achieve the Heisenberg-limited scaling without relying on any spectral gap assumption. (2) With a positive energy gap and additional assumptions on the initial state, QMEGS can estimate all dominant eigenvalues to $\epsilon$ accuracy utilizing a significantly reduced circuit depth compared to the standard quantum phase estimation algorithm. In the most favorable scenario, the maximal runtime can be reduced to as low as $\log(1/\epsilon)$. This implies that QMEGS serves as an efficient and versatile approach, achieving the best-known results for both gapped and gapless systems. Numerical results validate the efficiency of our proposed algorithm in various regimes. | 翻訳日:2024-11-09 05:06:11 公開日:2024-09-26 |
# 部分グロモフ・ワッサーシュタイン計量
Partial Gromov-Wasserstein Metric ( http://arxiv.org/abs/2402.03664v3 ) ライセンス: Link先を確認 | Yikun Bai, Rocio Diaz Martin, Abihith Kothapalli, Hengrong Du, Xinran Liu, Soheil Kolouri, | (参考訳) 近年、Gromov-Wasserstein(GW)距離は、異なる距離空間における測度の比較を可能にするため、機械学習コミュニティへの関心が高まっている。
古典的なGW問題と同じ質量要件によって課される制限を克服するために、研究者たちはバランスの取れない環境でその応用を探求し始めている。
しかし、アンバランス GW (UGW) は、2つの測度空間 (mm-空間) の間の厳密な距離/距離というよりは、差分と見なすことができる。
本稿では,部分グロモフ・ワッサーシュタイン(PGW)と呼ばれるUGW問題の特殊な事例を提案する。
我々は、PGWがmm空間間のよく定義された計量であることを確立し、PGW問題に対する最小化器の存在やPGWとGWの関係など、理論的性質について議論する。
次に、PGW問題を解くために、Frank-Wolfeアルゴリズムの2つの変種を提案し、それらが数学的および計算学的に等価であることを示す。
さらに、PGW測定値に基づいて、mm-空間に対するバリー中心の類似概念を導入する。
最後に, 形状マッチング, 形状検索, 形状補間などの応用において, PGW測定と関連する解法の有効性を検証し, 既存のベースラインと比較した。
The Gromov-Wasserstein (GW) distance has gained increasing interest in the machine learning community in recent years, as it allows for the comparison of measures in different metric spaces. To overcome the limitations imposed by the equal mass requirements of the classical GW problem, researchers have begun exploring its application in unbalanced settings. However, Unbalanced GW (UGW) can only be regarded as a discrepancy rather than a rigorous metric/distance between two metric measure spaces (mm-spaces). In this paper, we propose a particular case of the UGW problem, termed Partial Gromov-Wasserstein (PGW). We establish that PGW is a well-defined metric between mm-spaces and discuss its theoretical properties, including the existence of a minimizer for the PGW problem and the relationship between PGW and GW, among others. We then propose two variants of the Frank-Wolfe algorithm for solving the PGW problem and show that they are mathematically and computationally equivalent. Moreover, based on our PGW metric, we introduce the analogous concept of barycenters for mm-spaces. Finally, we validate the effectiveness of our PGW metric and related solvers in applications such as shape matching, shape retrieval, and shape interpolation, comparing them against existing baselines. | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-26 |
# 裁判官としての人間・LLM : 判断バイアスに関する研究
Humans or LLMs as the Judge? A Study on Judgement Biases ( http://arxiv.org/abs/2402.10669v5 ) ライセンス: Link先を確認 | Guiming Hardy Chen, Shunian Chen, Ziche Liu, Feng Jiang, Benyou Wang, | (参考訳) LLMの性能を評価するために,人・大言語モデル(LLM)を審査員(人・人・人)として採用することが近年注目されている。
それにもかかわらず、このアプローチは人間とLLMの潜在的なバイアスを同時に導入し、評価結果の信頼性を疑問視する。
本稿では, LLM における誤情報監視バイアス, ジェンダーバイアス, オーソリティバイアス, 美容バイアスを調査するための基礎的アノテーションの参照が不要な新しい枠組みを提案する。
改訂されたブルームの分類に言及したデータセットをキュレートし、何千もの評価を行う。
その結果、人間とLLMの裁判官は様々な程度に摂動に弱いこと、そして最先端の裁判官でさえかなりの偏見を持っていることが明らかとなった。
我々はさらにこれらのバイアスを利用してLLM審査員に対する攻撃を行う。
我々は,人間とLLM-as-a-judgeのバイアスと脆弱性,および堅牢な評価システムの開発の緊急性について,コミュニティに通知できることを願っている。
Adopting human and large language models (LLM) as judges (a.k.a human- and LLM-as-a-judge) for evaluating the performance of LLMs has recently gained attention. Nonetheless, this approach concurrently introduces potential biases from human and LLMs, questioning the reliability of the evaluation results. In this paper, we propose a novel framework that is free from referencing groundtruth annotations for investigating Misinformation Oversight Bias, Gender Bias, Authority Bias and Beauty Bias on LLM and human judges. We curate a dataset referring to the revised Bloom's Taxonomy and conduct thousands of evaluations. Results show that human and LLM judges are vulnerable to perturbations to various degrees, and that even the cutting-edge judges possess considerable biases. We further exploit these biases to conduct attacks on LLM judges. We hope that our work can notify the community of the bias and vulnerability of human- and LLM-as-a-judge, as well as the urgency of developing robust evaluation systems. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-26 |
# 効率的な言語モデル推論のための言語間語彙適応に関する実証的研究
An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient Language Model Inference ( http://arxiv.org/abs/2402.10712v3 ) ライセンス: Link先を確認 | Atsuki Yamaguchi, Aline Villavicencio, Nikolaos Aletras, | (参考訳) 最先端の生成型大言語モデル(LLM)の開発は、英語中心のトークン化器、語彙、事前学習データに依存している。
LLMには多言語機能があるにもかかわらず、近年の研究では、英語以外の言語でテキストを生成する際に、推論効率が低下することが示されている。
その結果、推論時間とコストが増加する。
下流の性能向上を目的としたターゲット言語にモデルを適用するために,言語間語彙適応法 (CVA) が提案されている。
しかし, 生成LDMの推論効率向上に対するこれらの手法の有効性については, 未だ検討されていない。
本稿では,4つの言語と4つの自然言語理解タスクにおける4つの生成LLM(単言語モデルと多言語モデルを含む)に対する5つのCVA手法の実証的研究を行う。
CVA は LLM の推論速度を最大 271.5 % まで向上させる。
また、よりバランスの取れた多言語データに事前学習されたLLMを適応させることで、元のモデルに匹敵するダウンストリーム性能が得られることを示す。
The development of state-of-the-art generative large language models (LLMs) disproportionately relies on English-centric tokenizers, vocabulary and pre-training data. Despite the fact that some LLMs have multilingual capabilities, recent studies have shown that their inference efficiency deteriorates when generating text in languages other than English. This results in increased inference time and costs. Cross-lingual vocabulary adaptation (CVA) methods have been proposed for adapting models to a target language aiming to improve downstream performance. However, the effectiveness of these methods on increasing inference efficiency of generative LLMs has yet to be explored. In this paper, we perform an empirical study of five CVA methods on four generative LLMs (including monolingual and multilingual models) across four typologically-diverse languages and four natural language understanding tasks. We find that CVA substantially contributes to LLM inference speedups of up to 271.5\%. We also show that adapting LLMs that have been pre-trained on more balanced multilingual data results in downstream performance comparable to the original models. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-26 |
# 不完全投票による投票ルールの計算
Computing Voting Rules with Elicited Incomplete Votes ( http://arxiv.org/abs/2402.11104v2 ) ライセンス: Link先を確認 | Daniel Halpern, Safwan Hossain, Jamie Tucker-Foltz, | (参考訳) 多数の$m$候補に対して、完全な順序的選好を規定することの難しさから、有権者に$t < m$候補について問い合わせることによって計算可能な投票ルールについて検討する。
この問題の具体例に焦点をあてた先行研究を一般化し, 本稿では, 1 t < m$ の任意の値に対して計算可能な位置スコアリングルールの集合を特徴付ける。
次に、これを拡張して、単一の投票(除票)に対して、同様の不可解な結果を示す。
これらの負の結果は、クエリの数に情報理論と非依存である。
最後に、限定的なクエリで計算可能なスコアリングルールに対して、パラメータ化された上位および下位境界を、決定論的あるいはランダム化アルゴリズムがスコア最大化候補を決定するために与える。
決定論的アルゴリズムのバウンダリ間にはギャップはないが、ランダム化アルゴリズムの正確なクエリ複雑性を特定することは難しい問題であり、1つの特別なケースを解決する。
Motivated by the difficulty of specifying complete ordinal preferences over a large set of $m$ candidates, we study voting rules that are computable by querying voters about $t < m$ candidates. Generalizing prior works that focused on specific instances of this problem, our paper fully characterizes the set of positional scoring rules that can be computed for any $1 \leq t < m$, which, notably, does not include plurality. We then extend this to show a similar impossibility result for single transferable vote (elimination voting). These negative results are information-theoretic and agnostic to the number of queries. Finally, for scoring rules that are computable with limited-sized queries, we give parameterized upper and lower bounds on the number of such queries a deterministic or randomized algorithm must make to determine the score-maximizing candidate. While there is no gap between our bounds for deterministic algorithms, identifying the exact query complexity for randomized algorithms is a challenging open problem, of which we solve one special case. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-26 |
# 深部強化学習に基づく計算流体力学におけるアクティブフロー制御のための最適並列化法
Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics ( http://arxiv.org/abs/2402.11515v5 ) ライセンス: Link先を確認 | Wang Jia, Hang Xu, | (参考訳) Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。
しかし、DRLモデルのトレーニングに伴う計算コストは、大きなパフォーマンスボトルネックを生じさせる。
この課題に対処し、高性能コンピューティングアーキテクチャの効率的なスケーリングを実現するために、DRLベースのアルゴリズムを並列設定で最適化することに焦点を当てた。
我々は、AFC問題に使用される既存の最先端DRLフレームワークを検証し、その効率ボトルネックについて議論する。
その後、フレームワーク全体を分解し、個々のコンポーネントの広範なスケーラビリティベンチマークを行うことで、様々なハイブリッド並列化構成を調査し、効率的な並列化戦略を提案する。
さらに、多環境DRLトレーニングにおける入出力(I/O)操作を洗練し、データ移動に伴う重大なオーバーヘッドに対処する。
最後に,一般のAFC問題に対して,フレームワーク全体に対してほぼ線形なスケーリングが得られる最適化されたフレームワークを実演する。
並列効率を約49%から約78%に向上させ,60コアのCPUコアを用いて約47倍の高速化を実現した。
これらの知見は、DRLに基づくAFC研究のさらなる進歩に有用な知見をもたらすことが期待されている。
その結果、重要な関心を持つ顕著で活発に研究されている問題である。
Deep Reinforcement Learning (DRL) has emerged as a promising approach for handling highly dynamic and nonlinear Active Flow Control (AFC) problems. However, the computational cost associated with training DRL models presents a significant performance bottleneck. To address this challenge and enable efficient scaling on high-performance computing architectures, this study focuses on optimizing DRL-based algorithms in parallel settings. We validate an existing state-of-the-art DRL framework used for AFC problems and discuss its efficiency bottlenecks. Subsequently, by deconstructing the overall framework and conducting extensive scalability benchmarks for individual components, we investigate various hybrid parallelization configurations and propose efficient parallelization strategies. Moreover, we refine input/output (I/O) operations in multi-environment DRL training to tackle critical overhead associated with data movement. Finally, we demonstrate the optimized framework for a typical AFC problem where near-linear scaling can be obtained for the overall framework. We achieve a significant boost in parallel efficiency from around 49% to approximately 78%, and the training process is accelerated by approximately 47 times using 60 central processing unit (CPU) cores. These findings are expected to provide valuable insights for further advancements in DRL-based AFC studies. Consequently, it continues to be a prominent and actively studied problem of significant interest. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-26 |
# 機械学習による画像認識: 量子画像処理の品質と信頼性を向上するための新しいアプローチ
Image Denoising with Machine Learning: A Novel Approach to Improve Quantum Image Processing Quality and Reliability ( http://arxiv.org/abs/2402.11645v2 ) ライセンス: Link先を確認 | Yifan Zhou, Yan Shing Liang, | (参考訳) 量子画像処理(Quantum Image Processing, QIP)は、画像の操作と解析に量子コンピューティングの利点を活用することを目的とした分野である。
しかし、QIPは量子ビットの制限と量子マシンにおけるノイズの存在という2つの課題に直面している。
本研究では,QIPにおけるノイズ問題に対処する新しい手法を提案する。
量子処理された画像のノイズを識別・補正する機械学習モデルを訓練・採用することにより、機械によるノイズを補償し、従来のコンピュータと同じような処理結果を高い効率で検索することができる。
このモデルは、既存の処理された画像と、オープンアクセスデータセットから量子処理された画像の両方からなるデータセットを学習することでトレーニングされる。
このモデルは、各ピクセルとその潜在的な原値に対する信頼レベルを提供することができる。
QIPにおける損失とデコヒーレンスを補正するモデルの精度を評価するために,Pak Signal to Noise Ratio (PSNR), Structure similarity Index (SSIM), Mean Opinion Score (MOS)の3つの指標を用いて評価を行った。
さらに、ドメイン間のモデルの適用性や、代替手法と比較してコスト効果についても論じる。
Quantum Image Processing (QIP) is a field that aims to utilize the benefits of quantum computing for manipulating and analyzing images. However, QIP faces two challenges: the limitation of qubits and the presence of noise in a quantum machine. In this research, we propose a novel approach to address the issue of noise in QIP. By training and employing a machine learning model that identifies and corrects the noise in quantum-processed images, we can compensate for the noisiness caused by the machine and retrieve a processing result similar to that performed by a classical computer with higher efficiency. The model is trained by learning a dataset consisting of both existing processed images and quantum-processed images from open-access datasets. This model will be capable of providing us with the confidence level for each pixel and its potential original value. To assess the model's accuracy in compensating for loss and decoherence in QIP, we evaluate it using three metrics: Peak Signal to Noise Ratio (PSNR), Structural Similarity Index (SSIM), and Mean Opinion Score (MOS). Additionally, we discuss the applicability of our model across domains well as its cost effectiveness compared to alternative methods. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-26 |
# ICON: 病変認識混合増強による放射線学レポート作成におけるレポート間整合性の改善
ICON: Improving Inter-Report Consistency in Radiology Report Generation via Lesion-aware Mixup Augmentation ( http://arxiv.org/abs/2402.12844v2 ) ライセンス: Link先を確認 | Wenjun Hou, Yi Cheng, Kaishuai Xu, Yan Hu, Wenjie Li, Jiang Liu, | (参考訳) 放射線学報告生成に関するこれまでの研究は, 臨床報告の精度を高めるという点で大きな進歩を遂げている。
本稿では,意味的に等価な無線画像に対して,一貫性のあるレポートを生成する能力に言及した,レポート間整合性(inter-report consistency)という,それを持つべき重要な品質を強調した。
この品質は、システムの信頼性を保証するという点で、全体のレポートの正確さよりもさらに重要である。
既存のアプローチは、レポート間の一貫性を維持するのに苦労し、共通のパターンへのバイアスを示し、病変の変異への感受性を示す。
この問題に対処するために,放射線学レポート生成のレポート間の整合性を改善するICONを提案する。
本手法は, 意味的に等価な病変の類似性を捉えるシステムの能力を高めるために, 入力画像から病変を抽出し, その特徴を調べることを目的としている。
そこで,本研究では, 意味論的に等価な病変の表現が, トレーニング期間中に線形結合によって達成される同一属性と一致することを保証するために, 病変認識混合手法を提案する。
3つの公開胸部X線データセットによる広範囲な実験により, 得られた報告の整合性と精度の両面で, アプローチの有効性が検証された。
Previous research on radiology report generation has made significant progress in terms of increasing the clinical accuracy of generated reports. In this paper, we emphasize another crucial quality that it should possess, i.e., inter-report consistency, which refers to the capability of generating consistent reports for semantically equivalent radiographs. This quality is even of greater significance than the overall report accuracy in terms of ensuring the system's credibility, as a system prone to providing conflicting results would severely erode users' trust. Regrettably, existing approaches struggle to maintain inter-report consistency, exhibiting biases towards common patterns and susceptibility to lesion variants. To address this issue, we propose ICON, which improves the inter-report consistency of radiology report generation. Aiming to enhance the system's ability to capture similarities in semantically equivalent lesions, our approach first involves extracting lesions from input images and examining their characteristics. Then, we introduce a lesion-aware mixup technique to ensure that the representations of the semantically equivalent lesions align with the same attributes, achieved through a linear combination during the training phase. Extensive experiments on three publicly available chest X-ray datasets verify the effectiveness of our approach, both in terms of improving the consistency and accuracy of the generated reports. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-26 |
# 工学的階層的対称性
Engineering Hierarchical Symmetries ( http://arxiv.org/abs/2402.13519v2 ) ライセンス: Link先を確認 | Zhanpeng Fu, Roderich Moessner, Hongzheng Zhao, Marin Bukov, | (参考訳) 本稿では,多体システムに対して,前者よりも低い対称性を示す予熱状態列を生成するための一般的な駆動プロトコルを提案する。
これらの対称性を示す有効ハミルトニアンを明示的に構築する。
これは創発的準保存法則を階層的に反映し、非平衡物質における各対称性と共役秩序を設計することができる。
時空間現象や位相現象を含む明示的な例や、対称性のはしご $\text{SU(2)}{\rightarrow}\text{U(1)} {\rightarrow} \mathbb{Z}_2{\rightarrow} E$ を実現するスピンチェインを提供する。
We present a general driving protocol for many-body systems to generate a sequence of prethermal regimes, each exhibiting a lower symmetry than the preceding one. We provide an explicit construction of effective Hamiltonians exhibiting these symmetries. This imprints emergent quasi-conservation laws hierarchically, enabling us to engineer the respective symmetries and concomitant orders in nonequilibrium matter. We provide explicit examples, including spatiotemporal and topological phenomena, as well as a spin chain realizing the symmetry ladder $\text{SU(2)}{\rightarrow}\text{U(1)} {\rightarrow} \mathbb{Z}_2{\rightarrow} E$. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-26 |
# エンタングルメント顕微鏡:量子モンテカルロによるトモグラフィーとエンタングルメント対策
Entanglement Microscopy: Tomography and Entanglement Measures via Quantum Monte Carlo ( http://arxiv.org/abs/2402.14916v4 ) ライセンス: Link先を確認 | Ting-Tung Wang, Menghan Song, Liuke Lyu, William Witczak-Krempa, Zi Yang Meng, | (参考訳) 我々は、エンタングルメント顕微鏡と呼ばれるプロトコルを用いて、スピンおよびフェルミオン多体系の両方において、顕微鏡サブリージョンの完全な還元密度行列に符号化された多重粒子エンタングルメントを明らかにする。
本研究では,2次元の量子臨界点(QCP)近傍の位相図(横場イジングモデル)とディラックフェルミオンのグロス・ネヴェウ・ユーカ転移(Gross-Neveu-Yukawa transition)について検討した。
私たちの主な成果は次のとおりです。
一 イシングQCPは、空間及び温度の両方において、LNの有限の急死を伴う短距離絡みを呈する。
二 グロス・ネヴェウ QCP は、共形場理論(CFT)指数と整合するパワー-ルー崩壊フェルミオン LN を有する。
iii) 2dのIsing QCP付近の大きなパラメータウィンドウにおいて, 2dと対照的に,2人の目撃者による検出可能な3方向の絡み合いは見つからない。
さらに、臨界点における一般多部交絡測度の特異なスケーリングを確立し、三部交絡の場合の明示的な解析を提示する。
また、一般的な相互作用系に対するフェルミオンLNの大規模温度スケールを解析的に取得する。
エンタングルメント顕微鏡は豊富な窓を量子物質に開き、無数のシステムが探索されるのを待っている。
We employ a protocol, dubbed entanglement microscopy, to reveal the multipartite entanglement encoded in the full reduced density matrix of microscopic subregion both in spin and fermionic many-body systems. We exemplify our method by studying the phase diagram near quantum critical points (QCP) in 2 spatial dimensions: the transverse field Ising model and a Gross-Neveu-Yukawa transition of Dirac fermions. Our main results are: i) the Ising QCP exhibits short-range entanglement with a finite sudden death of the LN both in space and temperature; ii) the Gross-Neveu QCP has a power-law decaying fermionic LN consistent with conformal field theory (CFT) exponents; iii) going beyond bipartite entanglement, we find no detectable 3-party entanglement with our two witnesses in a large parameter window near the Ising QCP in 2d, in contrast to 1d. We further establish the singular scaling of general multipartite entanglement measures at criticality, and present an explicit analysis in the tripartite case. We also analytically obtain the large-temperature power-law scaling of the fermionic LN for general interacting systems. Entanglement microscopy opens a rich window into quantum matter, with countless systems waiting to be explored. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-26 |
# 非エルミート系における類似性の本質的含意
Essential implications of similarities in non-Hermitian systems ( http://arxiv.org/abs/2402.18249v2 ) ライセンス: Link先を確認 | Anton Montag, Flore K. Kunst, | (参考訳) 本稿では、3つの異なる一般化された類似性が、低次元非エルミート系の例外点を誘導するすべてのユニタリ対称性と反ユニタリ対称性を包含していることを示す。
一般化された類似性条件は、ユニタリ対称性あるいは反ユニタリ対称性によって定義される任意のクラスよりもより大きな系のクラスをもたらすことを証明している。
さらに、類似性はハミルトニアンにスペクトル対称性を強制し、例外点の余次元を減少させる。
その結果、類似性はより制限的なユニタリ対称性や反ユニタリ対称性を必要とせず、より低次元の例外的な点の出現を促す。
In this paper, we show that three different generalized similarities enclose all unitary and anti-unitary symmetries that induce exceptional points in lower-dimensional non-Hermitian systems. We prove that the generalized similarity conditions result in a larger class of systems than any class defined by a unitary or anti-unitary symmetry. Further we highlight that the similarities enforce spectral symmetry on the Hamiltonian resulting in a reduction of the codimension of exceptional points. As a consequence we show that the similarities drive the emergence of exceptional points in lower dimensions without the more restrictive need for a unitary and/or anti-unitary symmetry. | 翻訳日:2024-11-09 04:21:34 公開日:2024-09-26 |
# 原型最適輸送による教師なしクロスドメイン画像検索
Unsupervised Cross-Domain Image Retrieval via Prototypical Optimal Transport ( http://arxiv.org/abs/2402.18411v3 ) ライセンス: Link先を確認 | Bin Li, Ye Shi, Qian Yu, Jingya Wang, | (参考訳) 非教師なしクロスドメイン画像検索(UCIR)は、ラベル付きデータに頼ることなく、さまざまなドメインで同じカテゴリを共有する画像を検索することを目的としている。
従来のアプローチでは、UCIRの問題をドメイン内表現学習とドメイン間特徴アライメントという2つの異なるタスクに分解していた。
しかし、これらの分離戦略は、これらのタスク間の潜在的なシナジーを見落としている。
本稿では、ドメイン内特徴表現学習とクロスドメインアライメントを統合フレームワークに統合した、UCIR用に明示的に調整された新しい最適輸送定式化であるProtoOTを紹介する。
ProtoOTは、K平均クラスタリング法の強度を利用して、UCIR固有の分布不均衡を効果的に管理する。
初期プロトタイプの生成とクラス境界分布の近似にK-meansを用いることで、最適輸送における制約を修正し、UCIRシナリオにおけるその性能を大幅に向上させる。
さらに,コントラスト学習をProtoOTフレームワークに組み込んで表現学習をさらに改善する。
これにより、類似のセマンティクスを持つ機能間の局所的なセマンティクスの一貫性が促進されると同時に、特徴と未整合プロトタイプの分離を明示的に実施し、グローバルな差別性を高めることができる。
ProtoOTは、既存の最先端メソッドを、ベンチマークデータセット間で顕著なマージンで上回っている。
特にDomainNetでは、ProtoOTは平均18.17%のP@200拡張を実現し、Office-Homeでは3.83%のP@15改善を実証している。
Unsupervised cross-domain image retrieval (UCIR) aims to retrieve images sharing the same category across diverse domains without relying on labeled data. Prior approaches have typically decomposed the UCIR problem into two distinct tasks: intra-domain representation learning and cross-domain feature alignment. However, these segregated strategies overlook the potential synergies between these tasks. This paper introduces ProtoOT, a novel Optimal Transport formulation explicitly tailored for UCIR, which integrates intra-domain feature representation learning and cross-domain alignment into a unified framework. ProtoOT leverages the strengths of the K-means clustering method to effectively manage distribution imbalances inherent in UCIR. By utilizing K-means for generating initial prototypes and approximating class marginal distributions, we modify the constraints in Optimal Transport accordingly, significantly enhancing its performance in UCIR scenarios. Furthermore, we incorporate contrastive learning into the ProtoOT framework to further improve representation learning. This encourages local semantic consistency among features with similar semantics, while also explicitly enforcing separation between features and unmatched prototypes, thereby enhancing global discriminativeness. ProtoOT surpasses existing state-of-the-art methods by a notable margin across benchmark datasets. Notably, on DomainNet, ProtoOT achieves an average P@200 enhancement of 18.17%, and on Office-Home, it demonstrates a P@15 improvement of 3.83%. | 翻訳日:2024-11-09 04:21:34 公開日:2024-09-26 |
# 熱拡散による効率的な組合せ最適化
Efficient Combinatorial Optimization via Heat Diffusion ( http://arxiv.org/abs/2403.08757v4 ) ライセンス: Link先を確認 | Hengyuan Ma, Wenlian Lu, Jianfeng Feng, | (参考訳) 組合せ最適化問題は広く存在するが、本質的には離散的な性質のため困難である。
既存の手法の最大の制限は、各反復で解空間のごく一部しかアクセスできないことである。
この課題を克服するため,解答者の探索範囲を拡大する従来の取り組みから切り離して,熱拡散による解答者への情報伝達を積極的に行うことに注力した。
目標関数を最適に保ちながら変換することにより、熱拡散は、遠隔地からソルバへの情報流を容易にし、より効率的なナビゲーションを提供する。
熱拡散を利用して、一般的な組合せ最適化問題を解くための枠組みを提案する。
提案手法は、最も困難で広く遭遇する組合せ最適化の範囲で優れた性能を示す。
生成人工知能に熱力学を応用した最近の進歩を振り返って, 組合せ最適化の進歩におけるその大きな可能性を明らかにした。
Combinatorial optimization problems are widespread but inherently challenging due to their discrete nature. The primary limitation of existing methods is that they can only access a small fraction of the solution space at each iteration, resulting in limited efficiency for searching the global optimal. To overcome this challenge, diverging from conventional efforts of expanding the solver's search scope, we focus on enabling information to actively propagate to the solver through heat diffusion. By transforming the target function while preserving its optima, heat diffusion facilitates information flow from distant regions to the solver, providing more efficient navigation. Utilizing heat diffusion, we propose a framework for solving general combinatorial optimization problems. The proposed methodology demonstrates superior performance across a range of the most challenging and widely encountered combinatorial optimizations. Echoing recent advancements in harnessing thermodynamics for generative artificial intelligence, our study further reveals its significant potential in advancing combinatorial optimization. | 翻訳日:2024-11-09 04:10:35 公開日:2024-09-26 |
# AIを駆使した集団知能
AI-enhanced Collective Intelligence ( http://arxiv.org/abs/2403.10433v4 ) ライセンス: Link先を確認 | Hao Cui, Taha Yasseri, | (参考訳) 現在の社会的課題は、単独または集団で活動する人間の能力を超えている。
AIが進化するにつれて、人間の集団におけるその役割は、補助ツールから参加メンバまで様々である。
人間とAIは相補的な能力を持ち、同時に人間またはAIの集団的知能を単独で超越することができる。
しかしながら、人間とAIシステムの相互作用は本質的に複雑であり、複雑なプロセスと相互依存を含んでいる。
このレビューでは、複雑なネットワーク科学からの視点を取り入れ、認知層、物理層、情報層を含む、人間-AI集団知能の多層表現を概念化する。
この多層ネットワークでは、人間とAIエージェントは様々な特性を示しており、人間は表面レベルから深層レベルまで様々である。
エージェントの多様性と相互作用がシステムの集合知にどのように影響するかを探求し、AIによって強化された集合知の実例を分析する。
この分野での潜在的な課題と今後の発展を考慮し、結論を下す。
Current societal challenges exceed the capacity of humans operating either alone or collectively. As AI evolves, its role within human collectives will vary from an assistive tool to a participatory member. Humans and AI possess complementary capabilities that, together, can surpass the collective intelligence of either humans or AI in isolation. However, the interactions in human-AI systems are inherently complex, involving intricate processes and interdependencies. This review incorporates perspectives from complex network science to conceptualize a multilayer representation of human-AI collective intelligence, comprising cognition, physical, and information layers. Within this multilayer network, humans and AI agents exhibit varying characteristics; humans differ in diversity from surface-level to deep-level attributes, while AI agents range in degrees of functionality and anthropomorphism. We explore how agents' diversity and interactions influence the system's collective intelligence and analyze real-world instances of AI-enhanced collective intelligence. We conclude by considering potential challenges and future developments in this field. | 翻訳日:2024-11-09 03:59:25 公開日:2024-09-26 |
# SF-MMCN:低出力多モード拡散モデル加速器
SF-MMCN: Low-Power Sever Flow Multi-Mode Diffusion Model Accelerator ( http://arxiv.org/abs/2403.10542v2 ) ライセンス: Link先を確認 | Huan-Ke Hsu, I-Chyn Wey, T. Hui Teo, | (参考訳) 近年,生成人工知能(AI)が急速に普及しており,大規模パラメータを扱う上での従来のアクセラレータの重要性が急務である。
拡散モデルの並列構造により、複数の層が同時に動作するため、ハードウェア設計の課題が急増した。
畳み込みニューラルネットワーク(CNN)アクセラレータは,特に高速推論のために設計・開発が急速に進んでいる。
多くの場合、並列構造を持つCNNモデルがデプロイされる。
これらのCNN加速器では、多くの処理要素(PE)が、主に乗算および蓄積(MAC)演算を並列計算するために必要であり、高い消費電力と大きなシリコン領域をもたらす。
本研究では,サーバフローマルチモードCNNユニット(SF-MMCN)を提案する。
並列計算を処理するために、パイプライニング技術がServer Flowに導入されている。
提案するSF-MMCNは、TSMC 90nm CMOS技術で実装されている。
VGG-16、ResNet-18、U-netで評価される。
その結果,提案したSF-MMCNは電力消費量を92%削減し,シリコン面積を70%削減し,運転効率を81倍に向上させることができた。
また, 新しいFoM, 面積効率 (GOPs/mm^2) を導入し, 比スループット (GOPs) とシリコン面積 (mm^2) の観点から加速器の性能評価を行った。
このフォムでは、SF-MMCNは面積効率を18倍に改善する(18.42)。
Generative Artificial Intelligence (AI) has become incredibly popular in recent years, and the significance of traditional accelerators in dealing with large-scale parameters is urgent. With the diffusion model's parallel structure, the hardware design challenge has skyrocketed because of the multiple layers operating simultaneously. Convolution Neural Network (CNN) accelerators have been designed and developed rapidly, especially for high-speed inference. Often, CNN models with parallel structures are deployed. In these CNN accelerators, many Processing Elements (PE) are required to perform parallel computations, mainly the multiply and accumulation (MAC) operation, resulting in high power consumption and a large silicon area. In this work, a Server Flow Multi-Mode CNN Unit (SF-MMCN) is proposed to reduce the number of PE while improving the operation efficiency of the CNN accelerator. The pipelining technique is introduced into Server Flow to process parallel computations. The proposed SF-MMCN is implemented with TSMC 90-nm CMOS technology. It is evaluated with VGG-16, ResNet-18, and U-net. The evaluation results show that the proposed SF-MMCN can reduce the power consumption by 92%, and the silicon area by 70%, while improving the efficiency of operation by nearly 81 times. A new FoM, area efficiency (GOPs/mm^2) is also introduced to evaluate the performance of the accelerator in terms of the ratio throughput (GOPs) and silicon area (mm^2). In this FoM, SF-MMCN improves area efficiency by 18 times (18.42). | 翻訳日:2024-11-09 03:59:25 公開日:2024-09-26 |
# VITaL プレトレーニング: 触覚・非触覚操作のための Visuo-Tactile Pretraining
VITaL Pretraining: Visuo-Tactile Pretraining for Tactile and Non-Tactile Manipulation Policies ( http://arxiv.org/abs/2403.11898v2 ) ライセンス: Link先を確認 | Abraham George, Selam Gano, Pranav Katragadda, Amir Barati Farimani, | (参考訳) 触覚情報は器用な操作にとって重要なツールである。
人間として、私たちは私たちの環境の物体を理解するために触覚情報に大きく依存しています。
操作タスクの実行だけでなく、これらのタスクの実行方法の学習にもタッチを使用します。
したがって、人間や超人的なパフォーマンスで操作作業の完了を学習できるロボットエージェントを作成するためには、触覚情報をスキル実行とスキル学習の両方に適切に組み込む必要がある。
本稿では,触覚情報を模倣学習プラットフォームに組み込んで操作タスクの性能向上を図る。
触覚前訓練を取り入れることで、触覚エージェント(推論時に触覚情報を使用する政治)だけでなく、非触覚エージェント(推論時に触覚情報を使用しない政治)にも模倣学習性能が向上することを示す。
これらの非触覚エージェントに対して、触覚情報による事前トレーニングは、性能を著しく向上させ(例えば、USBプラグの精度を20%から85%に向上させる)、ビジュオ触覚エージェントと同等のレベルに達し、場合によってはそれを上回った。
デモビデオとコードベースへのアクセスについては、プロジェクトのWebサイトを参照してください。
Tactile information is a critical tool for dexterous manipulation. As humans, we rely heavily on tactile information to understand objects in our environments and how to interact with them. We use touch not only to perform manipulation tasks but also to learn how to perform these tasks. Therefore, to create robotic agents that can learn to complete manipulation tasks at a human or super-human level of performance, we need to properly incorporate tactile information into both skill execution and skill learning. In this paper, we investigate how we can incorporate tactile information into imitation learning platforms to improve performance on manipulation tasks. We show that incorporating visuo-tactile pretraining improves imitation learning performance, not only for tactile agents (policies that use tactile information at inference), but also for non-tactile agents (policies that do not use tactile information at inference). For these non-tactile agents, pretraining with tactile information significantly improved performance (for example, improving the accuracy on USB plugging from 20% to 85%), reaching a level on par with visuo-tactile agents, and even surpassing them in some cases. For demonstration videos and access to our codebase, see the project website: https://sites.google.com/andrew.cmu.edu/visuo-tactile-pretraining | 翻訳日:2024-11-09 03:59:24 公開日:2024-09-26 |
# 機械学習における脅威、攻撃、防御 - 調査より
Threats, Attacks, and Defenses in Machine Unlearning: A Survey ( http://arxiv.org/abs/2403.13682v4 ) ライセンス: Link先を確認 | Ziyao Liu, Huanyi Ye, Chen Chen, Yongsen Zheng, Kwok-Yan Lam, | (参考訳) 機械学習(MU)は、トレーニングされた機械学習(ML)モデルから特定のデータの影響を取り除き、安全なAIを実現する可能性を秘めている。
このプロセスは知識除去として知られるもので、品質、感度、著作権制限、陳腐化といったトレーニングデータに関するAIガバナンス上の懸念に対処する。
この機能は、RTBF(Right To Be Forgotten)のようなプライバシー規制の遵守を保証する上でも重要である。
さらに、効果的な知識の除去は有害な結果のリスクを軽減し、バイアスや誤情報、不正なデータエクスプロイトから保護し、AIシステムの安全で責任ある使用を促進する。
MUサービスは既存の機械学習・アズ・ア・サービス(MLaaS)との統合のために検討されており、ユーザーはトレーニング・コーパスから特定のデータを削除するためのリクエストを提出することができる。
しかし、最近の研究では、情報漏洩や悪意のあるアンラーニングなどの機械学習システムの脆弱性が強調されており、セキュリティとプライバシの重大な懸念に繋がる可能性がある。
さらに,未学習の手法や攻撃がMUシステムにおける多様な役割を担っていることを示す。
このことは、システム機能と安全性の維持において、これらのメカニズム間の複雑な関係と複雑な相互作用を浮き彫りにする。
この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究と、それらの分類、方法、解決策を分類する包括的なレビューの欠如の間のギャップを埋めることを目的としており、将来の研究の方向性や実践的な実装について貴重な洞察を提供する。
Machine Unlearning (MU) has recently gained considerable attention due to its potential to achieve Safe AI by removing the influence of specific data from trained Machine Learning (ML) models. This process, known as knowledge removal, addresses AI governance concerns of training data such as quality, sensitivity, copyright restrictions, and obsolescence. This capability is also crucial for ensuring compliance with privacy regulations such as the Right To Be Forgotten (RTBF). Furthermore, effective knowledge removal mitigates the risk of harmful outcomes, safeguarding against biases, misinformation, and unauthorized data exploitation, thereby enhancing the safe and responsible use of AI systems. Efforts have been made to design efficient unlearning approaches, with MU services being examined for integration with existing machine learning as a service (MLaaS), allowing users to submit requests to remove specific data from the training corpus. However, recent research highlights vulnerabilities in machine unlearning systems, such as information leakage and malicious unlearning, that can lead to significant security and privacy concerns. Moreover, extensive research indicates that unlearning methods and prevalent attacks fulfill diverse roles within MU systems. This underscores the intricate relationship and complex interplay among these mechanisms in maintaining system functionality and safety. This survey aims to fill the gap between the extensive number of studies on threats, attacks, and defenses in machine unlearning and the absence of a comprehensive review that categorizes their taxonomy, methods, and solutions, thus offering valuable insights for future research directions and practical implementations. | 翻訳日:2024-11-09 03:59:23 公開日:2024-09-26 |
# 非協調細胞デバイスの物理的局在の解明
Enabling Physical Localization of Uncooperative Cellular Devices ( http://arxiv.org/abs/2403.14963v3 ) ライセンス: Link先を確認 | Taekkyung Oh, Sangwook Bae, Junho Ahn, Yonghwa Lee, Tuan Dinh Hoang, Min Suk Kang, Nils Ole Tippenhauer, Yongdae Kim, | (参考訳) 携帯電話ネットワークでは、当局は犯罪者や違法な機器を追跡するために、物理的にユーザーデバイスを見つける必要があるかもしれない。
このプロセスでは、セルオペレーターの助けを借りてアップリンク信号を監視することでデバイスを追跡できる権限のあるエージェントが関与する。
しかし、オペレーターや当局でさえ、非協調的なアップリンク信号の追跡は依然として困難である。
微細な局所化には3つの重要な課題が残る。
一 装置は、時間とともに十分な、一貫したアップリンクトラフィックを発生させなければならない。
二 ターゲット装置は、非常に低電力でアップリンク信号を送信することができる。
三 細胞リピータからの信号は、標的装置の局在を阻害することができる。
これらの課題は、ローカライゼーションに重大な現実的な障害をもたらすが、それらは既存の研究でほとんど見過ごされてきた。
本研究は,これらの実世界の課題が細胞局在に与える影響について検討し,その対策として非協調的多角的攻撃(UMA)を導入する。
UMA can
1) 目標装置にトラフィックの連続送信を強制する。
2)目標の信号強度を最大レベルまで引き上げ、
3) ターゲットからの信号とリピータの信号とを一意に区別する。
重要なのは、UMAは携帯電話事業者やユーザーデバイスへの特権アクセスを必要とせずに動作し、LTEネットワークにも適用可能であることだ。
本評価は, デバイスが非協調的である場合に, 物理的ローカライゼーションの実践的課題を効果的に克服できることを実証するものである。
In cellular networks, authorities may need to physically locate user devices to track criminals or illegal equipment. This process involves authorized agents tracing devices by monitoring uplink signals with cellular operator assistance. However, tracking uncooperative uplink signal sources remains challenging, even for operators and authorities. Three key challenges persist for fine-grained localization: i) devices must generate sufficient, consistent uplink traffic over time, ii) target devices may transmit uplink signals at very low power, and iii) signals from cellular repeaters may hinder localization of the target device. While these challenges pose significant practical obstacles to localization, they have been largely overlooked in existing research. This work examines the impact of these real-world challenges on cellular localization and introduces the Uncooperative Multiangulation Attack (UMA) to address them. UMA can 1) force a target device to transmit traffic continuously, 2) boost the target's signal strength to maximum levels, and 3) uniquely differentiate between signals from the target and repeaters. Importantly, UMA operates without requiring privileged access to cellular operators or user devices, making it applicable to any LTE network. Our evaluations demonstrate that UMA effectively overcomes practical challenges in physical localization when devices are uncooperative. | 翻訳日:2024-11-09 03:48:22 公開日:2024-09-26 |
# 非一様滑らかな非凸最適化のための確率的準ニュートン法
A Stochastic Quasi-Newton Method for Non-convex Optimization with Non-uniform Smoothness ( http://arxiv.org/abs/2403.15244v2 ) ライセンス: Link先を確認 | Zhenyu Sun, Ermin Wei, | (参考訳) 最適化アルゴリズムの古典的な収束解析は、広く適応された均一な滑らかさの仮定に依存する。
しかし、最近の実験では、多くの機械学習問題が不均一な滑らかさを示しており、つまり滑らかさ係数は普遍定数ではなくモデルパラメータの関数である。
特に、トレーニング軌道に沿った勾配ノルムに対して滑らかさが増加することが観察されている。
この現象に触発され、最近導入された$(L_0, L_1)$-smoothnessは、従来の$-L$-smoothnessと比較してより一般的な概念であり、滑らかさと勾配ノルムの間のそのような正の関係を捉えている。
このタイプの非一様滑らか性の下で、既存の文献は勾配クリッピング法を利用して確率的一階法を設計し、最適な$\mathcal{O}(\epsilon^{-3})$サンプル複雑性を求め、$\epsilon$-approximate 1階定常解を求める。
しかし、準ニュートン法の研究はいまだに不足している。
本稿では, 準ニュートン法について, より精度が高く, より堅牢性が高いことを考慮し, 滑らか性に非均一性が存在する場合の高速確率的準ニュートン法を提案する。
勾配のクリッピングとばらつきの低減を利用して、我々のアルゴリズムは最もよく知られた$\mathcal{O}(\epsilon^{-3})$サンプルの複雑さを達成でき、単純なハイパーパラメータチューニングで収束速度を上げることができる。
我々の数値実験により,提案アルゴリズムは最先端の手法よりも優れていることが示された。
Classical convergence analyses for optimization algorithms rely on the widely-adopted uniform smoothness assumption. However, recent experimental studies have demonstrated that many machine learning problems exhibit non-uniform smoothness, meaning the smoothness factor is a function of the model parameter instead of a universal constant. In particular, it has been observed that the smoothness grows with respect to the gradient norm along the training trajectory. Motivated by this phenomenon, the recently introduced $(L_0, L_1)$-smoothness is a more general notion, compared to traditional $L$-smoothness, that captures such positive relationship between smoothness and gradient norm. Under this type of non-uniform smoothness, existing literature has designed stochastic first-order algorithms by utilizing gradient clipping techniques to obtain the optimal $\mathcal{O}(\epsilon^{-3})$ sample complexity for finding an $\epsilon$-approximate first-order stationary solution. Nevertheless, the studies of quasi-Newton methods are still lacking. Considering higher accuracy and more robustness for quasi-Newton methods, in this paper we propose a fast stochastic quasi-Newton method when there exists non-uniformity in smoothness. Leveraging gradient clipping and variance reduction, our algorithm can achieve the best-known $\mathcal{O}(\epsilon^{-3})$ sample complexity and enjoys convergence speedup with simple hyperparameter tuning. Our numerical experiments show that our proposed algorithm outperforms the state-of-the-art approaches. | 翻訳日:2024-11-09 03:48:22 公開日:2024-09-26 |
# AC4:ZKPの回路制約に対する代数計算チェッカ
AC4: Algebraic Computation Checker for Circuit Constraints in ZKPs ( http://arxiv.org/abs/2403.15676v4 ) ライセンス: Link先を確認 | Hao Chen, Guoqiang Li, Minyu Chen, Ruibang Liu, Sinka Gao, | (参考訳) ゼロ知識証明(ZKP)システムは注目され、現代暗号において基本的な役割を担っている。
Zero-knowledge succinct non-interactive argument of knowledge (zk-SNARK)プロトコルは、算術回路プログラミングパラダイムによって実装されたZKPの使用を支配している。
しかし、過度に制約された回路や過度に制約された回路はバグを引き起こす可能性がある。
前者は、必要な制約を欠いた回路を指し、予期せぬ解を生じさせ、検証者が悪質な証人を受け入れ、後者は過度に制約された回路を指し、その結果、必要な解が欠如し、検証者が証人を受け入れない。
本稿では,ZKP回路の2種類のバグをピンポイントする手法を提案する。
この方法では、算術回路の制約を多項式方程式系に符号化し、計算機代数系によって有限体上で解く。
検証結果の分類が洗練され、システムの表現力が大幅に向上する。
提案手法の実装を表すためにAC4というツールが提案されている。
実験の結果、AC4はチェック比の増加を示し、Picusよりも29%改善し、Circom回路はチェッカー、Halo2回路は10%改善した。
解決可能な範囲内では、チェックタイムも顕著に改善され、以前の取り組みに比べて大幅に向上した。
Zero-knowledge proof (ZKP) systems have surged attention and held a fundamental role in contemporary cryptography. Zero-knowledge succinct non-interactive argument of knowledge (zk-SNARK) protocols dominate the ZKP usage, implemented through arithmetic circuit programming paradigm. However, underconstrained or overconstrained circuits may lead to bugs. The former refers to circuits that lack the necessary constraints, resulting in unexpected solutions and causing the verifier to accept a bogus witness, and the latter refers to circuits that are constrained excessively, resulting in lacking necessary solutions and causing the verifier to accept no witness. This paper introduces a novel approach for pinpointing two distinct types of bugs in ZKP circuits. The method involves encoding the arithmetic circuit constraints to polynomial equation systems and solving them over finite fields by the computer algebra system. The classification of verification results is refined, greatly enhancing the expressive power of the system. A tool, AC4, is proposed to represent the implementation of the method. Experiments show that AC4 demonstrates a increase in the checked ratio, showing a 29% improvement over Picus, a checker for Circom circuits, and a 10% improvement over halo2-analyzer, a checker for halo2 circuits. Within a solvable range, the checking time has also exhibited noticeable improvement, demonstrating a magnitude increase compared to previous efforts. | 翻訳日:2024-11-09 03:48:22 公開日:2024-09-26 |
# 変調型クロスアテンションメモリによる高能率映像オブジェクト分割
Efficient Video Object Segmentation via Modulated Cross-Attention Memory ( http://arxiv.org/abs/2403.17937v3 ) ライセンス: Link先を確認 | Abdelrahman Shaker, Syed Talal Wasim, Martin Danelljan, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan, | (参考訳) 近年,半教師付きビデオオブジェクトセグメンテーションにおいて,トランスフォーマーに基づくアプローチが有望な結果を示している。
しかし、これらのアプローチは一般的に、GPUメモリの要求が増加するため、数フレーム毎にメモリバンクを頻繁に拡張するため、長いビデオに苦しむ。
我々は,時間的スムーズさを頻繁なメモリ拡張を必要とせず,時間的スムーズさをモデル化するために,MCAメモリを最適化し,動的に変更するMAVOSというトランスフォーマーベースの手法を提案する。
提案したMCAは,映像長に関わらず,局所的特徴とグローバルな特徴を多種多様な粒度で効果的に符号化し,一貫した速度を効率的に維持する。
複数のベンチマーク、LVOS、Long-Time Video、DAVIS 2017の大規模な実験では、提案したコントリビューションの有効性が実時間推論に結びつき、長いビデオのセグメンテーション精度を低下させることなく、メモリ要求が著しく削減された。
既存のトランスフォーマーベースのアプローチと比較して、MAVOSはスピードを7.6倍にし、GPUメモリはショートビデオとロングビデオのデータセットで同等のセグメンテーション性能で87%削減しました。
特にLVOSデータセットでは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコアが63.3%に達しています。
私たちのコードとモデルは、https://github.com/Amshaker/MAVOS.comで公開されます。
Recently, transformer-based approaches have shown promising results for semi-supervised video object segmentation. However, these approaches typically struggle on long videos due to increased GPU memory demands, as they frequently expand the memory bank every few frames. We propose a transformer-based approach, named MAVOS, that introduces an optimized and dynamic long-term modulated cross-attention (MCA) memory to model temporal smoothness without requiring frequent memory expansion. The proposed MCA effectively encodes both local and global features at various levels of granularity while efficiently maintaining consistent speed regardless of the video length. Extensive experiments on multiple benchmarks, LVOS, Long-Time Video, and DAVIS 2017, demonstrate the effectiveness of our proposed contributions leading to real-time inference and markedly reduced memory demands without any degradation in segmentation accuracy on long videos. Compared to the best existing transformer-based approach, our MAVOS increases the speed by 7.6x, while significantly reducing the GPU memory by 87% with comparable segmentation performance on short and long video datasets. Notably on the LVOS dataset, our MAVOS achieves a J&F score of 63.3% while operating at 37 frames per second (FPS) on a single V100 GPU. Our code and models will be publicly available at: https://github.com/Amshaker/MAVOS. | 翻訳日:2024-11-09 03:48:22 公開日:2024-09-26 |
# HEMIT:Dual-Branch Pix2pix Generatorを用いた多重免疫組織化学画像翻訳
HEMIT: H&E to Multiplex-immunohistochemistry Image Translation with Dual-Branch Pix2pix Generator ( http://arxiv.org/abs/2403.18501v2 ) ライセンス: Link先を確認 | Chang Bian, Beth Philips, Tim Cootes, Martin Fergie, | (参考訳) 腫瘍の微小環境を理解する重要な方法として, 多重蛍光組織データの計算学的解析が注目されている。
HEMITは、ヘマトキシリンとエオシン(H&E)のセクションを多重免疫化学(mIHC)のイメージに翻訳するために設計されたデータセットで、DAPI、CD3、PanCKマーカーが特徴である。
HEMITのmIHC画像は、多成分で細胞レベルでH&Eと整合し、監督された染色翻訳タスクを充実させる。
我々の知る限り、HEMITは、H&EがマルチターゲットmIHC画像翻訳を可能にする、初めて公開されたセルレベルアライメントデータセットである。
このデータセットは、H&Eスライドアーカイブから新たな洞察を得る可能性がある新しい計算手法を開発するための貴重なリソースをコンピュータビジョンコミュニティに提供する。
また、残差畳み込みニューラルネットワーク(CNN)とスウィントランスフォーマーを用いて、他の一般的なアルゴリズムよりも優れた翻訳結果が得られる新しいデュアルブランチジェネレータアーキテクチャを提案する。
HEMITでの評価では、Pix2pixHD、Pix2pix、U-Net、ResNetを上回り、構造類似度指数測定(SSIM)、ピアソン相関スコア(R)、ピーク信号対雑音比(PSNR)などの主要な指標で最高スコアを達成している。
さらに、ダウンストリーム解析は、生成されたmIHC画像の品質をさらに検証するために使われてきた。
これらの結果は、ステン翻訳タスクの分野で新しいベンチマークを設定した。
Computational analysis of multiplexed immunofluorescence histology data is emerging as an important method for understanding the tumour micro-environment in cancer. This work presents HEMIT, a dataset designed for translating Hematoxylin and Eosin (H&E) sections to multiplex-immunohistochemistry (mIHC) images, featuring DAPI, CD3, and panCK markers. Distinctively, HEMIT's mIHC images are multi-component and cellular-level aligned with H&E, enriching supervised stain translation tasks. To our knowledge, HEMIT is the first publicly available cellular-level aligned dataset that enables H&E to multi-target mIHC image translation. This dataset provides the computer vision community with a valuable resource to develop novel computational methods which have the potential to gain new insights from H&E slide archives. We also propose a new dual-branch generator architecture, using residual Convolutional Neural Networks (CNNs) and Swin Transformers which achieves better translation outcomes than other popular algorithms. When evaluated on HEMIT, it outperforms pix2pixHD, pix2pix, U-Net, and ResNet, achieving the highest overall score on key metrics including the Structural Similarity Index Measure (SSIM), Pearson correlation score (R), and Peak signal-to-noise Ratio (PSNR). Additionally, downstream analysis has been used to further validate the quality of the generated mIHC images. These results set a new benchmark in the field of stain translation tasks. | 翻訳日:2024-11-09 03:37:10 公開日:2024-09-26 |
# 潜伏拡散空間における潜伏透かし:潜伏拡散空間における透かしの注入と検出
Latent Watermark: Inject and Detect Watermarks in Latent Diffusion Space ( http://arxiv.org/abs/2404.00230v3 ) ライセンス: Link先を確認 | Zheling Meng, Bo Peng, Jing Dong, | (参考訳) ウォーターマーキング(英: Watermarking)は、潜伏拡散モデルによって生成された画像を積極的に識別し、帰属するツールである。
既存の手法は、画質と透かしの堅牢性のジレンマに直面している。
画像品質の優れた透かしは通常、ぼかしやJPEG圧縮などの攻撃に対して弱い頑健さを持つが、優れた強靭性を持つ透かしは通常、画像品質に著しくダメージを与える。
このジレンマは、透かしがピクセル空間に注入され、検出される伝統的なパラダイムに由来し、透かしの検出と攻撃に対するレジリエンスにピクセルの摂動に依存している。
本稿では,潜伏拡散空間における透かしの注入と検出を効果的に行うことを強調し,進行的学習戦略を用いた潜伏透かしを提案する。
品質とロバスト性の間の直接的な関係を弱め、矛盾を和らげる。
2つのデータセットと10のウォーターマーク攻撃に対して評価を行う。
6つのメトリクスは、画像の品質と透かしの堅牢性を測定します。
その結果、StableSignature、StegaStamp、RoSteALS、LaWa、TreeRing、DiffuseTraceといった最近提案された手法と比較して、LWは堅牢性だけでなく、画質も優れていることがわかった。
私たちのコードはhttps://github.com/RichardSunnyMeng/LatentWatermarkで公開されます。
Watermarking is a tool for actively identifying and attributing the images generated by latent diffusion models. Existing methods face the dilemma of image quality and watermark robustness. Watermarks with superior image quality usually have inferior robustness against attacks such as blurring and JPEG compression, while watermarks with superior robustness usually significantly damage image quality. This dilemma stems from the traditional paradigm where watermarks are injected and detected in pixel space, relying on pixel perturbation for watermark detection and resilience against attacks. In this paper, we highlight that an effective solution to the problem is to both inject and detect watermarks in the latent diffusion space, and propose Latent Watermark with a progressive training strategy. It weakens the direct connection between quality and robustness and thus alleviates their contradiction. We conduct evaluations on two datasets and against 10 watermark attacks. Six metrics measure the image quality and watermark robustness. Results show that compared to the recently proposed methods such as StableSignature, StegaStamp, RoSteALS, LaWa, TreeRing, and DiffuseTrace, LW not only surpasses them in terms of robustness but also offers superior image quality. Our code will be available at https://github.com/RichardSunnyMeng/LatentWatermark. | 翻訳日:2024-11-09 03:37:09 公開日:2024-09-26 |
# NumeroLogic: 拡張LDMの数値推論のための数値符号化
NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning ( http://arxiv.org/abs/2404.00459v2 ) ライセンス: Link先を確認 | Eli Schwartz, Leshem Choshen, Joseph Shtok, Sivan Doveh, Leonid Karlinsky, Assaf Arbelle, | (参考訳) 言語モデルは数値データを扱い、算術演算を行うのに苦労する。
我々は、この制限は直観的でないテキスト数表現に部分的に帰属できると仮定する。
数字が因果言語モデルで読み取られたり生成されたりすると、その位置値(例えば、数千対数百)が全数値が処理されるまでは分からない。
この問題に対処するために,各数字の前に数字の個数を含めることで,数がどのように表現されるかを簡単に調整する手法を提案する。
例えば、"42"の代わりに、新しいフォーマットとして"{2:42}"を使うことを提案する。
このアプローチは、NumeroLogicと呼ばれ、CoT(Chain of Thought)として機能することで、数生成にさらなる利点をもたらす。
モデルにまず数字の数を考慮させることで、実際の数字を生成する前に推論プロセスを強化する。
NumeroLogicフォーマッティングの有効性を示すために,算術的タスクを用いる。
さらに,NumeroLogicの自然言語モデリングへの適用性を実証し,MMLUベンチマークにおける言語理解性能を改善した。
Language models struggle with handling numerical data and performing arithmetic operations. We hypothesize that this limitation can be partially attributed to non-intuitive textual numbers representation. When a digit is read or generated by a causal language model it does not know its place value (e.g. thousands vs. hundreds) until the entire number is processed. To address this issue, we propose a simple adjustment to how numbers are represented by including the count of digits before each number. For instance, instead of "42", we suggest using "{2:42}" as the new format. This approach, which we term NumeroLogic, offers an added advantage in number generation by serving as a Chain of Thought (CoT). By requiring the model to consider the number of digits first, it enhances the reasoning process before generating the actual number. We use arithmetic tasks to demonstrate the effectiveness of the NumeroLogic formatting. We further demonstrate NumeroLogic applicability to general natural language modeling, improving language understanding performance in the MMLU benchmark. | 翻訳日:2024-11-09 03:37:09 公開日:2024-09-26 |
# 量子国家浄化の議定書と貿易
Protocols and Trade-Offs of Quantum State Purification ( http://arxiv.org/abs/2404.01138v3 ) ライセンス: Link先を確認 | Hongshun Yao, Yu-Ao Chen, Erdong Huang, Kaichu Chen, Honghao Fu, Xin Wang, | (参考訳) 量子状態の浄化は、未知のノイズ状態の複数のコピーから精製された状態を回復することを目的として、量子通信と計算において重要である。
本研究は,特定の確率で高い忠実度を達成し,関連するトレードオフを特徴付けるために設計された汎用的な状態浄化フレームワークを導入する。
脱分極雑音下での量子状態の場合、我々のフレームワークは[Barenco et al , SIAM Journal on Computing, 26(5), 1997] によって提案された浄化プロトコルを再現することができ、さらに明確なトレードオフを伴う浄化忠実度と確率の正確な公式を提供する。
任意の次元を持つ雑音状態の2つのコピーに対するプロトコルの最適性を証明し、数値解析によりより高いコピー数と次元に対してその最適性を確認する。
提案手法は,より一般的なシナリオでプロトコルの最適性を証明し,他のノイズモデルに対する最適プロトコルを導出する手法である。
さらに,ブロック符号化とパラメタライズド量子回路によるシステマティック実装手法を提案する。
最後に,サンプルの複雑性を推定し,そのプロトコルを再帰的な形式に一般化し,メモリに制限のある量子コンピュータの実用性を実証する。
Quantum state purification is crucial in quantum communication and computation, aiming to recover a purified state from multiple copies of an unknown noisy state. This work introduces a general state purification framework designed to achieve the highest fidelity with a specified probability and characterize the associated trade-offs. For i.i.d. quantum states under depolarizing noise, our framework can replicate the purification protocol proposed by [Barenco et al., SIAM Journal on Computing, 26(5), 1997] and further provide exact formulas for the purification fidelity and probability with explicit trade-offs. We prove the protocols' optimality for two copies of noisy states with any dimension and confirm its optimality for higher numbers of copies and dimensions through numerical analysis. Our methodological approach paves the way for proving the protocol's optimality in more general scenarios and leads to optimal protocols for other noise models. Furthermore, we present a systematic implementation method via block encoding and parameterized quantum circuits, providing explicit circuits for purifying three-copy and four-copy states under depolarizing noise. Finally, we estimate the sample complexity and generalize the protocol to a recursive form, demonstrating its practicality for quantum computers with limited memory. | 翻訳日:2024-11-09 03:37:09 公開日:2024-09-26 |
# 非可逆対称性保護位相としてのクラスター状態
Cluster state as a non-invertible symmetry protected topological phase ( http://arxiv.org/abs/2404.01369v2 ) ライセンス: Link先を確認 | Sahand Seifnashri, Shu-Heng Shao, | (参考訳) 標準的な 1+1d $\mathbb{Z}_2\times \mathbb{Z}_2$ クラスタモデルは、融合圏 Rep(D$_8$) によって記述される非可逆な大域対称性を持つことを示す。
したがって、クラスター状態は$\mathbb{Z}_2\times \mathbb{Z}_2$対称性保護位相(SPT)相であるだけでなく、非可逆SPT相でもある。
さらに、他の2つの Rep(D$_8$) SPT 相に対して、2つの新しい可換なパウリ・ハミルトニアンは、場の理論と数学の分類に一致するような、テンソル積ヒルベルト空間(英語版)(Hilbert space of qubits)上で発見された。
これらの非可逆SPT相間の界面におけるエッジモードと局所射影代数を同定する。
最後に、これらの異なるSPT状態の間を写像する対称エンタングルが存在しないことを示す。
We show that the standard 1+1d $\mathbb{Z}_2\times \mathbb{Z}_2$ cluster model has a non-invertible global symmetry, described by the fusion category Rep(D$_8$). Therefore, the cluster state is not only a $\mathbb{Z}_2\times \mathbb{Z}_2$ symmetry protected topological (SPT) phase, but also a non-invertible SPT phase. We further find two new commuting Pauli Hamiltonians for the other two Rep(D$_8$) SPT phases on a tensor product Hilbert space of qubits, matching the classification in field theory and mathematics. We identify the edge modes and the local projective algebras at the interfaces between these non-invertible SPT phases. Finally, we show that there does not exist a symmetric entangler that maps between these distinct SPT states. | 翻訳日:2024-11-09 03:37:09 公開日:2024-09-26 |
# ロボット食品スライシング学習のためのデュアルシミュレーターフレームワークSliceIt!
SliceIt! -- A Dual Simulator Framework for Learning Robot Food Slicing ( http://arxiv.org/abs/2404.02569v2 ) ライセンス: Link先を確認 | Cristian C. Beltran-Hernandez, Nicolas Erbetti, Masashi Hamaya, | (参考訳) 調理ロボットは、日常の雑用の負担を軽減し、家庭での体験を向上させることができる。
しかし、これらのロボットは、特にキッチンナイフのような危険な道具を扱う場合、共有された人間の環境において、きめ細やかに安全にタスクを実行する必要がある。
本研究は、ロボットが自律的かつ安全に食品切断タスクを学習できるようにすることに焦点を当てる。
より具体的には、協調ロボットや産業用ロボットアームが、コンプライアンス制御を用いて様々な材料特性に適応して食品スライシングタスクを実行できるようにすることが目的である。
我々のアプローチは、強化学習(Reinforcement Learning, RL)を用いて、ロボットにナイフを忠実に操作するよう訓練することであり、食品や切削板に作用する接触力を減少させることである。
しかし、現実の世界でロボットを訓練することは非効率であり、危険であり、結果として多くの食品廃棄物が発生する。
そこで我々は,シミュレーションにおけるロボット食品スライシングタスクを安全かつ効率的に学習するフレームワークであるSliceIt!を提案した。
リアルな2sim2realアプローチに従って、我々のフレームワークは、実際の食品スライシングデータを収集し、二重シミュレーション環境(高忠実な切削シミュレータとロボットシミュレータ)を校正し、校正されたシミュレーション環境に準拠する制御ポリシーを学習し、最終的に実際のロボットにポリシーをデプロイする。
Cooking robots can enhance the home experience by reducing the burden of daily chores. However, these robots must perform their tasks dexterously and safely in shared human environments, especially when handling dangerous tools such as kitchen knives. This study focuses on enabling a robot to autonomously and safely learn food-cutting tasks. More specifically, our goal is to enable a collaborative robot or industrial robot arm to perform food-slicing tasks by adapting to varying material properties using compliance control. Our approach involves using Reinforcement Learning (RL) to train a robot to compliantly manipulate a knife, by reducing the contact forces exerted by the food items and by the cutting board. However, training the robot in the real world can be inefficient, and dangerous, and result in a lot of food waste. Therefore, we proposed SliceIt!, a framework for safely and efficiently learning robot food-slicing tasks in simulation. Following a real2sim2real approach, our framework consists of collecting a few real food slicing data, calibrating our dual simulation environment (a high-fidelity cutting simulator and a robotic simulator), learning compliant control policies on the calibrated simulation environment, and finally, deploying the policies on the real robot. | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-26 |
# OmniColor: 点雲のカラー化のためのLiDAR-360Camera Fusionのグローバルカメラポース最適化手法
OmniColor: A Global Camera Pose Optimization Approach of LiDAR-360Camera Fusion for Colorizing Point Clouds ( http://arxiv.org/abs/2404.04693v2 ) ライセンス: Link先を確認 | Bonan Liu, Guoyang Zhao, Jianhao Jiao, Guang Cai, Chengyang Li, Handi Yin, Yuyang Wang, Ming Liu, Pan Hui, | (参考訳) シンプルで効率的な3D表現としてのカラーポイントクラウドは、ロボットナビゲーションやシーン再構築など、さまざまな分野で多くの利点がある。
この表現は、カメラとLiDARに依存する3D再構成タスクで一般的に使用されている。
しかし、これらの2種類のセンサーからのデータを融合することは、多くの既存のフレームワークでは不十分であり、主に不正確なカメラのポーズのために不満足なマッピング結果をもたらす。
本稿では,独立系360度カメラを用いて点雲をカラー化するための,新規で効率的なアルゴリズムであるOmniColorを提案する。
LiDARをベースとした点雲と、初期粗いカメラポーズによるパノラマ画像の連続を考慮し、画像の幾何再構成へのマッピングのために、すべてのフレームのポーズを協調的に最適化することを目的とする。
当社のパイプラインは、機能抽出やマッチングプロセスを必要としない、既定の方法で動作します。
代わりに、LiDAR写像の測光一貫性を直接最大化することで最適なポーズを求める。
実験では,全方位画像の難解な視覚歪みを克服し,360度カメラの広視野視野(FOV)の利点を大いに生かし,精度と安定性で様々なシナリオを再構築できることを示した。
コードはhttps://github.com/liubonan123/OmniColor/でリリースされる。
A Colored point cloud, as a simple and efficient 3D representation, has many advantages in various fields, including robotic navigation and scene reconstruction. This representation is now commonly used in 3D reconstruction tasks relying on cameras and LiDARs. However, fusing data from these two types of sensors is poorly performed in many existing frameworks, leading to unsatisfactory mapping results, mainly due to inaccurate camera poses. This paper presents OmniColor, a novel and efficient algorithm to colorize point clouds using an independent 360-degree camera. Given a LiDAR-based point cloud and a sequence of panorama images with initial coarse camera poses, our objective is to jointly optimize the poses of all frames for mapping images onto geometric reconstructions. Our pipeline works in an off-the-shelf manner that does not require any feature extraction or matching process. Instead, we find optimal poses by directly maximizing the photometric consistency of LiDAR maps. In experiments, we show that our method can overcome the severe visual distortion of omnidirectional images and greatly benefit from the wide field of view (FOV) of 360-degree cameras to reconstruct various scenarios with accuracy and stability. The code will be released at https://github.com/liubonan123/OmniColor/. | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-26 |
# テンプレート特徴場を用いた画像から3次元GANを学習する
Learning 3D-Aware GANs from Unposed Images with Template Feature Field ( http://arxiv.org/abs/2404.05705v2 ) ライセンス: Link先を確認 | Xinya Chen, Hanlei Guo, Yanrui Bin, Shangzhan Zhang, Yuanbo Yang, Yue Wang, Yujun Shen, Yiyi Liao, | (参考訳) トレーニング画像の正確なカメラポーズの収集は、GAN(3D-Aware Generative Adversarial Network)の学習に役立つことが示されているが、実際は非常に高価である。
本研究は,学習テンプレート特徴場(TeFF)を用いたトレーニング画像のオンザフライポーズ推定を行うために,未提示画像から3D認識型GANを学習することを目的とする。
具体的には, 従来手法のような生成放射場に加えて, 放射場から密度を共有しながら, 2次元のセマンティック特徴から場を学習するよう, ジェネレータに依頼する。
このようなフレームワークにより、生成モデルによって発見されたデータセット平均を利用して標準的な3D特徴テンプレートを取得し、さらに実データ上でのポーズパラメータを効率的に推定することができる。
様々な挑戦的データセットに対する実験結果は、定性的および定量的視点の両方から、最先端の代替手段に対する我々のアプローチの優位性を示している。
Collecting accurate camera poses of training images has been shown to well serve the learning of 3D-aware generative adversarial networks (GANs) yet can be quite expensive in practice. This work targets learning 3D-aware GANs from unposed images, for which we propose to perform on-the-fly pose estimation of training images with a learned template feature field (TeFF). Concretely, in addition to a generative radiance field as in previous approaches, we ask the generator to also learn a field from 2D semantic features while sharing the density from the radiance field. Such a framework allows us to acquire a canonical 3D feature template leveraging the dataset mean discovered by the generative model, and further efficiently estimate the pose parameters on real data. Experimental results on various challenging datasets demonstrate the superiority of our approach over state-of-the-art alternatives from both the qualitative and the quantitative perspectives. | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-26 |
# Eagle and Finch: マトリックス値状態と動的再帰を備えたRWKV
Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence ( http://arxiv.org/abs/2404.05892v3 ) ライセンス: Link先を確認 | Bo Peng, Daniel Goldstein, Quentin Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Xingjian Du, Teddy Ferdinan, Haowen Hou, Przemysław Kazienko, Kranthi Kiran GV, Jan Kocoń, Bartłomiej Koptyra, Satyapriya Krishna, Ronald McClelland Jr., Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Stanisław Woźniak, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu, | (参考訳) 本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を提案する。
アーキテクチャ設計の進歩には、マルチヘッド行列値状態と、RNNの推論効率特性を維持しつつ、表現性を向上させるダイナミックリカレンス機構が含まれる。
我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
我々は、0.46から7.5億のパラメータを含む4つのイーグルモデルと1.6と310億のパラメータを持つ2つのフィンチモデルを訓練し、それらが様々なベンチマークで競争性能を達成することを発見した。
私たちはすべてのモデルを Apache 2.0 ライセンスの下で HuggingFace でリリースしています。
Models at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer
We present Eagle (RWKV-5) and Finch (RWKV-6), sequence models improving upon the RWKV (RWKV-4) architecture. Our architectural design advancements include multi-headed matrix-valued states and a dynamic recurrence mechanism that improve expressivity while maintaining the inference efficiency characteristics of RNNs. We introduce a new multilingual corpus with 1.12 trillion tokens and a fast tokenizer based on greedy matching for enhanced multilinguality. We trained four Eagle models, ranging from 0.46 to 7.5 billion parameters, and two Finch models with 1.6 and 3.1 billion parameters and find that they achieve competitive performance across a wide variety of benchmarks. We release all our models on HuggingFace under the Apache 2.0 license. Models at: https://huggingface.co/RWKV Training code at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-26 |
# Eagle and Finch: マトリックス値状態と動的再帰を備えたRWKV
Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence ( http://arxiv.org/abs/2404.05892v4 ) ライセンス: Link先を確認 | Bo Peng, Daniel Goldstein, Quentin Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Xingjian Du, Teddy Ferdinan, Haowen Hou, Przemysław Kazienko, Kranthi Kiran GV, Jan Kocoń, Bartłomiej Koptyra, Satyapriya Krishna, Ronald McClelland Jr., Jiaju Lin, Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Cahya Wirawan, Stanisław Woźniak, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu, | (参考訳) 本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を提案する。
アーキテクチャ設計の進歩には、マルチヘッド行列値状態と、RNNの推論効率特性を維持しつつ、表現性を向上させるダイナミックリカレンス機構が含まれる。
我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
我々は、0.46から7.5億のパラメータを含む4つのイーグルモデルと1.6と310億のパラメータを持つ2つのフィンチモデルを訓練し、それらが様々なベンチマークで競争性能を達成することを発見した。
私たちはすべてのモデルを Apache 2.0 ライセンスの下で HuggingFace でリリースしています。
Models at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer
We present Eagle (RWKV-5) and Finch (RWKV-6), sequence models improving upon the RWKV (RWKV-4) architecture. Our architectural design advancements include multi-headed matrix-valued states and a dynamic recurrence mechanism that improve expressivity while maintaining the inference efficiency characteristics of RNNs. We introduce a new multilingual corpus with 1.12 trillion tokens and a fast tokenizer based on greedy matching for enhanced multilinguality. We trained four Eagle models, ranging from 0.46 to 7.5 billion parameters, and two Finch models with 1.6 and 3.1 billion parameters and find that they achieve competitive performance across a wide variety of benchmarks. We release all our models on HuggingFace under the Apache 2.0 license. Models at: https://huggingface.co/RWKV Training code at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-26 |
# Arena:エッジ支援ビデオ分析のための興味あるViT推論高速化システム
Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics ( http://arxiv.org/abs/2404.09245v2 ) ライセンス: Link先を確認 | Haosong Peng, Wei Feng, Hao Li, Yufeng Zhan, Ren Jin, Yuanqing Xia, | (参考訳) エッジコンピューティングの出現により、リアルタイムのインテリジェントなビデオ分析が可能になった。
従来のモデルアーキテクチャ(例えば、CNN、RNNなど)に基づいて、帯域幅と計算消費を最小限に抑えるために、関心のないコンテンツをフィルタリングする様々な戦略を採用しているが、悪環境下では性能が劣っている。
近年, 変換器をベースとした視覚基礎モデルは, 驚くほどの一般化能力により, 悪環境下での優れた性能を示した。
しかし、それらは大量の計算能力を必要としており、リアルタイムのインテリジェントなビデオ分析における応用を制限している。
本稿では、視覚変換器(ViT)のような視覚基盤モデルにも、ビデオ解析のための専用の加速度機構があることを見出した。
そこで本研究では,ViTに基づくエッジ・ツー・エンドのビデオ推論高速化システムであるArenaを紹介する。
ダウンストリームモデルにPatches-of-Interestをオフロードして供給するだけでトークンのプルーニングによって高速化できるViTの機能を活用します。
さらに、異なるビデオに合わせた適応型キーフレーム推論切替アルゴリズムを設計し、現在の映像コンテンツに適応して精度と帯域幅を最適化する。
広範にわたる実験により,Arenaは平均1.58\(\times\)と1.82\(\times\)の推論速度を向上し,それぞれ47\%と31\%の帯域幅しか消費していないことが明らかとなった。
The advent of edge computing has made real-time intelligent video analytics feasible. Previous works, based on traditional model architecture (e.g., CNN, RNN, etc.), employ various strategies to filter out non-region-of-interest content to minimize bandwidth and computation consumption but show inferior performance in adverse environments. Recently, visual foundation models based on transformers have shown great performance in adverse environments due to their amazing generalization capability. However, they require a large amount of computation power, which limits their applications in real-time intelligent video analytics. In this paper, we find visual foundation models like Vision Transformer (ViT) also have a dedicated acceleration mechanism for video analytics. To this end, we introduce Arena, an end-to-end edge-assisted video inference acceleration system based on ViT. We leverage the capability of ViT that can be accelerated through token pruning by only offloading and feeding Patches-of-Interest to the downstream models. Additionally, we design an adaptive keyframe inference switching algorithm tailored to different videos, capable of adapting to the current video content to jointly optimize accuracy and bandwidth. Through extensive experiments, our findings reveal that Arena can boost inference speeds by up to 1.58\(\times\) and 1.82\(\times\) on average while consuming only 47\% and 31\% of the bandwidth, respectively, all with high inference accuracy. | 翻訳日:2024-11-09 03:14:33 公開日:2024-09-26 |
# MMCode:視覚的にリッチプログラミングの問題のあるコード生成のためのマルチモーダル大言語モデルのベンチマーク
MMCode: Benchmarking Multimodal Large Language Models for Code Generation with Visually Rich Programming Problems ( http://arxiv.org/abs/2404.09486v2 ) ライセンス: Link先を確認 | Kaixin Li, Yuchen Tian, Qisheng Hu, Ziyang Luo, Zhiyong Huang, Jing Ma, | (参考訳) プログラミングはしばしば、詳細で複雑な仕様をコードに変換することを含みます。
近年の大規模マルチモーダルモデルの開発は視覚的推論や数学的タスクにおいて顕著な能力を示しているが、これらのモデルがコード生成の視覚的要素を効果的に解釈できるかどうかについてはほとんど研究されていない。
この目的のために,視覚的にリッチな文脈において,アルゴリズムによる問題解決能力を評価するための,最初のマルチモーダル符号化データセットであるMMCodeを提案する。
MMCodeには3,548の質問と6,620の画像が含まれている。
実験の結果,現在の最先端モデルはこれらの問題を解決するのに苦労していることがわかった。
この結果は、強力なビジョンコードモデルの欠如を浮き彫りにしています。
データとコードはhttps://github.com/likaixin2000/MMCodeで公開されている。
Programming often involves converting detailed and complex specifications into code, a process during which developers typically utilize visual aids to more effectively convey concepts. While recent developments in Large Multimodal Models have demonstrated remarkable abilities in visual reasoning and mathematical tasks, there is little work on investigating whether these models can effectively interpret visual elements for code generation. To this end, we present MMCode, the first multi-modal coding dataset for evaluating algorithmic problem-solving skills in visually rich contexts. MMCode contains 3,548 questions and 6,620 images collected from real-world programming challenges harvested from 10 code competition websites, presenting significant challenges due to the extreme demand for reasoning abilities. Our experiment results show that current state-of-the-art models struggle to solve these problems. The results highlight the lack of powerful vision-code models, and we hope MMCode can serve as an inspiration for future works in this domain. The data and code are publicly available at https://github.com/likaixin2000/MMCode. | 翻訳日:2024-11-09 03:14:33 公開日:2024-09-26 |
# トランスフォーマー, コンテクスト, ポリセミー
Transformers, Contextualism, and Polysemy ( http://arxiv.org/abs/2404.09577v2 ) ライセンス: Link先を確認 | Jumbly Grindrod, | (参考訳) Vaswani et al (2017)によって導入されたトランスフォーマーアーキテクチャは、Chat-GPTやClaudeといった広く使われているチャットボットを含む、言語モデルの開発における、最近の顕著な進歩の中心である。
本稿では,トランスフォーマーアーキテクチャがコンテキストと意味の関係の理論として機能する方法から抽出できることを論じる。
私はこれをトランスフォーマー理論と呼び、自然言語における文脈感受性の程度に関する文脈主義の議論と、言葉の意味の観点からポリセミーがどのように捉えるべきかという多節論という2つの関連する哲学的議論に関して、新しいものであると論じる。
The transformer architecture, introduced by Vaswani et al. (2017), is at the heart of the remarkable recent progress in the development of language models, including widely-used chatbots such as Chat-GPT and Claude. In this paper, I argue that we can extract from the way the transformer architecture works a theory of the relationship between context and meaning. I call this the transformer theory, and I argue that it is novel with regard to two related philosophical debates: the contextualism debate regarding the extent of context-sensitivity across natural language, and the polysemy debate regarding how polysemy should be captured within an account of word meaning. | 翻訳日:2024-11-09 03:14:33 公開日:2024-09-26 |
# Ma-QAOAの角度ラウンドパラメータ初期化手法
An angle rounding parameter initialization technique for ma-QAOA ( http://arxiv.org/abs/2404.10743v2 ) ライセンス: Link先を確認 | Anthony Wilkie, James Ostrowski, Rebekah Herrman, | (参考訳) マルチ角量子近似最適化アルゴリズム(ma-QAOA)は、最近導入されたアルゴリズムであり、量子近似最適化アルゴリズム(QAOA)と少なくとも同じ近似比を与え、ほとんどの場合、QAOAよりもはるかに高い近似比を与える。
ma-QAOAの欠点の1つは、QAOAよりもかなり古典的なパラメータを使用するため、古典的な最適化成分はより複雑である。
本稿では,最初は$\pi/8$を$-\pi$と$\pi$の倍数にランダムに設定し,このベクトルを用いてBFGSの1ラウンドのシードを行う新しいパラメータ初期化戦略を提案する。
このパラメータの初期化戦略により、平均近似比が0.900$,$0.982$,$0.997$ for $p = 1, 2, 3$ となることが分かる。
これはma-QAOAの平均近似比に匹敵するものであり、最適パラメータは1つのランダム開始シードを持つBFGSを用いて、0.900$、0.982$、0.996$である。
また、グラフ内の最大次頂点に対応する角度を0に設定し、他のすべての値が$\pi/8$のランダムな多重にランダムに初期化するパラメータ初期化戦略を検証した。
この戦略を用いて、平均近似比は0.897$、0.984$、0.997$である。
The multi-angle quantum approximate optimization algorithm (ma-QAOA) is a recently introduced algorithm that gives at least the same approximation ratio as the quantum approximate optimization algorithm (QAOA) and, in most cases, gives a significantly higher approximation ratio than QAOA. One drawback to ma-QAOA is that it uses significantly more classical parameters than QAOA, so the classical optimization component more complex. In this paper, we motivate a new parameter initialization strategy in which angles are initially randomly set to multiples of $\pi/8$ between $-\pi$ and $\pi$ and this vector is used to seed one round of BFGS. We find that this parameter initialization strategy gives average approximation ratios of $0.900$, $0.982$, and $0.997$ for $p = 1, 2, 3$ layers of ma-QAOA. This is comparable to the average approximation ratios of ma-QAOA where the optimal parameters are found using BFGS with 1 random starting seed, which are $0.900$, $0.982$, and $0.996$. We also test another parameter initialization strategy in which angles corresponding to maximal degree vertices in the graph are set to 0 while all other are randomly initialized to random multiples of $\pi/8$. Using this strategy, the average approximation ratios are $0.897$, $0.984$, and $0.997$. | 翻訳日:2024-11-09 03:14:33 公開日:2024-09-26 |
# AutoScraper: Web Scraper生成のためのプログレッシブなWebエージェント
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation ( http://arxiv.org/abs/2404.12753v2 ) ライセンス: Link先を確認 | Wenhao Huang, Zhouhong Gu, Chenghao Peng, Zhixu Li, Jiaqing Liang, Yanghua Xiao, Liqian Wen, Zulong Chen, | (参考訳) Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法であるラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる一方、言語エージェントは、大きな言語モデル(LLM)によって強化され、多様なWeb環境において、再利用性に乏しい。
本稿では, LLMによるWebスクレイパー生成のパラダイムを紹介し, 多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
AutoScraperは、HTMLの階層構造と異なるWebページ間の類似性を活用して、Webスクレイパーを生成する。
また,Webスクレイパー生成タスクの性能評価を行うための新しい実行可能性指標を提案する。
複数のLLMを用いて包括的実験を行い,本フレームワークの有効性を実証する。
本論文の資料は \url{https://github.com/EZ-hwh/AutoScraper} で見ることができる。
Web scraping is a powerful technique that extracts data from websites, enabling automated data collection, enhancing data analysis capabilities, and minimizing manual data entry efforts. Existing methods, wrappers-based methods suffer from limited adaptability and scalability when faced with a new website, while language agents, empowered by large language models (LLMs), exhibit poor reusability in diverse web environments. In this work, we introduce the paradigm of generating web scrapers with LLMs and propose AutoScraper, a two-stage framework that can handle diverse and changing web environments more efficiently. AutoScraper leverages the hierarchical structure of HTML and similarity across different web pages for generating web scrapers. Besides, we propose a new executability metric for better measuring the performance of web scraper generation tasks. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at \url{https://github.com/EZ-hwh/AutoScraper} | 翻訳日:2024-11-09 03:14:33 公開日:2024-09-26 |
# EvaNet:Elevation-Guided Flood Extent Mapping on Earth Imagery (Extended Version)
EvaNet: Elevation-Guided Flood Extent Mapping on Earth Imagery (Extended Version) ( http://arxiv.org/abs/2404.17917v4 ) ライセンス: Link先を確認 | Mirza Tanzim Sami, Da Yan, Saugat Adhikari, Lyuheng Yuan, Jiao Han, Zhe Jiang, Jalal Khalil, Yang Zhou, | (参考訳) 高解像度衛星画像からの洪水範囲の正確なタイムリーマッピングは、被害評価や救援活動などの災害管理において重要な役割を担っている。
しかし、現在の最先端のソリューションはU-Netに基づいており、これは、スペクトルの特徴のみを直接判断することができない不明瞭なピクセル(例えば、ツリーキャノピー、雲)のために、フラッドピクセルを正確にセグメント化できない。
米国地質調査所 (USGS) などのソースから取得可能なデジタル標高モデル (DEM) により, 洪水範囲マッピングの改善を目的とした標高マップの活用が検討されている。
エンコーダ・デコーダアーキテクチャに基づく標高誘導セグメンテーションモデルであるEvaNetを提案する。(1) 重力の物理則を符号化した損失関数であり,(1) 位置が浸水(乾式)した場合,その位置が低い(乾式)位置も浸水(乾式)する必要がある。
大規模な実験により、EvaNetはU-Netベースラインを著しく上回り、洪水範囲マッピングの既存のソリューションにおけるU-Netの完全な代替として機能することが示された。
Accurate and timely mapping of flood extent from high-resolution satellite imagery plays a crucial role in disaster management such as damage assessment and relief activities. However, current state-of-the-art solutions are based on U-Net, which can-not segment the flood pixels accurately due to the ambiguous pixels (e.g., tree canopies, clouds) that prevent a direct judgement from only the spectral features. Thanks to the digital elevation model (DEM) data readily available from sources such as United States Geological Survey (USGS), this work explores the use of an elevation map to improve flood extent mapping. We propose, EvaNet, an elevation-guided segmentation model based on the encoder-decoder architecture with two novel techniques: (1) a loss function encoding the physical law of gravity that if a location is flooded (resp. dry), then its adjacent locations with a lower (resp. higher) elevation must also be flooded (resp. dry); (2) a new (de)convolution operation that integrates the elevation map by a location sensitive gating mechanism to regulate how much spectral features flow through adjacent layers. Extensive experiments show that EvaNet significantly outperforms the U-Net baselines, and works as a perfect drop-in replacement for U-Net in existing solutions to flood extent mapping. | 翻訳日:2024-11-09 02:52:30 公開日:2024-09-26 |
# 常微分方程式を解くためのパラメトリック境界整合作用素を用いた強化ニューラルフォーム
Augmented neural forms with parametric boundary-matching operators for solving ordinary differential equations ( http://arxiv.org/abs/2404.19454v2 ) ライセンス: Link先を確認 | Adam D. Kypriadis, Isaac E. Lagaris, Aristidis Likas, Konstantinos E. Parsopoulos, | (参考訳) 常微分方程式と偏微分方程式の近似解は重要な課題である。
ニューラルネットワークに本質的に依存する機能的表現に基づいて、ニューラルネットワークは特定の初期条件や境界条件を正確に満たし、近似した解を閉じた形で提供するように設計されている。
常微分方程式の重要なクラスとは別に、本研究は神経形態の方法論を洗練・検証することを目的としており、より困難な分野におけるさらなる発展のための基礎を築き上げている。
主な貢献は以下の通りである。
まず、最適化に適した適応可能な境界マッチングを持つ適切なニューラルネットワークフォームを体系的に構築するフォーマリズムを導入する。
第二に、ニューマン条件やロビン条件の問題をパラメトリックディリクレ条件の等価問題に変換する新しい手法について述べる。
第3に、正確な解から絶対偏差の上限を決定する方法の概要を示す。
提案手法は,一階および二階の常微分方程式と一階のシステムを含む多種多様な問題に対して実験を行った。
剛微分方程式も検討されている。
得られた解は、既存の正確な解、共通のペナル化ニューラルネットワーク法で導かれた解、および現代の数値解析法で得られた解に対して評価された。
以上の結果から, 拡張型ニューラルフォームは境界条件と初期条件を正確に満足するだけでなく, 高品質な補間と総合的精度の制御を容易にするクローズドフォームソリューションも提供することが示された。
これらの属性は、偏微分方程式によって記述されるより難しい問題にニューラルフォームの応用分野を拡張するのに不可欠である。
Approximating solutions of ordinary and partial differential equations constitutes a significant challenge. Based on functional expressions that inherently depend on neural networks, neural forms are specifically designed to precisely satisfy the prescribed initial or boundary conditions of the problem, while providing the approximate solutions in closed form. Departing from the important class of ordinary differential equations, the present work aims to refine and validate the neural forms methodology, paving the ground for further developments in more challenging fields. The main contributions are as follows. First, it introduces a formalism for systematically crafting proper neural forms with adaptable boundary matches that are amenable to optimization. Second, it describes a novel technique for converting problems with Neumann or Robin conditions into equivalent problems with parametric Dirichlet conditions. Third, it outlines a method for determining an upper bound on the absolute deviation from the exact solution. The proposed augmented neural forms approach was tested on a set of diverse problems, encompassing first- and second-order ordinary differential equations, as well as first-order systems. Stiff differential equations have been considered as well. The resulting solutions were subjected to assessment against existing exact solutions, solutions derived through the common penalized neural method, and solutions obtained via contemporary numerical analysis methods. The reported results demonstrate that the augmented neural forms not only satisfy the boundary and initial conditions exactly, but also provide closed-form solutions that facilitate high-quality interpolation and controllable overall precision. These attributes are essential for expanding the application field of neural forms to more challenging problems that are described by partial differential equations. | 翻訳日:2024-11-09 02:52:30 公開日:2024-09-26 |
# 量子交互演算子アンザッツを用いた最大独立集合のプログレッシブ量子アルゴリズム
Progressive Quantum Algorithm for Maximum Independent Set with Quantum Alternating Operator Ansatz ( http://arxiv.org/abs/2405.04303v2 ) ライセンス: Link先を確認 | Xiao-Hui Ni, Ling-Xiao Li, Yan-Qi Song, Zheng-Ping Jin, Su-Juan Qin, Fei Gao, | (参考訳) 近年、Hadfieldらは、Constrained Combinatorial Optimization Problems (CCOPs)に取り組むためにQuantum Alternating Operator Ansatz (QAOA+)を提案した。
本稿では,QAOA+アンサッツを用いた最大独立集合(MIS)問題の解法において,必要量子ビットを削減するためのプログレッシブ量子アルゴリズム(PQA)を提案する。
PQA は対象グラフの MIS 解を$G$ に含んだ部分グラフを構築し、その後、この部分グラフ上の MIS 問題を解いて$G$ の解を得る。
このような部分グラフを誘導するために、PQAは小規模な初期部分グラフから始まり、設計された拡張ルールを利用してグラフのサイズを徐々に拡大する。
各展開の後、PQAはQAOA+を用いて現在の部分グラフ上のMIS問題を解く。
各ランにおいて、PQAは、予め定義された停止条件に到達するまで、グラフの展開と解法を繰り返す。
シミュレーションの結果、最適近似比が 0.95 に達するためには、PQA はキュービットの 5.5565 %$ (15.4 %$) とランタイムの 10.695 %$ (7.23 %$) しか必要とせず、Erd\H{o}s-R\enyi (正規) グラフの QAOA+ と比較すると、PQA の効率を強調している。
Recently, Hadfield et al. proposed the Quantum Alternating Operator Ansatz (QAOA+) to tackle Constrained Combinatorial Optimization Problems (CCOPs). This paper proposes a Progressive Quantum Algorithm (PQA) to reduce the required qubits in solving the Maximum Independent Set (MIS) problem using QAOA+ ansatz. PQA constructs a subgraph that contains the MIS solution of the target graph $G$ and then solves the MIS problem on this subgraph to obtain the solution for $G$. To induce such a subgraph, PQA starts with a small-scale initial subgraph and progressively expands its graph size utilizing designed expansion rules. After each expansion, PQA solves the MIS problem on the current subgraph using QAOA+. In each run, PQA repeats the graph expansion and solving process until a predefined stopping condition is reached. Simulation results demonstrate that to achieve an optimal approximation ratio of 0.95, PQA requires only $5.5565\%$ ($15.4\%$) of the qubits and $10.695\%$ ($7.23\%$) of the runtime compared with QAOA+ on Erd\H{o}s-R\'enyi (regular) graphs, highlighting the efficiency of PQA. | 翻訳日:2024-11-09 02:52:29 公開日:2024-09-26 |
# Splat-MOVER: 編集可能なガウススプレイティングによる多段オープンボキャブラリロボットマニピュレーション
Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting ( http://arxiv.org/abs/2405.04378v4 ) ライセンス: Link先を確認 | Ola Shorinwa, Johnathan Tucker, Aliyah Smith, Aiden Swann, Timothy Chen, Roya Firoozi, Monroe Kennedy III, Mac Schwager, | (参考訳) オープン語彙ロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERについて述べる。
Splat-MOVER は以下の通りである。
(i)ASK-Splatは、3Dシーンに意味を蒸留し、手頃な特徴を把握できるGSplat表現である。
ASK-Splatは、多くのロボット作業において重要な3Dシーンの幾何学的、意味的、そして余分な理解を可能にする。
(II)SEE-Splatは3次元セマンティックマスクと埋め込んだリアルタイムシーン編集モジュールで、現実世界におけるロボットの相互作用によって生じる物体の動きを可視化する。
SEE-Splatは、操作タスク全体を通して進化する環境の「デジタルツイン」を生成します。
3)ASK-SplatとSEE-Splatを併用したグリップ生成モジュールであるGrasp-Splatは、オープンワールドオブジェクトに対して、アベイランス対応の候補グリップを提案する。
ASK-Splatは運用前にRGBイメージから短時間のスキャンフェーズでリアルタイムにトレーニングされ、SEE-SplatとGrasp-Splatは運用中にリアルタイムに実行される。
本研究では,Kinovaロボットのハードウェア実験におけるSplat-MOVERの性能を,既存のベースラインでは不可能な1段のオープン語彙操作タスクと4段のマルチステージ操作タスクの2つのベースラインと比較した。
デモビデオとプロジェクトのコードはhttps://splatmover.github.io.comで公開されている。
We present Splat-MOVER, a modular robotics stack for open-vocabulary robotic manipulation, which leverages the editability of Gaussian Splatting (GSplat) scene representations to enable multi-stage manipulation tasks. Splat-MOVER consists of: (i) ASK-Splat, a GSplat representation that distills semantic and grasp affordance features into the 3D scene. ASK-Splat enables geometric, semantic, and affordance understanding of 3D scenes, which is critical in many robotics tasks; (ii) SEE-Splat, a real-time scene-editing module using 3D semantic masking and infilling to visualize the motions of objects that result from robot interactions in the real-world. SEE-Splat creates a "digital twin" of the evolving environment throughout the manipulation task; and (iii) Grasp-Splat, a grasp generation module that uses ASK-Splat and SEE-Splat to propose affordance-aligned candidate grasps for open-world objects. ASK-Splat is trained in real-time from RGB images in a brief scanning phase prior to operation, while SEE-Splat and Grasp-Splat run in real-time during operation. We demonstrate the superior performance of Splat-MOVER in hardware experiments on a Kinova robot compared to two recent baselines in four single-stage, open-vocabulary manipulation tasks and in four multi-stage manipulation tasks, using the edited scene to reflect changes due to prior manipulation stages, which is not possible with existing baselines. Video demonstrations and the code for the project are available at https://splatmover.github.io. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-26 |
# リモートセンシング画像のためのテキストガイドによる単一画像編集の探索
Exploring Text-Guided Single Image Editing for Remote Sensing Images ( http://arxiv.org/abs/2405.05769v2 ) ライセンス: Link先を確認 | Fangzhou Han, Lingyu Si, Hongwei Dong, Lamei Zhang, Hao Chen, Bo Du, | (参考訳) 人工知能生成コンテンツ(AIGC)はリモートセンシングの分野で画像生成に大きな影響を与えている。
しかし、リモートセンシング画像(RSI)編集の等しく重要な領域には十分な注意が払われていない。
ディープラーニングベースの編集手法は一般的に、生成と編集の2段階を含む。
生成段階では、原画像と編集画像間のコンテンツと詳細の整合性を維持し、編集段階では編集の可制御性と精度を確保する必要がある。
自然画像の場合、これらの課題は、大規模なベンチマークデータセットで生成バックボーンをトレーニングし、視覚言語モデル(VLM)に基づいたテキストガイダンスを使用することによって解決できる。
しかしながら、これらの従来の効果的なアプローチは2つの理由から、RSIでは実現できない。 まず、既存の生成RSIベンチマークデータセットは、特にセンサー、オブジェクトタイプ、解像度の変化の観点から、リモートセンシングシナリオの多様性を完全に捉えていない。
したがって、トレーニングされたバックボーンモデルの一般化能力は、RSI上の普遍的な編集タスクには不十分であることが多い。
第二に、単一のテキストセマンティクスが複数の画像セマンティクスに対応するようなVLMでは、テキストを使用してRSI編集をガイドするときに、誤ったセマンティクスが導入された。
そこで本研究では,テキスト誘導型RSI編集手法を提案する。
大規模なベンチマークデータセットのトレーニングを必要とせずに一貫性を維持するために、マルチスケールのトレーニングアプローチを採用すると同時に、RSI事前トレーニングされたVLMを活用して、テキストガイド編集プロセスにおける精度と制御性を確保するために、PE(enmbling)を急ぐ。
Artificial intelligence generative content (AIGC) has significantly impacted image generation in the field of remote sensing. However, the equally important area of remote sensing image (RSI) editing has not received sufficient attention. Deep learning based editing methods generally involve two sequential stages: generation and editing. During the generation stage, consistency in content and details between the original and edited images must be maintained, while in the editing stage, controllability and accuracy of the edits should be ensured. For natural images, these challenges can be tackled by training generative backbones on large-scale benchmark datasets and using text guidance based on vision-language models (VLMs). However, these previously effective approaches become less viable for RSIs due to two reasons: First, existing generative RSI benchmark datasets do not fully capture the diversity of remote sensing scenarios, particularly in terms of variations in sensors, object types, and resolutions. Consequently, the generalization capacity of the trained backbone model is often inadequate for universal editing tasks on RSIs. Second, the large spatial resolution of RSIs exacerbates the problem in VLMs where a single text semantic corresponds to multiple image semantics, leading to the introduction of incorrect semantics when using text to guide RSI editing. To solve above problems, this paper proposes a text-guided RSI editing method that is controllable but stable, and can be trained using only a single image. It adopts a multi-scale training approach to preserve consistency without the need for training on extensive benchmark datasets, while leveraging RSI pre-trained VLMs and prompt ensembling (PE) to ensure accuracy and controllability in the text-guided editing process. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-26 |
# 3次元ガウススプレイティングによるメッシュと外観の直接学習
Direct Learning of Mesh and Appearance via 3D Gaussian Splatting ( http://arxiv.org/abs/2405.06945v2 ) ライセンス: Link先を確認 | Ancheng Lin, Jun Li, | (参考訳) 明示的な幾何学情報を含む3Dシーンの正確な再構築は魅力的かつ困難である。
幾何再構成は、3DGS(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版))や3Dガウス散乱(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)(英語版)のような異なる外観モデル(英語版)を取り入れることの恩恵を受ける。
しかし, 従来の手法では, 間接幾何学学習や, 幾何学と表面外観を別々にモデル化するパラダイムにより, 効率上の問題が発生する。
本研究では、3DGSを明示的な幾何学的表現、すなわちメッシュに組み込んだ学習可能なシーンモデルを提案する。
我々のモデルはメッシュと外観をエンドツーエンドで学習し、メッシュ面に3Dガウスアンを結合し、3DGSの微分レンダリングを行い、測光監督を得る。
このモデルは、3DGSとメッシュの両方の学習を監督する効果的な情報経路を生成する。
実験結果は,学習シーンモデルが最先端の効率性とレンダリング品質を達成するだけでなく,明示的なメッシュによる操作もサポートすることを示した。
さらに、当社のモデルは、メッシュと外観の両方のエンドツーエンド学習のおかげで、シーン更新に適応する上で、ユニークなアドバンテージを持っています。
Accurately reconstructing a 3D scene including explicit geometry information is both attractive and challenging. Geometry reconstruction can benefit from incorporating differentiable appearance models, such as Neural Radiance Fields and 3D Gaussian Splatting (3DGS). However, existing methods encounter efficiency issues due to indirect geometry learning and the paradigm of separately modeling geometry and surface appearance. In this work, we propose a learnable scene model that incorporates 3DGS with an explicit geometry representation, namely a mesh. Our model learns the mesh and appearance in an end-to-end manner, where we bind 3D Gaussians to the mesh faces and perform differentiable rendering of 3DGS to obtain photometric supervision. The model creates an effective information pathway to supervise the learning of both 3DGS and mesh. Experimental results demonstrate that the learned scene model not only achieves state-of-the-art efficiency and rendering quality but also supports manipulation using the explicit mesh. In addition, our model has a unique advantage in adapting to scene updates, thanks to the end-to-end learning of both mesh and appearance. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-26 |
# AnoVox: 自動運転におけるマルチモーダル異常検出ベンチマーク
AnoVox: A Benchmark for Multimodal Anomaly Detection in Autonomous Driving ( http://arxiv.org/abs/2405.07865v4 ) ライセンス: Link先を確認 | Daniel Bogdoll, Iramm Hamdard, Lukas Namgyu Rößler, Felix Geisler, Muhammed Bayram, Felix Wang, Jan Imhof, Miguel de Campos, Anushervon Tabarov, Yitian Yang, Hanno Gottschalk, J. Marius Zöllner, | (参考訳) 自動運転車のスケールアップは、道路上のまれな物体のような異常に対処する能力に大きく依存している。
このような状況に対処するためには、そもそも異常を検出する必要がある。
自動走行の異常検出はここ数年で大きな進歩を遂げてきたが、カメラデータに強く焦点を絞った設計の悪いベンチマークに悩まされている。
本研究では,自動運転におけるANOmaly検出のための最大のベンチマークであるAnoVoxを提案する。
AnoVoxは、大規模なマルチモーダルセンサーデータと空間的VOXel地上真実を組み込んでおり、使用済みセンサとは無関係な方法の比較を可能にしている。
正規性の形式的定義を提案し,従順なトレーニングデータセットを提供する。
AnoVoxは、コンテンツと時間的異常の両方を含む最初のベンチマークである。
The scale-up of autonomous vehicles depends heavily on their ability to deal with anomalies, such as rare objects on the road. In order to handle such situations, it is necessary to detect anomalies in the first place. Anomaly detection for autonomous driving has made great progress in the past years but suffers from poorly designed benchmarks with a strong focus on camera data. In this work, we propose AnoVox, the largest benchmark for ANOmaly detection in autonomous driving to date. AnoVox incorporates large-scale multimodal sensor data and spatial VOXel ground truth, allowing for the comparison of methods independent of their used sensor. We propose a formal definition of normality and provide a compliant training dataset. AnoVox is the first benchmark to contain both content and temporal anomalies. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-26 |
# 非定常逆数と制約によるマルコフ決定過程の学習
Learning Constrained Markov Decision Processes With Non-stationary Rewards and Constraints ( http://arxiv.org/abs/2405.14372v2 ) ライセンス: Link先を確認 | Francesco Emanuele Stradi, Anna Lunghi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti, | (参考訳) 制約付きマルコフ決定プロセス(CMDP)において、不合理性は、任意のアルゴリズムが平均的に制約を満たす最良の視野政策と競合する際に、サブリニアの後悔とサブリニアの制約違反の両方を達成するのを防ぐ。
本稿では,非定常性の増加に伴い性能が滑らかに低下するアルゴリズムを提供することにより,非定常的な報酬や制約を伴うCMDPにおいて,この負の結果が緩和可能であることを示す。
具体的には、Banditフィードバック下での後悔とポジティブな制約違反を$\tilde{\mathcal{O}} (\sqrt{T} + C)$で達成するアルゴリズムを提案する。
これは、最悪の場合は$\Theta(T)$で、逆CMDPの不可能性の結果と一貫性がある。
まず,$C$が分かっている場合に,所望の保証付きアルゴリズムを設計する。
すると、$C$が未知の場合、そのようなアルゴリズムを一般的なメタプロデューサに埋め込むことで、同じ結果を得る方法を示す。
非定常的制約のあるオンライン学習環境に適用できるため、これは独立した関心事である。
In constrained Markov decision processes (CMDPs) with adversarial rewards and constraints, a well-known impossibility result prevents any algorithm from attaining both sublinear regret and sublinear constraint violation, when competing against a best-in-hindsight policy that satisfies constraints on average. In this paper, we show that this negative result can be eased in CMDPs with non-stationary rewards and constraints, by providing algorithms whose performances smoothly degrade as non-stationarity increases. Specifically, we propose algorithms attaining $\tilde{\mathcal{O}} (\sqrt{T} + C)$ regret and positive constraint violation under bandit feedback, where $C$ is a corruption value measuring the environment non-stationarity. This can be $\Theta(T)$ in the worst case, coherently with the impossibility result for adversarial CMDPs. First, we design an algorithm with the desired guarantees when $C$ is known. Then, in the case $C$ is unknown, we show how to obtain the same results by embedding such an algorithm in a general meta-procedure. This is of independent interest, as it can be applied to any non-stationary constrained online learning setting. | 翻訳日:2024-11-09 02:18:45 公開日:2024-09-26 |
# メッセージパッシングモンテカルロ:グラフニューラルネットワークによる低差分点集合の生成
Message-Passing Monte Carlo: Generating low-discrepancy point sets via Graph Neural Networks ( http://arxiv.org/abs/2405.15059v2 ) ライセンス: Link先を確認 | T. Konstantin Rusch, Nathan Kirk, Michael M. Bronstein, Christiane Lemieux, Daniela Rus, | (参考訳) 離散性は点集合の分布の不規則性に対するよく知られた測度である。
差分が小さい点集合は低差分集合と呼ばれ、一様に空間を効率よく満たすことが知られている。
低差点は、数値積分、コンピュータビジョン、機械認識、コンピュータグラフィックス、機械学習、シミュレーションなど、科学と工学における多くの問題において中心的な役割を果たす。
本研究では,Message-Passing Monte Carlo (MPMC) という低差点集合を新たに生成する機械学習手法を提案する。
低差分点集合を生成する幾何学的性質により、Geometric Deep Learningのツールを活用し、グラフニューラルネットワークに基づくモデルを構築する。
さらに、より高次元へのフレームワークの拡張も提供し、手元にある特定の問題に特に重要な特定の次元の均一性を強調するカスタムメイドポイントの生成を柔軟に可能にします。
最後に,提案手法が従来の手法よりも性能的に優れていることを示す。
実際、MPMCの点は、低次元と少数の点の相違、すなわち最適な相違が決定できる点に関して、経験的に最適かほぼ最適であることが示される。
MPMCポイントを生成するコードはhttps://github.com/tk-rusch/MPMCにある。
Discrepancy is a well-known measure for the irregularity of the distribution of a point set. Point sets with small discrepancy are called low-discrepancy and are known to efficiently fill the space in a uniform manner. Low-discrepancy points play a central role in many problems in science and engineering, including numerical integration, computer vision, machine perception, computer graphics, machine learning, and simulation. In this work, we present the first machine learning approach to generate a new class of low-discrepancy point sets named Message-Passing Monte Carlo (MPMC) points. Motivated by the geometric nature of generating low-discrepancy point sets, we leverage tools from Geometric Deep Learning and base our model on Graph Neural Networks. We further provide an extension of our framework to higher dimensions, which flexibly allows the generation of custom-made points that emphasize the uniformity in specific dimensions that are primarily important for the particular problem at hand. Finally, we demonstrate that our proposed model achieves state-of-the-art performance superior to previous methods by a significant margin. In fact, MPMC points are empirically shown to be either optimal or near-optimal with respect to the discrepancy for low dimension and small number of points, i.e., for which the optimal discrepancy can be determined. Code for generating MPMC points can be found at https://github.com/tk-rusch/MPMC. | 翻訳日:2024-11-09 02:18:45 公開日:2024-09-26 |
# 時系列予測のスケーリング法則
Scaling Law for Time Series Forecasting ( http://arxiv.org/abs/2405.15124v3 ) ライセンス: Link先を確認 | Jingzhe Shi, Qinwei Ma, Huan Ma, Lei Li, | (参考訳) 大規模データセット、複雑なモデル、強化されたデータの粒度に報いるスケーリング法則は、ディープラーニングの様々な分野において観察されている。
しかし、時系列予測の研究は、時系列予測のためのディープラーニング手法のスケーリングの振る舞いに疑問を投げかけている: より多くのトレーニングデータがパフォーマンスを改善する一方で、より有能なモデルは、必ずしもより能力の低いモデルよりも優れており、より長い入力地平線が一部のモデルのパフォーマンスを損なう可能性がある。
本稿では,このような異常な振る舞いを説明できる時系列予測法則のスケーリング理論を提案する。
データセットのサイズとモデルの複雑さ、および時系列データの粒度の影響を考慮する。
さらに, 時系列予測データセットの多種多様な集合を用いて, 時系列予測の領域におけるデータセットサイズとモデル複雑性のスケーリング法則の妥当性を検証し, そして, 特に振り返り水平の影響について, 理論的枠組みを実証的に評価した。
我々の発見は、限られたサイズの時系列予測データセットをターゲットとした新しいモデルや、将来の作業における時系列予測のための大規模な基礎データセットやモデルに刺激を与えてくれることを願っている。
実験用のコードは、https://github.com/JingzheShi/ScalingLawForTimeSeriesForecasting.comで公開されます。
Scaling law that rewards large datasets, complex models and enhanced data granularity has been observed in various fields of deep learning. Yet, studies on time series forecasting have cast doubt on scaling behaviors of deep learning methods for time series forecasting: while more training data improves performance, more capable models do not always outperform less capable models, and longer input horizons may hurt performance for some models. We propose a theory for scaling law for time series forecasting that can explain these seemingly abnormal behaviors. We take into account the impact of dataset size and model complexity, as well as time series data granularity, particularly focusing on the look-back horizon, an aspect that has been unexplored in previous theories. Furthermore, we empirically evaluate various models using a diverse set of time series forecasting datasets, which (1) verifies the validity of scaling law on dataset size and model complexity within the realm of time series forecasting, and (2) validates our theoretical framework, particularly regarding the influence of look back horizon. We hope our findings may inspire new models targeting time series forecasting datasets of limited size, as well as large foundational datasets and models for time series forecasting in future works. Codes for our experiments will be made public at: https://github.com/JingzheShi/ScalingLawForTimeSeriesForecasting. | 翻訳日:2024-11-09 02:18:45 公開日:2024-09-26 |
# MLPは回帰と分類課題の文脈を学習する
MLPs Learn In-Context on Regression and Classification Tasks ( http://arxiv.org/abs/2405.15618v2 ) ライセンス: Link先を確認 | William L. Tong, Cengiz Pehlevan, | (参考訳) In-context Learning (ICL) は、入力例のみからタスクを解く驚くべき能力であり、トランスフォーマーモデルのユニークな特徴であるとしばしば考えられている。
一般的に用いられる合成ICLタスクを調べることで、多層パーセプトロン(MLP)が文脈内でも学習できることを実証する。
さらに、MLPと密接に関連したMLP-Mixerモデルは、この設定で同じ計算予算を与えられたTransformerと競合的にコンテキスト内で学習する。
さらに,MLPは,文脈内分類と密接に関連する関係性推論をテストするために設計された心理学から,一連の古典的タスクにおいてトランスフォーマーよりも優れていることを示す。
これらの結果は、注意に基づくアーキテクチャを超えてコンテキスト内学習を研究することの必要性を浮き彫りにしつつ、MLPがリレーショナルタスクを解く能力に制限があるという強い議論にも挑戦している。
また,MLPの予期せぬ能力を強調し,タスク固有のアーキテクチャに対するMLP代替案への関心の高まりを支持した。
In-context learning (ICL), the remarkable ability to solve a task from only input exemplars, is often assumed to be a unique hallmark of Transformer models. By examining commonly employed synthetic ICL tasks, we demonstrate that multi-layer perceptrons (MLPs) can also learn in-context. Moreover, MLPs, and the closely related MLP-Mixer models, learn in-context competitively with Transformers given the same compute budget in this setting. We further show that MLPs outperform Transformers on a series of classical tasks from psychology designed to test relational reasoning, which are closely related to in-context classification. These results underscore a need for studying in-context learning beyond attention-based architectures, while also challenging strong prior arguments about MLPs' limited ability to solve relational tasks. Altogether, our results highlight the unexpected competence of MLPs, and support the growing interest in all-MLP alternatives to task-specific architectures. | 翻訳日:2024-11-09 02:18:45 公開日:2024-09-26 |
# 大規模言語モデルは単語の本質的不確かさを忠実に表現できるか?
Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words? ( http://arxiv.org/abs/2405.16908v2 ) ライセンス: Link先を確認 | Gal Yona, Roee Aharoni, Mor Geva, | (参考訳) 我々は,大きな言語モデル (LLM) は,自然言語における本質的な不確実性を表現することができるべきであると仮定する。
例えば、LLMが同じ質問に対して矛盾する2つの回答を出力する確率が等しく高い場合、その反応は、その答えをヘッジすることで、この不確実性を反映するべきである(例:「私は確信していないが、私は......」)。
我々は、モデル固有のアサーションに対する信頼のギャップと、それらが伝達される決定性に基づいて、忠実な応答の不確実性を定式化する。
この例レベルの計量は、モデルがその不確かさを反映しているかどうかを確実に示し、過度かつ不十分なヘッジの両方をペナルティ化する。
我々は,複数の知識集約型質問応答タスクにおいて,不確実性を忠実に伝達する多種多様なLCMを評価した。
以上の結果から,現代LLMは不確実性を忠実に伝えるのが苦手であり,信頼性を向上させるためには,より良い整合性が必要であるという強い証拠が得られた。
We posit that large language models (LLMs) should be capable of expressing their intrinsic uncertainty in natural language. For example, if the LLM is equally likely to output two contradicting answers to the same question, then its generated response should reflect this uncertainty by hedging its answer (e.g., "I'm not sure, but I think..."). We formalize faithful response uncertainty based on the gap between the model's intrinsic confidence in the assertions it makes and the decisiveness by which they are conveyed. This example-level metric reliably indicates whether the model reflects its uncertainty, as it penalizes both excessive and insufficient hedging. We evaluate a variety of aligned LLMs at faithfully communicating uncertainty on several knowledge-intensive question answering tasks. Our results provide strong evidence that modern LLMs are poor at faithfully conveying their uncertainty, and that better alignment is necessary to improve their trustworthiness. | 翻訳日:2024-11-09 02:07:29 公開日:2024-09-26 |
# GenWarp: セマンティック保存ジェネレータによる新しいビューへのシングルイメージ
GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping ( http://arxiv.org/abs/2405.17251v2 ) ライセンス: Link先を確認 | Junyoung Seo, Kazumi Fukuda, Takashi Shibuya, Takuya Narihira, Naoki Murata, Shoukang Hu, Chieh-Hsin Lai, Seungryong Kim, Yuki Mitsufuji, | (参考訳) 単一の画像から新しいビューを生成することは、3Dシーンの複雑さと、モデルをトレーニングする既存のマルチビューデータセットの多様性が制限されているため、依然として難しい課題である。
大規模テキスト・トゥ・イメージ(T2I)モデルと単眼深度推定(MDE)を併用した最近の研究は、線内画像の処理において有望であることを示している。
これらの方法では、入力ビューは、推定深度マップを持つ新しいビューに幾何学的にワープされ、そのワープイメージはT2Iモデルによって塗装される。
しかし、入力ビューを新しい視点に変換する際には、ノイズの多い深度マップや意味的な詳細が失われることに苦労する。
本稿では,T2I生成モデルが,自己注意で横断的な注目を増進することで,どの位置をワープするか,どこで生成するかを学習することを可能にする意味保存型生成ワープフレームワークである,単一ショット新規ビュー合成のための新しいアプローチを提案する。
提案手法は,ソースビュー画像に生成モデルを条件付けし,幾何学的ワープ信号を組み込むことにより,既存の手法の限界に対処する。
定性的かつ定量的な評価は、我々のモデルがドメイン内シナリオとドメイン外シナリオの両方で既存のメソッドより優れていることを示す。
プロジェクトページはhttps://GenWarp-NVS.github.io/.comで公開されている。
Generating novel views from a single image remains a challenging task due to the complexity of 3D scenes and the limited diversity in the existing multi-view datasets to train a model on. Recent research combining large-scale text-to-image (T2I) models with monocular depth estimation (MDE) has shown promise in handling in-the-wild images. In these methods, an input view is geometrically warped to novel views with estimated depth maps, then the warped image is inpainted by T2I models. However, they struggle with noisy depth maps and loss of semantic details when warping an input view to novel viewpoints. In this paper, we propose a novel approach for single-shot novel view synthesis, a semantic-preserving generative warping framework that enables T2I generative models to learn where to warp and where to generate, through augmenting cross-view attention with self-attention. Our approach addresses the limitations of existing methods by conditioning the generative model on source view images and incorporating geometric warping signals. Qualitative and quantitative evaluations demonstrate that our model outperforms existing methods in both in-domain and out-of-domain scenarios. Project page is available at https://GenWarp-NVS.github.io/. | 翻訳日:2024-11-09 02:07:29 公開日:2024-09-26 |
# 戦略的線形文脈帯域
Strategic Linear Contextual Bandits ( http://arxiv.org/abs/2406.00551v2 ) ライセンス: Link先を確認 | Thomas Kleine Buening, Aadirupa Saha, Christos Dimitrakakis, Haifeng Xu, | (参考訳) 利用者に推奨する回数を最大化するために, 戦略エージェントが推薦システムをゲーミングする現象に触発され, 線形文脈的帯域問題の戦略的変異について検討した。
我々は,アルゴリズム設計問題を不確実性下でのメカニズム設計の1つとして扱うとともに,エージェント(腕)に刺激を与えるオプティスティックグリムトリガー機構(OptGTM)を提案する。
また, エージェントの戦略的性質を考慮しないと, 線形後悔が生じることも示唆した。
しかし、機構設計と後悔の最小化のトレードオフは避けられないように見える。
より広範に、この研究はオンライン学習とメカニズム設計の共通点に関する洞察を提供することを目的としている。
Motivated by the phenomenon of strategic agents gaming a recommender system to maximize the number of times they are recommended to users, we study a strategic variant of the linear contextual bandit problem, where the arms can strategically misreport privately observed contexts to the learner. We treat the algorithm design problem as one of mechanism design under uncertainty and propose the Optimistic Grim Trigger Mechanism (OptGTM) that incentivizes the agents (i.e., arms) to report their contexts truthfully while simultaneously minimizing regret. We also show that failing to account for the strategic nature of the agents results in linear regret. However, a trade-off between mechanism design and regret minimization appears to be unavoidable. More broadly, this work aims to provide insight into the intersection of online learning and mechanism design. | 翻訳日:2024-11-09 01:56:09 公開日:2024-09-26 |
# 量子多体スピンラチェット
Quantum many-body spin ratchets ( http://arxiv.org/abs/2406.01571v2 ) ライセンス: Link先を確認 | Lenart Zadnik, Marko Ljubotina, Žiga Krajnik, Enej Ilievski, Tomaž Prosen, | (参考訳) キラル輸送を発生させるSU(2)不変量子ユニタリ回路のクラスを導入し、スピン輸送特性における空間反射と時間反転対称性の役割について検討する。
局所的なユニタリゲートのパラメータを調整すると、ダイナミクスはカオスか積分可能である。
後者は時空離散化(英語版)(Trotterized)高スピン量子ハイゼンベルク連鎖の一般化に対応する。
空間反射対称性の破れは、動的スピン感受性の漂流をもたらすことを示した。
注目すべきことに、単純な公式によって与えられる普遍的なドリフト速度は、平均磁化がゼロであれば、局所スピンに付随するSU(2)カシミール不変量の値にのみ依存する。
積分可能な場合、熱力学Betheアンザッツ方程式の正確な解に基づいて、ドリフト速度公式を解析的に確認する。
最後に、定常最大エントロピー状態における系の2つのハーフ間の時間積分電流の大きなゆらぎを検査することにより、ギャラヴォッティ-コーエン対称性の破れを証明し、そのような状態が平衡状態とはみなせないことを示唆する。
時間積分電流のスケールした累積生成関数は、代わりに一般化された変動関係に従うことを示す。
Introducing a class of SU(2) invariant quantum unitary circuits generating chiral transport, we examine the role of broken space-reflection and time-reversal symmetries on spin transport properties. Upon adjusting parameters of local unitary gates, the dynamics can be either chaotic or integrable. The latter corresponds to a generalization of the space-time discretized (Trotterized) higher-spin quantum Heisenberg chain. We demonstrate that breaking of space-reflection symmetry results in a drift in the dynamical spin susceptibility. Remarkably, we find a universal drift velocity given by a simple formula which, at zero average magnetization, depends only on the values of SU(2) Casimir invariants associated with local spins. In the integrable case, the drift velocity formula is confirmed analytically based on the exact solution of thermodynamic Bethe ansatz equations. Finally, by inspecting the large fluctuations of the time-integrated current between two halves of the system in stationary maximum-entropy states, we demonstrate violation of the Gallavotti-Cohen symmetry, implying that such states cannot be regarded as equilibrium ones. We show that the scaled cumulant generating function of the time-integrated current instead obeys a generalized fluctuation relation. | 翻訳日:2024-11-09 01:56:09 公開日:2024-09-26 |
# FOV切替CT画像の再生のための拡散型生成画像出力
Diffusion-based Generative Image Outpainting for Recovery of FOV-Truncated CT Images ( http://arxiv.org/abs/2406.04769v2 ) ライセンス: Link先を確認 | Michelle Espranita Liman, Daniel Rueckert, Florian J. Fintelmann, Philip Müller, | (参考訳) 胸部CTスキャンのフィールド・オブ・ビュー(FOV)回復は, 骨格筋および皮下脂肪組織(SAT)のCTスライスにおける定量化を伴う, 正確な体組成分析に不可欠である。
これにより、病気の予後が予測できる。
そこで本研究では, 画像出力を用いた切り欠きCTスライス回収手法を提案する。
我々は拡散モデルを訓練し、小さなFOVをシミュレートしたCTスライスに応用する。
我々のモデルは,87%の少ないデータでトレーニングされているにもかかわらず,切り離された解剖学を確実に回復し,過去の最先端を上回ります。
Field-of-view (FOV) recovery of truncated chest CT scans is crucial for accurate body composition analysis, which involves quantifying skeletal muscle and subcutaneous adipose tissue (SAT) on CT slices. This, in turn, enables disease prognostication. Here, we present a method for recovering truncated CT slices using generative image outpainting. We train a diffusion model and apply it to truncated CT slices generated by simulating a small FOV. Our model reliably recovers the truncated anatomy and outperforms the previous state-of-the-art despite being trained on 87% less data. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-26 |
# CHIQ:会話検索におけるクエリ書き換え改善のためのコンテキスト履歴の強化
CHIQ: Contextual History Enhancement for Improving Query Rewriting in Conversational Search ( http://arxiv.org/abs/2406.05013v2 ) ライセンス: Link先を確認 | Fengran Mo, Abbas Ghaddar, Kelong Mao, Mehdi Rezagholizadeh, Boxing Chen, Qun Liu, Jian-Yun Nie, | (参考訳) 本稿では,オープンソースの大規模言語モデル(LLM)を,特にあいまいなクエリに対して,対話型検索におけるクエリ書き換えを改善するために効果的に展開する方法について検討する。
質問の書き直し前にLLMの能力を利用して会話履歴のあいまいさを解消する2段階の手法であるCHIQを紹介する。
このアプローチは、会話履歴から直接検索クエリを生成するために、主にクローズドソースLLMを使用する以前の研究とは対照的である。
我々は、CHIQがほとんどの設定において最先端の結果をもたらす5つの確立されたベンチマークを実証し、クローズドソース LLM を利用したシステムとの高い競争性能を示す。
本研究は,商用LLMへの依存に対抗して,オープンソースのLLMを対話型検索に活用するための第一歩となる。
データ、モデル、ソースコードはhttps://github.com/fengranMark/CHIQ.comで公開される。
In this paper, we study how open-source large language models (LLMs) can be effectively deployed for improving query rewriting in conversational search, especially for ambiguous queries. We introduce CHIQ, a two-step method that leverages the capabilities of LLMs to resolve ambiguities in the conversation history before query rewriting. This approach contrasts with prior studies that predominantly use closed-source LLMs to directly generate search queries from conversation history. We demonstrate on five well-established benchmarks that CHIQ leads to state-of-the-art results across most settings, showing highly competitive performances with systems leveraging closed-source LLMs. Our study provides a first step towards leveraging open-source LLMs in conversational search, as a competitive alternative to the prevailing reliance on commercial LLMs. Data, models, and source code will be publicly available upon acceptance at https://github.com/fengranMark/CHIQ. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-26 |
# CMamba:多変量時系列予測のためのチャネル相関強化状態空間モデル
CMamba: Channel Correlation Enhanced State Space Models for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2406.05316v3 ) ライセンス: Link先を確認 | Chaolv Zeng, Zhanyu Liu, Guanjie Zheng, Linghe Kong, | (参考訳) 多変量時系列予測の最近の進歩は、線形ベース、トランスフォーマーベース、コンボリューションベースモデルによって推進され、トランスフォーマーベースのアーキテクチャは、時間的およびクロスチャネル混合における有効性で注目されている。
最近では、ステートスペースモデルであるMambaが、堅牢なシーケンスと機能ミキシング機能を持って登場した。
しかしながら、時系列予測のためのバニラ・マンバの設計の適合性は、特にチャネル間の依存関係の不十分な処理のため、未解決の問題である。
多変量時系列予測の性能向上には,チャネル間の依存関係の捕捉が重要である。
近年の研究では,MLPなどの簡易なメカニズムはモデル性能を低下させる可能性があるが,チャネル依存性の捕捉において自己注意が優れていることが示唆されている。
MLPは学習可能なアーキテクチャであり、理論的には相関と無関係の両方を捉え、中立性や性能改善につながる可能性がある。
自己注意機構に潜り込むと、データ依存の欠如と大域的受容場が欠如していることから、MLPの一般化能力の欠如が原因と考えられる。
以上の知見に基づいて,時系列予測に適した改良されたマンバ変種を導入する。
提案モデルでは,時間依存性モデリングのためのM-Mamba (M-Mamba)モジュール,グローバルデータ依存型MLP (GDD-MLP) とチャネル間の依存関係を効果的に捕捉するChannel Mixup機構を組み込んだ。
7つの実世界のデータセットで実施した総合実験は、予測性能を向上させる上で、我々のモデルの有効性を実証する。
Recent advancements in multivariate time series forecasting have been propelled by Linear-based, Transformer-based, and Convolution-based models, with Transformer-based architectures gaining prominence for their efficacy in temporal and cross-channel mixing. More recently, Mamba, a state space model, has emerged with robust sequence and feature mixing capabilities. However, the suitability of the vanilla Mamba design for time series forecasting remains an open question, particularly due to its inadequate handling of cross-channel dependencies. Capturing cross-channel dependencies is critical in enhancing the performance of multivariate time series prediction. Recent findings show that self-attention excels in capturing cross-channel dependencies, whereas other simpler mechanisms, such as MLP, may degrade model performance. This is counterintuitive, as MLP, being a learnable architecture, should theoretically capture both correlations and irrelevances, potentially leading to neutral or improved performance. Diving into the self-attention mechanism, we attribute the observed degradation in MLP performance to its lack of data dependence and global receptive field, which result in MLP's lack of generalization ability. Based on the above insights, we introduce a refined Mamba variant tailored for time series forecasting. Our proposed model, \textbf{CMamba}, incorporates a modified Mamba (M-Mamba) module for temporal dependencies modeling, a global data-dependent MLP (GDD-MLP) to effectively capture cross-channel dependencies, and a Channel Mixup mechanism to mitigate overfitting. Comprehensive experiments conducted on seven real-world datasets demonstrate the efficacy of our model in improving forecasting performance. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-26 |
# LEMMA-RCA: 根本原因解析のための大規模マルチモーダルマルチドメインデータセット
LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis ( http://arxiv.org/abs/2406.05375v2 ) ライセンス: Link先を確認 | Lecheng Zheng, Zhengzhang Chen, Dongjie Wang, Chengyuan Deng, Reon Matsuoka, Haifeng Chen, | (参考訳) ルート原因分析(RCA)は複雑なシステムの信頼性と性能を高めるために重要である。
しかし、この分野の進歩はRCAに適した大規模なオープンソースデータセットの欠如によって妨げられている。
このギャップを埋めるために、複数のドメインとモダリティにまたがる多様なRCAタスク用に設計された大規模なデータセットであるLEMMA-RCAを導入する。
LEMMA-RCAは、マイクロサービス、水分散、水処理システムを含むITおよびOT運用システムから、数百のシステムエンティティを含む、さまざまな現実的な障害シナリオを特徴とする。
LEMMA-RCAの品質評価は,オフラインモードやオンラインモード,シングルモードや複数モードを含む,このデータセット上での8つのベースライン手法の性能試験により行う。
LEMMA-RCAの高品質化を実証した。
データセットはhttps://lemma-rca.github.io/.com/で公開されている。
Root cause analysis (RCA) is crucial for enhancing the reliability and performance of complex systems. However, progress in this field has been hindered by the lack of large-scale, open-source datasets tailored for RCA. To bridge this gap, we introduce LEMMA-RCA, a large dataset designed for diverse RCA tasks across multiple domains and modalities. LEMMA-RCA features various real-world fault scenarios from IT and OT operation systems, encompassing microservices, water distribution, and water treatment systems, with hundreds of system entities involved. We evaluate the quality of LEMMA-RCA by testing the performance of eight baseline methods on this dataset under various settings, including offline and online modes as well as single and multiple modalities. Our experimental results demonstrate the high quality of LEMMA-RCA. The dataset is publicly available at https://lemma-rca.github.io/. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-26 |
# G-transformer:動的および時間変化処理レジームにおける実測結果予測
G-Transformer: Counterfactual Outcome Prediction under Dynamic and Time-varying Treatment Regimes ( http://arxiv.org/abs/2406.05504v4 ) ライセンス: Link先を確認 | Hong Xiong, Feng Wu, Leon Deng, Megan Su, Li-wei H Lehman, | (参考訳) 医学的意思決定の文脈では、反事実予測により、臨床医は、観察された患者の歴史に与えられた治療行動の代替コースの下で、興味のある治療結果を予測することができる。
本研究では,動的および時間的処理戦略の下での対実結果予測のためのG-Transformerを提案する。
本手法はトランスフォーマーアーキテクチャを用いて,動的処理系の効果を推定する因果推論法であるg-computationを実現するとともに,時間変化の共変量における複雑な長距離依存関係をキャプチャする。
具体的には,トランスフォーマーをベースとしたエンコーダアーキテクチャを用いて,各時点に与えられた共変量および処理履歴の条件分布を推定し,興味ある治療戦略の下で患者軌道をシミュレートすることで,偽結果のモンテカルロ推定を生成する。
メカニスティックモデルによる2つのシミュレーション時系列データセットとMIMIC-IVによる実世界のセシスICUデータセットを用いて,G-Transformerを広範囲に評価した。
G-Transformerは、これらの設定において、古典的および最先端の対実予測モデルの両方を上回っている。
我々の知る限り、このアーキテクチャは動的かつ時間的に変化する処理戦略の下で、対実結果予測のためのg-computationをサポートする最初のTransformerベースのアーキテクチャである。
In the context of medical decision making, counterfactual prediction enables clinicians to predict treatment outcomes of interest under alternative courses of therapeutic actions given observed patient history. In this work, we present G-Transformer for counterfactual outcome prediction under dynamic and time-varying treatment strategies. Our approach leverages a Transformer architecture to capture complex, long-range dependencies in time-varying covariates while enabling g-computation, a causal inference method for estimating the effects of dynamic treatment regimes. Specifically, we use a Transformer-based encoder architecture to estimate the conditional distribution of relevant covariates given covariate and treatment history at each time point, then produces Monte Carlo estimates of counterfactual outcomes by simulating forward patient trajectories under treatment strategies of interest. We evaluate G-Transformer extensively using two simulated longitudinal datasets from mechanistic models, and a real-world sepsis ICU dataset from MIMIC-IV. G-Transformer outperforms both classical and state-of-the-art counterfactual prediction models in these settings. To the best of our knowledge, this is the first Transformer-based architecture that supports g-computation for counterfactual outcome prediction under dynamic and time-varying treatment strategies. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-26 |
# AsyncDiff: Asynchronous Denoisingによる拡散モデルの並列化
AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising ( http://arxiv.org/abs/2406.06911v3 ) ライセンス: Link先を確認 | Zigeng Chen, Xinyin Ma, Gongfan Fang, Zhenxiong Tan, Xinchao Wang, | (参考訳) 拡散モデルは、様々なアプリケーションにまたがる優れた生成能力に対して、コミュニティから大きな関心を集めてきた。
しかし、その典型的な多重ステップのシーケンシャルデノジング特性は、高い累積遅延を生じさせ、それによって並列計算の可能性が排除される。
そこで本研究では,複数のデバイスにまたがるモデル並列化を実現する,汎用的でプラグアンドプレイなアクセラレーション方式であるAsyncDiffを紹介する。
提案手法では、ノイズ予測モデルを複数のコンポーネントに分割し、それぞれが異なるデバイスに割り当てる。
これらのコンポーネント間の依存関係連鎖を断ち切るために、連続拡散ステップにおいて隠蔽状態間の高い類似性を利用して、従来のシーケンシャルなdenoisingを非同期プロセスに変換する。
その結果、各コンポーネントは別々のデバイス上で並列に計算される。
提案手法は、生成品質に最小限の影響を与えながら、推論遅延を著しく低減する。
具体的には、安定拡散 v2.1 では、AsyncDiff は NVIDIA A5000 GPU の 4 台の CLIP Score で 0.38 をわずかに削減するだけで、無視できる劣化と 4.0 のスピードアップで 2.7 倍のスピードアップを達成する。
我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。
コードはhttps://github.com/czg1225/AsyncDiffで公開されている。
Diffusion models have garnered significant interest from the community for their great generative ability across various applications. However, their typical multi-step sequential-denoising nature gives rise to high cumulative latency, thereby precluding the possibilities of parallel computation. To address this, we introduce AsyncDiff, a universal and plug-and-play acceleration scheme that enables model parallelism across multiple devices. Our approach divides the cumbersome noise prediction model into multiple components, assigning each to a different device. To break the dependency chain between these components, it transforms the conventional sequential denoising into an asynchronous process by exploiting the high similarity between hidden states in consecutive diffusion steps. Consequently, each component is facilitated to compute in parallel on separate devices. The proposed strategy significantly reduces inference latency while minimally impacting the generative quality. Specifically, for the Stable Diffusion v2.1, AsyncDiff achieves a 2.7x speedup with negligible degradation and a 4.0x speedup with only a slight reduction of 0.38 in CLIP Score, on four NVIDIA A5000 GPUs. Our experiments also demonstrate that AsyncDiff can be readily applied to video diffusion models with encouraging performances. The code is available at https://github.com/czg1225/AsyncDiff. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-26 |
# Valeo4Cast: エンドツーエンドの予測に対するモジュール的アプローチ
Valeo4Cast: A Modular Approach to End-to-End Forecasting ( http://arxiv.org/abs/2406.08113v3 ) ライセンス: Link先を確認 | Yihong Xu, Éloi Zablocki, Alexandre Boulch, Gilles Puy, Mickael Chen, Florent Bartoccioni, Nermin Samet, Oriane Siméoni, Spyros Gidaris, Tuan-Hung Vu, Andrei Bursuc, Eduardo Valle, Renaud Marlet, Matthieu Cord, | (参考訳) 運動予測は、歩行者、車両、交通信号などの周辺エージェントの将来の軌道を予測するために、自律運転システムにおいて不可欠である。
エンドツーエンドの予測では、モデルはシーンの異なる要素の過去の軌跡をセンサーデータ(カメラまたはLiDAR)から共同で検出し、追跡し、将来の位置を予測する必要がある。
私たちは、知覚から予測までエンドツーエンドのトレーニングを通じて、このタスクに取り組む現在のトレンドから離れ、代わりにモジュラーアプローチを使用します。
検出、追跡、予測モジュールを個別に構築し、トレーニングします。
その後、モジュールをよりよく統合し、複雑なエラーを軽減するために、連続的な微調整ステップのみを使用します。
ファインタニング戦略の詳細な研究を行い、我々の単純で効果的なアプローチは、エンドツーエンドの予測ベンチマークの性能を著しく向上させることを示した。
その結果、我々の解法はArgoverse 2 end-to-end Forecasting Challengeに63.82 mAPfでランクインした。
私たちは、昨年の優勝者より+17.1ポイント、今年の優勝者より+13.3ポイント、予測結果を+17.1ポイント上回る。
予測におけるこの顕著なパフォーマンスは、微調整戦略を統合したモジュールパラダイムによって説明できます。
コード、モデルウェイト、結果がhttps://github.com/valeoai/valeo4cast.comで公開されている。
Motion forecasting is crucial in autonomous driving systems to anticipate the future trajectories of surrounding agents such as pedestrians, vehicles, and traffic signals. In end-to-end forecasting, the model must jointly detect and track from sensor data (cameras or LiDARs) the past trajectories of the different elements of the scene and predict their future locations. We depart from the current trend of tackling this task via end-to-end training from perception to forecasting, and instead use a modular approach. We individually build and train detection, tracking and forecasting modules. We then only use consecutive finetuning steps to integrate the modules better and alleviate compounding errors. We conduct an in-depth study on the finetuning strategies and it reveals that our simple yet effective approach significantly improves performance on the end-to-end forecasting benchmark. Consequently, our solution ranks first in the Argoverse 2 End-to-end Forecasting Challenge, with 63.82 mAPf. We surpass forecasting results by +17.1 points over last year's winner and by +13.3 points over this year's runner-up. This remarkable performance in forecasting can be explained by our modular paradigm, which integrates finetuning strategies and significantly outperforms the end-to-end-trained counterparts. The code, model weights and results are made available https://github.com/valeoai/valeo4cast. | 翻訳日:2024-11-09 01:33:31 公開日:2024-09-26 |
# 時間的異常: 生体再生生命維持装置テレメトリにおける異常行動の発見と分離
Unraveling Anomalies in Time: Unsupervised Discovery and Isolation of Anomalous Behavior in Bio-regenerative Life Support System Telemetry ( http://arxiv.org/abs/2406.09825v2 ) ライセンス: Link先を確認 | Ferdinand Rewicki, Jakob Gawlikowski, Julia Niebling, Joachim Denzler, | (参考訳) 異常または臨界状態の検出は、状態監視において不可欠である。
異常を迅速に特定するためには、多くの注意が払われるが、これらの異常の振り返り分析は、観察された望ましくない行動の根本原因の理解を著しく向上させることができる。
この側面は、監視されたシステムが重要な環境にデプロイされるときに特に重要になる。
本研究では,南極のEDEN ISS宇宙温室から得られたテレメトリーデータから得られた異常を,宇宙探査・解析するための生物再生生命支援システム(BLSS)の領域内の異常を探索する。
我々は、異常検出結果に時系列クラスタリングを適用し、一様および多変量設定の様々な種類の異常を分類する。
次に,系統的異常行動の同定におけるこれらの手法の有効性を評価する。
さらに,MDI と DAMP の異常検出手法が相補的な結果をもたらすことを示す。
The detection of abnormal or critical system states is essential in condition monitoring. While much attention is given to promptly identifying anomalies, a retrospective analysis of these anomalies can significantly enhance our comprehension of the underlying causes of observed undesired behavior. This aspect becomes particularly critical when the monitored system is deployed in a vital environment. In this study, we delve into anomalies within the domain of Bio-Regenerative Life Support Systems (BLSS) for space exploration and analyze anomalies found in telemetry data stemming from the EDEN ISS space greenhouse in Antarctica. We employ time series clustering on anomaly detection results to categorize various types of anomalies in both uni- and multivariate settings. We then assess the effectiveness of these methods in identifying systematic anomalous behavior. Additionally, we illustrate that the anomaly detection methods MDI and DAMP produce complementary results, as previously indicated by research. | 翻訳日:2024-11-09 01:33:31 公開日:2024-09-26 |
# 生成LDMのトークン確率分布における未使用情報:予測値の計算によるLCM読取理解の改善
Unused information in token probability distribution of generative LLM: improving LLM reading comprehension through calculation of expected values ( http://arxiv.org/abs/2406.10267v2 ) ライセンス: Link先を確認 | Krystian Zawistowski, | (参考訳) LLMテキストデコーディングは、LLMの品質を認識するための重要なコンポーネントである。
トークン確率の操作により復号法を改良できることを示す2つの実験を行った。
まず,SummEvalの要約スコアリングデータセットを用いて,読解理解度を測定する。
欲求復号から期待値までのスコアを次のトークン分布で比較する。
スコアのエントロピーを高めるために,ロジットを高温でスケールする。
これにより SummEval のパフォーマンスが向上する(人間の判断に相関する)。
7BMistralでは6-8%から13-28%,Mixtralでは20%-46%から37%-56%に改善した。
利得の一部は位置バイアスに関係しているようだ。
第2に、確率に基づく木サンプリングアルゴリズムを用いて、与えられたプロンプトに対して最も確率の高い世代すべてを調べる。
LLM text decoding is key component for perceived LLM quality. We demonstrate two experiments showing that decoding methods could be improved by manipulation of token probabilities. First, we test few LLM on SummEval summary scoring dataset, to measure reading comprehension. We compare scores from greedy decoding to expected values over the next token distribution. We scale logits by large temperature to increase the entropy of scores. This allows strong improvement of performance on SummEval (in terms of correlations to human judgement). We see improvement from 6-8% to 13-28% for 7B Mistral and from 20%-46% to 37%-56% for Mixtral, beating GPT 4 0314 result on two metrics. Part of the gain seems related to positional bias. Secondly, we use probability-based tree sampling algorithm, to examine all most probable generations for given prompt. | 翻訳日:2024-11-09 01:33:31 公開日:2024-09-26 |
# ロボットマニピュレーションにおける局所性を活用したサンプル効率の向上
Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation ( http://arxiv.org/abs/2406.10615v2 ) ライセンス: Link先を確認 | Tong Zhang, Yingdong Hu, Jiacheng You, Yang Gao, | (参考訳) 実世界でロボットデータを収集するコストが高いことを考えると、サンプリング効率はロボット工学において一貫して魅力的なものとなっている。
本稿では,視覚と行動の表現を改善することで,サンプル効率を向上させる模倣学習フレームワークであるSGRv2を紹介する。
SGRv2の設計の中心は、ロボットの動作がターゲットオブジェクトとその局所環境との相互作用に主に影響されることを示唆する、臨界誘導的バイアス-作用局所性の導入である。
シミュレーションと実世界の両方の環境での大規模な実験は、アクションの局所性がサンプル効率を高めるのに不可欠であることを示した。
SGRv2は、キーフレーム制御によるRLBenchタスクを5つのデモで上回り、26タスク中23タスクでRVTベースラインを超えている。
さらに、高密度制御によるManiSkill2とMimicGenの評価では、SGRv2の成功率はSGRの2.54倍である。
実世界の環境では、8つのデモしか行わず、SGRv2はベースラインモデルよりも著しく高い成功率で様々なタスクを実行できる。
プロジェクトウェブサイト: http://sgrv2-robot.github.io
Given the high cost of collecting robotic data in the real world, sample efficiency is a consistently compelling pursuit in robotics. In this paper, we introduce SGRv2, an imitation learning framework that enhances sample efficiency through improved visual and action representations. Central to the design of SGRv2 is the incorporation of a critical inductive bias-action locality, which posits that robot's actions are predominantly influenced by the target object and its interactions with the local environment. Extensive experiments in both simulated and real-world settings demonstrate that action locality is essential for boosting sample efficiency. SGRv2 excels in RLBench tasks with keyframe control using merely 5 demonstrations and surpasses the RVT baseline in 23 of 26 tasks. Furthermore, when evaluated on ManiSkill2 and MimicGen using dense control, SGRv2's success rate is 2.54 times that of SGR. In real-world environments, with only eight demonstrations, SGRv2 can perform a variety of tasks at a markedly higher success rate compared to baseline models. Project website: http://sgrv2-robot.github.io | 翻訳日:2024-11-09 01:33:31 公開日:2024-09-26 |
# 言語モデルの抽象化がReasonerを改善
Abstraction-of-Thought Makes Language Models Better Reasoners ( http://arxiv.org/abs/2406.12442v2 ) ライセンス: Link先を確認 | Ruixin Hong, Hongming Zhang, Xiaoman Pan, Dong Yu, Changshui Zhang, | (参考訳) 抽象推論(英:Abstract reasoning)とは、人間の推論における一般化の鍵となる概念である。
しかし、抽象的な推論を行うための言語モデルが提案されていない。
本稿では,AoT (Abstraction-of-Thought) と呼ばれる新しい構造的推論形式を導入することにより,このギャップを埋めることを模索する。
AoTのユニークな点は、推論プロセス内での抽象化のさまざまなレベルに対する明示的な要件にある。
このアプローチでは,まず抽象レベルで言語モデルを解釈し,具体的詳細を組み込む。
モデルとAoTフォーマットを整合させるため,AoT推論プロセスを備えた348kの高品質サンプルからなる汎用的な微調整データセットであるAoT Collectionを,自動化されたスケーラブルなパイプラインを通じて収集する。
AoT Collectionで幅広い言語モデルを微調整し、挑戦的なベンチマークBig-Bench Hardから23の未確認タスクについて広範囲に評価します。
実験結果から,多くの推論タスクにおいて,AoT推論形式に整列したモデルの方がCoTに整列したモデルよりも大幅に優れていたことが示唆された。
Abstract reasoning, the ability to reason from the abstract essence of a problem, serves as a key to generalization in human reasoning. However, eliciting language models to perform reasoning with abstraction remains unexplored. This paper seeks to bridge this gap by introducing a novel structured reasoning format called Abstraction-of-Thought (AoT). The uniqueness of AoT lies in its explicit requirement for varying levels of abstraction within the reasoning process. This approach could elicit language models to first contemplate on the abstract level before incorporating concrete details, which is overlooked by the prevailing step-by-step Chain-of-Thought (CoT) method. To align models with the AoT format, we present AoT Collection, a generic finetuning dataset consisting of 348k high-quality samples with AoT reasoning processes, collected via an automated and scalable pipeline. We finetune a wide range of language models with AoT Collection and conduct extensive evaluations on 23 unseen tasks from the challenging benchmark Big-Bench Hard. Experimental results indicate that models aligned to AoT reasoning format substantially outperform those aligned to CoT in many reasoning tasks. | 翻訳日:2024-11-09 01:22:29 公開日:2024-09-26 |
# 大規模言語モデルの多言語指導チューニングに良いデータか、それとも単に多言語評価に悪いデータか?
Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? ( http://arxiv.org/abs/2406.12822v3 ) ライセンス: Link先を確認 | Pinzhen Chen, Simon Yu, Zhicheng Guo, Barry Haddow, | (参考訳) 多言語大言語モデルは設計され、主張され、様々な言語の話者に適応することが期待されている。
これらのモデルを微調整し評価する現在の実践は、言語固有の知識をカバーできないが翻訳欠陥を導入できる翻訳に大きく依存しているため、この目的と完全に一致しない可能性があると仮定する。
命令データの性質がモデル出力に影響を及ぼすかどうかは不明であるが、逆に、翻訳されたテストセットがそのようなニュアンスを捕捉できるかどうかは疑問である。
両段階での翻訳データの使用は、しばしば混在しているため、このような不完全性は見過ごされた可能性がある。
本研究は,制御されたネイティブデータや翻訳データを用いて,授業のチューニングと評価の段階でこれらの問題を調査する。
モデルの性能が高い場合, ネイティブまたはジェネレーションのベンチマークでは, ネイティブとトランスポートされた命令データの間に顕著な差があることが示されている。
ラウンドトリップとシングルパスの翻訳の比較は、言語固有のリソースからの知識の重要性を反映している。
最後に、このギャップを構造的だが生成的タスクで埋めるには、正規化が有益であることを示す。
Multilingual large language models are designed, claimed, and expected to cater to speakers of varied languages. We hypothesise that the current practices of fine-tuning and evaluating these models may not perfectly align with this objective owing to a heavy reliance on translation, which cannot cover language-specific knowledge but can introduce translation defects. It remains unknown whether the nature of the instruction data has an impact on the model output; conversely, it is questionable whether translated test sets can capture such nuances. Due to the often coupled practices of using translated data in both stages, such imperfections could have been overlooked. This work investigates these issues using controlled native or translated data during the instruction tuning and evaluation stages. We show that native or generation benchmarks reveal a notable difference between native and translated instruction data especially when model performance is high, whereas other types of test sets cannot. The comparison between round-trip and single-pass translations reflects the importance of knowledge from language-native resources. Finally, we demonstrate that regularization is beneficial to bridging this gap on structured but not generative tasks. | 翻訳日:2024-11-09 01:22:29 公開日:2024-09-26 |
# QRMeM: 質問とリフレクション記憶機構による長さ制限の解き方
QRMeM: Unleash the Length Limitation through Question then Reflection Memory Mechanism ( http://arxiv.org/abs/2406.13167v2 ) ライセンス: Link先を確認 | Bo Wang, Heyan Huang, Yixin Cao, Jiahao Ying, Wei Tang, Chong Feng, | (参考訳) 大きな言語モデル(LLM)は自然言語処理において顕著な進歩を遂げてきたが、広範なテキスト処理に苦戦し続けている。
メモリメカニズムは、圧縮、要約、構造化といった技術を活用して、大量のテキストのニュアンスで効率的な処理を容易にする、長いコンテキストを管理する柔軟なソリューションを提供する。
しかし、既存の技術は静的知識統合による課題に直面しており、タスク固有のニーズへの適応が不十分であり、またマルチセグメント関係が欠如しているため、応答過程において関連するセグメントの動的再編成と論理的組み合わせを妨げている。
これらの問題に対処するために、二層構造メモリプールを組み込んだ新しい戦略、QRMeMを導入する。
このプールは、構造化されたグラフガイダンスで静的テキストコンテンツを相乗化し、関連するセグメントをナビゲートし識別するための反射的試行錯誤アプローチを促進する。
マルチチョイス質問 (MCQ) とマルチドキュメント質問応答 (Multi-doc QA) のベンチマークによる評価では,既存手法と比較してQRMeMの性能が向上している。
While large language models (LLMs) have made notable advancements in natural language processing, they continue to struggle with processing extensive text. Memory mechanism offers a flexible solution for managing long contexts, utilizing techniques such as compression, summarization, and structuring to facilitate nuanced and efficient handling of large volumes of text. However, existing techniques face challenges with static knowledge integration, leading to insufficient adaptation to task-specific needs and missing multi-segmentation relationships, which hinders the dynamic reorganization and logical combination of relevant segments during the response process. To address these issues, we introduce a novel strategy, Question then Reflection Memory Mechanism (QRMeM), incorporating a dual-structured memory pool. This pool synergizes static textual content with structured graph guidance, fostering a reflective trial-and-error approach for navigating and identifying relevant segments. Our evaluation across multiple-choice questions (MCQ) and multi-document question answering (Multi-doc QA) benchmarks showcases QRMeM enhanced performance compared to existing approaches. | 翻訳日:2024-11-09 01:22:29 公開日:2024-09-26 |
# ゼロロス多重化のための絡み合い源と量子メモリ解析
Entanglement source and quantum memory analysis for zero added-loss multiplexing ( http://arxiv.org/abs/2406.13572v2 ) ライセンス: Link先を確認 | Jeffrey H. Shapiro, Michael G. Raymer, Clark Embleton, Franco N. C. Wong, Brian J. Smith, | (参考訳) 高速で高忠実な絡み合い分布は、量子インターネットの作成には不可欠であるが、近年のファイバーおよび衛星ベースの絡み合い分布の成果は、必要なものよりもはるかに少ない。
Chen et al [Phys. Appl. 19, 054209 (2023)] はゼロロス多重化 (ZALM) によるエンタングルメント分配率を劇的に向上させる手段を提案した。
ZALMの量子送信機は、一対のサニャック構成の自発パラメトリックダウンコンバータ(SPDC)、高密度波長分割多重化(DWDM)フィルタリングによるチャネル化、および部分ベル状態測定(BSM)を用いて、周波数多重化二光子の有意な源を実現する。
それぞれのバイフォトンは、アリスとボブに、その周波数チャネルと隠蔽された絡み合った状態を特定する古典的なメッセージで送信される。
量子受信機はDWDMフィルタとモード変換を使用して、受信した2光子をキャビティ内色中心量子メモリに接続する。
本稿では、ZALMのSPDC、部分BSM、アリスとボブの量子メモリのロードについて深く研究する。
これはSPDCソースと量子メモリの密度演算子を導出し、偏光束縛された双光子とロードされた量子メモリの両方に対して、シェラルディング確率、シェラルディング効率、フィリティを評価できるようにし、ZALM性能を最適化するためのパラメータ空間の探索を可能にする。
最適化解析がなくても、Alice と Bob に送信されたバイフォトンが高純度であることを保証するために、ほぼ分離可能なチャネル化バイフォトン波動関数を実現する必要があること、そしてAlice と Bob の時間モードコンバータに搭載されたプレミアムが、受信したバイフォトン状態がキャビティ内色中心に忠実に転送されることを保証するために、狭帯域のプッシュプルメモリローディングを可能にすることを、ZALM アーキテクチャの2つの重要な特徴を既に示している。
High-rate, high-fidelity entanglement distribution is essential to the creation of a quantum internet, but recent achievements in fiber and satellite-based entanglement distribution fall far short of what is needed. Chen et al. [Phys. Rev. Appl. 19, 054209 (2023)] proposed a means for dramatically increasing entanglement-distribution rates via zero added-loss multiplexing (ZALM). ZALM's quantum transmitter employs a pair of Sagnac-configured spontaneous parametric downconverters (SPDCs), channelization via dense wavelength-division multiplexing (DWDM) filtering, and partial Bell-state measurements (BSMs) to realize a heralded source of frequency-multiplexed polarization-entangled biphotons. Each biphoton is transmitted to Alice and Bob with a classical message identifying its frequency channel and the heralded entangled state. Their quantum receivers use DWDM filtering and mode conversion to interface their received biphotons to intra-cavity color-center quantum memories. This paper delves deeply into ZALM's SPDCs, partial-BSMs, and loading of Alice and Bob's quantum memories. It derives the density operators for the SPDC sources and the quantum memories, allowing heralding probability, heralding efficiency, and fidelity to be evaluated for both the polarization-entangled biphotons and the loaded quantum memories, thus enabling exploration of the parameter space for optimizing ZALM performance. Even without optimization analysis, the paper already demonstrates two critical features of the ZALM architecture: the necessity of achieving a near-separable channelized biphoton wave function to ensure the biphoton sent to Alice and Bob is of high purity; and the premium placed on Alice and Bob's temporal-mode converters' enabling narrowband push-pull memory loading to ensure the arriving biphoton's state is faithfully transferred to the intra-cavity color centers. | 翻訳日:2024-11-09 01:22:29 公開日:2024-09-26 |
# SeCoKD: 少ないショットによるインコンテキスト学習のための大規模言語モデルのアラインメント
SeCoKD: Aligning Large Language Models for In-Context Learning with Fewer Shots ( http://arxiv.org/abs/2406.14208v2 ) ライセンス: Link先を確認 | Weixing Wang, Haojin Yang, Christoph Meinel, | (参考訳) 以前の研究では、デモによって与えられたタスクにおいて大きな言語モデル(LLM)のパフォーマンスが大幅に向上することが示されている。
しかし、いわゆるICL(In-Context Learning)能力は、提示するコンテキストに非常に敏感であり、数十のデモが必要な場合が多い。
本研究では,競争性能を維持しつつ,ショット数を削減できるかどうかを検討する。
本稿では,学生モデルに高頻度な変動を付与する自己知識蒸留(KD)トレーニングフレームワークであるSeCoKDについて述べる。
我々は3つのLSMと6つのベンチマークでSeCoKDを実験し、主に推論タスクに焦点を当てた。
その結果,提案手法はベースモデルとSupervised Fine-tuning(SFT)よりも優れており,特に0ショットと1ショット設定では30%,10%向上していることがわかった。
さらに、SeCoKDは、新しいタスクで評価する際の否定的なアーティファクトが少なく、Supervised Fine-tuningよりも堅牢である。
Previous studies have shown that demonstrations can significantly help Large Language Models (LLMs ) perform better on the given tasks. However, this so-called In-Context Learning ( ICL ) ability is very sensitive to the presenting context, and often dozens of demonstrations are needed. In this work, we investigate if we can reduce the shot number while still maintaining a competitive performance. We present SeCoKD, a self-Knowledge Distillation ( KD ) training framework that aligns the student model with a heavily prompted variation, thereby increasing the utilization of a single demonstration. We experiment with the SeCoKD across three LLMs and six benchmarks focusing mainly on reasoning tasks. Results show that our method outperforms the base model and Supervised Fine-tuning ( SFT ), especially in zero-shot and one-shot settings by 30% and 10%, respectively. Moreover, SeCoKD brings little negative artifacts when evaluated on new tasks, which is more robust than Supervised Fine-tuning. | 翻訳日:2024-11-09 01:22:29 公開日:2024-09-26 |
# 触覚フィードバック遠隔操作システムを用いたバイマニアルロボットのための少数のデモから可変コンプライアンス制御を学習する
Learning Variable Compliance Control From a Few Demonstrations for Bimanual Robot with Haptic Feedback Teleoperation System ( http://arxiv.org/abs/2406.14990v2 ) ライセンス: Link先を確認 | Tatsuya Kamijo, Cristian C. Beltran-Hernandez, Masashi Hamaya, | (参考訳) 剛体ロボットを用いた、きめ細やかなコンタクトリッチな操作タスクを自動化することは、ロボット工学において重要な課題である。
位置指示による動作によって定義された剛体ロボットは、環境との接触に適応できないため、過度の接触力の問題に直面し、潜在的に損傷を引き起こす可能性がある。
コンプライアンス制御スキームは、外部センサによる力の制御によってこれらの問題を緩和するために導入されているが、細調整されたタスク固有のコントローラパラメータの必要性により、それらが妨げられている。
デモから学ぶ(LfD)は直感的な代替手段であり、ロボットは観察された動作を通じて操作を学ぶことができる。
そこで本研究では,剛体ロボットに対する,器用で接触に富んだ操作の教育を強化する新しいシステムを提案する。
まず,仮想現実感(VR)コントローラを用いた遠隔操作インタフェースを内蔵し,触覚フィードバックによるタスク実証のための直感的で費用対効果の高い方法を提案する。
第2にComp-ACT(Compliance Control via Action Chunking with Transformers)を提案する。
本手法は, ロボットに適応性や安全性を向上し, ロボットの巧妙な操作を指導する上で, 実環境とシミュレーション環境における単腕ロボットと人体ロボットのセットアップを用いて, 様々な複雑な接触操作タスクに対して検証されている。
https://github.com/omron-sinicx/CompACT
Automating dexterous, contact-rich manipulation tasks using rigid robots is a significant challenge in robotics. Rigid robots, defined by their actuation through position commands, face issues of excessive contact forces due to their inability to adapt to contact with the environment, potentially causing damage. While compliance control schemes have been introduced to mitigate these issues by controlling forces via external sensors, they are hampered by the need for fine-tuning task-specific controller parameters. Learning from Demonstrations (LfD) offers an intuitive alternative, allowing robots to learn manipulations through observed actions. In this work, we introduce a novel system to enhance the teaching of dexterous, contact-rich manipulations to rigid robots. Our system is twofold: firstly, it incorporates a teleoperation interface utilizing Virtual Reality (VR) controllers, designed to provide an intuitive and cost-effective method for task demonstration with haptic feedback. Secondly, we present Comp-ACT (Compliance Control via Action Chunking with Transformers), a method that leverages the demonstrations to learn variable compliance control from a few demonstrations. Our methods have been validated across various complex contact-rich manipulation tasks using single-arm and bimanual robot setups in simulated and real-world environments, demonstrating the effectiveness of our system in teaching robots dexterous manipulations with enhanced adaptability and safety. Code available at: https://github.com/omron-sinicx/CompACT | 翻訳日:2024-11-09 01:10:29 公開日:2024-09-26 |
# 時間的データ分析のための連続確率的構成ネットワーク
Recurrent Stochastic Configuration Networks for Temporal Data Analytics ( http://arxiv.org/abs/2406.16959v2 ) ライセンス: Link先を確認 | Dianhui Wang, Gang Dang, | (参考訳) ニューラルネットワークを用いた時間データモデリング技術は、時系列予測や制御工学を含む多くのドメインアプリケーションで有用である。
本稿では,確率的構成ネットワーク (RSCN) の逐次バージョンを開発することを目的としており,入力変数の動的順序に対する基礎的な仮定は存在しない。
歴史的データの収集を前提として,まず監視機構に照らして初期RCCNモデルを構築し,続いてプロジェクションアルゴリズムを用いて出力重みのオンライン更新を行った。
エコー状態特性、オフライン・オンライン両方の学習におけるRCCNの普遍近似特性、出力重みの収束など、いくつかの理論的結果が確立されている。
提案したRCCNモデルは、入力されたランダム重み行列とランダムフィードバック行列の特別な構造を割り当てる方法の観点から、よく知られたエコー状態ネットワーク(ESN)と著しく区別されている。
長い短期記憶(LSTM)ネットワーク、元のESN、および単純サイクル貯水池(SCR)、多項式ESN(PESN)、漏洩積分器ESN(LIESN)、RCCNなどの最先端ESN手法の総合的な比較研究を行う。
数値的な結果は,提案したRCCNが全データセットに対して良好に動作することを示す。
Temporal data modelling techniques with neural networks are useful in many domain applications, including time-series forecasting and control engineering. This paper aims at developing a recurrent version of stochastic configuration networks (RSCNs) for problem solving, where we have no underlying assumption on the dynamic orders of the input variables. Given a collection of historical data, we first build an initial RSCN model in the light of a supervisory mechanism, followed by an online update of the output weights by using a projection algorithm. Some theoretical results are established, including the echo state property, the universal approximation property of RSCNs for both the offline and online learnings, and the convergence of the output weights. The proposed RSCN model is remarkably distinguished from the well-known echo state networks (ESNs) in terms of the way of assigning the input random weight matrix and a special structure of the random feedback matrix. A comprehensive comparison study among the long short-term memory (LSTM) network, the original ESN, and several state-of-the-art ESN methods such as the simple cycle reservoir (SCR), the polynomial ESN (PESN), the leaky-integrator ESN (LIESN) and RSCN is carried out. Numerical results clearly indicate that the proposed RSCN performs favourably over all of the datasets. | 翻訳日:2024-11-09 01:10:29 公開日:2024-09-26 |
# MPCODER: 明示的・暗黙的スタイル表現学習によるマルチユーザパーソナライズドコード生成
MPCODER: Multi-user Personalized Code Generator with Explicit and Implicit Style Representation Learning ( http://arxiv.org/abs/2406.17255v2 ) ライセンス: Link先を確認 | Zhenlong Dai, Chang Yao, WenKang Han, Ying Yuan, Zhipeng Gao, Jingyuan Chen, | (参考訳) 大きな言語モデル(LLM)は、開発者の日々の開発を支援する大きな可能性を実証しています。
しかし、ほとんどの研究は正しいコードを生成することに焦点を当てており、パーソナライズされたコードを生成するためにLLMを使用する方法はほとんど研究されていない。
このギャップを埋めるため、複数のユーザ向けにパーソナライズされたコードを生成するMPCoder(Multi-user Personalized Code Generator)を提案しました。
コーディングスタイルの特徴をよりよく学習するために、明示的なコーディングスタイル残留学習を使用して、構文コードスタイル標準と暗黙的なスタイル学習をキャプチャし、セマンティックコードスタイル規則をキャプチャします。
コントラスト学習を通じて、異なるユーザの暗黙的な特徴表現をよりよく区別するために、マルチユーザスタイルのアダプタをトレーニングし、最終的には複数のユーザに対してパーソナライズされたコード生成を可能にします。
さらに,異なる符号化スタイルの符号間の類似性を推定するための新しい評価基準を提案する。
実験の結果,本課題に対するアプローチの有効性が示された。
Large Language Models (LLMs) have demonstrated great potential for assisting developers in their daily development. However, most research focuses on generating correct code, how to use LLMs to generate personalized code has seldom been investigated. To bridge this gap, we proposed MPCoder (Multi-user Personalized Code Generator) to generate personalized code for multiple users. To better learn coding style features, we utilize explicit coding style residual learning to capture the syntax code style standards and implicit style learning to capture the semantic code style conventions. We train a multi-user style adapter to better differentiate the implicit feature representations of different users through contrastive learning, ultimately enabling personalized code generation for multiple users. We further propose a novel evaluation metric for estimating similarities between codes of different coding styles. The experimental results show the effectiveness of our approach for this novel task. | 翻訳日:2024-11-09 01:10:29 公開日:2024-09-26 |
# スマートPixelデータセットとヘテロ接合トランジスタの混合カーネルSVM分類のための自動最適化フレームワーク
An Autotuning-based Optimization Framework for Mixed-kernel SVM Classifications in Smart Pixel Datasets and Heterojunction Transistors ( http://arxiv.org/abs/2406.18445v2 ) ライセンス: Link先を確認 | Xingfu Wu, Tupendra Oli, Justin H. Qian, Valerie Taylor, Mark C. Hersam, Vinod K. Sangwan, | (参考訳) Support Vector Machine (SVM) は、高い精度、高次元データを扱う能力、多様なデータソースをモデル化する柔軟性のために、科学や工学で広く使われている最先端の分類手法である。
本稿では、SVMにおけるハイパーパラメータの範囲を定量化して最適な選択を識別する自動チューニングベースの最適化フレームワークを提案し、高エネルギー物理(HEP)におけるスマートピクセルデータセットと混合カーネルヘテロ接合トランジスタ(MKH)に対するシグモドカーネルとガウスカーネルの混合カーネルを持つ2つのSVMに適用する。
実験結果から,SVMとカーネルにおけるハイパーパラメータの最適選択は,異なるアプリケーションやデータセットに対して大きく異なることが明らかとなった。
混合カーネルSVMにおけるハイパーパラメータCとcoef0の不正選択は極めて低い精度となり、提案フレームワークは、SVMにおけるハイパーパラメータの適切な範囲を効果的に定量化し、最適な選択を識別し、HEPアプリケーションで94.6\%、MKHアプリケーションではるかに少ないチューニング時間で最高平均精度97.2\%を達成する。
Support Vector Machine (SVM) is a state-of-the-art classification method widely used in science and engineering due to its high accuracy, its ability to deal with high dimensional data, and its flexibility in modeling diverse sources of data. In this paper, we propose an autotuning-based optimization framework to quantify the ranges of hyperparameters in SVMs to identify their optimal choices, and apply the framework to two SVMs with the mixed-kernel between Sigmoid and Gaussian kernels for smart pixel datasets in high energy physics (HEP) and mixed-kernel heterojunction transistors (MKH). Our experimental results show that the optimal selection of hyperparameters in the SVMs and the kernels greatly varies for different applications and datasets, and choosing their optimal choices is critical for a high classification accuracy of the mixed kernel SVMs. Uninformed choices of hyperparameters C and coef0 in the mixed-kernel SVMs result in severely low accuracy, and the proposed framework effectively quantifies the proper ranges for the hyperparameters in the SVMs to identify their optimal choices to achieve the highest accuracy 94.6\% for the HEP application and the highest average accuracy 97.2\% with far less tuning time for the MKH application. | 翻訳日:2024-11-09 01:10:29 公開日:2024-09-26 |
# QBI: フェデレーション学習における効率的なプライベートデータ再構成のための量子ベースのバイアス初期化
QBI: Quantile-Based Bias Initialization for Efficient Private Data Reconstruction in Federated Learning ( http://arxiv.org/abs/2406.18745v2 ) ライセンス: Link先を確認 | Micha V. Nowak, Tim P. Bott, David Khachaturov, Frank Puppe, Adrian Krenzer, Amar Hekalo, | (参考訳) フェデレーション学習は、個人デバイスにデータが残り、勾配のようなモデル更新だけが中央コーディネータと共有されるため、ユーザのプライバシを損なうことなく、分散データ上で機械学習モデルのトレーニングを可能にする。
しかし,近年の研究では,モデルパラメータを悪質に初期化することにより,共有モデル更新からプライベートデータを完全に再構築できることが示されている。
本稿では,再建能力を大幅に向上させる新しいバイアス初期化手法であるQBIを提案する。
これは、スパースアクティベーションパターンをもたらすバイアス値を直接解決することで達成される。
さらに,QBIに基づくアルゴリズムであるPAIRSを提案する。
PAIRSは、ターゲットドメインから別のデータセットが利用可能になったときにデプロイでき、完全回復可能なデータの割合をさらに増やすことができる。
様々なサイズのバッチから完全に再構成できるサンプルの割合で測定し,ImageNetで最大50%,IMDB感情分析テキストデータセットで最大60%の精度で,従来の手法よりも大幅な改善を実現した。
さらに,確率勾配空間を利用した攻撃の理論的限界を確立し,これらの攻撃の基本的な制約を理解する基盤となる。
合成データセットを用いて,これらの限界を実験的に評価する。
最後に,よりセキュアでプライベートなフェデレーション学習システムの開発に寄与する,勾配空間攻撃を防止するための防御フレームワーク AGGP を提案し,評価する。
Federated learning enables the training of machine learning models on distributed data without compromising user privacy, as data remains on personal devices and only model updates, such as gradients, are shared with a central coordinator. However, recent research has shown that the central entity can perfectly reconstruct private data from shared model updates by maliciously initializing the model's parameters. In this paper, we propose QBI, a novel bias initialization method that significantly enhances reconstruction capabilities. This is accomplished by directly solving for bias values yielding sparse activation patterns. Further, we propose PAIRS, an algorithm that builds on QBI. PAIRS can be deployed when a separate dataset from the target domain is available to further increase the percentage of data that can be fully recovered. Measured by the percentage of samples that can be perfectly reconstructed from batches of various sizes, our approach achieves significant improvements over previous methods with gains of up to 50% on ImageNet and up to 60% on the IMDB sentiment analysis text dataset. Furthermore, we establish theoretical limits for attacks leveraging stochastic gradient sparsity, providing a foundation for understanding the fundamental constraints of these attacks. We empirically assess these limits using synthetic datasets. Finally, we propose and evaluate AGGP, a defensive framework designed to prevent gradient sparsity attacks, contributing to the development of more secure and private federated learning systems. | 翻訳日:2024-11-09 01:10:29 公開日:2024-09-26 |
# 生成は信じている - メンバーシップ推論による検索強化世代に対する攻撃
Generating Is Believing: Membership Inference Attacks against Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.19234v2 ) ライセンス: Link先を確認 | Yuying Li, Gaoyang Liu, Chen Wang, Yang Yang, | (参考訳) Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚や知識の安定化といった問題を、コンテンツ生成を支援するために外部データベースから関連知識を取得することによって緩和する最先端技術である。
既存の研究では、RAGのLCMに関連する潜在的なプライバシーリスクが示されている。
しかし、医療記録や個人の身元などの機密データを含む外部データベースの統合によって引き起こされるプライバシーリスクは、いまだほとんど解明されていない。
本稿では,RAGの外部データベースのメンバシッププライバシに着目し,サンプルがRAGのデータベースの一部であるかどうかを判断することを目的として,このギャップを埋めることを目的とする。
我々の基本的な考え方は、サンプルが外部データベースにある場合、RAGシステムによって生成されたテキストと高い意味的類似性を示すことである。
S$^2$MIA, a \underline{M}embership \underline{I}nference \underline{A}ttack。
提案したS$^2$MIAにより、RAGデータベースの会員プライバシーを侵害する可能性を実証する。
実験の結果,S$^2$MIAは既存の5つのMIAと比較して強い推論性能を達成でき,また,3つの代表防御の保護から逃れることができることがわかった。
Retrieval-Augmented Generation (RAG) is a state-of-the-art technique that mitigates issues such as hallucinations and knowledge staleness in Large Language Models (LLMs) by retrieving relevant knowledge from an external database to assist in content generation. Existing research has demonstrated potential privacy risks associated with the LLMs of RAG. However, the privacy risks posed by the integration of an external database, which often contains sensitive data such as medical records or personal identities, have remained largely unexplored. In this paper, we aim to bridge this gap by focusing on membership privacy of RAG's external database, with the aim of determining whether a given sample is part of the RAG's database. Our basic idea is that if a sample is in the external database, it will exhibit a high degree of semantic similarity to the text generated by the RAG system. We present S$^2$MIA, a \underline{M}embership \underline{I}nference \underline{A}ttack that utilizes the \underline{S}emantic \underline{S}imilarity between a given sample and the content generated by the RAG system. With our proposed S$^2$MIA, we demonstrate the potential to breach the membership privacy of the RAG database. Extensive experiment results demonstrate that S$^2$MIA can achieve a strong inference performance compared with five existing MIAs, and is able to escape from the protection of three representative defenses. | 翻訳日:2024-11-09 00:59:29 公開日:2024-09-26 |
# 量子測地力学の時間と矢印
Time and its arrow from quantum geometrodynamics? ( http://arxiv.org/abs/2407.01727v2 ) ライセンス: Link先を確認 | Claus Kiefer, Leonardo Chataignier, Mritunjay Tyagi, | (参考訳) 量子重力に対する保守的なアプローチである量子幾何学は、どのようにして古典的時空の出現を説明し、それとともに、古典的時空の出現とその普遍的量子状態からの矢印を説明するかについて議論する。
これは、理論のハミルトニアンの構造によって動機づけられた境界条件の特別なが合理的な選択から従う。
この条件は、ペンローズのワイル曲率仮説の量子バージョンを定義することもできる。
我々は、この図と「過去仮説」と異なる観測時間矢印との関係についてコメントし、量子測地力学がこれらの観測を説明する統一的でより基本的な枠組みとしてどのように機能するかを検討する。
We discuss how quantum geometrodynamics, a conservative approach to quantum gravity, might explain the emergence of classical spacetime and, with it, the emergence of classical time and its arrow from the universal quantum state. This follows from a particular but reasonable choice of boundary condition motivated by the structure of the Hamiltonian of the theory. This condition can also be seen as defining a quantum version of Penrose's Weyl curvature hypothesis. We comment on the relation of this picture to the `past hypothesis' and the different observed arrows of time, and we consider how quantum geometrodynamics could serve as a unifying and more fundamental framework to explain these observations. | 翻訳日:2024-11-09 00:59:29 公開日:2024-09-26 |
# LuSNAR:Muti-Sensorを用いた自律探査用月面セグメンテーション・ナビゲーション・リコンストラクションデータセット
LuSNAR:A Lunar Segmentation, Navigation and Reconstruction Dataset based on Muti-sensor for Autonomous Exploration ( http://arxiv.org/abs/2407.06512v3 ) ライセンス: Link先を確認 | Jiayi Liu, Qianyu Zhang, Xue Wan, Shengyang Zhang, Yaolin Tian, Haodong Han, Yutao Zhao, Baichuan Liu, Zeyuan Zhao, Xubo Luo, | (参考訳) 月探査ミッションの複雑さにより、月はより高いレベルの自律性を持つ必要がある。
環境認識とナビゲーションアルゴリズムは、月探査船が自律的な探査を行うための基盤となっている。
アルゴリズムの開発と検証には信頼性の高いデータサポートが必要である。
既存の月のデータセットのほとんどは単一のタスクをターゲットにしており、多様なシーンと高精度の地上真実ラベルが欠如している。
この問題に対処するため,マルチタスク,マルチシーン,マルチラベルのベンチマークデータセットLuSNARを提案する。
このデータセットは、高解像度ステレオ画像ペア、パノラマセマンティックラベル、密度深度マップ、LiDAR点雲、ローバーの位置など、自律認識とナビゲーションシステムの総合的な評価に使用することができる。
よりリッチなシーンデータを提供するため,Unreal Engineをベースとした9つの月面シミュレーションシーンを構築した。
各シーンは、地形レリーフと物体の密度に応じて分割される。
データセットのユーザビリティを検証するために,セマンティックセグメンテーション,3次元再構成,自律ナビゲーションのアルゴリズムを評価し,分析した。
実験の結果,本論文で提案するデータセットは,自律環境認識やナビゲーションなどのタスクの地上検証に利用でき,アルゴリズムメトリクスのアクセシビリティをテストするためのベンチマークデータセットを提供する。
LuSNAR を https://github.com/zqyu9/LuSNAR-dataset で公開しています。
With the complexity of lunar exploration missions, the moon needs to have a higher level of autonomy. Environmental perception and navigation algorithms are the foundation for lunar rovers to achieve autonomous exploration. The development and verification of algorithms require highly reliable data support. Most of the existing lunar datasets are targeted at a single task, lacking diverse scenes and high-precision ground truth labels. To address this issue, we propose a multi-task, multi-scene, and multi-label lunar benchmark dataset LuSNAR. This dataset can be used for comprehensive evaluation of autonomous perception and navigation systems, including high-resolution stereo image pairs, panoramic semantic labels, dense depth maps, LiDAR point clouds, and the position of rover. In order to provide richer scene data, we built 9 lunar simulation scenes based on Unreal Engine. Each scene is divided according to topographic relief and the density of objects. To verify the usability of the dataset, we evaluated and analyzed the algorithms of semantic segmentation, 3D reconstruction, and autonomous navigation. The experiment results prove that the dataset proposed in this paper can be used for ground verification of tasks such as autonomous environment perception and navigation, and provides a lunar benchmark dataset for testing the accessibility of algorithm metrics. We make LuSNAR publicly available at: https://github.com/zqyu9/LuSNAR-dataset. | 翻訳日:2024-11-08 23:02:19 公開日:2024-09-26 |
# RoLoRA: 有効重量活性化量子化のための微調整回転型外周フリーLCM
RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization ( http://arxiv.org/abs/2407.08044v2 ) ライセンス: Link先を確認 | Xijie Huang, Zechun Liu, Shih-Yang Liu, Kwang-Ting Cheng, | (参考訳) Low-Rank Adaptation (LoRA) はパラメータ効率の良いファインチューニング(PEFT)手法であり、Large Language Models (LLMs) におけるウェイトの一部を更新することでトレーニング効率を大幅に向上させる。
近年,微調整のメモリフットプリントを低減するため,LoRA法にも重みのみの量子化技術が適用されている。
しかし,LoRAパイプラインへの重み付け活性化量子化の適用は未検討であり,活性化オフレイアの存在が主な原因で,大幅な性能劣化が観測された。
そこで本研究では,LoRAをベースとした効果的な量化量子化手法であるRoLoRAを提案する。
RoLoRAは、外乱除去に回転を利用するとともに、回転LLMにおける外乱のない特性を維持するために回転対応微調整を提案する。
実験結果から,RoLoRAは低ビットのLoRA収束と,重量活性化条件下での学習後の量子化ロバスト性を改善した。
我々は,LLaMA2-7B/13B,LLaMA3-8Bモデルにおけるロロラの評価を行い,LLaMA2-13Bの絶対精度を最大29.5%向上させた。
さらに,Large Multimodal Models (LLaVA-1.5-7B) の有効性を示す。
コードはhttps://github.com/HuangOwen/RoLoRAで公開されている。
Low-Rank Adaptation (LoRA), as a representative Parameter-Efficient Fine-Tuning (PEFT)method, significantly enhances the training efficiency by updating only a small portion of the weights in Large Language Models (LLMs). Recently, weight-only quantization techniques have also been applied to LoRA methods to reduce the memory footprint of fine-tuning. However, applying weight-activation quantization to the LoRA pipeline is under-explored, and we observe substantial performance degradation primarily due to the presence of activation outliers. In this work, we propose RoLoRA, the first LoRA-based scheme for effective weight-activation quantization. RoLoRA utilizes rotation for outlier elimination and proposes rotation-aware fine-tuning to preserve the outlier-free characteristics in rotated LLMs. Experimental results show RoLoRA consistently improves low-bit LoRA convergence and post-training quantization robustness in weight-activation settings. We evaluate RoLoRA across LLaMA2-7B/13B, LLaMA3-8B models, achieving up to 29.5% absolute accuracy gain of 4-bit weight-activation quantized LLaMA2- 13B on commonsense reasoning tasks compared to LoRA baseline. We further demonstrate its effectiveness on Large Multimodal Models (LLaVA-1.5-7B). Codes are available at https://github.com/HuangOwen/RoLoRA | 翻訳日:2024-11-08 22:29:09 公開日:2024-09-26 |
# 低ランク層間相互接続型適応
Low-Rank Interconnected Adaptation across Layers ( http://arxiv.org/abs/2407.09946v2 ) ライセンス: Link先を確認 | Yibo Zhong, Yao Zhou, | (参考訳) 低ランク適応(LoRA)は、低ランクプロジェクタの$A$と$B$を利用して、適応ターゲットの$W$に対して$Delta W$を学習する強力なパラメータ効率の微調整手法である。
従来の研究では、LoRAは基本的に勾配圧縮機であり、固定プロジェクション行列$A_0$を用いて勾配上にランダムなプロジェクションを実行することが示されている。
しかし、この設定は全体の重量更新を低ランクに制限し、適応性能を制限している。
本稿では,層間(Lily)にまたがる低ランク相互適応を提案する。
具体的には、低次元プロジェクタ(LP)が特定のレベルで下向きのプロジェクタとして保持される階層的枠組みを用いており、一方、グローバルシェアされた高次元プロジェクタ(HP)の専門家は、すべての層にわたって上向きのプロジェクタを実行する。
リリーが各LPを全てのHP専門家に一意に接続するため、勾配射影はもはや固定射影行列に支配されるのではなく、全てのプロジェクターの選択的な組み合わせによって支配され、ローランの低ランク制約を破る。
さらに、Lilyのクロスレイヤ接続は、異なるレイヤにまたがる複雑な情報や依存関係のキャプチャを容易にし、それによってモデルの表現能力を高める。
さまざまなモダリティ、アーキテクチャ、モデルサイズにわたる実験は、Lilyの優れたパフォーマンスと効率を浮き彫りにした。
コードはgithub https://github.com/yibozhong/lilyで入手できる。
Low-rank adaptation (LoRA) is a powerful parameter-efficient fine-tuning method that utilizes low-rank projectors $A$ and $B$ to learn weight updates $\Delta W$ for adaptation targets $W$. Previous research has shown that LoRA is essentially a gradient compressor, performing random projections on the gradient using a fixed projection matrix $A_0$. However, this setup restricts the overall weight update to be low-rank, which limits the adaptation performance. In this paper, we propose low-rank interconnected adaptation across layers (Lily). Specifically, we employ a hierarchical framework where low-dimensional projectors (LPs) retained for downward projection at a particular level, while globally-shared high-dimensional projector (HP) experts perform upward projection across all levels of layers. Lily uniquely connects each LP to all HP experts, therefore the gradient projections are no longer dominated by fixed projection matrices, but rather by selective combinations of all the projectors, thereby breaking the low-rank constraint of LoRA. Furthermore, Lily's cross-layer connections facilitate the capture of intricate information and dependencies across different layers, thereby enhancing the model's representational capabilities. Experiments across various modalities, architectures, and model sizes underscore Lily's great performance and efficiency. Code is available on github https://github.com/yibozhong/lily. | 翻訳日:2024-11-08 21:43:45 公開日:2024-09-26 |
# LLMアルゴリズムの設計と解析について
On the Design and Analysis of LLM-Based Algorithms ( http://arxiv.org/abs/2407.14788v2 ) ライセンス: Link先を確認 | Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou, | (参考訳) 我々はLLMに基づくアルゴリズムの設計と解析、すなわち1つまたは複数の大言語モデル(LLM)をサブルーチンとして含むアルゴリズムの設計と解析を正式に開始し、LLMの能力に批判的に依存する。
LLMベースのアルゴリズムは、簡単なLLM呼び出しから複雑なLLM駆動エージェントシステムや複合AIシステムまで、驚くほど成功したが、それらの設計と最適化はヒューリスティックやトライアル・アンド・エラーに大きく依存している。
このギャップを埋めるために、LLMのブラックボックスの性質にもかかわらず、LLMベースのアルゴリズムの計算グラフ表現、タスク分解の設計原理、およびLLMベースのアルゴリズムの精度と効率のフォーマルな解析を容易にする重要な抽象化の特定から始める。
一連のケーススタディにおいて,解析的および実証的研究を通じて,提案手法が並列,階層的,再帰的タスク分解などのLLMアルゴリズムの幅広いシナリオや多種多様なパターンに適用可能であることを示す。
提案フレームワークは,興味深い経験的現象の背景にある理由を明らかにし,ハイパーパラメータの選択を導き,アルゴリズムの経験的性能を予測し,新しいアルゴリズム設計を創出することによって,LLMベースのアルゴリズムを進化させる可能性を秘めている。
LLMアルゴリズムのさらなる研究を促進するため、ソースコードはhttps://github.com/modelscope/agentscope/tree/main/examples/paper_llm_based_algorithmで公開しています。
We initiate a formal investigation into the design and analysis of LLM-based algorithms, i.e. algorithms that contain one or multiple calls of large language models (LLMs) as sub-routines and critically rely on the capabilities of LLMs. While LLM-based algorithms, ranging from basic LLM calls with prompt engineering to complicated LLM-powered agent systems and compound AI systems, have achieved remarkable empirical success, the design and optimization of them have mostly relied on heuristics and trial-and-errors, which is largely due to a lack of formal and analytical study for these algorithms. To fill this gap, we start by identifying the computational-graph representation of LLM-based algorithms, the design principle of task decomposition, and some key abstractions, which then facilitate our formal analysis for the accuracy and efficiency of LLM-based algorithms, despite the black-box nature of LLMs. Through extensive analytical and empirical investigation in a series of case studies, we demonstrate that the proposed framework is broadly applicable to a wide range of scenarios and diverse patterns of LLM-based algorithms, such as parallel, hierarchical and recursive task decomposition. Our proposed framework holds promise for advancing LLM-based algorithms, by revealing the reasons behind curious empirical phenomena, guiding the choices of hyperparameters, predicting the empirical performance of algorithms, and inspiring new algorithm design. To promote further study of LLM-based algorithms, we release our source code at https://github.com/modelscope/agentscope/tree/main/examples/paper_llm_based_algorithm. | 翻訳日:2024-11-08 19:27:32 公開日:2024-09-26 |
# アーキテクチャのフォトリアリスティックレクリエーションのためのRaw Meshを用いた3次元ガウススプレイティングの強化
Enhancement of 3D Gaussian Splatting using Raw Mesh for Photorealistic Recreation of Architectures ( http://arxiv.org/abs/2407.15435v2 ) ライセンス: Link先を確認 | Ruizhe Wang, Chunliang Hua, Tomakayev Shingys, Mengyuan Niu, Qingxin Yang, Lizhong Gao, Yi Zheng, Junyan Yang, Qiao Wang, | (参考訳) 建築シーンのフォトリアリスティックな再構築とレンダリングは、映画、ゲーム、輸送といった産業に広く応用されている。
また、都市計画、建築設計、特に歴史的・文化的遺物保護において重要な役割を担っている。
NeRFよりも高性能な3Dガウススプラッティングは、3D再構築において主要な技術となっている。
入力は画像の集合のみであるが、SfMプロセスによって計算される幾何学的パラメータに大きく依存している。
同時に、ある建物の構造的認識を知らせるが適用できない生の3Dモデルも数多く存在する。
本稿では,これらの生の3Dモデルを用いて,建物の基本的な形状を把握し,写真が非システム的に撮影された場合のテクスチャやディテールの視覚的品質を向上させる方法を提案する。
この調査は,建築設計分野における3次元再構築技術の有効性を向上する新たな可能性を開くものである。
The photorealistic reconstruction and rendering of architectural scenes have extensive applications in industries such as film, games, and transportation. It also plays an important role in urban planning, architectural design, and the city's promotion, especially in protecting historical and cultural relics. The 3D Gaussian Splatting, due to better performance over NeRF, has become a mainstream technology in 3D reconstruction. Its only input is a set of images but it relies heavily on geometric parameters computed by the SfM process. At the same time, there is an existing abundance of raw 3D models, that could inform the structural perception of certain buildings but cannot be applied. In this paper, we propose a straightforward method to harness these raw 3D models to guide 3D Gaussians in capturing the basic shape of the building and improve the visual quality of textures and details when photos are captured non-systematically. This exploration opens up new possibilities for improving the effectiveness of 3D reconstruction techniques in the field of architectural design. | 翻訳日:2024-11-08 15:56:37 公開日:2024-09-26 |
# 属性レンズによる説明規則化
Explanation Regularisation through the Lens of Attributions ( http://arxiv.org/abs/2407.16693v2 ) ライセンス: Link先を確認 | Pedro Ferreira, Ivan Titov, Wilker Aziz, | (参考訳) 説明正則化(英: Explanation regularisation, ER)は、テキスト分類器を誘導し、人間が妥当と考える入力トークンに依存する予測を形成する方法である。
これは、モデルに対する入力属性手法の出力が、人間の注釈付き論理値とどの程度うまく一致しているかを測定する補助的な説明損失を導入することで達成される。
このガイダンスはドメイン外(OOD)設定のパフォーマンス向上に寄与しているようだ。
しかし、従来の研究は、特にモデルの指導に使用されるものと異なる属性技術を用いて、信頼度を測定する場合、その依存度に対するガイダンスの影響を過小評価している。
本研究では,このギャップを埋めるとともに,可視的特徴への依存とOOD性能との関係を探る。
ERと分類器が可視的特徴に依存する能力の関連性は過大評価されており、可視的トークンへの強い依存がOOD改善の原因にはなっていないことが判明した。
Explanation regularisation (ER) has been introduced as a way to guide text classifiers to form their predictions relying on input tokens that humans consider plausible. This is achieved by introducing an auxiliary explanation loss that measures how well the output of an input attribution technique for the model agrees with human-annotated rationales. The guidance appears to benefit performance in out-of-domain (OOD) settings, presumably due to an increased reliance on "plausible" tokens. However, previous work has under-explored the impact of guidance on that reliance, particularly when reliance is measured using attribution techniques different from those used to guide the model. In this work, we seek to close this gap, and also explore the relationship between reliance on plausible features and OOD performance. We find that the connection between ER and the ability of a classifier to rely on plausible features has been overstated and that a stronger reliance on plausible tokens does not seem to be the cause for OOD improvements. | 翻訳日:2024-11-08 15:34:26 公開日:2024-09-26 |
# dlordinal: 詳細な順序分類のためのPythonパッケージ
dlordinal: a Python package for deep ordinal classification ( http://arxiv.org/abs/2407.17163v2 ) ライセンス: Link先を確認 | Francisco Bérchez-Moreno, Víctor M. Vargas, Rafael Ayllón-Gavilán, David Guijo-Rubio, César Hervás-Martínez, Juan C. Fernández, Pedro A. Gutiérrez, | (参考訳) dlordinalは新しいPythonライブラリで、文献で利用可能な多くの最近のディープ順序分類方法論を統合する。
基礎となるフレームワークとしてPyTorchを使用して開発されたこのフレームワークは、日常的な分類問題に対して、最先端のディープラーニング技術を実装している。
通常のアプローチは、ターゲット変数に存在する順序付け情報を活用するように設計されている。
具体的には、損失関数、様々な出力層、ドロップアウトテクニック、ソフトラベリング手法、その他の分類戦略を含み、これらすべてが順序情報を適切に組み込むように設計されている。
さらに、順序分類における新規提案を評価するための性能指標は、順序尺度における目標クラスと予測クラスの距離に依存するため、適切な順序評価指標も含んでいる。
dlordinalはBSD-3-Clauseライセンスで配布されており、https://github.com/ayrna/dlordinal.comで入手できる。
dlordinal is a new Python library that unifies many recent deep ordinal classification methodologies available in the literature. Developed using PyTorch as underlying framework, it implements the top performing state-of-the-art deep learning techniques for ordinal classification problems. Ordinal approaches are designed to leverage the ordering information present in the target variable. Specifically, it includes loss functions, various output layers, dropout techniques, soft labelling methodologies, and other classification strategies, all of which are appropriately designed to incorporate the ordinal information. Furthermore, as the performance metrics to assess novel proposals in ordinal classification depend on the distance between target and predicted classes in the ordinal scale, suitable ordinal evaluation metrics are also included. dlordinal is distributed under the BSD-3-Clause license and is available at https://github.com/ayrna/dlordinal. | 翻訳日:2024-11-08 15:23:20 公開日:2024-09-26 |
# MRIに基づくパーキンソン病分類のための2次元および3次元ディープラーニングモデル:畳み込みコルモゴロフ・アルノルドネットワーク、畳み込みニューラルネットワーク、グラフ畳み込みネットワークの比較解析
2D and 3D Deep Learning Models for MRI-based Parkinson's Disease Classification: A Comparative Analysis of Convolutional Kolmogorov-Arnold Networks, Convolutional Neural Networks, and Graph Convolutional Networks ( http://arxiv.org/abs/2407.17380v2 ) ライセンス: Link先を確認 | Salil B Patel, Vicky Goh, James F FitzGerald, Chrystalina A Antoniades, | (参考訳) パーキンソン病(PD)の診断は依然として困難である。
本研究では,Convolutional Kolmogorov-Arnold Networks (ConvKANs)を適用し,構造MRIを用いたPD分類において,学習可能なスプラインベースのアクティベーション関数を畳み込み層に統合する。
医療画像のためのConvKANの最初の3D実装が紹介され、そのパフォーマンスを3つのオープンソースデータセットにわたる畳み込みニューラルネットワーク(CNN)とグラフ畳み込みニューラルネットワーク(GCN)と比較した。
分離分析は、クロスバリデーション技術を使用して、個々のデータセットのパフォーマンスを評価した。
ホールドアウト分析は、2つのデータセットのトレーニングモデルと、実際の臨床シナリオを反映した第3のシナリオのテストにより、データセット間の一般化性を評価した。
独立した分析では、2D ConvKANはPPMIデータセット上で0.99(95% CI: 0.98-0.99)のAUCを達成し、2D CNN(AUC: 0.97, p = 0.0092)を上回った。
3Dモデルは有望であり、3D CNNと3D ConvKANはPPMIで0.85に到達した。
ホールドアウト解析において、3D ConvKANはより優れた一般化を示し、早期PDデータに対して0.85のAUCを達成した。
GCNは2Dでは性能が低かったが、3Dでは改善された。
これらの知見は, PD検出に対するConvKANsの可能性を強調し, 脳の微妙な変化を捉える上での3D解析の重要性を強調し, データセット間の一般化の課題を浮き彫りにしている。
本研究は、構造MRIを用いたAI支援PD診断を推進し、より大規模な検証の必要性を強調した。
Parkinson's Disease (PD) diagnosis remains challenging. This study applies Convolutional Kolmogorov-Arnold Networks (ConvKANs), integrating learnable spline-based activation functions into convolutional layers, for PD classification using structural MRI. The first 3D implementation of ConvKANs for medical imaging is presented, comparing their performance to Convolutional Neural Networks (CNNs) and Graph Convolutional Networks (GCNs) across three open-source datasets. Isolated analyses assessed performance within individual datasets, using cross-validation techniques. Holdout analyses evaluated cross-dataset generalizability by training models on two datasets and testing on the third, mirroring real-world clinical scenarios. In isolated analyses, 2D ConvKANs achieved the highest AUC of 0.99 (95% CI: 0.98-0.99) on the PPMI dataset, outperforming 2D CNNs (AUC: 0.97, p = 0.0092). 3D models showed promise, with 3D CNN and 3D ConvKAN reaching an AUC of 0.85 on PPMI. In holdout analyses, 3D ConvKAN demonstrated superior generalization, achieving an AUC of 0.85 on early-stage PD data. GCNs underperformed in 2D but improved in 3D implementations. These findings highlight ConvKANs' potential for PD detection, emphasize the importance of 3D analysis in capturing subtle brain changes, and underscore cross-dataset generalization challenges. This study advances AI-assisted PD diagnosis using structural MRI and emphasizes the need for larger-scale validation. | 翻訳日:2024-11-08 15:12:19 公開日:2024-09-26 |
# SR-CurvANN:曲率認識ニューラルネットワークによる3次元表面再構成の改善
SR-CurvANN: Advancing 3D Surface Reconstruction through Curvature-Aware Neural Networks ( http://arxiv.org/abs/2407.17896v2 ) ライセンス: Link先を確認 | Marina Hernández-Bautista, Francisco J. Melero, | (参考訳) 三次元3Dモデルにおける不完全または欠落したデータは、誤ったあるいは欠陥のあるレンダリングにつながり、可視化、幾何計算、および3Dプリンティングのような応用におけるそれらの有用性を制限する。
従来の表面修復技術は、欠落した領域で複雑な幾何学的詳細を推測できないことが多い。
ニューラルネットワークは、インペイント技術を用いて、2次元画像の穴埋め作業にうまく対処する。
模型の曲率特性に導かれる表面再構成アルゴリズムと、塗装工程におけるニューラルネットワークの創造性の組み合わせは、穴埋め作業において現実的な結果をもたらすはずである。
本稿では,ニューラルネットワークをベースとした2Dインペインティングを組み込んだSR-CurvANN(曲面再構成)を提案する。
我々は、何百もの3Dモデルの頂点における曲率の平面表現を表す画像でニューラルネットワークを訓練する。
欠落した領域が推測されると、粗い表面変形プロセスにより、表面が再構成された曲率画像に合うことが保証される。
提案手法により,多種多様な3次元モデルからパターンを学習し,一般化し,包括的に塗布された曲率画像と曲面を生成することが可能となる。
SR-CurvANNは形状完了過程に優れており、穴を目覚ましいリアリズムと精度で埋めることを示した。
Incomplete or missing data in three-dimensional (3D) models can lead to erroneous or flawed renderings, limiting their usefulness in applications such as visualization, geometric computation, and 3D printing. Conventional surface-repair techniques often fail to infer complex geometric details in missing areas. Neural networks successfully address hole-filling tasks in 2D images using inpainting techniques. The combination of surface reconstruction algorithms, guided by the model's curvature properties and the creativity of neural networks in the inpainting processes should provide realistic results in the hole completion task. In this paper, we propose a novel method entitled SR-CurvANN (Surface Reconstruction Based on Curvature-Aware Neural Networks) that incorporates neural network-based 2D inpainting to effectively reconstruct 3D surfaces. We train the neural networks with images that represent planar representations of the curvature at vertices of hundreds of 3D models. Once the missing areas have been inferred, a coarse-to-fine surface deformation process ensures that the surface fits the reconstructed curvature image. Our proposal makes it possible to learn and generalize patterns from a wide variety of training 3D models, generating comprehensive inpainted curvature images and surfaces. Experiments conducted on 959 models with several holes have demonstrated that SR-CurvANN excels in the shape completion process, filling holes with a remarkable level of realism and precision. | 翻訳日:2024-11-08 15:01:09 公開日:2024-09-26 |
# テキストに差分プライバシーを適用する場合、グラニュラリティは不可欠:ニューラルマシン翻訳の研究
Granularity is crucial when applying differential privacy to text: An investigation for neural machine translation ( http://arxiv.org/abs/2407.18789v2 ) ライセンス: Link先を確認 | Doan Nam Long Vu, Timour Igamberdiev, Ivan Habernal, | (参考訳) DP-SGDアルゴリズムによる差分プライバシ(DP)の適用により、トレーニング中の個々のデータポイントを保護することが、NLPでますます人気が高まっている。
しかし、DPが適用される粒度の選択はしばしば無視される。
例えば、ニューラルマシン翻訳(NMT)は典型的には文レベルの粒度で動作する。
DPの観点から、この設定は、各文が一人の個人に属し、トレーニングデータセットのどの2つの文も独立していると仮定する。
しかし、この仮定は多くの現実世界のNMTデータセット、例えば対話を含むデータセットでは違反している。
DPの適切な適用には、文から文書全体へ移行する必要があります。
本稿では,NMTを文レベルと文書レベルの両方で検討し,両シナリオのプライバシ/ユーティリティトレードオフを分析し,個人識別情報漏洩の観点から適切なプライバシ粒度を使用しないリスクを評価する(PII)。
文献レベルのNMTは,DPで作業する場合に適切な粒度を用いることの重要性を強調し,メンバシップ推論攻撃に対する耐性が高いことが示唆された。
Applying differential privacy (DP) by means of the DP-SGD algorithm to protect individual data points during training is becoming increasingly popular in NLP. However, the choice of granularity at which DP is applied is often neglected. For example, neural machine translation (NMT) typically operates on the sentence-level granularity. From the perspective of DP, this setup assumes that each sentence belongs to a single person and any two sentences in the training dataset are independent. This assumption is however violated in many real-world NMT datasets, e.g., those including dialogues. For proper application of DP we thus must shift from sentences to entire documents. In this paper, we investigate NMT at both the sentence and document levels, analyzing the privacy/utility trade-off for both scenarios, and evaluating the risks of not using the appropriate privacy granularity in terms of leaking personally identifiable information (PII). Our findings indicate that the document-level NMT system is more resistant to membership inference attacks, emphasizing the significance of using the appropriate granularity when working with DP. | 翻訳日:2024-11-08 14:50:05 公開日:2024-09-26 |
# Greenberger-Horne-Zeilinger状態は独立局所場のマルチパラメータ推定に最適である
Greenberger-Horne-Zeilinger state is the best probe for multiparameter estimation of independent local fields ( http://arxiv.org/abs/2407.20142v2 ) ライセンス: Link先を確認 | Aparajita Bhattacharyya, Ujjwal Sen, | (参考訳) 局所的な量子場の推定は量子力学の応用において重要な側面であり、しばしばエンタングルメントのような量子資源の有用性を分析するテストベッドを形成する。
しかし、これまでのところ、これはすべてのプローブに対して同じ局所体を用いて解析されており、符号化過程は局所ハミルトニアンを用いるが、すべてのプローブに適用される共通局所体という形で符号化過程に固有の「非局所性」が存在する。
局所ハミルトニアンの独立な多重体強み、すなわち一党の項の和によって形成されたものについては、高対称な真の多党交絡状態であるviz、グリーンベルガー・ホーネ・ゼリンガー状態(GHZ)が入力プローブとして有用であることを示す。
この特徴は、重み行列の選択に依存し、多パラメータ推定におけるメリットの図式を定義する。
この結果は、任意の重み行列に対して、入力プローブに最適化されたマルチパラメータ推定の精度を低くすることで得られる。
境界は任意の多元局所符号化ハミルトニアンの固有値で表現できる。
プローブがGHZ状態である場合にのみ、相対位相までこの境界が達成できる重み行列が存在することを示す。
特に、純粋な積状態はこの下界を達成することができず、プローブとして作用する真の多元的絡み合った状態との精度の差は、パーティーの数が増えるにつれて増加する。
最終的に、任意の混合状態にあるプローブを使用することで、GHZよりも精度が低いことが証明された。
重み行列の重み行列の重要性を強調するために、恒等演算子を選択することは、精度行列における ``off-diagonal'' の共分散を無視して、最も精度の高い積プローブが得られることを示す。
Estimation of local quantum fields is a crucial aspect of quantum metrology applications, and often also forms the test-bed to analyze the utility of quantum resources, like entanglement. However, so far, this has been analyzed using the same local field for all the probes, and so, although the encoding process utilizes a local Hamiltonian, there is an inherent ``nonlocality" in the encoding process in the form of a common local field applied on all the probes. We show that estimation of even independent multiple field strengths of a local Hamiltonian, i.e., one formed by a sum of single-party terms, necessitates the utility of a highly symmetric genuine multiparty entangled state, viz. the Greenberger-Horne-Zeilinger (GHZ) state, as the input probe. The feature depends on the choice of the weight matrix considered, to define a figure of merit in the multiparameter estimation. We obtain this result by providing a lower bound on the precision of multiparameter estimation, optimized over input probes, for an arbitrary weight matrix. We find that the bound can be expressed in terms of eigenvalues of the arbitrary multiparty local encoding Hamiltonian. We show that there exists a weight matrix for which this bound is attainable only when the probe is the GHZ state, up to a relative phase. In particular, no pure product state can achieve this lower bound, and the gap in precision with genuinely multiparty entangled states acting as probes increases with increasing number of parties. We finally prove that using a probe that is in any mixed state provides a precision lower than that for the GHZ. To emphasize the importance of the weight matrix considered, we show that choosing the identity operator as the same - thereby ignoring the ``off-diagonal'' covariances in the precision matrix - leads to a product probe attaining the best precision. | 翻訳日:2024-11-08 14:16:02 公開日:2024-09-26 |
# 収穫機におけるジャガイモ塊茎の高出力3次元形状仕上げ
High-throughput 3D shape completion of potato tubers on a harvester ( http://arxiv.org/abs/2407.21341v2 ) ライセンス: Link先を確認 | Pieter M. Blok, Federico Magistri, Cyrill Stachniss, Haozhou Wang, James Burridge, Wei Guo, | (参考訳) ジャガイモの収穫は農夫にとって栽培の慣行をさらに最適化する重要な指標である。
ジャガイモの3次元(3D)体積を推定できるRGB-Dカメラを用いて,収穫機上でのジャガイモ収量の推定を行うことができる。
しかし、RGB-D画像から得られる3次元形状は部分的にしか完成せず、実際の体積を過小評価していない。
この問題に対処するため,我々は,RGB-D画像から3次元形状を完結できるCoRe++という3次元形状補完ネットワークを開発した。
CoRe++は、畳み込みエンコーダとデコーダで構成されるディープラーニングネットワークである。
エンコーダは、深部符号距離場ネットワーク(DeepSDF)を用いて、デコーダが使用する遅延ベクトルにRGB-D画像を圧縮して3次元形状を完成させる。
筆者らはCoRe++ネットワークの評価のために, ジャガイモ339羽の3D点群の部分的および完全な3D点群を日本の収穫機で収集した。
テストセットの1425枚のRGB-D画像(51個のポテトポテトポテトポテトポテトポテトを表現)では,ネットワークの完成精度は平均2.8mmに達した。
体積推定では、根平均二乗誤差(RMSE)は22.6mlであり、線形回帰(31.1ml)とベースモデル(36.9ml)のRMSEよりも優れていた。
RGB-D画像の中心で3次元形状完了を行う場合,RMSEはさらに18.2mlまで低減できることがわかった。
高出力ジャガイモ収量推定のための操作式収穫機において,CoRe++の3次元形状完了時間は平均10ミリ秒であり,高速かつ高精度である。
本手法は,他の塊茎,果実,野菜の作物にも適用可能であり,精密農業における多目的,高精度,リアルタイムの収量モニタリングを可能にする。
私たちのコード、ネットワークウェイト、データセットはhttps://github.com/UTokyo-FieldPhenomics-Lab/corepp.git.comで公開されています。
Potato yield is an important metric for farmers to further optimize their cultivation practices. Potato yield can be estimated on a harvester using an RGB-D camera that can estimate the three-dimensional (3D) volume of individual potato tubers. A challenge, however, is that the 3D shape derived from RGB-D images is only partially completed, underestimating the actual volume. To address this issue, we developed a 3D shape completion network, called CoRe++, which can complete the 3D shape from RGB-D images. CoRe++ is a deep learning network that consists of a convolutional encoder and a decoder. The encoder compresses RGB-D images into latent vectors that are used by the decoder to complete the 3D shape using the deep signed distance field network (DeepSDF). To evaluate our CoRe++ network, we collected partial and complete 3D point clouds of 339 potato tubers on an operational harvester in Japan. On the 1425 RGB-D images in the test set (representing 51 unique potato tubers), our network achieved a completion accuracy of 2.8 mm on average. For volumetric estimation, the root mean squared error (RMSE) was 22.6 ml, and this was better than the RMSE of the linear regression (31.1 ml) and the base model (36.9 ml). We found that the RMSE can be further reduced to 18.2 ml when performing the 3D shape completion in the center of the RGB-D image. With an average 3D shape completion time of 10 milliseconds per tuber, we can conclude that CoRe++ is both fast and accurate enough to be implemented on an operational harvester for high-throughput potato yield estimation. Our method can also be applied to other tuber, fruit and vegetable crops, thereby enabling versatile, accurate and real-time yield monitoring in precision agriculture. Our code, network weights and dataset are publicly available at https://github.com/UTokyo-FieldPhenomics-Lab/corepp.git. | 翻訳日:2024-11-08 13:51:33 公開日:2024-09-26 |
# 相関関数の緩和ゆらぎ:スピンおよびランダム行列モデル
Relaxation Fluctuations of Correlation Functions: Spin and Random Matrix Models ( http://arxiv.org/abs/2407.21644v2 ) ライセンス: Link先を確認 | Tanay Pathak, | (参考訳) スペクトル統計と相関は、量子系における量子カオスの有無を研究する通常の方法である。
本稿では,量子カオスの診断尺度として,ある相関関数の変動平均と分散について検討し,それに基づいて量子システムを特徴づける可能性について述べる。
これらの量は固有ベクトル分布と固有ベクトル相関と関連している。
ランダム行列理論(Random Matrix Theory)を用いて、ガウス直交アンサンブルの場合、これらの量のある解析的表現を以前に計算した。
最初のステップとして、ガウスユニタリアンサンブルの場合のこれらの量について数値的に検討し、同じ解析結果を導出する。
次に、混合フィールドイジングモデルなどの物理システムに関する調査を行う。
このモデルでは、固有値統計は対応するランダム行列の挙動に従うが、これらの相関関数のゆらぎ平均と分散は予測されたランダム行列理論の挙動から逸脱する。
次に、ガウス直交アンサンブルとガウスユニタリアンサンブル型のローゼンツヴァイク・ポーターモデルに焦点をあてる。
これらの相関関係のゆらぎ平均と分散を用いて、エルゴード、フラクタル、局在相の3つの異なる位相を同定する。
量子カオスを特徴づける代替手段として,これらの相関ゆらぎの利用をしっかりと確立する。
Spectral statistics and correlations are the usual way to study the presence or absence of quantum chaos in quantum systems. We present our investigation on the study of the fluctuation average and variance of certain correlation functions as a diagnostic measure of quantum chaos and to possibly characterize quantum systems based on it. These quantities are related to eigenvector distribution and eigenvector correlation. Using the Random Matrix Theory certain analytical expressions of these quantities, for the Gaussian orthogonal ensemble case, were calculated before. So as a first step, we study these quantities for the Gaussian unitary ensemble case numerically, and deduce certain analytical results for the same. We then carry out our investigations in physical system, such as the mixed-field Ising model. For this model, we find that although the eigenvalue statistics follow the behaviour of corresponding random matrices, the fluctuation average and variance of these correlation functions deviate from the expected random matrix theory behaviour. We then turn our focus on the Rosenzweig-Porter model of the Gaussian Orthogonal Ensemble and Gaussian Unitary Ensemble types. By using the fluctuation average and variance of these correlations, we identify the three distinct phases of these models: the ergodic, the fractal, and the localized phases. We provide an alternative way to study and distinguish the three phases and firmly establish the use of these correlation fluctuations as an alternative way to characterize quantum chaos. | 翻訳日:2024-11-08 13:40:32 公開日:2024-09-26 |
# 深層学習を用いた心エコー図の局所的品質推定
Regional quality estimation for echocardiography using deep learning ( http://arxiv.org/abs/2408.00591v3 ) ライセンス: Link先を確認 | Gilles Van De Vyver, Svein-Erik Måsøy, Håvard Dalen, Bjørnar Leangen Grenne, Espen Holte, Sindre Hellum Olaisen, John Nyberg, Andreas Østvik, Lasse Løvstakken, Erik Smistad, | (参考訳) 心臓超音波画像の画質の自動推定は、オペレーターを誘導し、臨床測定の精度を確保するのに有用である。
過去の研究はしばしば、心エコー図の視線精度と画質の区別に失敗する。
さらに、過去の研究では、その実用性を制限する、グローバルな画像品質の値しか提供していない。
本研究では,画像品質を推定する3つの手法を開発し,比較した。
1) 拡張コントラスト-ノイズ比(gCNR)のような古典的画素ベースメトリクスは、心筋セグメントを興味領域として、左室ルーメンを背景として、U-Netセグメンテーションを用いて取得する。
2)Bモード画像からのコヒーレンスを予測するU-Netモデルから得られた局所画像のコヒーレンス
3)各領域の質をエンドツーエンドで直接予測する深層畳み込みネットワーク。
3人の経験者による手動画像品質アノテーションに対する各手法の評価を行った。
その結果, gCNR測定値の低下が示され, スピアマンとrho=0.24のアノテーションとの相関が認められた。
エンド・ツー・エンドの学習モデルでは、最も良い結果である rho = 0.69 が、サーバ間の相関である rho = 0.63 に匹敵する。
最後に、rho = 0.58 のコヒーレンス法は古典的指標よりも優れ、エンドツーエンドの手法よりも一般的である。
Automatic estimation of cardiac ultrasound image quality can be beneficial for guiding operators and ensuring the accuracy of clinical measurements. Previous work often fails to distinguish the view correctness of the echocardiogram from the image quality. Additionally, previous studies only provide a global image quality value, which limits their practical utility. In this work, we developed and compared three methods to estimate image quality: 1) classic pixel-based metrics like the generalized contrast-to-noise ratio (gCNR) on myocardial segments as region of interest and left ventricle lumen as background, obtained using a U-Net segmentation 2) local image coherence derived from a U-Net model that predicts coherence from B-Mode images 3) a deep convolutional network that predicts the quality of each region directly in an end-to-end fashion. We evaluate each method against manual regional image quality annotations by three experienced cardiologists. The results indicate poor performance of the gCNR metric, with Spearman correlation to the annotations of rho = 0.24. The end-to-end learning model obtains the best result, rho = 0.69, comparable to the inter-observer correlation, rho = 0.63. Finally, the coherence-based method, with rho = 0.58, outperformed the classical metrics and is more generic than the end-to-end approach. | 翻訳日:2024-11-08 13:29:21 公開日:2024-09-26 |
# 深層学習を用いた心エコー図の局所的品質推定
Regional quality estimation for echocardiography using deep learning ( http://arxiv.org/abs/2408.00591v4 ) ライセンス: Link先を確認 | Gilles Van De Vyver, Svein-Erik Måsøy, Håvard Dalen, Bjørnar Leangen Grenne, Espen Holte, Sindre Hellum Olaisen, John Nyberg, Andreas Østvik, Lasse Løvstakken, Erik Smistad, | (参考訳) 心臓超音波画像の画質の自動推定は、オペレーターを誘導し、臨床測定の精度を確保するのに有用である。
過去の研究はしばしば、心エコー図の視線精度と画質の区別に失敗する。
さらに、過去の研究では、その実用性を制限する、グローバルな画像品質の値しか提供していない。
本研究では,画像品質を推定する3つの手法を開発し,比較した。
1) 拡張コントラスト-ノイズ比(gCNR)のような古典的画素ベースメトリクスは、心筋セグメントを興味領域として、左室ルーメンを背景として、U-Netセグメンテーションを用いて取得する。
2)Bモード画像からのコヒーレンスを予測するU-Netモデルから得られた局所画像のコヒーレンス
3)各領域の質をエンドツーエンドで直接予測する深層畳み込みネットワーク。
3人の経験者による手動画像品質アノテーションに対する各手法の評価を行った。
その結果, gCNR測定値の低下が示され, スピアマンとrho=0.24のアノテーションとの相関が認められた。
エンド・ツー・エンドの学習モデルでは、最も良い結果である rho = 0.69 が、サーバ間の相関である rho = 0.63 に匹敵する。
最後に、rho = 0.58 のコヒーレンス法は古典的指標よりも優れ、エンドツーエンドの手法よりも一般的である。
画像品質予測ツールは、https://github.com/GillesVanDeVyver/arqee.comにあるオープンソースのPythonライブラリとして利用できる。
Automatic estimation of cardiac ultrasound image quality can be beneficial for guiding operators and ensuring the accuracy of clinical measurements. Previous work often fails to distinguish the view correctness of the echocardiogram from the image quality. Additionally, previous studies only provide a global image quality value, which limits their practical utility. In this work, we developed and compared three methods to estimate image quality: 1) classic pixel-based metrics like the generalized contrast-to-noise ratio (gCNR) on myocardial segments as region of interest and left ventricle lumen as background, obtained using a U-Net segmentation 2) local image coherence derived from a U-Net model that predicts coherence from B-Mode images 3) a deep convolutional network that predicts the quality of each region directly in an end-to-end fashion. We evaluate each method against manual regional image quality annotations by three experienced cardiologists. The results indicate poor performance of the gCNR metric, with Spearman correlation to the annotations of rho = 0.24. The end-to-end learning model obtains the best result, rho = 0.69, comparable to the inter-observer correlation, rho = 0.63. Finally, the coherence-based method, with rho = 0.58, outperformed the classical metrics and is more generic than the end-to-end approach. The image quality prediction tool is available as an open source Python library at https://github.com/GillesVanDeVyver/arqee. | 翻訳日:2024-11-08 13:29:21 公開日:2024-09-26 |
# コンピュータトリクロマシー再構成 : 拡張現実による色認識に欠く色覚の強化
Computational Trichromacy Reconstruction: Empowering the Color-Vision Deficient to Recognize Colors Using Augmented Reality ( http://arxiv.org/abs/2408.01895v2 ) ライセンス: Link先を確認 | Yuhao Zhu, Ethan Chen, Colin Hascup, Yukang Yan, Gaurav Sharma, | (参考訳) 色覚障害(CVD)患者が色を認識・識別する支援技術を提案する。
ディクロマトリクスの色知覚は、通常のトリクロマトリクスの3次元色(3D)知覚の2次元(2次元)部分集合であり、ディクロマトリクスと同一に見える視覚刺激が異なる色名によって参照されるときに混乱を引き起こす。
提案システムを用いて、CVD個人は、コンピュータカラー空間変換により、異なる知覚的変化を誘発し、本来の混乱色へと導出することができる。
色に対する元の2D規範と識別的変化を組み合わせることで、3次元の色空間を再構成し、ディクロマトグラフィーは色名の混乱を解消し、色を正確に認識することができる。
本システムはスマートフォンのARインタフェースとして実装されており、ユーザーはスワイプジェスチャーで回転をインタラクティブに制御し、カメラビューや表示画像内の色変化を観察することができる。
心理物理学実験と縦断的ユーザスタディを通じて、このような回転色シフトが識別力を持つ(初期は、回転下で色が区別される)ことを示し、ディクロマトリクスが適度なトレーニングで学習できる構造化された知覚色シフトを示す。
ARアプリは、2つの現実世界のシナリオ(レゴブロックで構築し、芸術作品の解釈)で評価されている。
We propose an assistive technology that helps individuals with Color Vision Deficiencies (CVD) to recognize/name colors. A dichromat's color perception is a reduced two-dimensional (2D) subset of a normal trichromat's three dimensional color (3D) perception, leading to confusion when visual stimuli that appear identical to the dichromat are referred to by different color names. Using our proposed system, CVD individuals can interactively induce distinct perceptual changes to originally confusing colors via a computational color space transformation. By combining their original 2D precepts for colors with the discriminative changes, a three dimensional color space is reconstructed, where the dichromat can learn to resolve color name confusions and accurately recognize colors. Our system is implemented as an Augmented Reality (AR) interface on smartphones, where users interactively control the rotation through swipe gestures and observe the induced color shifts in the camera view or in a displayed image. Through psychophysical experiments and a longitudinal user study, we demonstrate that such rotational color shifts have discriminative power (initially confusing colors become distinct under rotation) and exhibit structured perceptual shifts dichromats can learn with modest training. The AR App is also evaluated in two real-world scenarios (building with lego blocks and interpreting artistic works); users all report positive experience in using the App to recognize object colors that they otherwise could not. | 翻訳日:2024-11-08 13:07:08 公開日:2024-09-26 |
# 肝外傷のトリアージのための意思決定支援システム
Decision Support System to triage of liver trauma ( http://arxiv.org/abs/2408.02012v2 ) ライセンス: Link先を確認 | Ali Jamali, Azadeh Nazemi, Ashkan Sami, Rosemina Bahrololoom, Shahram Paydar, Alireza Shakibafar, | (参考訳) トラウマは世界の健康に大きく影響し、毎年500万人以上が死亡しており、結核、エイズ、マラリアなどの病気による死亡率に匹敵する。
イランでは、道路交通事故の財政的影響は、毎年グロス・ナショナル・プロダクツの約2%を占める。
出血は、外傷後24時間以内に外傷患者が死亡する主要な原因であり、迅速な診断と重症度の評価が不可欠である。
外傷患者は全臓器の包括的スキャンを必要とし、大量のデータを生成する。
全身のCT画像を評価するには時間がかかり、診断における効率的な時間管理の必要性を裏付ける重要な専門知識が必要である。
効率的な診断プロセスは治療コストを大幅に削減し、二次合併症の可能性を減らすことができる。
このような状況下では,外傷トリアージ,特に腹部領域に焦点を当てた信頼性決定支援システム(DSS)の開発が不可欠である。
本稿では,GAN Pix2Pix翻訳モデルを用いて,CTスキャンを用いて肝出血と裂傷を検出する新しい方法を提案する。
本手法の有効性はDiceスコアで定量化され,肝出血97%,肝裂傷検出93%の精度が得られた。
これらの結果は、現在の最先端技術よりも顕著に改善されている。
システムの設計は既存の医療画像技術とシームレスに統合され、救急医療サービスに実用的な追加となる。
この研究は、GAN Pix2Pixのような高度な画像翻訳モデルが、クリティカルケアシナリオにおける医療診断の精度とスピードを改善する可能性を強調している。
Trauma significantly impacts global health, accounting for over 5 million deaths annually, which is comparable to mortality rates from diseases such as tuberculosis, AIDS, and malaria. In Iran, the financial repercussions of road traffic accidents represent approximately 2% of the nation's Gross National Product each year. Bleeding is the leading cause of mortality in trauma patients within the first 24 hours following an injury, making rapid diagnosis and assessment of severity crucial. Trauma patients require comprehensive scans of all organs, generating a large volume of data. Evaluating CT images for the entire body is time-consuming and requires significant expertise, underscoring the need for efficient time management in diagnosis. Efficient diagnostic processes can significantly reduce treatment costs and decrease the likelihood of secondary complications. In this context, the development of a reliable Decision Support System (DSS) for trauma triage, particularly focused on the abdominal area, is vital. This paper presents a novel method for detecting liver bleeding and lacerations using CT scans, utilising the GAN Pix2Pix translation model. The effectiveness of the method is quantified by Dice score metrics, with the model achieving an accuracy of 97% for liver bleeding and 93% for liver laceration detection. These results represent a notable improvement over current state-of-the-art technologies. The system's design integrates seamlessly with existing medical imaging technologies, making it a practical addition to emergency medical services. This research underscores the potential of advanced image translation models like GAN Pix2Pix in improving the precision and speed of medical diagnostics in critical care scenarios. | 翻訳日:2024-11-08 13:07:08 公開日:2024-09-26 |
# 逆行訓練パラダイムの高速化 : 分類学の例
Improving Fast Adversarial Training Paradigm: An Example Taxonomy Perspective ( http://arxiv.org/abs/2408.03944v2 ) ライセンス: Link先を確認 | Jie Gui, Chengze Jiang, Minjing Dong, Kun Tong, Xinli Shi, Yuan Yan Tang, Dacheng Tao, | (参考訳) 対人訓練は対人攻撃に対する効果的な防御方法であるが、特に訓練コストを増大させる。
この目的のために、高速対人訓練(FAT)が効率的な訓練のために提示され、熱い研究トピックとなっている。
しかし、FATは破滅的なオーバーフィッティングに悩まされ、多段階の逆行訓練と比較してパフォーマンスが低下する。
しかし、破滅的なオーバーフィッティングの原因はいまだ不明であり、探索に欠ける。
本稿では,FATにおける内的最適化と外的最適化の不均衡に起因する破滅的なオーバーフィッティングが原因であることを示す,FATの分類例を示す。
さらに, トレーニング損失の程度の違いによる影響について検討し, トレーニング損失と破滅的オーバーフィッティングの相関について検討した。
これらの観測に基づいて, FATにおける損失関数を動的ラベル緩和により再設計し, 損失範囲を集中させ, 誤分類例の影響を低減する。
一方,破滅的なオーバーフィッティングを効果的に防止するために,多様性を高めるためにバッチモーメントの初期化を導入する。
さらに,損失度に基づく個別のトレーニング戦略を取り入れたCOLA(Catastrophic Overfitting aware Loss Adaptation)を提案する。
提案手法は, FAT (tathonomy aware FAT) を例に, FATの改良パラダイムを確立した。
実験の結果,私たちのETAは最先端のパフォーマンスを達成できた。
4つの標準データセットに関する総合実験により,提案手法の競争力を実証した。
While adversarial training is an effective defense method against adversarial attacks, it notably increases the training cost. To this end, fast adversarial training (FAT) is presented for efficient training and has become a hot research topic. However, FAT suffers from catastrophic overfitting, which leads to a performance drop compared with multi-step adversarial training. However, the cause of catastrophic overfitting remains unclear and lacks exploration. In this paper, we present an example taxonomy in FAT, which identifies that catastrophic overfitting is caused by the imbalance between the inner and outer optimization in FAT. Furthermore, we investigated the impact of varying degrees of training loss, revealing a correlation between training loss and catastrophic overfitting. Based on these observations, we redesign the loss function in FAT with the proposed dynamic label relaxation to concentrate the loss range and reduce the impact of misclassified examples. Meanwhile, we introduce batch momentum initialization to enhance the diversity to prevent catastrophic overfitting in an efficient manner. Furthermore, we also propose Catastrophic Overfitting aware Loss Adaptation (COLA), which employs a separate training strategy for examples based on their loss degree. Our proposed method, named example taxonomy aware FAT (ETA), establishes an improved paradigm for FAT. Experiment results demonstrate our ETA achieves state-of-the-art performance. Comprehensive experiments on four standard datasets demonstrate the competitiveness of our proposed method. | 翻訳日:2024-11-08 12:22:45 公開日:2024-09-26 |
# EfficientRAG:マルチホップ質問応答のための効率的なレトリバー
EfficientRAG: Efficient Retriever for Multi-Hop Question Answering ( http://arxiv.org/abs/2408.04259v2 ) ライセンス: Link先を確認 | Ziyuan Zhuang, Zhiyang Zhang, Sitao Cheng, Fangkai Yang, Jia Liu, Shujian Huang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, | (参考訳) Retrieval-augmented Generation (RAG) メソッドは、マルチホップクエリのような複雑な問題に対処する際に困難に直面する。
反復的な検索手法は付加的な情報を集めることで性能を向上させるが、現在のアプローチは大規模言語モデル(LLM)の複数の呼び出しに依存していることが多い。
本稿では,マルチホップ質問応答のための効率的な検索器であるEfficientRAGを紹介する。
効率的なRAGは、各イテレーションでLLMコールを必要とせずに、新しいクエリを反復的に生成し、無関係な情報をフィルタリングする。
実験の結果、EfficientRAGは3つのオープンドメインのマルチホップ質問応答データセット上で既存のRAG手法を超越していることがわかった。
Retrieval-augmented generation (RAG) methods encounter difficulties when addressing complex questions like multi-hop queries. While iterative retrieval methods improve performance by gathering additional information, current approaches often rely on multiple calls of large language models (LLMs). In this paper, we introduce EfficientRAG, an efficient retriever for multi-hop question answering. EfficientRAG iteratively generates new queries without the need for LLM calls at each iteration and filters out irrelevant information. Experimental results demonstrate that EfficientRAG surpasses existing RAG methods on three open-domain multi-hop question-answering datasets. | 翻訳日:2024-11-08 12:22:45 公開日:2024-09-26 |
# Nob-MIAs: ポストデータセット構築を伴う大規模言語モデルにおける非バイアスなメンバーシップ推論攻撃の評価
Nob-MIAs: Non-biased Membership Inference Attacks Assessment on Large Language Models with Ex-Post Dataset Construction ( http://arxiv.org/abs/2408.05968v2 ) ライセンス: Link先を確認 | Cédric Eichler, Nathan Champeil, Nicolas Anciaux, Alexandra Bensamoun, Heber Hwang Arcolezi, José Maria De Fuentes, | (参考訳) LLM(Large Language Models)の台頭は、特にトレーニングデータセットにおける著作権物質の使用に関する法的および倫理的な懸念を引き起こしている。
これは、保護されたコンテンツを無許可で使用したとして訴えられたテック企業に対する訴訟につながった。
メンバーシップ推論攻撃(MIA)は、特定の文書が所定のLLM事前訓練で使用されたかどうかを検出することを目的としているが、その効果は、時間シフトやn-gramオーバーラップのようなバイアスによって損なわれる。
本稿では,メンバーと非メンバーのデータセットに固有の分布バイアスが認められるポスト仮説の下で,LLM上のMIAを部分的に推論可能なトレーニングセットで評価する。
我々は、より公平なMIA評価のための「非バイアス」と「非分類」データセットを作成するアルゴリズムを提案し、検証する。
OpenLammaとPythiaのGutenbergデータセットを用いた実験では、既知のバイアスのみを中和することは不十分であることが示されている。
提案手法は,AUC-ROCスコアを用いた非バイアス付きポストデータセットを生成する。
グローバルに見ると、MIAの収率はランダムに近いが、1つだけがランダムとデータセットの両方で有効であるが、バイアスを取り除くとその性能は低下する。
The rise of Large Language Models (LLMs) has triggered legal and ethical concerns, especially regarding the unauthorized use of copyrighted materials in their training datasets. This has led to lawsuits against tech companies accused of using protected content without permission. Membership Inference Attacks (MIAs) aim to detect whether specific documents were used in a given LLM pretraining, but their effectiveness is undermined by biases such as time-shifts and n-gram overlaps. This paper addresses the evaluation of MIAs on LLMs with partially inferable training sets, under the ex-post hypothesis, which acknowledges inherent distributional biases between members and non-members datasets. We propose and validate algorithms to create ``non-biased'' and ``non-classifiable'' datasets for fairer MIA assessment. Experiments using the Gutenberg dataset on OpenLamma and Pythia show that neutralizing known biases alone is insufficient. Our methods produce non-biased ex-post datasets with AUC-ROC scores comparable to those previously obtained on genuinely random datasets, validating our approach. Globally, MIAs yield results close to random, with only one being effective on both random and our datasets, but its performance decreases when bias is removed. | 翻訳日:2024-11-08 11:38:16 公開日:2024-09-26 |
# FruitNeRF: 統合ニューラルラジアンスフィールドに基づくFruit Counting Framework
FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework ( http://arxiv.org/abs/2408.06190v2 ) ライセンス: Link先を確認 | Lukas Meyer, Andreas Gilson, Ute Schmid, Marc Stamminger, | (参考訳) FruitNeRFは、最先端のビュー合成手法を利用して、3Dで直接果物のタイプをカウントする、統一された新しい果物カウントフレームワークである。
われわれのフレームワークは、単眼カメラで捉えたポーズ画像の無秩序なセットを取り、各画像に果物を分割する。
果実の種類に依存しないシステムを実現するために,果実に二分節マスクを生成する基礎モデルを用いる。
モーダル性、RGB、セマンティック性を利用して、セマンティック・ニューラル・ラディアンス・フィールドを訓練する。
暗黙の果実畑の均一な体積サンプリングにより,果実のみの点雲が得られる。
抽出した点群にカスケードクラスタリングを適用することにより, 実測値の精度向上を実現し, 物体追跡や光流といった従来の手法に比べて, ニューラルラジアンス場の利用は, カウント自体を3Dに引き上げる上で大きなメリットをもたらす。
本手法は,実生と合成の両方のデータセットを用いて,果実の倍数化を防止し,無関係な果実を数えるのを防ぐ。
実世界のデータセットは,手動で数えるリンゴ3本と,1列・接地したリンゴ1本と,1列・接地したリンゴ1本と,リンゴ,梅,レモン,ナシ,桃,マンゴー3本からなる。
We introduce FruitNeRF, a unified novel fruit counting framework that leverages state-of-the-art view synthesis methods to count any fruit type directly in 3D. Our framework takes an unordered set of posed images captured by a monocular camera and segments fruit in each image. To make our system independent of the fruit type, we employ a foundation model that generates binary segmentation masks for any fruit. Utilizing both modalities, RGB and semantic, we train a semantic neural radiance field. Through uniform volume sampling of the implicit Fruit Field, we obtain fruit-only point clouds. By applying cascaded clustering on the extracted point cloud, our approach achieves precise fruit count.The use of neural radiance fields provides significant advantages over conventional methods such as object tracking or optical flow, as the counting itself is lifted into 3D. Our method prevents double counting fruit and avoids counting irrelevant fruit.We evaluate our methodology using both real-world and synthetic datasets. The real-world dataset consists of three apple trees with manually counted ground truths, a benchmark apple dataset with one row and ground truth fruit location, while the synthetic dataset comprises various fruit types including apple, plum, lemon, pear, peach, and mango.Additionally, we assess the performance of fruit counting using the foundation model compared to a U-Net. | 翻訳日:2024-11-08 11:38:16 公開日:2024-09-26 |
# 意味的キーポイントを用いた汎用衣服操作
General-purpose Clothes Manipulation with Semantic Keypoints ( http://arxiv.org/abs/2408.08160v2 ) ライセンス: Link先を確認 | Yuhong Deng, David Hsu, | (参考訳) 衣服の操作は家庭用ロボットにとって重要なスキルである。
近年では、折りたたみ、平ら化、吊り下げなど、作業固有の衣服の操作が進歩している。
しかし, 衣服の複雑な地形や変形性から, 多様な衣服をさまざまな方法で操作できる汎用ロボットシステムの構築は, 依然として困難である。
衣服は通常、特定の構造で設計されているので、'`left sleeve'のような特定の特徴を意味キーポイントとして識別することを提案する。
セマンティックキーポイントは、タスク計画のためのセマンティックキューと、低レベルのアクション生成のための幾何学的キューを提供することができる。
そこで本研究では,CLothes mAnipulation with Semantic KeyPoints (CLASP) のための大規模言語モデル (LLM) を用いた階層型学習フレームワークを開発した。
大規模なシミュレーション実験により、CLASPは、さまざまな衣服操作タスクにおいて、目視タスクと目視タスクの両方において、ベースラインメソッドよりも優れていることが示された。
実世界の実験では、CLASPは現実世界に直接デプロイでき、様々な種類の服に適用できる。
Clothes manipulation is a critical skill for household robots. Recent advancements have been made in task-specific clothes manipulation, such as folding, flattening, and hanging. However, due to clothes' complex geometries and deformability, creating a general-purpose robot system that can manipulate a diverse range of clothes in many ways remains challenging. Since clothes are typically designed with specific structures, we propose identifying these specific features like ``left sleeve'' as semantic keypoints. Semantic keypoints can provide semantic cues for task planning and geometric cues for low-level action generation. With this insight, we develop a hierarchical learning framework using the large language model (LLM) for general-purpose CLothes mAnipulation with Semantic keyPoints (CLASP). Extensive simulation experiments show that CLASP outperforms baseline methods on both seen and unseen tasks across various clothes manipulation tasks. Real-world experiments show that CLASP can be directly deployed in the real world and applied to a wide variety of clothes. | 翻訳日:2024-11-08 07:29:14 公開日:2024-09-26 |
# ニューラルネットワークによるランドスケープ解析
Neural Exploratory Landscape Analysis ( http://arxiv.org/abs/2408.10672v2 ) ライセンス: Link先を確認 | Zeyuan Ma, Jiacheng Chen, Hongshu Guo, Yue-Jiao Gong, | (参考訳) メタブラックボックス最適化(MetaBBO)の最近の研究によると、メタトレーニングニューラルネットワークはブラックボックスオプティマイザの設計を効果的に導くことができ、専門家のチューニングの必要性を大幅に低減し、複雑な問題分布をまたいだ堅牢なパフォーマンスを実現することができる。
MetaBBOは、低レベルの最適化の進捗について、メタレベルエージェントに通知するために、人造のExploratory Landscape Analysis機能に依存しています。
このギャップに対処するため,本研究では,2段階の注目型ニューラルネットワークを用いて景観特徴を動的にプロファイリングする新しいフレームワークであるNeurELAを提案する。
NeurELAは、マルチタスクの神経進化戦略を用いて、様々なMetaBBOアルゴリズム上で事前訓練されている。
大規模な実験により、NeurELAは様々なMetaBBOタスクに統合された場合、一貫して優れたパフォーマンスを実現し、さらなるパフォーマンス向上のために効率的に微調整できることが示された。
この進歩はMetaBBOアルゴリズムをより自律的で広く適用するための重要なステップであり、NeurELAのソースコードはhttps://anonymous.4open.science/r/Neur-ELA-303Cでアクセスできる。
Recent research in Meta-Black-Box Optimization (MetaBBO) have shown that meta-trained neural networks can effectively guide the design of black-box optimizers, significantly reducing the need for expert tuning and delivering robust performance across complex problem distributions. Despite their success, a paradox remains: MetaBBO still rely on human-crafted Exploratory Landscape Analysis features to inform the meta-level agent about the low-level optimization progress. To address the gap, this paper proposes Neural Exploratory Landscape Analysis (NeurELA), a novel framework that dynamically profiles landscape features through a two-stage, attention-based neural network, executed in an entirely end-to-end fashion. NeurELA is pre-trained over a variety of MetaBBO algorithms using a multi-task neuroevolution strategy. Extensive experiments show that NeurELA achieves consistently superior performance when integrated into different and even unseen MetaBBO tasks and can be efficiently fine-tuned for further performance boost. This advancement marks a pivotal step in making MetaBBO algorithms more autonomous and broadly applicable.The source code of NeurELA can be accessed at https://anonymous.4open.science/r/Neur-ELA-303C. | 翻訳日:2024-11-08 06:33:41 公開日:2024-09-26 |
# 非凸ミニマックス最適化のための2時間勾配勾配昇華アルゴリズム
Two-Timescale Gradient Descent Ascent Algorithms for Nonconvex Minimax Optimization ( http://arxiv.org/abs/2408.11974v2 ) ライセンス: Link先を確認 | Tianyi Lin, Chi Jin, Michael. I. Jordan, | (参考訳) 目的関数 $f(\textbf{x}, \textbf{y})$ は $\textbf{x}$ の非凸であり、$\textbf{y}$ の凹凸であり、$\textbf{y}$ の制約セット $Y \subseteq \mathbb{R}^n}$ は凸で有界である。
コベックス・コンケーブでは、GDAアルゴリズムがアプリケーションで広く使われており、強い収束保証があることが示されている。
しかし、より一般的な設定では、収束に失敗する可能性がある。
我々の貢献は、凸凹設定を超えて有効であるTTGDAアルゴリズムを設計し、関数 $\Phi(\cdot) := \max_{\textbf{y} \in Y} f(\cdot, \textbf{y})$ の定常点を効率的に見つけることである。
また、スムーズかつ非滑らかな非凸凹極小最適化問題の解法に関する理論的境界を確立する。
我々の知る限り、これは非凸極小最適化のためのTTGDAの最初の体系的解析であり、GAN(Generative Adversarial Network)のトレーニングや、その他の現実世界のアプリケーション問題における優れた性能に光を当てている。
We provide a unified analysis of two-timescale gradient descent ascent (TTGDA) for solving structured nonconvex minimax optimization problems in the form of $\min_\textbf{x} \max_{\textbf{y} \in Y} f(\textbf{x}, \textbf{y})$, where the objective function $f(\textbf{x}, \textbf{y})$ is nonconvex in $\textbf{x}$ and concave in $\textbf{y}$, and the constraint set $Y \subseteq \mathbb{R}^n$ is convex and bounded. In the convex-concave setting, the single-timescale gradient descent ascent (GDA) algorithm is widely used in applications and has been shown to have strong convergence guarantees. In more general settings, however, it can fail to converge. Our contribution is to design TTGDA algorithms that are effective beyond the convex-concave setting, efficiently finding a stationary point of the function $\Phi(\cdot) := \max_{\textbf{y} \in Y} f(\cdot, \textbf{y})$. We also establish theoretical bounds on the complexity of solving both smooth and nonsmooth nonconvex-concave minimax optimization problems. To the best of our knowledge, this is the first systematic analysis of TTGDA for nonconvex minimax optimization, shedding light on its superior performance in training generative adversarial networks (GANs) and in other real-world application problems. | 翻訳日:2024-11-08 06:00:03 公開日:2024-09-26 |
# ND-SDF:高忠実度室内再構成のための正規偏向場学習
ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction ( http://arxiv.org/abs/2408.12598v2 ) ライセンス: Link先を確認 | Ziyu Tang, Weicai Ye, Yifan Wang, Di Huang, Hujun Bao, Tong He, Guofeng Zhang, | (参考訳) ボリュームレンダリングによるニューラル暗黙的再構成は、高密度な3次元表面を復元する効果を示した。
しかし、微妙な幾何を同時に復元し、異なる特徴を持つ領域をまたいだ滑らかさを保つことは自明ではない。
この問題に対処するため、従来の手法では幾何学的先行法が一般的であり、しばしば以前のモデルの性能に制約される。
本稿では,ND-SDFを提案する。ND-SDFは,通常のシーンと前のシーンの角度のずれを表す正規偏向場を学習する。
提案手法は,全ての試料に幾何偏差を均一に適用し,精度に有意なバイアスを与える従来の手法とは異なり,本手法では,試料の特異な特性に基づいて動的に学習・適応し,モデルの精度と有効性を向上する。
本手法は, 壁面や床面などのスムーズなテクスチャ構造を得るだけでなく, 複雑な構造の幾何学的詳細も保存する。
さらに、偏光角度に基づく新しい光サンプリング手法を導入し、非偏光レンダリングプロセスを容易にし、特に細い構造物における複雑な表面の品質と精度を大幅に向上させる。
様々な挑戦的データセットの一貫性の向上は,本手法の優位性を示している。
Neural implicit reconstruction via volume rendering has demonstrated its effectiveness in recovering dense 3D surfaces. However, it is non-trivial to simultaneously recover meticulous geometry and preserve smoothness across regions with differing characteristics. To address this issue, previous methods typically employ geometric priors, which are often constrained by the performance of the prior models. In this paper, we propose ND-SDF, which learns a Normal Deflection field to represent the angular deviation between the scene normal and the prior normal. Unlike previous methods that uniformly apply geometric priors on all samples, introducing significant bias in accuracy, our proposed normal deflection field dynamically learns and adapts the utilization of samples based on their specific characteristics, thereby improving both the accuracy and effectiveness of the model. Our method not only obtains smooth weakly textured regions such as walls and floors but also preserves the geometric details of complex structures. In addition, we introduce a novel ray sampling strategy based on the deflection angle to facilitate the unbiased rendering process, which significantly improves the quality and accuracy of intricate surfaces, especially on thin structures. Consistent improvements on various challenging datasets demonstrate the superiority of our method. | 翻訳日:2024-11-08 05:37:29 公開日:2024-09-26 |
# センサネットワーク上での多対象追跡のための分散変分推論フレームワーク
Decentralised Variational Inference Frameworks for Multi-object Tracking on Sensor Network ( http://arxiv.org/abs/2408.13689v3 ) ライセンス: Link先を確認 | Qing Li, Runze Gan, Simon Godsill, | (参考訳) 本稿では、集中型センサフュージョンのトラッキング性能と近隣センサ間のローカルメッセージ交換のみを一致させる様々な分散型変分推論(VI)方式を提案することで、マルチセンサマルチオブジェクトトラッキングの課題に取り組む。
まず、集中型VIセンサ融合方式をベンチマークとして確立し、各VIイテレーションでセンサがコンセンサスを待たなければならない分散化システムの限界を分析する。
そこで,本研究では,パラメータ探索空間を小さくし,より高速な収束を可能にする標準ELBOの代わりに,局所的に最大化エビデンス境界(LM-ELBO)を最適化した分散勾配型VIフレームワークを提案する。
さらに,自然勾配と勾配追跡戦略を用いた分散化スキームの収束速度を向上する。
その結果, 分散化VI方式は, 追従性能の集中融合と経験的に等価であることが確認された。
特に、分散化自然勾配VI法は通信効率が最も高く、通信コストは最適下分散戦略に匹敵するが、追跡精度は著しく高い。
This paper tackles the challenge of multi-sensor multi-object tracking by proposing various decentralised Variational Inference (VI) schemes that match the tracking performance of centralised sensor fusion with only local message exchanges among neighboring sensors. We first establish a centralised VI sensor fusion scheme as a benchmark and analyse the limitations of its decentralised counterpart, which requires sensors to await consensus at each VI iteration. Therefore, we propose a decentralised gradient-based VI framework that optimises the Locally Maximised Evidence Lower Bound (LM-ELBO) instead of the standard ELBO, which reduces the parameter search space and enables faster convergence, making it particularly beneficial for decentralised tracking.This proposed framework is inherently self-evolving, improving with advancements in decentralised optimisation techniques for convergence guarantees and efficiency. Further, we enhance the convergence speed of proposed decentralised schemes using natural gradients and gradient tracking strategies. Results verify that our decentralised VI schemes are empirically equivalent to centralised fusion in tracking performance. Notably, the decentralised natural gradient VI method is the most communication-efficient, with communication costs comparable to suboptimal decentralised strategies while delivering notably higher tracking accuracy. | 翻訳日:2024-11-08 05:15:13 公開日:2024-09-26 |
# 深層学習を用いた乳房生検H&E画像のHER2とFISH状態予測
HER2 and FISH Status Prediction in Breast Biopsy H&E-Stained Images Using Deep Learning ( http://arxiv.org/abs/2408.13818v3 ) ライセンス: Link先を確認 | Ardhendu Sekhar, Vrinda Goel, Garima Jain, Abhijeet Patil, Ravi Kant Gupta, Tripti Bameta, Swapnil Rane, Amit Sethi, | (参考訳) ヒト上皮成長因子受容体2(HER2)を乳癌患者に検出するための現在の基準は、蛍光 in situ hybridization (FISH) または免疫組織化学 (IHC) を通じて同定されるHER2増幅に依存している。
しかし、ヘマトキシリンとエオシン(H&E)の腫瘍染色はより広く利用でき、H&Eを用いてHER2の状態を正確に予測することで、コスト削減と治療選択の迅速化が期待できる。
H&Eのためのディープラーニングアルゴリズムは、HER2状態予測の適度な成功を含む、様々ながんの特徴と臨床結果を予測する効果を示した。
本研究では、HER2状態を予測するために、MoCo-v2と対比学習を組み合わせた、カスタマイズされた弱い監督分類手法を採用した。
われわれはThe Cancer Genome Atlas (TCGA)から公開されている182個のH&E Whole Slide Images (WSIs)でパイプラインをトレーニングし、Yale School of Medicineの病理チームによるアノテーションが公開されている。
私たちのパイプラインは、4つの異なるテストフォールドで0.85のAUC(Area Under the Curve)を達成した。
さらに、HER2スコアが2以上で、対応するHER2ステータスとFISHテスト結果を含むTCGA-BRCAデータセットから、44のH&Eスライドでモデルを検証した。
これらのケースはIHCと同等と見なされ、曖昧さを避けるために高価なFISHテストが必要である。
われわれのパイプラインでは、これらの挑戦的なH&EスライドでAUCが0.81であった。
FISH検査の必要性を減らすことは、温存人口に対するがん治療の公平性に重大な影響を及ぼす可能性がある。
The current standard for detecting human epidermal growth factor receptor 2 (HER2) status in breast cancer patients relies on HER2 amplification, identified through fluorescence in situ hybridization (FISH) or immunohistochemistry (IHC). However, hematoxylin and eosin (H\&E) tumor stains are more widely available, and accurately predicting HER2 status using H\&E could reduce costs and expedite treatment selection. Deep Learning algorithms for H&E have shown effectiveness in predicting various cancer features and clinical outcomes, including moderate success in HER2 status prediction. In this work, we employed a customized weak supervision classification technique combined with MoCo-v2 contrastive learning to predict HER2 status. We trained our pipeline on 182 publicly available H&E Whole Slide Images (WSIs) from The Cancer Genome Atlas (TCGA), for which annotations by the pathology team at Yale School of Medicine are publicly available. Our pipeline achieved an Area Under the Curve (AUC) of 0.85 across four different test folds. Additionally, we tested our model on 44 H&E slides from the TCGA-BRCA dataset, which had an HER2 score of 2+ and included corresponding HER2 status and FISH test results. These cases are considered equivocal for IHC, requiring an expensive FISH test on their IHC slides for disambiguation. Our pipeline demonstrated an AUC of 0.81 on these challenging H&E slides. Reducing the need for FISH test can have significant implications in cancer treatment equity for underserved populations. | 翻訳日:2024-11-08 05:15:13 公開日:2024-09-26 |
# ペプチドのフル原子時間相関ダイナミクスのためのフォースガイドブリッジマッチング
Force-Guided Bridge Matching for Full-Atom Time-Coarsened Dynamics of Peptides ( http://arxiv.org/abs/2408.15126v4 ) ライセンス: Link先を確認 | Ziyang Yu, Wenbing Huang, Yang Liu, | (参考訳) 分子動力学(MD)は材料科学、化学、薬理学など様々な分野において重要である。
従来のMDソフトウェアは、時間コストと予測精度のバランスに苦しむ。
近年,多種多様な分子系の力学を長期にわたって学習し,普遍性と効率性の両方を享受することを目的として,深層生成モデルに基づくデータ駆動型アプローチが考案されている。
しかしながら、現在のほとんどの手法は、基礎となるボルツマン分布によらず、データ分布からのみ学習するように設計されており、エネルギーや力といった物理学の先駆者は常に見過ごされている。
本研究では,フル原子時間粗大化力学を学習し,ボルツマン制約分布を対象とするFBM(Force-Guided Bridge Matching)と呼ばれる条件生成モデルを提案する。
微妙に設計された中間力場の誘導により、FBMは好ましい物理の先行を生成プロセスに活用し、シミュレーションを改良する。
ペプチドからなる2つのデータセットの実験は、包括的メトリクスの観点から、我々の優位性を検証し、目に見えないシステムへの転送可能性を示す。
Molecular Dynamics (MD) is crucial in various fields such as materials science, chemistry, and pharmacology to name a few. Conventional MD software struggles with the balance between time cost and prediction accuracy, which restricts its wider application. Recently, data-driven approaches based on deep generative models have been devised for time-coarsened dynamics, which aim at learning dynamics of diverse molecular systems over a long timestep, enjoying both universality and efficiency. Nevertheless, most current methods are designed solely to learn from the data distribution regardless of the underlying Boltzmann distribution, and the physics priors such as energies and forces are constantly overlooked. In this work, we propose a conditional generative model called Force-guided Bridge Matching (FBM), which learns full-atom time-coarsened dynamics and targets the Boltzmann-constrained distribution. With the guidance of our delicately-designed intermediate force field, FBM leverages favourable physics priors into the generation process, giving rise to enhanced simulations. Experiments on two datasets consisting of peptides verify our superiority in terms of comprehensive metrics and demonstrate transferability to unseen systems. | 翻訳日:2024-11-08 04:52:58 公開日:2024-09-26 |
# ペプチドのフル原子時間相関ダイナミクスのためのフォースガイドブリッジマッチング
Force-Guided Bridge Matching for Full-Atom Time-Coarsened Dynamics of Peptides ( http://arxiv.org/abs/2408.15126v5 ) ライセンス: Link先を確認 | Ziyang Yu, Wenbing Huang, Yang Liu, | (参考訳) 分子動力学(MD)は材料科学、化学、薬理学など様々な分野において重要である。
従来のMDソフトウェアは、時間コストと予測精度のバランスに苦しむ。
近年,多種多様な分子系の力学を長期にわたって学習し,普遍性と効率性の両方を享受することを目的として,深層生成モデルに基づくデータ駆動型アプローチが考案されている。
しかしながら、現在のほとんどの手法は、基礎となるボルツマン分布によらず、データ分布からのみ学習するように設計されており、エネルギーや力といった物理学の先駆者は常に見過ごされている。
本研究では,フル原子時間粗大化力学を学習し,ボルツマン制約分布を対象とするFBM(Force-Guided Bridge Matching)と呼ばれる条件生成モデルを提案する。
微妙に設計された中間力場の誘導により、FBMは好ましい物理の先行を生成プロセスに活用し、シミュレーションを改良する。
ペプチドからなる2つのデータセットの実験は、包括的メトリクスの観点から、我々の優位性を検証し、目に見えないシステムへの転送可能性を示す。
Molecular Dynamics (MD) is crucial in various fields such as materials science, chemistry, and pharmacology to name a few. Conventional MD software struggles with the balance between time cost and prediction accuracy, which restricts its wider application. Recently, data-driven approaches based on deep generative models have been devised for time-coarsened dynamics, which aim at learning dynamics of diverse molecular systems over a long timestep, enjoying both universality and efficiency. Nevertheless, most current methods are designed solely to learn from the data distribution regardless of the underlying Boltzmann distribution, and the physics priors such as energies and forces are constantly overlooked. In this work, we propose a conditional generative model called Force-guided Bridge Matching (FBM), which learns full-atom time-coarsened dynamics and targets the Boltzmann-constrained distribution. With the guidance of our delicately-designed intermediate force field, FBM leverages favourable physics priors into the generation process, giving rise to enhanced simulations. Experiments on two datasets consisting of peptides verify our superiority in terms of comprehensive metrics and demonstrate transferability to unseen systems. | 翻訳日:2024-11-08 04:52:58 公開日:2024-09-26 |
# フェデレート学習における選択層ファインチューニングの探索
Exploring Selective Layer Fine-Tuning in Federated Learning ( http://arxiv.org/abs/2408.15600v2 ) ライセンス: Link先を確認 | Yuchang Sun, Yuexiang Xie, Bolin Ding, Yaliang Li, Jun Zhang, | (参考訳) フェデレーテッド・ラーニング(FL)は、分散データを用いた基礎モデルをプライバシー保護の方法で微調整するための、有望なパラダイムとして登場した。
限られた計算資源の下では、クライアントはタスク固有のデータに基づいて、モデル全体ではなく、選択したレイヤのサブセットを微調整する方がより実践的になることが多い。
本研究では、FLにおける選択層微調整の理論的検討を行い、クライアントが選択した層をローカルデータやリソースに応じて調整できるフレキシブルなアプローチを強調した。
理論的には、層選択戦略は、選択された層の重要性とクライアント間の不均一な選択の2つの重要な側面において、モデル収束に大きな影響を与えることを実証する。
さらに,これらの知見から,局所勾配を利用した戦略的層選択手法を提案し,クライアント間の層選択を規制する。
画像とテキストのデータセットに関する広範な実験は、いくつかのベースラインと比較して提案された戦略の有効性を示し、クライアントの不均一性に適応し、FLのトレーニングダイナミクスを訓練する重要なレイヤを特定することの進歩を強調している。
Federated learning (FL) has emerged as a promising paradigm for fine-tuning foundation models using distributed data in a privacy-preserving manner. Under limited computational resources, clients often find it more practical to fine-tune a selected subset of layers, rather than the entire model, based on their task-specific data. In this study, we provide a thorough theoretical exploration of selective layer fine-tuning in FL, emphasizing a flexible approach that allows the clients to adjust their selected layers according to their local data and resources. We theoretically demonstrate that the layer selection strategy has a significant impact on model convergence in two critical aspects: the importance of selected layers and the heterogeneous choices across clients. Drawing from these insights, we further propose a strategic layer selection method that utilizes local gradients and regulates layer selections across clients. The extensive experiments on both image and text datasets demonstrate the effectiveness of the proposed strategy compared with several baselines, highlighting its advances in identifying critical layers that adapt to the client heterogeneity and training dynamics in FL. | 翻訳日:2024-11-08 04:30:58 公開日:2024-09-26 |
# 時系列次項目予測における非項目ページの影響のモデル化と解析
Modeling and Analyzing the Influence of Non-Item Pages on Sequential Next-Item Prediction ( http://arxiv.org/abs/2408.15953v2 ) ライセンス: Link先を確認 | Elisabeth Fischer, Albin Zehe, Andreas Hotho, Daniel Schlör, | (参考訳) ユーザとアイテム間のインタラクションのシーケンスを分析し、シーケンシャルなレコメンデーションモデルは、ユーザの意図を学習し、次のアイテムについて予測する。
これらのページは特定の項目とは無関係ですが、ナビゲーションページのように、ユーザの関心事に関する洞察を提供することができます。
そこで我々は,これらの非イテムページを逐次レコメンデーションモデルに含め,次のイテム予測を強化する方法を提案する。
まず、仮説テストフレームワークHypTrailsとの相互作用に対する非イトムページの影響を実証し、シーケンシャルレコメンデーションモデルで非イトムページを表現する方法を提案する。
その後、一般的なシーケンシャルレコメンデータモデルを適用して、非イテムページを統合し、異なる項目表現戦略とノイズの多いデータを扱う能力でそれらのパフォーマンスを調査する。
モデルが非itemページを統合する能力を示すため、制御された設定のための合成データセットを作成し、2つの実世界のデータセットに非itemページを含めることによる改善を評価する。
この結果から,非イテムページは情報ソースとして有用であることが示され,それらを逐次レコメンデーションモデルに組み込むことで,解析されたモデルアーキテクチャ全体にわたって次イテム予測の性能が向上することがわかった。
Analyzing sequences of interactions between users and items, sequential recommendation models can learn user intent and make predictions about the next item. Next to item interactions, most systems also have interactions with what we call non-item pages: these pages are not related to specific items but still can provide insights of the user's interests, as, for example, navigation pages. We therefore propose a general way to include these non-item pages in sequential recommendation models to enhance next-item prediction. First, we demonstrate the influence of non-item pages on following interactions with the hypotheses testing framework HypTrails and propose methods for representing non-item pages in sequential recommendation models. Subsequently, we adapt popular sequential recommender models to integrate non-item pages and investigate their performance with different item representation strategies as well as their ability to handle noisy data. To show the general capabilities of the models to integrate non-item pages, we create a synthetic dataset for a controlled setting and then evaluate the improvements from including non-item pages on two real-world datasets. Our results show that non-item pages are a valuable source of information, and incorporating them in sequential recommendation models increases the performance of next-item prediction across all analyzed model architectures. | 翻訳日:2024-11-08 04:30:58 公開日:2024-09-26 |
# 境界:都市景観におけるオブジェクト検出のための光リアル合成データの生成
Boundless: Generating Photorealistic Synthetic Data for Object Detection in Urban Streetscapes ( http://arxiv.org/abs/2409.03022v2 ) ライセンス: Link先を確認 | Mehmet Kerem Turkcan, Yuyang Li, Chengbo Zang, Javad Ghaderi, Gil Zussman, Zoran Kostic, | (参考訳) 本研究では,高密度都市景観における高精度なオブジェクト検出を可能にする写真リアルな合成データ生成システムであるBoundlessを紹介する。
コンテキストレスは、大規模な実世界のデータ収集と手動の地上構造オブジェクトアノテーション(ラベル付け)を自動化され、設定可能なプロセスで置き換えることができる。
バウンドレスはUnreal Engine 5 (UE5) City Sampleプロジェクトをベースにしており、様々な照明とシーン変動条件で正確な3Dバウンディングボックスの収集を可能にしている。
中高度カメラから取得した実世界のデータセットの推測に使用する場合、Boundlessが生成したデータセットに基づいてトレーニングされたオブジェクト検出モデルの性能を評価する。
本研究では,境界のない学習モデルとCARLA学習モデルを比較し,7.8mAPの改善を観察する。
その結果,都市景観を対象とした大規模オブジェクト検出モデルの訓練・微調整を行う上で,合成データ生成は信頼性の高い手法である,という前提が得られた。
We introduce Boundless, a photo-realistic synthetic data generation system for enabling highly accurate object detection in dense urban streetscapes. Boundless can replace massive real-world data collection and manual ground-truth object annotation (labeling) with an automated and configurable process. Boundless is based on the Unreal Engine 5 (UE5) City Sample project with improvements enabling accurate collection of 3D bounding boxes across different lighting and scene variability conditions. We evaluate the performance of object detection models trained on the dataset generated by Boundless when used for inference on a real-world dataset acquired from medium-altitude cameras. We compare the performance of the Boundless-trained model against the CARLA-trained model and observe an improvement of 7.8 mAP. The results we achieved support the premise that synthetic data generation is a credible methodology for training/fine-tuning scalable object detection models for urban scenes. | 翻訳日:2024-11-07 23:34:03 公開日:2024-09-26 |
# 3次元トーリックコードのための等変機械学習デコーダ
Equivariant Machine Learning Decoder for 3D Toric Codes ( http://arxiv.org/abs/2409.04300v2 ) ライセンス: Link先を確認 | Oliver Weissl, Evgenii Egorov, | (参考訳) コンピュータや通信システムにおけるエラーの軽減は、これらの技術の普及が始まって以来、多くの研究がなされてきた。
しかし、計算や通信を行う新しい手法を開発する際には、エラーに対処する手法を再検討する必要がある。
量子コンピューティングの分野では、エラーが高速で無効な結果を伝播できるため、エラー訂正が注目されている。
量子システムのエラーを修正するために、エラー訂正符号が使用される。
トポロジカルコードというコードの部分群は、現在多くの研究論文の焦点となっている。
位相符号は、$d$次元曲面に埋め込まれたグラフに対応するパリティチェック行列を表す。
私たちの研究は、3D四角い格子を持つトーリックコードに焦点を当てています。
デコーダの目標はノイズに対する堅牢性であり、コードサイズによって増加する可能性がある。
しかし、妥当なデコーダ性能は格子サイズで多項式的にスケールする。
誤差補正は時間に敏感な操作であるため,帰納的バイアスを用いたニューラルネットワークを提案する。
これにより、ネットワークはインプットの指数的に増加するトレーニング空間の比較的小さな部分集合から学習することができる。
さらに, 変圧器ネットワークが補正にどう役立つかを検討する。
これらのメソッドは、3Dトーリックコードでエラーを復号する様々な構成や以前に公開された方法と比較される。
Mitigating errors in computing and communication systems has seen a great deal of research since the beginning of the widespread use of these technologies. However, as we develop new methods to do computation or communication, we also need to reiterate the method used to deal with errors. Within the field of quantum computing, error correction is getting a lot of attention since errors can propagate fast and invalidate results, which makes the theoretical exponential speed increase in computation time, compared to traditional systems, obsolete. To correct errors in quantum systems, error-correcting codes are used. A subgroup of codes, topological codes, is currently the focus of many research papers. Topological codes represent parity check matrices corresponding to graphs embedded on a $d$-dimensional surface. For our research, the focus lies on the toric code with a 3D square lattice. The goal of any decoder is robustness to noise, which can increase with code size. However, a reasonable decoder performance scales polynomially with lattice size. As error correction is a time-sensitive operation, we propose a neural network using an inductive bias: equivariance. This allows the network to learn from a rather small subset of the exponentially growing training space of possible inputs. In addition, we investigate how transformer networks can help in correction. These methods will be compared with various configurations and previously published methods of decoding errors in the 3D toric code. | 翻訳日:2024-11-07 23:00:54 公開日:2024-09-26 |
# 精査下の量子カーネル法:ベンチマークによる検討
Quantum Kernel Methods under Scrutiny: A Benchmarking Study ( http://arxiv.org/abs/2409.04406v2 ) ライセンス: Link先を確認 | Jan Schnabel, Marco Roth, | (参考訳) 量子機械学習の分野におけるカーネル理論の登場以来、量子カーネル法(QKM)は有望な応用の探索と興味深い研究結果の提供の両方に注目が集まっている。
基礎となるGram行列の計算には、FQK(fidelity quantum kernel)とPQK(Projected quantum kernel)の2つの一般的なアプローチが出現している。
これらの手法のベンチマークは、堅牢な洞察を得、それらの実用性を理解するために不可欠である。
そこで本研究では,FQKとPQKに基づく設計選択の多様体におけるQKMを総合的に検討する。
本研究は、FQKとPQKの量子サポートベクトルマシンとカーネルリッジレグレッションを体系的に比較し、5つのデータセットファミリーと64のデータセットの分類および回帰タスクを包含する。
その結果、2万以上のモデルがトレーニングされ、最先端のハイパーパラメータサーチを使用して最適化され、堅牢で包括的な洞察が確保された。
我々は,モデル性能スコアにおけるハイパーパラメータの重要性を掘り下げ,厳密な相関分析を通じて結果を支援する。
本稿では,2つのデータ符号化戦略についても精査する。
さらに、PQKの設計自由に対処する詳細な分析を行い、学習に責任を負う基本原則について検討する。
我々のゴールは、特定のタスクの最高のパフォーマンスモデルを特定することではなく、効果的なQKMを導き、普遍的なパターンを明らかにするメカニズムを明らかにすることである。
Since the entry of kernel theory in the field of quantum machine learning, quantum kernel methods (QKMs) have gained increasing attention with regard to both probing promising applications and delivering intriguing research insights. Two common approaches for computing the underlying Gram matrix have emerged: fidelity quantum kernels (FQKs) and projected quantum kernels (PQKs). Benchmarking these methods is crucial to gain robust insights and to understand their practical utility. In this work, we present a comprehensive large-scale study examining QKMs based on FQKs and PQKs across a manifold of design choices. Our investigation encompasses both classification and regression tasks for five dataset families and 64 datasets, systematically comparing the use of FQKs and PQKs quantum support vector machines and kernel ridge regression. This resulted in over 20,000 models that were trained and optimized using a state-of-the-art hyperparameter search to ensure robust and comprehensive insights. We delve into the importance of hyperparameters on model performance scores and support our findings through rigorous correlation analyses. In this, we also closely inspect two data encoding strategies. Moreover, we provide an in-depth analysis addressing the design freedom of PQKs and explore the underlying principles responsible for learning. Our goal is not to identify the best-performing model for a specific task but to uncover the mechanisms that lead to effective QKMs and reveal universal patterns. | 翻訳日:2024-11-07 23:00:54 公開日:2024-09-26 |
# 低出力皮質内脳マシンインタフェースのためのハイブリッドスパイクニューラルネットワーク
Hybrid Spiking Neural Networks for Low-Power Intra-Cortical Brain-Machine Interfaces ( http://arxiv.org/abs/2409.04428v2 ) ライセンス: Link先を確認 | Alexandru Vasilache, Jann Krausse, Klaus Knobloch, Juergen Becker, | (参考訳) 皮質内脳-機械インタフェース(iBMI)は、日常活動を行う能力を回復させることで、麻痺患者の生活を劇的に改善する可能性がある。
しかし、現在のiBMIは、ハードウェアと配線が大きすぎるため、スケーラビリティとモビリティの制限に悩まされている。
ワイヤレスiBMIはソリューションを提供するが、限られたデータレートで制限される。
この課題を克服するために、ワイヤレスiBMIにおける組み込みニューラルネットワークのためのハイブリッドスパイキングニューラルネットワークについて検討している。
ネットワークは、時間的畳み込みに基づく圧縮と、繰り返し処理と、元のシーケンス長への最後の補間からなる。
リカレントユニットとして、ゲートリカレントユニット(GRU)、リークインテグレート・アンド・ファイア(LIF)ニューロン、および両方を組み合わせて、GRU(sGRU)をスパイクし、精度、フットプリント、アクティベーション空間の差異を分析する。
そこで我々は,"Non Human Primate Reaching with Multi Channel Sensorimotor Cortex Electrophysiology"データセットでデコーダをトレーニングし,NeuroBenchフレームワークを用いて評価し,IEEE BioCAS Grand Challenge on Neural Decodingの両トラックを対象としている。
提案手法は,NuroBenchフレームワークの現在のベースラインモデルを超えつつ,低シナプス動作を維持しつつ,多チャンネル一次運動野記録から霊長類の到達速度を推定する上で高い精度を実現する。
この研究は、高い復号精度で無線iBMIを促進するためのハイブリッドニューラルネットワークの可能性を強調し、監視されたニューロンの数を大幅に増加させ、より高度な神経補綴技術への道を開いた。
Intra-cortical brain-machine interfaces (iBMIs) have the potential to dramatically improve the lives of people with paraplegia by restoring their ability to perform daily activities. However, current iBMIs suffer from scalability and mobility limitations due to bulky hardware and wiring. Wireless iBMIs offer a solution but are constrained by a limited data rate. To overcome this challenge, we are investigating hybrid spiking neural networks for embedded neural decoding in wireless iBMIs. The networks consist of a temporal convolution-based compression followed by recurrent processing and a final interpolation back to the original sequence length. As recurrent units, we explore gated recurrent units (GRUs), leaky integrate-and-fire (LIF) neurons, and a combination of both - spiking GRUs (sGRUs) and analyze their differences in terms of accuracy, footprint, and activation sparsity. To that end, we train decoders on the "Nonhuman Primate Reaching with Multichannel Sensorimotor Cortex Electrophysiology" dataset and evaluate it using the NeuroBench framework, targeting both tracks of the IEEE BioCAS Grand Challenge on Neural Decoding. Our approach achieves high accuracy in predicting velocities of primate reaching movements from multichannel primary motor cortex recordings while maintaining a low number of synaptic operations, surpassing the current baseline models in the NeuroBench framework. This work highlights the potential of hybrid neural networks to facilitate wireless iBMIs with high decoding precision and a substantial increase in the number of monitored neurons, paving the way toward more advanced neuroprosthetic technologies. | 翻訳日:2024-11-07 23:00:54 公開日:2024-09-26 |
# 非対称双方向量子テレポーテーション:任意バイモーダル情報状態
Asymmetric Bidirectional Quantum Teleportation: Arbitrary bi-modal Information State ( http://arxiv.org/abs/2409.04480v2 ) ライセンス: Link先を確認 | Ankita Pathak, Madan Singh Chauhan, Ravi S. Singh, | (参考訳) 光コヒーレント状態(英: optical coherent state)は、レーザーによる準備と線形光学ガジェットによる操作と監視が十分に確立されている実験的に実現可能な連続可変量子状態である。
本研究では,2成分の2成分の共役コヒーレント状態の3つの重ね合わせからなるクラスタを量子チャネルとして利用し,線形光学ガジェットを活用して,未知のシュロディンガー猫コヒーレント状態を送信者に送信しようとする4成分の共役コヒーレント状態の任意の重ね合わせを送信者から受信者に送信する戦略を提案する。
送信機と受信機の実験室での光子の発見と、偶数と奇数の光子の古典的な通信、および局所的なユニタリ演算は、必然的に、成功の確率の8分の1で、同時に忠実な非対称な双方向量子テレポーテーションを達成する。
すべての検出イベントがプロトコルを実装しているわけではないため、ローカルに変位演算子を適用する必要がある。
ほぼ忠実な部分非対称な双方向量子テレポーテーションとそれに伴う成功の確率を解析する。
我々は、強コヒーレント光学場に対して、忠実度がユニティに近づくことを示した。
Optical coherent states are experimentally realizable continuous variable quantum states of which preparation by lasers, as well as its manipulation and monitoring by linear optical gadgets are well established. We propose a strategy to send an arbitrary superposition of four-component bimodal entangled coherent states from a sender to a receiver who, simultaneously, tries to transmit an unknown Schrodinger Cat coherent state to sender via employing a cluster consisting of three superposition of two component bimodal entangled coherent states as the quantum channel and utilizing linear optical gadgets. Heralded detection of photons in laboratories of sender and receiver followed by classical communications of even and odd number of photons and local unitary operations, impeccably, accomplishes simultaneous faithful asymmetric bidirectional quantum teleportation with one eighth of probability of success. It is seen that not all detection events implement the protocol and, therefore, one has to locally apply displacement operator, a necessary evil. We analyze near faithful partial asymmetric bidirectional quantum teleportation and associated probability of success therein. We demonstrated that, for an intense coherent optical field, fidelity approach unity. | 翻訳日:2024-11-07 23:00:54 公開日:2024-09-26 |
# ノイズラベルを用いた医用画像分割のためのディープセルフクリーニング
Deep Self-Cleansing for Medical Image Segmentation with Noisy Labels ( http://arxiv.org/abs/2409.05024v2 ) ライセンス: Link先を確認 | Jiahua Dong, Yue Zhang, Qiuli Wang, Ruofeng Tong, Shihong Ying, Shaolin Gong, Xuanpu Zhang, Lanfen Lin, Yen-Wei Chen, S. Kevin Zhou, | (参考訳) 医用画像のセグメンテーションは、疾患の診断と手術計画を支援する医療画像の分野で重要である。
確立されたセグメンテーション手法の多くは教師付きディープラーニングに依存しており、クリーンで正確なラベルは監督に不可欠であり、モデルの性能に大きな影響を及ぼす。
しかし、手動でデライニングされたラベルは、しばしばノイズを含む。例えば、ラベルの欠如や境界のデライニングは、ネットワークがターゲット特性を正しくモデル化することを妨げる。
本稿では,学習段階におけるノイズを除去しながら,クリーンなラベルを保存できるディープ・セルフクリーン化・セグメンテーション・フレームワークを提案する。
そこで我々は,ノイズラベルとクリーンラベルを区別するガウス混合モデルに基づくラベルフィルタリングモジュールを考案した。
さらに,特定ノイズサンプルに対して擬似低雑音ラベルを生成するラベル浄化モジュールを開発した。
保存されたクリーンラベルと擬似ラベルは、ネットワークを監督するために共同で使用される。
本手法は, 臨床肝腫瘍データセットと心臓診断データセットに基づいて, ノイズラベルからの干渉を効果的に抑制し, セグメンテーション性能を著しく向上させることができる。
Medical image segmentation is crucial in the field of medical imaging, aiding in disease diagnosis and surgical planning. Most established segmentation methods rely on supervised deep learning, in which clean and precise labels are essential for supervision and significantly impact the performance of models. However, manually delineated labels often contain noise, such as missing labels and inaccurate boundary delineation, which can hinder networks from correctly modeling target characteristics. In this paper, we propose a deep self-cleansing segmentation framework that can preserve clean labels while cleansing noisy ones in the training phase. To achieve this, we devise a gaussian mixture model-based label filtering module that distinguishes noisy labels from clean labels. Additionally, we develop a label cleansing module to generate pseudo low-noise labels for identified noisy samples. The preserved clean labels and pseudo-labels are then used jointly to supervise the network. Validated on a clinical liver tumor dataset and a public cardiac diagnosis dataset, our method can effectively suppress the interference from noisy labels and achieve prominent segmentation performance. | 翻訳日:2024-11-07 22:49:49 公開日:2024-09-26 |
# CoDiCast:不確かさ定量化による気象予測のための条件拡散モデル
CoDiCast: Conditional Diffusion Model for Weather Prediction with Uncertainty Quantification ( http://arxiv.org/abs/2409.05975v2 ) ライセンス: Link先を確認 | Jimeng Shi, Bowen Jin, Jiawei Han, Giri Narasimhan, | (参考訳) 正確な天気予報は科学と社会にとって重要である。
しかし、既存の手法は、高い精度、低い不確実性、高い計算効率を同時に持つことができていない。
一方,天気予報の不確かさを定量化するために,アンサンブル予測(多種多様な予測を生成する)の戦略がよく用いられる。
しかし、従来のアンサンブル数値天気予報(NWP)は計算集約的である。
一方、既存の機械学習ベースの天気予報(MLWP)アプローチは効率的で正確である。
それでも、それらは決定論的であり、天気予報の不確実性を捉えることはできない。
本研究では,正確なグローバル気象予報を生成するための条件拡散モデルであるCoDiCastを提案する。
鍵となるアイデアは、拡散モデルにおける逆偏極過程の条件付きバージョンをシミュレートすることであり、これは純粋なガウスノイズから始まり、将来の時点の現実的な天気シナリオを生成する。
各認知ステップは、近年の観測に基づいて条件付けされる。
アンサンブル予測は確率ガウス雑音からの繰り返しサンプリングによって達成され、不確かさの定量化を表す。
CoDiCastは欧州中距離気象予報センター(ECMWF)から10年間のERA5の再分析データに基づいて訓練されている。
実験の結果,提案手法は既存のデータ駆動手法よりも精度が高いことがわかった。
条件拡散モデルであるCoDiCastは、80GBメモリのコモディティA100 GPUマシンで、約12分で6時間ステップで5.625^\circ$°Cの3日間の天気予報を生成できる。
公開コードは \url{https://github.com/JimengShi/CoDiCast} で提供されている。
Accurate weather forecasting is critical for science and society. Yet, existing methods have not managed to simultaneously have the properties of high accuracy, low uncertainty, and high computational efficiency. On one hand, to quantify the uncertainty in weather predictions, the strategy of ensemble forecast (i.e., generating a set of diverse predictions) is often employed. However, traditional ensemble numerical weather prediction (NWP) is computationally intensive. On the other hand, most existing machine learning-based weather prediction (MLWP) approaches are efficient and accurate. Nevertheless, they are deterministic and cannot capture the uncertainty of weather forecasting. In this work, we propose CoDiCast, a conditional diffusion model to generate accurate global weather prediction, while achieving uncertainty quantification with ensemble forecasts and modest computational cost. The key idea is to simulate a conditional version of the reverse denoising process in diffusion models, which starts from pure Gaussian noise to generate realistic weather scenarios for a future time point. Each denoising step is conditioned on observations from the recent past. Ensemble forecasts are achieved by repeatedly sampling from stochastic Gaussian noise to represent uncertainty quantification. CoDiCast is trained on a decade of ERA5 reanalysis data from the European Centre for Medium-Range Weather Forecasts (ECMWF). Experimental results demonstrate that our approach outperforms several existing data-driven methods in accuracy. Our conditional diffusion model, CoDiCast, can generate 3-day global weather forecasts, at 6-hour steps and $5.625^\circ$ latitude-longitude resolution, for over 5 variables, in about 12 minutes on a commodity A100 GPU machine with 80GB memory. The open-souced code is provided at \url{https://github.com/JimengShi/CoDiCast}. | 翻訳日:2024-11-07 22:27:40 公開日:2024-09-26 |
# メカニカルシステム構成設計のための深部生成モデル
Deep Generative Model for Mechanical System Configuration Design ( http://arxiv.org/abs/2409.06016v2 ) ライセンス: Link先を確認 | Yasaman Etesam, Hyunmin Cheong, Mohammadmehdi Ataei, Pradeep Kumar Jayaraman, | (参考訳) ジェネレーティブAIは、さまざまな設計課題に対処する上で、顕著な進歩を遂げている。
生成AIが大きな価値をもたらす可能性のある重要な分野のひとつは、エンジニアリング設計である。
特に、設計要件を満たす機械システムを構築するために最適なコンポーネントセットとそのインターフェースを選択することは、エンジニアにとって最も困難で時間を要するタスクの1つです。
この構成設計タスクは、その分類学的性質、ソリューションが満たさなければならない複数の設計要件、潜在的なソリューションを評価するための物理シミュレーションに依存するため、本質的に困難である。
これらの特徴は、ブラックボックス関数を含む複数の制約で組合せ最適化問題を解くことである。
この課題に対処するために、設計問題に対するコンポーネントとインターフェースの最適な組み合わせを予測するための深層生成モデルを提案する。
提案手法を実証するために,まず文法,部品カタログ,物理シミュレータを用いて合成データセットを作成することで,ギヤトレイン合成問題を解く。
そして、このデータセット、GearFormerを使ってTransformerをトレーニングします。GearFormerは、それ自体で高品質なソリューションを生成するだけでなく、進化アルゴリズムやモンテカルロ木探索などの検索方法も強化します。
本稿では,GearFormerが特定の設計要件を満たすという点で,より高速な生成時間で,そのような検索方法よりも優れていることを示す。
さらに、GearFormerと検索の両方を活用するハイブリッド手法の利点を示し、ソリューションの品質をさらに向上させる。
Generative AI has made remarkable progress in addressing various design challenges. One prominent area where generative AI could bring significant value is in engineering design. In particular, selecting an optimal set of components and their interfaces to create a mechanical system that meets design requirements is one of the most challenging and time-consuming tasks for engineers. This configuration design task is inherently challenging due to its categorical nature, multiple design requirements a solution must satisfy, and the reliance on physics simulations for evaluating potential solutions. These characteristics entail solving a combinatorial optimization problem with multiple constraints involving black-box functions. To address this challenge, we propose a deep generative model to predict the optimal combination of components and interfaces for a given design problem. To demonstrate our approach, we solve a gear train synthesis problem by first creating a synthetic dataset using a grammar, a parts catalogue, and a physics simulator. We then train a Transformer using this dataset, named GearFormer, which can not only generate quality solutions on its own, but also augment search methods such as an evolutionary algorithm and Monte Carlo tree search. We show that GearFormer outperforms such search methods on their own in terms of satisfying the specified design requirements with orders of magnitude faster generation time. Additionally, we showcase the benefit of hybrid methods that leverage both GearFormer and search methods, which further improve the quality of the solutions. | 翻訳日:2024-11-07 22:27:40 公開日:2024-09-26 |
# 対称性制約ニューラルネットワークによる金属板の損傷検出と局所化
Symmetry constrained neural networks for detection and localization of damage in metal plates ( http://arxiv.org/abs/2409.06084v2 ) ライセンス: Link先を確認 | James Amarel, Christopher Rudolf, Athanasios Iliopoulos, John Michopoulos, Leslie N. Smith, | (参考訳) 本稿では,薄板の損傷検出と局所化に応用した深層学習技術について述べる。
プレート4個の圧電トランスデューサを装着してテーブル上装置に収集したデータを用いてラム波を発生させ,残りの3つのセンサが受信する前に関心領域をトラバースした。
プレートガイド波が接触荷重と相互作用するたびに損傷反射特性を示す材料応答の時系列データを分析するニューラルネットワークのトレーニングにおいて、平均距離誤差が2.58 pm 0.12$ mmのモデルに加えて、99 %以上の精度で検出されたモデルを達成した。
各タスクに対して、最も性能の良いモデルは、トランスデューサがほぼ均一なプレート上の正方形パターンに類似し配置されているという帰納バイアスに基づいて設計された。
The present paper is concerned with deep learning techniques applied to detection and localization of damage in a thin aluminum plate. We used data collected on a tabletop apparatus by mounting to the plate four piezoelectric transducers, each of which took turn to generate a Lamb wave that then traversed the region of interest before being received by the remaining three sensors. On training a neural network to analyze time-series data of the material response, which displayed damage-reflective features whenever the plate guided waves interacted with a contact load, we achieved a model that detected with greater than $99\%$ accuracy in addition to a model that localized with $2.58 \pm 0.12$ mm mean distance error. For each task, the best-performing model was designed according to the inductive bias that our transducers were both similar and arranged in a square pattern on a nearly uniform plate. | 翻訳日:2024-11-07 22:16:23 公開日:2024-09-26 |
# モデルが条件付きである場合、拡散モデルに何が起こるか?
What happens to diffusion model likelihood when your model is conditional? ( http://arxiv.org/abs/2409.06364v2 ) ライセンス: Link先を確認 | Mattias Cross, Anton Ragni, | (参考訳) 拡散モデル(DM)は、ランダムサンプルを反復的に識別して高品質なデータを生成する。
反復サンプリングプロセスは確率微分方程式(SDE)から導出され、推論で選択された速度品質のトレードオフを可能にする。
微分方程式を用いたサンプリングのもう1つの利点は、正確な近似計算である。
これらの可能性は、非条件DMのランク付けや領域外分類に使われてきた。
DMの可能性は存在するが、特にText-To-Image (TTI) や Text-To-Speech synthesis (TTS) のような条件付き文脈では、その特徴は分かっていない。
意外なことに、TTS DMの可能性はテキスト入力に依存しない。
TTIはより表現力が高いが、欠点のあるプロンプトを識別することはできない。
その結果,条件付きタスクにDMを適用すると不整合が明らかになり,DMの特性が不明である可能性が示唆された。
この影響は、これまで知られていなかったDMの可能性に光を当てる。
条件DMは確率を最大化するが、問題の確率は期待する条件入力に敏感ではない。
この研究は拡散可能性の新しい視点を提供する。
Diffusion Models (DMs) iteratively denoise random samples to produce high-quality data. The iterative sampling process is derived from Stochastic Differential Equations (SDEs), allowing a speed-quality trade-off chosen at inference. Another advantage of sampling with differential equations is exact likelihood computation. These likelihoods have been used to rank unconditional DMs and for out-of-domain classification. Despite the many existing and possible uses of DM likelihoods, the distinct properties captured are unknown, especially in conditional contexts such as Text-To-Image (TTI) or Text-To-Speech synthesis (TTS). Surprisingly, we find that TTS DM likelihoods are agnostic to the text input. TTI likelihood is more expressive but cannot discern confounding prompts. Our results show that applying DMs to conditional tasks reveals inconsistencies and strengthens claims that the properties of DM likelihood are unknown. This impact sheds light on the previously unknown nature of DM likelihoods. Although conditional DMs maximise likelihood, the likelihood in question is not as sensitive to the conditioning input as one expects. This investigation provides a new point-of-view on diffusion likelihoods. | 翻訳日:2024-11-07 22:16:23 公開日:2024-09-26 |
# シュレーディンガー猫の個体群動態
Population Dynamics of Schrödinger Cats ( http://arxiv.org/abs/2409.07047v2 ) ライセンス: Link先を確認 | Foster Thompson, Alex Kamenev, | (参考訳) 古典的人口動態とリンドブラディアン進化の間には、暗黒状態を認め、特定の局所対称性の集合に従う正確な同値性を示す。
次に、この局所対称性条件が緩和されるモデルとして {\em quantum population dynamics を導入する。
これにより、動物がシュリンガーの猫のように振る舞う非古典的な過程ができ、生きた状態と死んだ状態の重ね合わせに入ることができ、その結果、個体数が異なる一貫性のある重ね合わせとなる。
我々は、ケディシュと第3の量子化技法の合成として量子人口モデルの場の理論処理を開発し、古典的な人口モデルの確率論的ドイ・ペリティ場理論記述と比較する。
この定式化を応用して、d$次元格子上でのプロトタイプ ``Schr\'odigner cat''' の個体群モデルについて検討し、安定な量子集団を支える暗死相と活性相の相転移を示す。
摂動的再正規化群アプローチを用いて、古典的な人口動態と通常の量子相転移の両方で観察されるものと異なるシュリンガー猫集団の臨界スケーリングを求める。
We demonstrate an exact equivalence between classical population dynamics and Lindbladian evolution admitting a dark state and obeying a set of certain local symmetries. We then introduce {\em quantum population dynamics} as models in which this local symmetry condition is relaxed. This allows for non-classical processes in which animals behave like Schr\"odinger's cat and enter superpositions of live and dead states, thus resulting in coherent superpositions of different population numbers. We develop a field theory treatment of quantum population models as a synthesis of Keldysh and third quantization techniques and draw comparisons to the stochastic Doi-Peliti field theory description of classical population models. We apply this formalism to study a prototypical ``Schr\"odigner cat'' population model on a $d$-dimensional lattice, which exhibits a phase transition between a dark extinct phase and an active phase that supports a stable quantum population. Using a perturbative renormalization group approach, we find a critical scaling of the Schr\"odinger cat population distinct from that observed in both classical population dynamics and usual quantum phase transitions. | 翻訳日:2024-11-07 21:53:46 公開日:2024-09-26 |
# 右センサデータに基づく2サンプルテストのための機械学習:シミュレーションによる検討
Machine Learning for Two-Sample Testing under Right-Censored Data: A Simulation Study ( http://arxiv.org/abs/2409.08201v2 ) ライセンス: Link先を確認 | Petr Philonenko, Sergey Postovalov, | (参考訳) 本研究は,2サンプル検定における機械学習(ML)手法の有効性を評価することを目的とする。
そこで我々は,様々なアーキテクチャを持つMLベースの手法を開発し,それらを2サンプルテストとして実装する。
それぞれの方法は、古典的な2サンプルテストからの予測を組み合わせたアンサンブル(スタックング)である。
本稿では,提案手法の学習結果について,従来の2サンプル試験と比較して統計力を検証し,ヌル仮説が真である場合に提案手法のヌル分布を解析し,提案手法に組み込まれた特徴の意義を評価する。
本研究は, 提案手法や古典的よく研究された2サンプル試験を含む, 右室観察下での2サンプル試験に関する18の手法を網羅する。
数値実験の結果は, 逆変換サンプリング法を用いて生成した合成データセットから得られ, モンテカルロシミュレーションにより複数回再現された。
直感的な観察で2サンプルの問題をテストするには、提案された2サンプルメソッド(スクリプト、データセット、モデル)をGitHubとHugging Faceで使用することができる。
The focus of this study is to evaluate the effectiveness of Machine Learning (ML) methods for two-sample testing with right-censored observations. To achieve this, we develop several ML-based methods with varying architectures and implement them as two-sample tests. Each method is an ensemble (stacking) that combines predictions from classical two-sample tests. This paper presents the results of training the proposed ML methods, examines their statistical power compared to classical two-sample tests, analyzes the null distribution of the proposed methods when the null hypothesis is true, and evaluates the significance of the features incorporated into the proposed methods. In total, this work covers 18 methods for two-sample testing under right-censored observations, including the proposed methods and classical well-studied two-sample tests. All results from numerical experiments were obtained from a synthetic dataset generated using the inverse transform sampling method and replicated multiple times through Monte Carlo simulation. To test the two-sample problem with right-censored observations, one can use the proposed two-sample methods (scripts, dataset, and models are available on GitHub and Hugging Face). | 翻訳日:2024-11-07 21:20:36 公開日:2024-09-26 |
# 直交誘導バイアスによる視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・
Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology ( http://arxiv.org/abs/2409.09369v2 ) ライセンス: Link先を確認 | Pei Liu, Luping Ji, Jiaxiang Gou, Bo Fu, Mao Ye, | (参考訳) 病理組織学的にWSIは,CPATHにおける癌予後を評価する重要なツールである。
既存のサバイバル分析(SA)アプローチは、エキサイティングな進歩を遂げているが、それらは一般的に、ギガピクセルWSIから予後の視覚表現を学ぶために、非常に表現力の高いアーキテクチャを採用し、患者レベルのラベルを粗くするだけに限られている。
このような学習パラダイムは、CPATHで現在少ないトレーニングデータと標準マルチインスタンス学習(MIL)フレームワークに直面している場合、重要なパフォーマンスボトルネックに悩まされる。
そこで本研究では,VLSA(Vision-Language-based SA)パラダイムを初めて提案する。
具体的には、(1)VLSAは病理VL基盤モデルによって駆動される。
もはや高機能ネットワークに依存しておらず、データ効率の利点を示している。
2)視覚終末では,VLSAは前もって予後言語を符号化し,それを補助信号として用いて,インスタンスレベルでの予後視覚特徴の集約を誘導し,MILの弱い監督を補う。
さらに, SAの特性を考慮し, 提案する。
一 連続生存ラベルをテキスト・プロンプトに変換することの学習を経時的に行うこと。
二 標準入射関数を予測対象として、VLに基づく予測との整合性を持たせること。
特に、VLSAの予測は、Shapley値に基づく方法によって直感的に解釈できる。
5つのデータセットに対する広範な実験により,提案手法の有効性が確認された。
我々のVLSAは、弱監督型MILをギガピクセルWSIから貴重な予後の手がかりを学習するための効果的な手段として提供することで、CPATHにおけるSAの新たな道を開くことができる。
ソースコードはhttps://github.com/liupei101/VLSA.comで公開されています。
Histopathology Whole-Slide Images (WSIs) provide an important tool to assess cancer prognosis in computational pathology (CPATH). While existing survival analysis (SA) approaches have made exciting progress, they are generally limited to adopting highly-expressive architectures and only coarse-grained patient-level labels to learn prognostic visual representations from gigapixel WSIs. Such learning paradigm suffers from important performance bottlenecks, when facing present scarce training data and standard multi-instance learning (MIL) framework in CPATH. To overcome it, this paper, for the first time, proposes a new Vision-Language-based SA (VLSA) paradigm. Concretely, (1) VLSA is driven by pathology VL foundation models. It no longer relies on high-capability networks and shows the advantage of data efficiency. (2) In vision-end, VLSA encodes prognostic language prior and then employs it as auxiliary signals to guide the aggregating of prognostic visual features at instance level, thereby compensating for the weak supervision in MIL. Moreover, given the characteristics of SA, we propose i) ordinal survival prompt learning to transform continuous survival labels into textual prompts; and ii) ordinal incidence function as prediction target to make SA compatible with VL-based prediction. Notably, VLSA's predictions can be interpreted intuitively by our Shapley values-based method. The extensive experiments on five datasets confirm the effectiveness of our scheme. Our VLSA could pave a new way for SA in CPATH by offering weakly-supervised MIL an effective means to learn valuable prognostic clues from gigapixel WSIs. Our source code is available at https://github.com/liupei101/VLSA. | 翻訳日:2024-11-07 20:57:42 公開日:2024-09-26 |
# 直交誘導バイアスによる視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・
Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology ( http://arxiv.org/abs/2409.09369v3 ) ライセンス: Link先を確認 | Pei Liu, Luping Ji, Jiaxiang Gou, Bo Fu, Mao Ye, | (参考訳) 病理組織学的にWSIは,CPATHにおける癌予後を評価する重要なツールである。
既存のサバイバル分析(SA)アプローチは、エキサイティングな進歩を遂げているが、それらは一般的に、ギガピクセルWSIから予後の視覚表現を学ぶために、非常に表現力の高いアーキテクチャを採用し、患者レベルのラベルを粗くするだけに限られている。
このような学習パラダイムは、CPATHで現在少ないトレーニングデータと標準マルチインスタンス学習(MIL)フレームワークに直面している場合、重要なパフォーマンスボトルネックに悩まされる。
そこで本研究では,VLSA(Vision-Language-based SA)パラダイムを初めて提案する。
具体的には、(1)VLSAは病理VL基盤モデルによって駆動される。
もはや高機能ネットワークに依存しておらず、データ効率の利点を示している。
2)視覚終末では,VLSAは前もって予後言語を符号化し,それを補助信号として用いて,インスタンスレベルでの予後視覚特徴の集約を誘導し,MILの弱い監督を補う。
さらに, SAの特性を考慮し, 提案する。
一 連続生存ラベルをテキスト・プロンプトに変換することの学習を経時的に行うこと。
二 標準入射関数を予測対象として、VLに基づく予測との整合性を持たせること。
特に、VLSAの予測は、Shapley値に基づく方法によって直感的に解釈できる。
5つのデータセットに対する広範な実験により,提案手法の有効性が確認された。
我々のVLSAは、弱監督型MILをギガピクセルWSIから貴重な予後の手がかりを学習するための効果的な手段として提供することで、CPATHにおけるSAの新たな道を開くことができる。
ソースコードはhttps://github.com/liupei101/VLSA.comで公開されています。
Histopathology Whole-Slide Images (WSIs) provide an important tool to assess cancer prognosis in computational pathology (CPATH). While existing survival analysis (SA) approaches have made exciting progress, they are generally limited to adopting highly-expressive architectures and only coarse-grained patient-level labels to learn prognostic visual representations from gigapixel WSIs. Such learning paradigm suffers from important performance bottlenecks, when facing present scarce training data and standard multi-instance learning (MIL) framework in CPATH. To overcome it, this paper, for the first time, proposes a new Vision-Language-based SA (VLSA) paradigm. Concretely, (1) VLSA is driven by pathology VL foundation models. It no longer relies on high-capability networks and shows the advantage of data efficiency. (2) In vision-end, VLSA encodes prognostic language prior and then employs it as auxiliary signals to guide the aggregating of prognostic visual features at instance level, thereby compensating for the weak supervision in MIL. Moreover, given the characteristics of SA, we propose i) ordinal survival prompt learning to transform continuous survival labels into textual prompts; and ii) ordinal incidence function as prediction target to make SA compatible with VL-based prediction. Notably, VLSA's predictions can be interpreted intuitively by our Shapley values-based method. The extensive experiments on five datasets confirm the effectiveness of our scheme. Our VLSA could pave a new way for SA in CPATH by offering weakly-supervised MIL an effective means to learn valuable prognostic clues from gigapixel WSIs. Our source code is available at https://github.com/liupei101/VLSA. | 翻訳日:2024-11-07 20:57:42 公開日:2024-09-26 |
# 絡み合いエントロピー走査による位相遷移と基礎対称性の破れ
Probing phase transition and underlying symmetry breaking via entanglement entropy scanning ( http://arxiv.org/abs/2409.09942v2 ) ライセンス: Link先を確認 | Zhe Wang, Zehui Deng, Zhiyan Wang, Yi-Ming Ding, Wenan Guo, Zheng Yan, | (参考訳) エンタングルメントエントロピー(EE)を用いて、量子多体系における新しい相と相転移の内在物理学を探索することは、凝縮物質物理学において重要であるが挑戦的なトピックである。
新たに開発したバイパートイト・アニーリングアルゴリズムにより,2次元強相関系の第1および第2次相転移点付近のEE挙動を,これまで要求されていた膨大な計算資源のために非常に困難であった大きなパラメータ領域にわたって走査することで,系統的に研究することができる。
興味深いことに、EEまたはその誘導体は臨界点において分岐し、これは本質的に離散対称性または連続対称性の破れを含む相転移を明らかにする。
さらに、EE曲線のピークは、高対称性の破れ点における一階相転移を検出でき、低対称性の破れ点を持つ位相を分離することができる。
この挙動は、ランダウ・ギンズバーグ・ウィルソンのパラダイムを超えた関連する分解臨界度から創発的高次対称性が生じる2次元チェッカーボード$J-Q$モデルにおける対称性に富む一階相転移にも適用される。
この研究は、異なる相転移と基礎となる対称性の破れをよりよく識別するのに役立つ新しい現象やメカニズムを指摘する。
Using entanglement entropy (EE) to probe the intrinsic physics of the novel phases and phase transitions in quantum many-body systems is an important but challenging topic in condensed matter physics. Thanks to our newly developed bipartite-reweight-annealing algorithm, we can systematically study EE behaviors near both first and second-order phase transition points of two-dimensional strongly correlated systems by scanning the EE across a large parameter region, which was super difficult previously due to the huge computation resources demanded. Interestingly, we find that the EE or its derivative diverges at the critical point, which essentially reveals the phase transition involving discrete or continuous symmetry breaking. What's more, we observe that the peak of the EE curve can detect first-order phase transitions at high symmetry breaking points, separating phases with lower symmetry broken. This behavior also applies to the symmetry-enhanced first-order phase transition in the two-dimensional chequerboard $J-Q$ model, where the emergent higher symmetry arises from the related deconfined criticality beyond the Landau-Ginzburg-Wilson paradigm. This work points to new phenomena and mechanisms that can help us better identify different phase transitions and the underlying symmetry breaking. | 翻訳日:2024-11-07 20:35:12 公開日:2024-09-26 |
# 時間変化媒体におけるマクロQEDとノイズ電流
Macroscopic QED and noise currents in time-varying media ( http://arxiv.org/abs/2409.11873v2 ) ライセンス: Link先を確認 | S. A. R. Horsley, R. K. Baker, | (参考訳) マクロスコピックQED(英: Macroscopic QED)は、分散媒体における量子電磁効果の場の理論である。
ここでは、MQDを拡張して、時間変化のある分散メディアを扱います。
時間依存ドルーデモデルでは、標準 MQED 内の ${\epsilon}({\omega}) {\to} {\epsilon}(t,{\omega})$ が非物理的偏極電流をもたらし、キャリア密度のステップ変化の極限において特異となる。
この特異な挙動は、貯水池の力学を変化させ、結果の理論を定量化し、非平衡な時間変化ノイズ電流を発見し、物質力学における時間的反射による余分な相関を示すことによって取り除くことができる。
Macroscopic QED (MQED) is the field theory for computing quantum electromagnetic effects in dispersive media. Here we extend MQD to treat time-varying, dispersive media. For a time dependent Drude model, we find that the expected replacement ${\epsilon}({\omega}) {\to} {\epsilon}(t,{\omega})$ within standard MQED leads to nonphysical polarization currents, becoming singular in the limit of a step change in the carrier density. We show this singular behaviour can be removed through modifying the reservoir dynamics, quantizing the resulting theory and finding the non-equilibrium, time-varying noise currents, which exhibit extra correlations due to temporal reflections within the material dynamics. | 翻訳日:2024-11-07 19:50:48 公開日:2024-09-26 |
# Qoncord: 変分量子アルゴリズムのためのマルチデバイスジョブスケジューリングフレームワーク
Qoncord: A Multi-Device Job Scheduling Framework for Variational Quantum Algorithms ( http://arxiv.org/abs/2409.12432v1 ) ライセンス: Link先を確認 | Meng Wang, Poulami Das, Prashant J. Nair, | (参考訳) 量子コンピュータは、特にクラウド環境ではリソースが限られているため、課題に直面している。
これらの障害にもかかわらず、変分量子アルゴリズム(VQA)は現在のノイズ中間規模量子(NISQ)システムに有望な応用と考えられる。
VQAは、グローバルな最適解に収束するために、複数の最適化反復を必要とする。
さらに、これらの最適化は再起動と呼ばれ、ノイズの影響を軽減するために異なる点から繰り返される必要がある。
残念ながら、クラウド内の各VQAタスクのジョブスケジューリングポリシーは、非常に最適化されていない。
特に、各VQA実行インスタンスは、通常、単一のNISQデバイスでスケジュールされる。
クラウド上のさまざまなデバイスを考えると、ユーザーは高品質なソリューションを保証するために、高忠実度デバイスを好むことが多い。
しかし、この好みは、待ち行列の遅延の増加とリソース利用の不均衡につながる。
我々は、これらのクラウド中心の課題に対処する自動化ジョブスケジューリングフレームワークであるQoncordを提案する。
Qoncordは、トレーニングの繰り返しと再スタートがすべて同じではないという洞察を、Qoncordは戦略的にトレーニングプロセスを探索段階と微調整段階に分割する。
ノイズに耐性のある初期の探索的なイテレーションは、あまり忙しくないマシンで実行されるが、高忠実度マシンでは微調整が行われる。
この適応的なアプローチは、ノイズの影響を軽減し、リソース使用を最適化し、クラウド環境における遅延をキューする。
Qoncordはまた、低パフォーマンスのイテレーションを削除することで実行時間を大幅に削減し、再起動オーバーヘッドを最小限にする。
したがって、Qoncordは同様のソリューションを17.4倍速く提供する。
同様に、ベースラインと同じ時間予算で13.3%改善されたソリューションを提供することができる。
Quantum computers face challenges due to limited resources, particularly in cloud environments. Despite these obstacles, Variational Quantum Algorithms (VQAs) are considered promising applications for present-day Noisy Intermediate-Scale Quantum (NISQ) systems. VQAs require multiple optimization iterations to converge on a globally optimal solution. Moreover, these optimizations, known as restarts, need to be repeated from different points to mitigate the impact of noise. Unfortunately, the job scheduling policies for each VQA task in the cloud are heavily unoptimized. Notably, each VQA execution instance is typically scheduled on a single NISQ device. Given the variety of devices in the cloud, users often prefer higher-fidelity devices to ensure higher-quality solutions. However, this preference leads to increased queueing delays and unbalanced resource utilization. We propose Qoncord, an automated job scheduling framework to address these cloud-centric challenges for VQAs. Qoncordleverages the insight that not all training iterations and restarts are equal, Qoncord strategically divides the training process into exploratory and fine-tuning phases. Early exploratory iterations, more resilient to noise, are executed on less busy machines, while fine-tuning occurs on high-fidelity machines. This adaptive approach mitigates the impact of noise and optimizes resource usage and queuing delays in cloud environments. Qoncord also significantly reduces execution time and minimizes restart overheads by eliminating low-performance iterations. Thus, Qoncord offers similar solutions 17.4x faster. Similarly, it can offer 13.3% better solutions for the same time budget as the baseline. | 翻訳日:2024-11-07 14:52:37 公開日:2024-09-26 |
# Qoncord: 変分量子アルゴリズムのためのマルチデバイスジョブスケジューリングフレームワーク
Qoncord: A Multi-Device Job Scheduling Framework for Variational Quantum Algorithms ( http://arxiv.org/abs/2409.12432v2 ) ライセンス: Link先を確認 | Meng Wang, Poulami Das, Prashant J. Nair, | (参考訳) 量子コンピュータは、特にクラウド環境ではリソースが限られているため、課題に直面している。
これらの障害にもかかわらず、変分量子アルゴリズム(VQA)は現在のノイズ中間規模量子(NISQ)システムに有望な応用と考えられる。
VQAは、グローバルな最適解に収束するために、複数の最適化反復を必要とする。
さらに、これらの最適化は再起動と呼ばれ、ノイズの影響を軽減するために異なる点から繰り返される必要がある。
残念ながら、クラウド内の各VQAタスクのジョブスケジューリングポリシーは、非常に最適化されていない。
特に、各VQA実行インスタンスは、通常、単一のNISQデバイスでスケジュールされる。
クラウド上のさまざまなデバイスを考えると、ユーザーは高品質なソリューションを保証するために、高忠実度デバイスを好むことが多い。
しかし、この好みは、待ち行列の遅延の増加とリソース利用の不均衡につながる。
我々は、これらのクラウド中心の課題に対処する自動化ジョブスケジューリングフレームワークであるQoncordを提案する。
Qoncordは、トレーニングの繰り返しと再スタートがすべて同じではないという洞察を、Qoncordは戦略的にトレーニングプロセスを探索段階と微調整段階に分割する。
ノイズに耐性のある初期の探索的なイテレーションは、あまり忙しくないマシンで実行されるが、高忠実度マシンでは微調整が行われる。
この適応的なアプローチは、ノイズの影響を軽減し、リソース使用を最適化し、クラウド環境における遅延をキューする。
Qoncordはまた、低パフォーマンスのイテレーションを削除することで実行時間を大幅に削減し、再起動オーバーヘッドを最小限にする。
したがって、Qoncordは同様のソリューションを17.4倍速く提供する。
同様に、ベースラインと同じ時間予算で13.3%改善されたソリューションを提供することができる。
Quantum computers face challenges due to limited resources, particularly in cloud environments. Despite these obstacles, Variational Quantum Algorithms (VQAs) are considered promising applications for present-day Noisy Intermediate-Scale Quantum (NISQ) systems. VQAs require multiple optimization iterations to converge on a globally optimal solution. Moreover, these optimizations, known as restarts, need to be repeated from different points to mitigate the impact of noise. Unfortunately, the job scheduling policies for each VQA task in the cloud are heavily unoptimized. Notably, each VQA execution instance is typically scheduled on a single NISQ device. Given the variety of devices in the cloud, users often prefer higher-fidelity devices to ensure higher-quality solutions. However, this preference leads to increased queueing delays and unbalanced resource utilization. We propose Qoncord, an automated job scheduling framework to address these cloud-centric challenges for VQAs. Qoncordleverages the insight that not all training iterations and restarts are equal, Qoncord strategically divides the training process into exploratory and fine-tuning phases. Early exploratory iterations, more resilient to noise, are executed on less busy machines, while fine-tuning occurs on high-fidelity machines. This adaptive approach mitigates the impact of noise and optimizes resource usage and queuing delays in cloud environments. Qoncord also significantly reduces execution time and minimizes restart overheads by eliminating low-performance iterations. Thus, Qoncord offers similar solutions 17.4x faster. Similarly, it can offer 13.3% better solutions for the same time budget as the baseline. | 翻訳日:2024-11-07 14:52:37 公開日:2024-09-26 |
# SatFed: リソース効率の良いLEO衛星支援不均一フェデレーション学習フレームワーク
SatFed: A Resource-Efficient LEO Satellite-Assisted Heterogeneous Federated Learning Framework ( http://arxiv.org/abs/2409.13503v1 ) ライセンス: Link先を確認 | Yuxin Zhang, Zheng Lin, Zhe Chen, Zihan Fang, Wenjun Zhu, Xianhao Chen, Jin Zhao, Yue Gao, | (参考訳) 従来のフェデレートラーニング(FL)フレームワークは、範囲の制限と帯域幅の混雑がモデル収束を著しく妨げている地上ネットワークに大きく依存している。
幸いなことに、低地球軌道(LEO)衛星ネットワークの進歩は、従来の地上FLを拡大するための新しい通信手段を提供する。
この可能性にもかかわらず、地上機器の限られた衛星地上通信帯域と異種運用環境は、データ、帯域幅、計算能力の変動を含む、効果的で堅牢な衛星支援FLにとって重大な課題となる。
これらの課題に対処するため、資源効率の高い衛星支援不均質FLフレームワークであるSatFedを提案する。
SatFedは、高度に制約された衛星地上帯域の使用を最適化し、最も重要なモデルの伝送を保証するために、鮮度に基づくモデルの優先順位付けキューを実装している。
さらに、データ分散、地上帯域幅、計算能力を含むデバイス間のリアルタイムな異種関係をキャプチャするために、マルチグラフが構築されている。
このマルチグラフにより、SatFedは衛星送信されたモデルをピアガイダンスに集約し、異種環境におけるローカルトレーニングを強化することができる。
実世界のLEO衛星ネットワークによる大規模な実験により、SatFedは最先端のベンチマークよりも優れた性能と堅牢性を発揮することが示された。
Traditional federated learning (FL) frameworks rely heavily on terrestrial networks, where coverage limitations and increasing bandwidth congestion significantly hinder model convergence. Fortunately, the advancement of low-Earth orbit (LEO) satellite networks offers promising new communication avenues to augment traditional terrestrial FL. Despite this potential, the limited satellite-ground communication bandwidth and the heterogeneous operating environments of ground devices-including variations in data, bandwidth, and computing power-pose substantial challenges for effective and robust satellite-assisted FL. To address these challenges, we propose SatFed, a resource-efficient satellite-assisted heterogeneous FL framework. SatFed implements freshness-based model prioritization queues to optimize the use of highly constrained satellite-ground bandwidth, ensuring the transmission of the most critical models. Additionally, a multigraph is constructed to capture real-time heterogeneous relationships between devices, including data distribution, terrestrial bandwidth, and computing capability. This multigraph enables SatFed to aggregate satellite-transmitted models into peer guidance, enhancing local training in heterogeneous environments. Extensive experiments with real-world LEO satellite networks demonstrate that SatFed achieves superior performance and robustness compared to state-of-the-art benchmarks. | 翻訳日:2024-11-07 06:53:09 公開日:2024-09-26 |
# SatFed: リソース効率の良いLEO衛星支援不均一フェデレーション学習フレームワーク
SatFed: A Resource-Efficient LEO Satellite-Assisted Heterogeneous Federated Learning Framework ( http://arxiv.org/abs/2409.13503v2 ) ライセンス: Link先を確認 | Yuxin Zhang, Zheng Lin, Zhe Chen, Zihan Fang, Wenjun Zhu, Xianhao Chen, Jin Zhao, Yue Gao, | (参考訳) 従来のフェデレートラーニング(FL)フレームワークは、範囲の制限と帯域幅の混雑がモデル収束を著しく妨げている地上ネットワークに大きく依存している。
幸いなことに、低地球軌道(LEO)衛星ネットワークの進歩は、従来の地上FLを拡大するための新しい通信手段を提供する。
この可能性にもかかわらず、地上機器の限られた衛星地上通信帯域と異種運用環境は、データ、帯域幅、計算能力の変動を含む、効果的で堅牢な衛星支援FLにとって重大な課題となる。
これらの課題に対処するため、資源効率の高い衛星支援不均質FLフレームワークであるSatFedを提案する。
SatFedは、高度に制約された衛星地上帯域の使用を最適化し、最も重要なモデルの伝送を保証するために、鮮度に基づくモデルの優先順位付けキューを実装している。
さらに、データ分散、地上帯域幅、計算能力を含むデバイス間のリアルタイムな異種関係をキャプチャするために、マルチグラフが構築されている。
このマルチグラフにより、SatFedは衛星送信されたモデルをピアガイダンスに集約し、異種環境におけるローカルトレーニングを強化することができる。
実世界のLEO衛星ネットワークによる大規模な実験により、SatFedは最先端のベンチマークよりも優れた性能と堅牢性を発揮することが示された。
Traditional federated learning (FL) frameworks rely heavily on terrestrial networks, where coverage limitations and increasing bandwidth congestion significantly hinder model convergence. Fortunately, the advancement of low-Earth orbit (LEO) satellite networks offers promising new communication avenues to augment traditional terrestrial FL. Despite this potential, the limited satellite-ground communication bandwidth and the heterogeneous operating environments of ground devices-including variations in data, bandwidth, and computing power-pose substantial challenges for effective and robust satellite-assisted FL. To address these challenges, we propose SatFed, a resource-efficient satellite-assisted heterogeneous FL framework. SatFed implements freshness-based model prioritization queues to optimize the use of highly constrained satellite-ground bandwidth, ensuring the transmission of the most critical models. Additionally, a multigraph is constructed to capture real-time heterogeneous relationships between devices, including data distribution, terrestrial bandwidth, and computing capability. This multigraph enables SatFed to aggregate satellite-transmitted models into peer guidance, enhancing local training in heterogeneous environments. Extensive experiments with real-world LEO satellite networks demonstrate that SatFed achieves superior performance and robustness compared to state-of-the-art benchmarks. | 翻訳日:2024-11-07 06:53:09 公開日:2024-09-26 |
# フェデレートされたドメインの一般化を促進する - 先進的な事前学習アーキテクチャの役割を理解する
Boosting Federated Domain Generalization: Understanding the Role of Advanced Pre-Trained Architectures ( http://arxiv.org/abs/2409.13527v2 ) ライセンス: Link先を確認 | Avi Deb Raha, Apurba Adhikary, Mrityunjoy Gain, Yu Qiao, Choong Seon Hong, | (参考訳) 本研究では,ビジョントランスフォーマー(ViT)やConvNeXt,Swinトランスフォーマーといった先進的な事前学習型アーキテクチャが,フェデレートドメイン一般化の促進に有効であることを示す。
これらのアーキテクチャは、グローバルなコンテキストの特徴を捉え、長距離依存関係をモデル化し、ドメイン間の一般化を改善するための有望な候補となる。
本研究では,ImageNet-1K, ImageNet-21K, JFT-300M, ImageNet-22Kなどの事前学習データセットを用いて,詳細な解析を行い,これらのアーキテクチャの様々なバリエーションを体系的に評価する。
さらに,FDG性能への影響を評価するために,自己指導型および指導型事前学習戦略を比較した。
マスク画像パッチの再構成に焦点をあてた自己監督技術は,画像の内在的構造をよりよく捉え,教師付き手法よりも優れていることが示唆された。
Office-HomeデータセットとPACSデータセットの総合的な評価は、より大きなデータセットに事前トレーニングされた高度なアーキテクチャを採用することで、それぞれ84.46\%と92.55\%の平均的な精度を達成する新しいベンチマークを確立することを示している。
さらに,パラメータが少ないにもかかわらず,より大規模なResNetモデルよりも優れたモデルが存在することも確認した。
このことは、特にモデル効率が不可欠である限られた計算資源を持つシナリオにおいて、高度なアーキテクチャとFDGの性能を高めるための多様な事前学習戦略を活用する重要な役割を強調している。
本稿は,これらの先進的な手法を活用し,FDGの今後の研究に有用な知見を提供することにより,フェデレーション学習システムがより適応し,効率的になることを示唆する。
In this study, we explore the efficacy of advanced pre-trained architectures, such as Vision Transformers (ViT), ConvNeXt, and Swin Transformers in enhancing Federated Domain Generalization. These architectures capture global contextual features and model long-range dependencies, making them promising candidates for improving cross-domain generalization. We conduct a broad study with in-depth analysis and systematically evaluate different variants of these architectures, using extensive pre-training datasets such as ImageNet-1K, ImageNet-21K, JFT-300M, and ImageNet-22K. Additionally, we compare self-supervised and supervised pre-training strategies to assess their impact on FDG performance. Our findings suggest that self-supervised techniques, which focus on reconstructing masked image patches, can better capture the intrinsic structure of images, thereby outperforming their supervised counterparts. Comprehensive evaluations on the Office-Home and PACS datasets demonstrate that adopting advanced architectures pre-trained on larger datasets establishes new benchmarks, achieving average accuracies of 84.46\% and 92.55\%, respectively. Additionally, we observe that certain variants of these advanced models, despite having fewer parameters, outperform larger ResNet models. This highlights the critical role of utilizing sophisticated architectures and diverse pre-training strategies to enhance FDG performance, especially in scenarios with limited computational resources where model efficiency is crucial. Our results indicate that federated learning systems can become more adaptable and efficient by leveraging these advanced methods, offering valuable insights for future research in FDG. | 翻訳日:2024-11-07 06:41:58 公開日:2024-09-26 |
# フェデレートされたドメインの一般化を促進する - 先進的な事前学習アーキテクチャの役割を理解する
Boosting Federated Domain Generalization: Understanding the Role of Advanced Pre-Trained Architectures ( http://arxiv.org/abs/2409.13527v3 ) ライセンス: Link先を確認 | Avi Deb Raha, Apurba Adhikary, Mrityunjoy Gain, Yu Qiao, Choong Seon Hong, | (参考訳) 本研究では,ビジョントランスフォーマー(ViT)やConvNeXt,Swinトランスフォーマーといった先進的な事前学習型アーキテクチャが,フェデレートドメイン一般化の促進に有効であることを示す。
これらのアーキテクチャは、グローバルなコンテキストの特徴を捉え、長距離依存関係をモデル化し、ドメイン間の一般化を改善するための有望な候補となる。
本研究では,ImageNet-1K, ImageNet-21K, JFT-300M, ImageNet-22Kなどの事前学習データセットを用いて,詳細な解析を行い,これらのアーキテクチャの様々なバリエーションを体系的に評価する。
さらに,FDG性能への影響を評価するために,自己指導型および指導型事前学習戦略を比較した。
マスク画像パッチの再構成に焦点をあてた自己監督技術は,画像の内在的構造をよりよく捉え,教師付き手法よりも優れていることが示唆された。
Office-HomeデータセットとPACSデータセットの総合的な評価は、より大きなデータセットに事前トレーニングされた高度なアーキテクチャを採用することで、それぞれ84.46\%と92.55\%の平均的な精度を達成する新しいベンチマークを確立することを示している。
さらに,パラメータが少ないにもかかわらず,より大規模なResNetモデルよりも優れたモデルが存在することも確認した。
このことは、特にモデル効率が不可欠である限られた計算資源を持つシナリオにおいて、高度なアーキテクチャとFDGの性能を高めるための多様な事前学習戦略を活用する重要な役割を強調している。
本稿は,これらの先進的な手法を活用し,FDGの今後の研究に有用な知見を提供することにより,フェデレーション学習システムがより適応し,効率的になることを示唆する。
In this study, we explore the efficacy of advanced pre-trained architectures, such as Vision Transformers (ViT), ConvNeXt, and Swin Transformers in enhancing Federated Domain Generalization. These architectures capture global contextual features and model long-range dependencies, making them promising candidates for improving cross-domain generalization. We conduct a broad study with in-depth analysis and systematically evaluate different variants of these architectures, using extensive pre-training datasets such as ImageNet-1K, ImageNet-21K, JFT-300M, and ImageNet-22K. Additionally, we compare self-supervised and supervised pre-training strategies to assess their impact on FDG performance. Our findings suggest that self-supervised techniques, which focus on reconstructing masked image patches, can better capture the intrinsic structure of images, thereby outperforming their supervised counterparts. Comprehensive evaluations on the Office-Home and PACS datasets demonstrate that adopting advanced architectures pre-trained on larger datasets establishes new benchmarks, achieving average accuracies of 84.46\% and 92.55\%, respectively. Additionally, we observe that certain variants of these advanced models, despite having fewer parameters, outperform larger ResNet models. This highlights the critical role of utilizing sophisticated architectures and diverse pre-training strategies to enhance FDG performance, especially in scenarios with limited computational resources where model efficiency is crucial. Our results indicate that federated learning systems can become more adaptable and efficient by leveraging these advanced methods, offering valuable insights for future research in FDG. | 翻訳日:2024-11-07 06:41:58 公開日:2024-09-26 |
# ソースコードの相違点の相互最適化に向けて:その性能に関する実証的研究
Toward Interactive Optimization of Source Code Differences: An Empirical Study of Its Performance ( http://arxiv.org/abs/2409.13590v1 ) ライセンス: Link先を確認 | Tsukasa Yagi, Shinpei Hayashi, | (参考訳) ソースコードの違い(diff)は、新しいソースコードと古いソースコードを比較した変更を示し、コードレビューで利用することで、開発者がコードの変更を理解するのに役立つ。
多くの差分生成法が提案されているが、既存の自動手法は最適でない差分を生成する可能性があり、レビュアーが変化を理解するのを妨げている。
本稿では,差分最適化のための対話的手法を提案する。
ユーザは、マッチすべきではなく、マッチすべきでない部分や、マッチすべきでない部分に対するフィードバックを提供することができる。
このフィードバックに基づいて編集グラフが更新され、ユーザーはより最適な差分を得ることができる。
提案手法は,提案手法を探索アルゴリズムを用いて,必要なフィードバックインスタンス数と,提案手法の潜在可能性を調べるためのフィードバックによる差分最適化の量を実証的に評価することによってシミュレーションした。
GitHubの23のプロジェクトの結果は、最適でない差の92%が、理想的なケースでは4つ未満のフィードバックアクションで対処可能であることを確認している。
A source code difference (diff) indicates changes made by comparing new and old source codes, and it can be utilized in code reviews to help developers understand the changes made to the code. Although many diff generation methods have been proposed, existing automatic methods may generate nonoptimal diffs, hindering reviewers from understanding the changes. In this paper, we propose an interactive approach to optimize diffs. Users can provide feedback for the points of a diff that should not be matched but are or parts that should be matched but are not. The edit graph is updated based on this feedback, enabling users to obtain a more optimal diff. We simulated our proposed method by applying a search algorithm to empirically assess the number of feedback instances required and the amount of diff optimization resulting from the feedback to investigate the potential of this approach. The results of 23 GitHub projects confirm that 92\% of nonoptimal diffs can be addressed with less than four feedback actions in the ideal case. | 翻訳日:2024-11-07 06:30:58 公開日:2024-09-26 |
# ソースコードの相違点の相互最適化に向けて:その性能に関する実証的研究
Toward Interactive Optimization of Source Code Differences: An Empirical Study of Its Performance ( http://arxiv.org/abs/2409.13590v2 ) ライセンス: Link先を確認 | Tsukasa Yagi, Shinpei Hayashi, | (参考訳) ソースコードの違い(diff)は、新しいソースコードと古いソースコードを比較した変更を示し、コードレビューで利用することで、開発者がコードの変更を理解するのに役立つ。
多くの差分生成法が提案されているが、既存の自動手法は最適でない差分を生成する可能性があり、レビュアーが変化を理解するのを妨げている。
本稿では,差分最適化のための対話的手法を提案する。
ユーザは、マッチすべきではなく、マッチすべきでない部分や、マッチすべきでない部分に対するフィードバックを提供することができる。
このフィードバックに基づいて編集グラフが更新され、ユーザーはより最適な差分を得ることができる。
提案手法は,提案手法を探索アルゴリズムを用いて,必要なフィードバックインスタンス数と,提案手法の潜在可能性を調べるためのフィードバックによる差分最適化の量を実証的に評価することによってシミュレーションした。
GitHubの23のプロジェクトの結果は、最適でない差分のうち92%が、理想的なケースでは4つ未満のフィードバックアクションで対処可能であることを確認している。
A source code difference (diff) indicates changes made by comparing new and old source codes, and it can be utilized in code reviews to help developers understand the changes made to the code. Although many diff generation methods have been proposed, existing automatic methods may generate nonoptimal diffs, hindering reviewers from understanding the changes. In this paper, we propose an interactive approach to optimize diffs. Users can provide feedback for the points of a diff that should not be matched but are or parts that should be matched but are not. The edit graph is updated based on this feedback, enabling users to obtain a more optimal diff. We simulated our proposed method by applying a search algorithm to empirically assess the number of feedback instances required and the amount of diff optimization resulting from the feedback to investigate the potential of this approach. The results of 23 GitHub projects confirm that 92% of nonoptimal diffs can be addressed with less than four feedback actions in the ideal case. | 翻訳日:2024-11-07 06:19:44 公開日:2024-09-26 |
# KAG:知識強化世代によるプロフェッショナルドメインにおけるLLMの強化
KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation ( http://arxiv.org/abs/2409.13731v2 ) ライセンス: Link先を確認 | Lei Liang, Mengshu Sun, Zhengke Gui, Zhongshu Zhu, Zhouyu Jiang, Ling Zhong, Yuan Qu, Peilong Zhao, Zhongpu Bo, Jin Yang, Huaidong Xiong, Lin Yuan, Jun Xu, Zaoyang Wang, Zhiqiang Zhang, Wen Zhang, Huajun Chen, Wenguang Chen, Jun Zhou, | (参考訳) 最近開発されたRAG技術により、ドメイン固有のアプリケーションの効率的な構築が可能になった。
しかし、ベクトル類似性と知識推論の関連性のギャップや、数値値や時間的関係、専門家のルールなどの知識論理への敏感さなど、専門知識サービスの有効性を損なう制限もある。
本稿では,知識強化生成(KAG)と呼ばれる専門的なドメイン知識サービスフレームワークを紹介する。
KAGは、知識グラフ(KG)とベクトル検索の利点をフル活用した上で、大きな言語モデル(LLM)とKGを双方向に拡張することで、生成と推論性能を向上させる動機付けとして、(1)LLMフレンドリな知識表現、(2)知識グラフと元のチャンク間の相互インデックス化、(3)論理形式誘導ハイブリッド推論エンジン、(4)意味推論との知識アライメント、(5)KAGのモデル能力向上の5つの重要な側面を通して、上記の課題に対処するように設計されている。
KAGをマルチホップ質問応答における既存のRAG法と比較した結果,2wikiでは19.6%,ホットポットQAでは33.5%,最先端の手法では有意に優れていた。
我々は,E-Government Q&AやE-Health Q&Aを含む,Ant Groupの2つの専門知識Q&AタスクにKAGを適用し,RAG手法と比較して,プロ主義の大幅な改善を実現した。
The recently developed retrieval-augmented generation (RAG) technology has enabled the efficient construction of domain-specific applications. However, it also has limitations, including the gap between vector similarity and the relevance of knowledge reasoning, as well as insensitivity to knowledge logic, such as numerical values, temporal relations, expert rules, and others, which hinder the effectiveness of professional knowledge services. In this work, we introduce a professional domain knowledge service framework called Knowledge Augmented Generation (KAG). KAG is designed to address the aforementioned challenges with the motivation of making full use of the advantages of knowledge graph(KG) and vector retrieval, and to improve generation and reasoning performance by bidirectionally enhancing large language models (LLMs) and KGs through five key aspects: (1) LLM-friendly knowledge representation, (2) mutual-indexing between knowledge graphs and original chunks, (3) logical-form-guided hybrid reasoning engine, (4) knowledge alignment with semantic reasoning, and (5) model capability enhancement for KAG. We compared KAG with existing RAG methods in multihop question answering and found that it significantly outperforms state-of-theart methods, achieving a relative improvement of 19.6% on 2wiki and 33.5% on hotpotQA in terms of F1 score. We have successfully applied KAG to two professional knowledge Q&A tasks of Ant Group, including E-Government Q&A and E-Health Q&A, achieving significant improvement in professionalism compared to RAG methods. | 翻訳日:2024-11-07 05:35:28 公開日:2024-09-26 |
# KAG:知識強化世代によるプロフェッショナルドメインにおけるLLMの強化
KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation ( http://arxiv.org/abs/2409.13731v3 ) ライセンス: Link先を確認 | Lei Liang, Mengshu Sun, Zhengke Gui, Zhongshu Zhu, Zhouyu Jiang, Ling Zhong, Yuan Qu, Peilong Zhao, Zhongpu Bo, Jin Yang, Huaidong Xiong, Lin Yuan, Jun Xu, Zaoyang Wang, Zhiqiang Zhang, Wen Zhang, Huajun Chen, Wenguang Chen, Jun Zhou, | (参考訳) 最近開発されたRAG技術により、ドメイン固有のアプリケーションの効率的な構築が可能になった。
しかし、ベクトル類似性と知識推論の関連性のギャップや、数値値や時間的関係、専門家のルールなどの知識論理への敏感さなど、専門知識サービスの有効性を損なう制限もある。
本稿では,知識強化生成(KAG)と呼ばれる専門的なドメイン知識サービスフレームワークを紹介する。
KAGは、知識グラフ(KG)とベクトル検索の利点をフル活用した上で、大きな言語モデル(LLM)とKGを双方向に拡張することで、生成と推論性能を向上させる動機付けとして、(1)LLMフレンドリな知識表現、(2)知識グラフと元のチャンク間の相互インデックス化、(3)論理形式誘導ハイブリッド推論エンジン、(4)意味推論との知識アライメント、(5)KAGのモデル能力向上の5つの重要な側面を通して、上記の課題に対処するように設計されている。
KAGをマルチホップ質問応答における既存のRAG法と比較した結果,2wikiでは19.6%,ホットポットQAでは33.5%,最先端の手法では有意に優れていた。
我々は,E-Government Q&AやE-Health Q&Aを含む,Ant Groupの2つの専門知識Q&AタスクにKAGを適用し,RAG手法と比較して,プロ主義の大幅な改善を実現した。
The recently developed retrieval-augmented generation (RAG) technology has enabled the efficient construction of domain-specific applications. However, it also has limitations, including the gap between vector similarity and the relevance of knowledge reasoning, as well as insensitivity to knowledge logic, such as numerical values, temporal relations, expert rules, and others, which hinder the effectiveness of professional knowledge services. In this work, we introduce a professional domain knowledge service framework called Knowledge Augmented Generation (KAG). KAG is designed to address the aforementioned challenges with the motivation of making full use of the advantages of knowledge graph(KG) and vector retrieval, and to improve generation and reasoning performance by bidirectionally enhancing large language models (LLMs) and KGs through five key aspects: (1) LLM-friendly knowledge representation, (2) mutual-indexing between knowledge graphs and original chunks, (3) logical-form-guided hybrid reasoning engine, (4) knowledge alignment with semantic reasoning, and (5) model capability enhancement for KAG. We compared KAG with existing RAG methods in multihop question answering and found that it significantly outperforms state-of-theart methods, achieving a relative improvement of 19.6% on 2wiki and 33.5% on hotpotQA in terms of F1 score. We have successfully applied KAG to two professional knowledge Q&A tasks of Ant Group, including E-Government Q&A and E-Health Q&A, achieving significant improvement in professionalism compared to RAG methods. | 翻訳日:2024-11-07 05:35:28 公開日:2024-09-26 |
# 言語エージェントが科学的知識の超人的合成を実現する
Language agents achieve superhuman synthesis of scientific knowledge ( http://arxiv.org/abs/2409.13740v2 ) ライセンス: Link先を確認 | Michael D. Skarlinski, Sam Cox, Jon M. Laurent, James D. Braza, Michaela Hinks, Michael J. Hammerling, Manvitha Ponnapati, Samuel G. Rodriques, Andrew D. White, | (参考訳) 言語モデルは誤った情報を幻覚させることが知られており、科学的研究に十分な正確で信頼性があるかどうかは不明である。
我々は,情報検索,要約,矛盾検出タスクを含む実世界の文献検索タスクにおいて,言語モデルエージェントを評価するための厳密な人間-AI比較手法を開発した。
そこで本研究では,現実性向上に最適化されたフロンティア言語モデルエージェントであるPaperQA2が,人間に制約のない3つの現実的な文献研究課題(インターネットへの完全アクセス,検索ツール,時間など)において,課題の専門家のパフォーマンスに適合するか,あるいは超えていることを示す。
PaperQA2は、Wikipediaのような科学的トピックの要約を引用している。
また,PaperQA2の設計を指導するLitQA2という科学文献研究のためのハードベンチマークも導入し,人的性能を上回った。
最後に,人間にとって重要な科学的課題である科学文献内の矛盾を明らかにするためにPaperQA2を適用した。
PaperQA2は、生物学論文のランダムなサブセットにおいて、1紙あたり2.34 +/- 1.99の矛盾を識別し、そのうち70%は人間の専門家によって検証されている。
これらの結果は、言語モデルエージェントが、科学文献において有意義なタスクにまたがってドメインエキスパートを超えることができることを示した。
Language models are known to hallucinate incorrect information, and it is unclear if they are sufficiently accurate and reliable for use in scientific research. We developed a rigorous human-AI comparison methodology to evaluate language model agents on real-world literature search tasks covering information retrieval, summarization, and contradiction detection tasks. We show that PaperQA2, a frontier language model agent optimized for improved factuality, matches or exceeds subject matter expert performance on three realistic literature research tasks without any restrictions on humans (i.e., full access to internet, search tools, and time). PaperQA2 writes cited, Wikipedia-style summaries of scientific topics that are significantly more accurate than existing, human-written Wikipedia articles. We also introduce a hard benchmark for scientific literature research called LitQA2 that guided design of PaperQA2, leading to it exceeding human performance. Finally, we apply PaperQA2 to identify contradictions within the scientific literature, an important scientific task that is challenging for humans. PaperQA2 identifies 2.34 +/- 1.99 contradictions per paper in a random subset of biology papers, of which 70% are validated by human experts. These results demonstrate that language model agents are now capable of exceeding domain experts across meaningful tasks on scientific literature. | 翻訳日:2024-11-07 05:35:28 公開日:2024-09-26 |
# 大規模言語モデルにおける知識に基づく質問生成のためのコントラスト学習
Contrastive Learning for Knowledge-Based Question Generation in Large Language Models ( http://arxiv.org/abs/2409.13994v1 ) ライセンス: Link先を確認 | Zhenhong Zhang, Jiajing Chen, Weiyan Shi, Lingjie Yi, Chihang Wang, Qian Yu, | (参考訳) 人工知能技術の急速な発展、特に質問・回答システムの普及により、高品質な質問生成は、これらのシステムの開発を支援する重要な要素となっている。
本稿では、コンピュータが特定のテキストや知識ベースを理解することに基づいて、人間の質問プロセスをシミュレートすることを目的とした、知識に基づく質問生成技術に焦点を当てる。
知識集約型タスクに適用した場合の大規模言語モデルにおける幻覚と知識ギャップの問題を踏まえ,コントラスト学習を取り入れた質問生成手法を提案する。
本手法は、複数のモデルを用いてドメイン知識を共同でマイニングし、コントラスト学習を用いて、生成時のノイズや幻覚を低減させる。
実験結果から, 比較例を含むプロンプトを設計することにより, 特にコントラスト命令と例を同時に使用する場合, モデルの性能が大幅に向上し, 生成した質問の質が向上し, 精度が向上することがわかった。
これらの結果は,コントラストの文脈とチェーン・オブ・シークレットのプロンプトを組み合わせることで,質問生成の質と実用性の両方を効果的に改善できることを示す。
With the rapid development of artificial intelligence technology, especially the increasingly widespread application of question-and-answer systems, high-quality question generation has become a key component in supporting the development of these systems. This article focuses on knowledge-based question generation technology, which aims to enable computers to simulate the human questioning process based on understanding specific texts or knowledge bases. In light of the issues of hallucination and knowledge gaps present in large-scale language models when applied to knowledge-intensive tasks, this paper proposes an enhanced question generation method that incorporates contrastive learning. This method utilizes multiple models to jointly mine domain knowledge and uses contrastive learning to guide the model in reducing noise and hallucinations in generation. Experimental results show that by designing prompts containing contrasting examples, the model's performance in question generation improves considerably, particularly when contrasting instructions and examples are used simultaneously, leading to the highest quality of generated questions and improved accuracy. These results demonstrate that the method proposed in this study, which combines contrasting context and chain-of-thought prompts, can effectively improve both the quality and the practicality of question generation. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-26 |
# 大規模言語モデルにおける知識に基づく質問生成のためのコントラスト学習
Contrastive Learning for Knowledge-Based Question Generation in Large Language Models ( http://arxiv.org/abs/2409.13994v2 ) ライセンス: Link先を確認 | Zhenhong Zhang, Jiajing Chen, Weiyan Shi, Lingjie Yi, Chihang Wang, Qian Yu, | (参考訳) 人工知能技術の急速な発展、特に質問・回答システムの普及により、高品質な質問生成は、これらのシステムの開発を支援する重要な要素となっている。
本稿では、コンピュータが特定のテキストや知識ベースを理解することに基づいて、人間の質問プロセスをシミュレートすることを目的とした、知識に基づく質問生成技術に焦点を当てる。
知識集約型タスクに適用した場合の大規模言語モデルにおける幻覚と知識ギャップの問題を踏まえ,コントラスト学習を取り入れた質問生成手法を提案する。
本手法は、複数のモデルを用いてドメイン知識を共同でマイニングし、コントラスト学習を用いて、生成時のノイズや幻覚を低減させる。
実験結果から, 比較例を含むプロンプトを設計することにより, 特にコントラスト命令と例を同時に使用する場合, モデルの性能が大幅に向上し, 生成した質問の質が向上し, 精度が向上することがわかった。
これらの結果は,コントラストの文脈とチェーン・オブ・シークレットのプロンプトを組み合わせることで,質問生成の質と実用性の両方を効果的に改善できることを示す。
With the rapid development of artificial intelligence technology, especially the increasingly widespread application of question-and-answer systems, high-quality question generation has become a key component in supporting the development of these systems. This article focuses on knowledge-based question generation technology, which aims to enable computers to simulate the human questioning process based on understanding specific texts or knowledge bases. In light of the issues of hallucination and knowledge gaps present in large-scale language models when applied to knowledge-intensive tasks, this paper proposes an enhanced question generation method that incorporates contrastive learning. This method utilizes multiple models to jointly mine domain knowledge and uses contrastive learning to guide the model in reducing noise and hallucinations in generation. Experimental results show that by designing prompts containing contrasting examples, the model's performance in question generation improves considerably, particularly when contrasting instructions and examples are used simultaneously, leading to the highest quality of generated questions and improved accuracy. These results demonstrate that the method proposed in this study, which combines contrasting context and chain-of-thought prompts, can effectively improve both the quality and the practicality of question generation. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-26 |
# 信頼性ドリルによるAIシステムへの人間依存のモニタリング
Monitoring Human Dependence On AI Systems With Reliance Drills ( http://arxiv.org/abs/2409.14055v1 ) ライセンス: Link先を確認 | Rosco Hunter, Richard Moulange, Jamie Bernardi, Merlin Stein, | (参考訳) AIシステムは、ますます幅広い知的タスクで人間を支援している。
人間は、AIが生成するアドバイスを信頼していれば、この支援を過度に信頼するかもしれない。
本稿では,人間がAI生成アドバイスの誤りを認識できるかどうかを検査する,信頼度訓練を提案する。
組織がこれらのドリルを実装するために使用できるパイプラインを導入しています。
一例として、医療現場でのAIへの過度な依存を制限するために、このアプローチをどのように使用できるかを説明します。
私たちは、AIによる意思決定に人間が適切に関与し続けるための重要なツールとして、信頼ドリルが活用できる、と結論付けました。
AI systems are assisting humans with an increasingly broad range of intellectual tasks. Humans could be over-reliant on this assistance if they trust AI-generated advice, even though they would make a better decision on their own. To identify real-world instances of over-reliance, this paper proposes the reliance drill: an exercise that tests whether a human can recognise mistakes in AI-generated advice. We introduce a pipeline that organisations could use to implement these drills. As an example, we explain how this approach could be used to limit over-reliance on AI in a medical setting. We conclude by arguing that reliance drills could become a key tool for ensuring humans remain appropriately involved in AI-assisted decisions. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-26 |
# 信頼性ドリルによるAIシステムへの人間依存のモニタリング
Monitoring Human Dependence On AI Systems With Reliance Drills ( http://arxiv.org/abs/2409.14055v2 ) ライセンス: Link先を確認 | Rosco Hunter, Richard Moulange, Jamie Bernardi, Merlin Stein, | (参考訳) AIシステムは、ますます幅広い知的タスクで人間を支援している。
人間は、AIが生成するアドバイスを信頼していれば、この支援を過度に信頼するかもしれない。
本稿では,人間がAI生成アドバイスの誤りを認識できるかどうかを検査する,信頼度訓練を提案する。
組織がこれらのドリルを実装するために使用できるパイプラインを導入しています。
一例として、医療現場でのAIへの過度な依存を制限するために、このアプローチをどのように使用できるかを説明します。
私たちは、AIによる意思決定に人間が適切に関与し続けるための重要なツールとして、信頼ドリルが活用できる、と結論付けました。
AI systems are assisting humans with an increasingly broad range of intellectual tasks. Humans could be over-reliant on this assistance if they trust AI-generated advice, even though they would make a better decision on their own. To identify real-world instances of over-reliance, this paper proposes the reliance drill: an exercise that tests whether a human can recognise mistakes in AI-generated advice. We introduce a pipeline that organisations could use to implement these drills. As an example, we explain how this approach could be used to limit over-reliance on AI in a medical setting. We conclude by arguing that reliance drills could become a key tool for ensuring humans remain appropriately involved in AI-assisted decisions. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-26 |
# 局所パターンが新しい異常に対してより一般化する
Local Patterns Generalize Better for Novel Anomalies ( http://arxiv.org/abs/2409.14109v1 ) ライセンス: Link先を確認 | Yalong Jiang, Liquan Mao, | (参考訳) ビデオ異常検出(VAD)は、トレーニング中に目に見えない新しい行動や出来事を特定することを目的としている。
既存の主流のVAD技術は、イベントのグローバルなパターンに焦点を当てており、新しいサンプルに適切に一般化することはできない。
本稿では,新しいサンプルを一般化する空間的局所パターンを同定し,局所パターンのダイナミクスをモデル化する枠組みを提案する。
フレームワークの空間的部分では、画像テキストアライメントモジュール(ITAM)を用いた画像テキストコントラスト学習から局所パターンを抽出する能力を得る。
異なる種類の異常を検出するために,動作と外観の両方における局所パターンを表現するための2分岐フレームワークを提案する。
フレームワークの時間的部分において、状態機械モジュール(SMM)は、その時間的変動を運動成分に分解することによって局所パターンのダイナミクスをモデル化する。
異なるダイナミクスは、固定された動き成分の集合の異なる重み付けの和で表される。
局所パターンの新しい空間分布と局所パターンの特有なダイナミクスのいずれかを有するビデオシーケンスは異常と見なされる。
人気のあるベンチマークデータセットに関する大規模な実験は、最先端のパフォーマンスが達成可能であることを実証している。
Video anomaly detection (VAD) aims at identifying novel actions or events which are unseen during training. Existing mainstream VAD techniques focus on the global patterns of events and cannot properly generalize to novel samples. In this paper, we propose a framework to identify the spatial local patterns which generalize to novel samples and model the dynamics of local patterns. In spatial part of the framework, the capability of extracting local patterns is gained from image-text contrastive learning with Image-Text Alignment Module (ITAM). To detect different types of anomalies, a two-branch framework is proposed for representing the local patterns in both actions and appearances. In temporal part of the framework, a State Machine Module (SMM) is proposed to model the dynamics of local patterns by decomposing their temporal variations into motion components. Different dynamics are represented with different weighted sums of a fixed set of motion components. The video sequences with either novel spatial distributions of local patterns or distinctive dynamics of local patterns are deemed as anomalies. Extensive experiments on popular benchmark datasets demonstrate that state-of-the-art performance can be achieved. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-26 |
# 教師なしビデオ異常検出を支援する視覚言語モデル
Vision-Language Models Assisted Unsupervised Video Anomaly Detection ( http://arxiv.org/abs/2409.14109v2 ) ライセンス: Link先を確認 | Yalong Jiang, Liquan Mao, | (参考訳) ビデオ異常検出は、コンピュータビジョンアプリケーションにおいて重要な役割を担っているため、産業や学術分野で大きな関心を集めている。
しかし、異常の固有の予測不可能性と異常サンプルの不足は、教師なし学習法において重要な課題である。
VLAVAD(Video-Language Models Assisted Anomaly Detection)を提案する。
提案手法では,大言語モデル(LLM)とSPA(Selective-Prompt Adapter)を併用して,意味空間の選択を行う。
さらに,意味的特徴の時間的矛盾を検出するシークエンス・ステート・スペース・モジュール(S3M)を導入する。
本手法は,高次元視覚特徴を低次元意味的特徴にマッピングすることにより,教師なし異常検出の解釈可能性を大幅に向上させる。
提案手法は,上海技術データセット上でSOTAを達成し,周期的に識別し難い解離異常を検出するという課題を効果的に解決する。
Video anomaly detection is a subject of great interest across industrial and academic domains due to its crucial role in computer vision applications. However, the inherent unpredictability of anomalies and the scarcity of anomaly samples present significant challenges for unsupervised learning methods. To overcome the limitations of unsupervised learning, which stem from a lack of comprehensive prior knowledge about anomalies, we propose VLAVAD (Video-Language Models Assisted Anomaly Detection). Our method employs a cross-modal pre-trained model that leverages the inferential capabilities of large language models (LLMs) in conjunction with a Selective-Prompt Adapter (SPA) for selecting semantic space. Additionally, we introduce a Sequence State Space Module (S3M) that detects temporal inconsistencies in semantic features. By mapping high-dimensional visual features to low-dimensional semantic ones, our method significantly enhance the interpretability of unsupervised anomaly detection. Our proposed approach effectively tackles the challenge of detecting elusive anomalies that are hard to discern over periods, achieving SOTA on the challenging ShanghaiTech dataset. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-26 |
# マスクとボックス:マルチオブジェクトトラッキングのための両世界のベストの組み合わせ
Masks and Boxes: Combining the Best of Both Worlds for Multi-Object Tracking ( http://arxiv.org/abs/2409.14220v1 ) ライセンス: Link先を確認 | Tomasz Stanczyk, Francois Bremond, | (参考訳) マルチオブジェクト追跡(MOT)は、ビデオシーケンスをまたいだオブジェクトの特定と一貫した追跡を含む。
従来のトラッキング・バイ・検出手法は効果的であるが、広範囲なチューニングを必要とし、一般化性に欠けることが多い。
一方、セグメンテーションマスクベースの手法はより汎用的であるが、トラッキング管理に苦慮しているため、MOTには適さない。
我々は,時間的に伝播するセグメンテーションマスクを,トラッキング・バイ・ディテクト・フレームワーク内の強い関連キューとして組み込んだ新しいアプローチであるMcByteを提案する。
境界ボックスとマスク情報を組み合わせることで、McByteはシーケンス単位のチューニングなしで堅牢性と一般化性を向上させる。
DanceTrack, MOT17, SoccerNet-tracking 2022, KITTI-trackingの4つのベンチマークデータセットで評価されたMcByteは、調査対象のすべてのケースでパフォーマンス向上を示している。
同時に、既存のマスクベースの手法よりも優れています。
実装コードは受理時に提供されます。
Multi-object tracking (MOT) involves identifying and consistently tracking objects across video sequences. Traditional tracking-by-detection methods, while effective, often require extensive tuning and lack generalizability. On the other hand, segmentation mask-based methods are more generic but struggle with tracking management, making them unsuitable for MOT. We propose a novel approach, McByte, which incorporates a temporally propagated segmentation mask as a strong association cue within a tracking-by-detection framework. By combining bounding box and mask information, McByte enhances robustness and generalizability without per-sequence tuning. Evaluated on four benchmark datasets - DanceTrack, MOT17, SoccerNet-tracking 2022, and KITTI-tracking - McByte demonstrates performance gain in all cases examined. At the same time, it outperforms existing mask-based methods. Implementation code will be provided upon acceptance. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-26 |
# マスクとボックス:マルチオブジェクトトラッキングのための両世界のベストの組み合わせ
Masks and Boxes: Combining the Best of Both Worlds for Multi-Object Tracking ( http://arxiv.org/abs/2409.14220v2 ) ライセンス: Link先を確認 | Tomasz Stanczyk, Francois Bremond, | (参考訳) マルチオブジェクト追跡(MOT)は、ビデオシーケンスをまたいだオブジェクトの特定と一貫した追跡を含む。
従来のトラッキング・バイ・検出手法は効果的であるが、広範囲なチューニングを必要とし、一般化性に欠けることが多い。
一方、セグメンテーションマスクベースの手法はより汎用的であるが、トラッキング管理に苦慮しているため、MOTには適さない。
我々は,時間的に伝播するセグメンテーションマスクを,トラッキング・バイ・ディテクト・フレームワーク内の強い関連キューとして組み込んだ新しいアプローチであるMcByteを提案する。
境界ボックスとマスク情報を組み合わせることで、McByteはシーケンス単位のチューニングなしで堅牢性と一般化性を向上させる。
DanceTrack, MOT17, SoccerNet-tracking 2022, KITTI-trackingの4つのベンチマークデータセットで評価されたMcByteは、調査対象のすべてのケースでパフォーマンス向上を示している。
同時に、既存のマスクベースの手法よりも優れています。
実装コードは受理時に提供されます。
Multi-object tracking (MOT) involves identifying and consistently tracking objects across video sequences. Traditional tracking-by-detection methods, while effective, often require extensive tuning and lack generalizability. On the other hand, segmentation mask-based methods are more generic but struggle with tracking management, making them unsuitable for MOT. We propose a novel approach, McByte, which incorporates a temporally propagated segmentation mask as a strong association cue within a tracking-by-detection framework. By combining bounding box and mask information, McByte enhances robustness and generalizability without per-sequence tuning. Evaluated on four benchmark datasets - DanceTrack, MOT17, SoccerNet-tracking 2022, and KITTI-tracking - McByte demonstrates performance gain in all cases examined. At the same time, it outperforms existing mask-based methods. Implementation code will be provided upon acceptance. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-26 |
# TabGraphs: タブラル機能を備えたグラフを学習するためのベンチマークと強力なベースライン
TabGraphs: A Benchmark and Strong Baselines for Learning on Graphs with Tabular Features ( http://arxiv.org/abs/2409.14500v1 ) ライセンス: Link先を確認 | Gleb Bazhenov, Oleg Platonov, Liudmila Prokhorenkova, | (参考訳) タブラル機械学習は産業と科学にとって重要な分野である。
この分野では、テーブル行は通常独立したデータサンプルとして扱われるが、それらの関係に関する追加情報は時々利用可能であり、予測性能を改善するために使用できる。
このような情報はグラフで自然にモデル化できるため、グラフ機械学習はグラフ機械学習の手法の恩恵を受けることができる。
しかし、グラフ機械学習モデルは通常、均質なノード特徴を持つデータセットで評価される。
このように、グラフ機械学習研究で使用されるデータとグラフ機械学習研究では重要な違いがあり、グラフモデルがどのようにグラフデータに転送できるかをうまく理解できない。
このギャップを埋めるため、不均一なタブ状ノード機能と現実的な予測タスクを備えた多種多様なグラフのベンチマークを提案する。
このベンチマークを用いて、これまで文献で見過ごされていた単純な方法を含む、膨大なモデルの集合を評価する。
実験の結果,グラフニューラルネットワーク(GNN)は表データの予測性能が向上することが多いが,標準的な表モデルでは,単純な特徴前処理を用いてグラフデータに適応することができる。
実験的な研究に基づいて、表とグラフの両方の機械学習分野の研究者や実践者に洞察を提供する。
Tabular machine learning is an important field for industry and science. In this field, table rows are usually treated as independent data samples, but additional information about relations between them is sometimes available and can be used to improve predictive performance. Such information can be naturally modeled with a graph, thus tabular machine learning may benefit from graph machine learning methods. However, graph machine learning models are typically evaluated on datasets with homogeneous node features, which have little in common with heterogeneous mixtures of numerical and categorical features present in tabular datasets. Thus, there is a critical difference between the data used in tabular and graph machine learning studies, which does not allow one to understand how successfully graph models can be transferred to tabular data. To bridge this gap, we propose a new benchmark of diverse graphs with heterogeneous tabular node features and realistic prediction tasks. We use this benchmark to evaluate a vast set of models, including simple methods previously overlooked in the literature. Our experiments show that graph neural networks (GNNs) can indeed often bring gains in predictive performance for tabular data, but standard tabular models also can be adapted to work with graph data by using simple feature preprocessing, which sometimes enables them to compete with and even outperform GNNs. Based on our empirical study, we provide insights for researchers and practitioners in both tabular and graph machine learning fields. | 翻訳日:2024-11-06 22:30:40 公開日:2024-09-26 |
# TabGraphs: タブラルノード機能を備えたグラフを学習するためのベンチマークと強力なベースライン
TabGraphs: A Benchmark and Strong Baselines for Learning on Graphs with Tabular Node Features ( http://arxiv.org/abs/2409.14500v2 ) ライセンス: Link先を確認 | Gleb Bazhenov, Oleg Platonov, Liudmila Prokhorenkova, | (参考訳) タブラル機械学習は産業と科学にとって重要な分野である。
この分野では、テーブル行は通常独立したデータサンプルとして扱われるが、それらの関係に関する追加情報は時々利用可能であり、予測性能を改善するために使用できる。
このような情報はグラフで自然にモデル化できるため、グラフ機械学習はグラフ機械学習の手法の恩恵を受けることができる。
しかし、グラフ機械学習モデルは通常、均質なノード特徴を持つデータセットで評価される。
このように、グラフ機械学習研究で使用されるデータとグラフ機械学習研究では重要な違いがあり、グラフモデルがどのようにグラフデータに転送できるかをうまく理解できない。
このギャップを埋めるため、不均一なタブ状ノード機能と現実的な予測タスクを備えた多種多様なグラフのベンチマークを提案する。
このベンチマークを用いて、これまで文献で見過ごされていた単純な方法を含む、膨大なモデルの集合を評価する。
実験の結果,グラフニューラルネットワーク(GNN)は表データの予測性能が向上することが多いが,標準的な表モデルでは,単純な特徴前処理を用いてグラフデータに適応することができる。
実験的な研究に基づいて、表とグラフの両方の機械学習分野の研究者や実践者に洞察を提供する。
Tabular machine learning is an important field for industry and science. In this field, table rows are usually treated as independent data samples, but additional information about relations between them is sometimes available and can be used to improve predictive performance. Such information can be naturally modeled with a graph, thus tabular machine learning may benefit from graph machine learning methods. However, graph machine learning models are typically evaluated on datasets with homogeneous node features, which have little in common with heterogeneous mixtures of numerical and categorical features present in tabular datasets. Thus, there is a critical difference between the data used in tabular and graph machine learning studies, which does not allow one to understand how successfully graph models can be transferred to tabular data. To bridge this gap, we propose a new benchmark of diverse graphs with heterogeneous tabular node features and realistic prediction tasks. We use this benchmark to evaluate a vast set of models, including simple methods previously overlooked in the literature. Our experiments show that graph neural networks (GNNs) can indeed often bring gains in predictive performance for tabular data, but standard tabular models also can be adapted to work with graph data by using simple feature preprocessing, which sometimes enables them to compete with and even outperform GNNs. Based on our empirical study, we provide insights for researchers and practitioners in both tabular and graph machine learning fields. | 翻訳日:2024-11-06 22:30:40 公開日:2024-09-26 |
# AIによる文章作成は救われるか? : 編集による文字作成プロセスにおけるイディオシクスの緩和と人間とAIのアライメントの改善
Can AI writing be salvaged? Mitigating Idiosyncrasies and Improving Human-AI Alignment in the Writing Process through Edits ( http://arxiv.org/abs/2409.14509v1 ) ライセンス: Link先を確認 | Tuhin Chakrabarty, Philippe Laban, Chien-Sheng Wu, | (参考訳) LLMベースのアプリケーションは、人びとが書くのを助け、LLMが生成したテキストは、ソーシャルメディアやジャーナリズム、そして私たちの教室に浸透している。
しかし、LLM生成テキストと人文テキストの違いはいまだに不明である。
これを探るため、私たちはプロの作家を雇い、いくつかのクリエイティブドメインの段落を編集しました。
筆者らはまず, LLM 生成テキストにおける望ましくない慣用句に合意し,それを7つの分類分類(例: cliches, unnecessary exposition)に定式化した。
第2に LAMP コーパスを整理し, 専門家が編集した 1,057 LLM コーパスを分類した。
LAMPの分析から,本研究で用いたLLM(GPT4o, Claude-3.5-Sonnet, Llama-3.1-70b)はいずれも, 書字品質の面では優れておらず, モデルファミリーに共通する限界がみられた。
第3に,LLM生成テキストを改善するための自動編集手法について検討した。
大規模な選好アノテーションは、専門家が他の専門家によって編集されたテキストをほとんど好んでいるが、自動編集手法は、LLM生成テキストと人文テキストのアライメントを改善することを約束していることを示している。
LLM-based applications are helping people write, and LLM-generated text is making its way into social media, journalism, and our classrooms. However, the differences between LLM-generated and human-written text remain unclear. To explore this, we hired professional writers to edit paragraphs in several creative domains. We first found these writers agree on undesirable idiosyncrasies in LLM-generated text, formalizing it into a seven-category taxonomy (e.g. cliches, unnecessary exposition). Second, we curated the LAMP corpus: 1,057 LLM-generated paragraphs edited by professional writers according to our taxonomy. Analysis of LAMP reveals that none of the LLMs used in our study (GPT4o, Claude-3.5-Sonnet, Llama-3.1-70b) outperform each other in terms of writing quality, revealing common limitations across model families. Third, we explored automatic editing methods to improve LLM-generated text. A large-scale preference annotation confirms that although experts largely prefer text edited by other experts, automatic editing methods show promise in improving alignment between LLM-generated and human-written text. | 翻訳日:2024-11-06 22:30:40 公開日:2024-09-26 |
# AIによる文章作成は救われるか? : 編集による文字作成プロセスにおけるイディオシクスの緩和と人間とAIのアライメントの改善
Can AI writing be salvaged? Mitigating Idiosyncrasies and Improving Human-AI Alignment in the Writing Process through Edits ( http://arxiv.org/abs/2409.14509v2 ) ライセンス: Link先を確認 | Tuhin Chakrabarty, Philippe Laban, Chien-Sheng Wu, | (参考訳) LLMベースのアプリケーションは、人びとが書くのを助け、LLMが生成したテキストは、ソーシャルメディアやジャーナリズム、そして私たちの教室に浸透している。
しかし、LLM生成テキストと人文テキストの違いはいまだに不明である。
これを探るため、私たちはプロの作家を雇い、いくつかのクリエイティブドメインの段落を編集しました。
筆者らはまず, LLM 生成テキストにおける望ましくない慣用句に合意し,それを7つの分類分類(例: cliches, unnecessary exposition)に定式化した。
第2に LAMP コーパスを整理し, 専門家が編集した 1,057 LLM コーパスを分類した。
LAMPの分析から,本研究で用いたLLM(GPT4o, Claude-3.5-Sonnet, Llama-3.1-70b)はいずれも, 書字品質の面では優れておらず, モデルファミリーに共通する限界がみられた。
第3に,LLM生成テキストを改善するための自動編集手法について検討した。
大規模な選好アノテーションは、専門家が他の専門家によって編集されたテキストをほとんど好んでいるが、自動編集手法は、LLM生成テキストと人文テキストのアライメントを改善することを約束していることを示している。
LLM-based applications are helping people write, and LLM-generated text is making its way into social media, journalism, and our classrooms. However, the differences between LLM-generated and human-written text remain unclear. To explore this, we hired professional writers to edit paragraphs in several creative domains. We first found these writers agree on undesirable idiosyncrasies in LLM-generated text, formalizing it into a seven-category taxonomy (e.g. cliches, unnecessary exposition). Second, we curated the LAMP corpus: 1,057 LLM-generated paragraphs edited by professional writers according to our taxonomy. Analysis of LAMP reveals that none of the LLMs used in our study (GPT4o, Claude-3.5-Sonnet, Llama-3.1-70b) outperform each other in terms of writing quality, revealing common limitations across model families. Third, we explored automatic editing methods to improve LLM-generated text. A large-scale preference annotation confirms that although experts largely prefer text edited by other experts, automatic editing methods show promise in improving alignment between LLM-generated and human-written text. | 翻訳日:2024-11-06 22:30:40 公開日:2024-09-26 |
# AIによる文章作成は救われるか? : 編集による文字作成プロセスにおけるイディオシクスの緩和と人間とAIのアライメントの改善
Can AI writing be salvaged? Mitigating Idiosyncrasies and Improving Human-AI Alignment in the Writing Process through Edits ( http://arxiv.org/abs/2409.14509v3 ) ライセンス: Link先を確認 | Tuhin Chakrabarty, Philippe Laban, Chien-Sheng Wu, | (参考訳) LLMベースのアプリケーションは、人びとが書くのを助け、LLMが生成したテキストは、ソーシャルメディアやジャーナリズム、そして私たちの教室に浸透している。
しかし、LLM生成テキストと人文テキストの違いはいまだに不明である。
これを探るため、私たちはプロの作家を雇い、いくつかのクリエイティブドメインの段落を編集しました。
筆者らはまず, LLM 生成テキストにおける望ましくない慣用句に合意し,それを7つの分類分類(例: cliches, unnecessary exposition)に定式化した。
第2に LAMP コーパスを整理し, 専門家が編集した 1,057 LLM コーパスを分類した。
LAMPの分析から,本研究で用いたLLM(GPT4o, Claude-3.5-Sonnet, Llama-3.1-70b)はいずれも, 書字品質の面では優れておらず, モデルファミリーに共通する限界がみられた。
第3に,LLM生成テキストを改善するための自動編集手法について検討した。
大規模な選好アノテーションは、専門家が他の専門家によって編集されたテキストをほとんど好んでいるが、自動編集手法は、LLM生成テキストと人文テキストのアライメントを改善することを約束していることを示している。
LLM-based applications are helping people write, and LLM-generated text is making its way into social media, journalism, and our classrooms. However, the differences between LLM-generated and human-written text remain unclear. To explore this, we hired professional writers to edit paragraphs in several creative domains. We first found these writers agree on undesirable idiosyncrasies in LLM-generated text, formalizing it into a seven-category taxonomy (e.g. cliches, unnecessary exposition). Second, we curated the LAMP corpus: 1,057 LLM-generated paragraphs edited by professional writers according to our taxonomy. Analysis of LAMP reveals that none of the LLMs used in our study (GPT4o, Claude-3.5-Sonnet, Llama-3.1-70b) outperform each other in terms of writing quality, revealing common limitations across model families. Third, we explored automatic editing methods to improve LLM-generated text. A large-scale preference annotation confirms that although experts largely prefer text edited by other experts, automatic editing methods show promise in improving alignment between LLM-generated and human-written text. | 翻訳日:2024-11-06 22:30:40 公開日:2024-09-26 |
# 自己教師型グラフ事前学習によるテキスト中の絵文字のパワーの解放
Unleashing the Power of Emojis in Texts via Self-supervised Graph Pre-Training ( http://arxiv.org/abs/2409.14552v1 ) ライセンス: Link先を確認 | Zhou Zhang, Dongzeng Tan, Jiaan Wang, Yilong Chen, Jiarong Xu, | (参考訳) 絵文字はソーシャルプラットフォーム上で大きな人気を集めており、テキストを補完したり置き換えたりするための一般的な手段となっている。
しかし、既存のデータマイニング手法は一般的に、絵文字を完全に無視するか、単に通常のUnicode文字として扱うかのいずれかであり、絵文字の豊かな意味情報と絵文字とテキスト間の相互作用をモデルが把握する能力を制限する可能性がある。
したがって、ソーシャルメディアデータマイニングにおける絵文字のパワーを解放する必要がある。
この目的のために、まず、ポスト、ワード、絵文字の3種類のノードからなる異種グラフを構築し、ポストにおける異なる要素の表現を改善する。
エッジは、これらの3つの要素が相互に相互作用する方法をモデル化するためにもよく定義されています。
ポストノード,ワードノード,絵文字ノード間での情報共有を容易にするために,ノードレベルのグラフコントラスト学習とエッジレベルのリンク再構築学習という,2つのグラフ事前学習タスクを含む,テキストと絵文字の共モデリングのためのグラフ事前学習フレームワークを提案する。
XiaohongshuとTwitterのデータセットに対する2種類のダウンストリームタスクによる大規模な実験は、我々のアプローチが従来の強力なベースライン手法よりも大幅に改善されていることを証明している。
Emojis have gained immense popularity on social platforms, serving as a common means to supplement or replace text. However, existing data mining approaches generally either completely ignore or simply treat emojis as ordinary Unicode characters, which may limit the model's ability to grasp the rich semantic information in emojis and the interaction between emojis and texts. Thus, it is necessary to release the emoji's power in social media data mining. To this end, we first construct a heterogeneous graph consisting of three types of nodes, i.e. post, word and emoji nodes to improve the representation of different elements in posts. The edges are also well-defined to model how these three elements interact with each other. To facilitate the sharing of information among post, word and emoji nodes, we propose a graph pre-train framework for text and emoji co-modeling, which contains two graph pre-training tasks: node-level graph contrastive learning and edge-level link reconstruction learning. Extensive experiments on the Xiaohongshu and Twitter datasets with two types of downstream tasks demonstrate that our approach proves significant improvement over previous strong baseline methods. | 翻訳日:2024-11-06 22:19:40 公開日:2024-09-26 |
# 自己教師型グラフ事前学習によるテキスト中の絵文字のパワーの解放
Unleashing the Power of Emojis in Texts via Self-supervised Graph Pre-Training ( http://arxiv.org/abs/2409.14552v2 ) ライセンス: Link先を確認 | Zhou Zhang, Dongzeng Tan, Jiaan Wang, Yilong Chen, Jiarong Xu, | (参考訳) 絵文字はソーシャルプラットフォーム上で大きな人気を集めており、テキストを補完したり置き換えたりするための一般的な手段となっている。
しかし、既存のデータマイニング手法は一般的に、絵文字を完全に無視するか、単に通常のUnicode文字として扱うかのいずれかであり、絵文字の豊かな意味情報と絵文字とテキスト間の相互作用をモデルが把握する能力を制限する可能性がある。
したがって、ソーシャルメディアデータマイニングにおける絵文字のパワーを解放する必要がある。
この目的のために、まず、ポスト、ワード、絵文字の3種類のノードからなる異種グラフを構築し、ポストにおける異なる要素の表現を改善する。
エッジは、これらの3つの要素が相互に相互作用する方法をモデル化するためにもよく定義されています。
ポストノード,ワードノード,絵文字ノード間での情報共有を容易にするために,ノードレベルのグラフコントラスト学習とエッジレベルのリンク再構築学習という,2つのグラフ事前学習タスクを含む,テキストと絵文字の共モデリングのためのグラフ事前学習フレームワークを提案する。
XiaohongshuとTwitterのデータセットに対する2種類のダウンストリームタスクによる大規模な実験は、我々のアプローチが従来の強力なベースライン手法よりも大幅に改善されていることを証明している。
Emojis have gained immense popularity on social platforms, serving as a common means to supplement or replace text. However, existing data mining approaches generally either completely ignore or simply treat emojis as ordinary Unicode characters, which may limit the model's ability to grasp the rich semantic information in emojis and the interaction between emojis and texts. Thus, it is necessary to release the emoji's power in social media data mining. To this end, we first construct a heterogeneous graph consisting of three types of nodes, i.e. post, word and emoji nodes to improve the representation of different elements in posts. The edges are also well-defined to model how these three elements interact with each other. To facilitate the sharing of information among post, word and emoji nodes, we propose a graph pre-train framework for text and emoji co-modeling, which contains two graph pre-training tasks: node-level graph contrastive learning and edge-level link reconstruction learning. Extensive experiments on the Xiaohongshu and Twitter datasets with two types of downstream tasks demonstrate that our approach proves significant improvement over previous strong baseline methods. | 翻訳日:2024-11-06 22:19:40 公開日:2024-09-26 |
# 説明可能なAIには説明の正確さという形式的な概念が必要だ
Explainable AI needs formal notions of explanation correctness ( http://arxiv.org/abs/2409.14590v1 ) ライセンス: Link先を確認 | Stefan Haufe, Rick Wilming, Benedict Clark, Rustam Zhumagambetov, Danny Panknin, Ahcène Boubekki, | (参考訳) 医学などの重要な領域における機械学習(ML)の使用はリスクをもたらし、規制を必要とする。
1つの要件は、リスクの高いアプリケーションにおけるMLシステムの決定は、人間に理解可能なものであるべきです。
説明可能な人工知能(XAI)の分野はこのニーズに対処しているように見える。
しかし、現在の形式では、XAIはMLの品質管理に不適であり、それ自体は精査が必要である。
一般的なXAIメソッドは、MLモデル、トレーニングデータ、あるいは所定のテスト入力に関する重要な質問に答えることはできない。
我々は,一般的なXAI手法が,予測対象とは無関係な入力特徴に対して,重要度を体系的に評価することを示す結果を再カプセル化する。
これにより、モデルやデータ(バリデーション)、モデルの改善、科学的発見といった目的のために、彼らのユーティリティが制限される。
この制限の根本的な理由は、現在のXAI手法が明確に定義された問題に対処せず、客観的な説明正当性基準に対して評価されないことであると論じる。
研究者は、最初に解決しようとする問題を正式に定義し、それに従ってメソッドを設計する必要がある。
このことは、理論的に検証可能な説明正当性の概念と、地上データを用いて評価可能な説明性能の客観的指標につながる。
The use of machine learning (ML) in critical domains such as medicine poses risks and requires regulation. One requirement is that decisions of ML systems in high-risk applications should be human-understandable. The field of "explainable artificial intelligence" (XAI) seemingly addresses this need. However, in its current form, XAI is unfit to provide quality control for ML; it itself needs scrutiny. Popular XAI methods cannot reliably answer important questions about ML models, their training data, or a given test input. We recapitulate results demonstrating that popular XAI methods systematically attribute importance to input features that are independent of the prediction target. This limits their utility for purposes such as model and data (in)validation, model improvement, and scientific discovery. We argue that the fundamental reason for this limitation is that current XAI methods do not address well-defined problems and are not evaluated against objective criteria of explanation correctness. Researchers should formally define the problems they intend to solve first and then design methods accordingly. This will lead to notions of explanation correctness that can be theoretically verified and objective metrics of explanation performance that can be assessed using ground-truth data. | 翻訳日:2024-11-06 21:57:16 公開日:2024-09-26 |
# 説明可能なAIには説明の正確さという形式的な概念が必要だ
Explainable AI needs formal notions of explanation correctness ( http://arxiv.org/abs/2409.14590v2 ) ライセンス: Link先を確認 | Stefan Haufe, Rick Wilming, Benedict Clark, Rustam Zhumagambetov, Danny Panknin, Ahcène Boubekki, | (参考訳) 医学などの重要な領域における機械学習(ML)の使用はリスクをもたらし、規制を必要とする。
1つの要件は、リスクの高いアプリケーションにおけるMLシステムの決定は、人間に理解可能なものであるべきです。
説明可能な人工知能(XAI)の分野はこのニーズに対処しているように見える。
しかし、現在の形式では、XAIはMLの品質管理に不適であり、それ自体は精査が必要である。
一般的なXAIメソッドは、MLモデル、トレーニングデータ、あるいは所定のテスト入力に関する重要な質問に答えることはできない。
我々は,一般的なXAI手法が,予測対象とは無関係な入力特徴に対して,重要度を体系的に評価することを示す結果を再カプセル化する。
これにより、モデルやデータ(バリデーション)、モデルの改善、科学的発見といった目的のために、彼らのユーティリティが制限される。
この制限の根本的な理由は、現在のXAI手法が明確に定義された問題に対処せず、客観的な説明正当性基準に対して評価されないことであると論じる。
研究者は、最初に解決しようとする問題を正式に定義し、それに従ってメソッドを設計する必要がある。
このことは、理論的に検証可能な説明正当性の概念と、地上データを用いて評価可能な説明性能の客観的指標につながる。
The use of machine learning (ML) in critical domains such as medicine poses risks and requires regulation. One requirement is that decisions of ML systems in high-risk applications should be human-understandable. The field of "explainable artificial intelligence" (XAI) seemingly addresses this need. However, in its current form, XAI is unfit to provide quality control for ML; it itself needs scrutiny. Popular XAI methods cannot reliably answer important questions about ML models, their training data, or a given test input. We recapitulate results demonstrating that popular XAI methods systematically attribute importance to input features that are independent of the prediction target. This limits their utility for purposes such as model and data (in)validation, model improvement, and scientific discovery. We argue that the fundamental reason for this limitation is that current XAI methods do not address well-defined problems and are not evaluated against objective criteria of explanation correctness. Researchers should formally define the problems they intend to solve first and then design methods accordingly. This will lead to notions of explanation correctness that can be theoretically verified and objective metrics of explanation performance that can be assessed using ground-truth data. | 翻訳日:2024-11-06 21:57:16 公開日:2024-09-26 |
# QueenV2:量子回路シミュレーションの未来
QueenV2: Future of Quantum Circuit Simulation ( http://arxiv.org/abs/2409.14697v1 ) ライセンス: Link先を確認 | Chuan-Chi Wang, | (参考訳) 状態ベクトルに基づく量子回路シミュレーションは、ノイズ干渉の影響を受けずに、量子コンピューティングアルゴリズムの開発と検証のための正確な結果を提供することができる。
しかし、既存の量子回路シミュレータは、量子回路や高性能コンピューティングアーキテクチャとの整合性が不十分なため、一貫して性能が低下している。
量子コンピューティングにおける課題に対処するため,Queenの設計原則を基盤として,性能を新たなレベルに引き上げるQueenV2を提案する。
NVIDIA RTX-4090の実験結果から、QueenV2はゲート性能を最大40倍改善し、hyQuasと比較して回路性能を5倍改善した。
さらに、QueenV2は、IBM Qiskitツールキットを介してゲート融合を有効にしたNVIDIA cuQuantumと比較して、ゲートベンチマークの137倍の高速化と回路性能の14倍の高速化を実現している。
サードパーティライブラリへの依存をなくすことで、QueenV2は量子回路シミュレーションを著しく高速化し、革新的なアクセラレータや量子アルゴリズムの開発を促進する。
A state vector-based quantum circuit simulation can provide accurate results for the development and validation of quantum computing algorithms, without being affected by noise interference. However, existing quantum circuit simulators have consistently underperformed due to inadequate integration with quantum circuits and high-performance computing architectures. To tackle the challenges in quantum computing, we propose QueenV2, which builds upon the design principles of Queen and elevates performance to a new level. Experimental results on the NVIDIA RTX-4090 demonstrate that QueenV2 achieves up to a 40x improvement in gate performance and a 5x improvement in circuit performance compared to hyQuas. Furthermore, QueenV2 realizes a 137x speedup in gate benchmarks and a 14x speedup in circuit performance relative to NVIDIA cuQuantum, enabled by gate fusion via the IBM Qiskit toolkit. By eliminating reliance on third-party libraries, QueenV2 is positioned to significantly accelerate quantum circuit simulation, thus promoting the development of innovative accelerators and quantum algorithms. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-26 |
# QueenV2:量子回路シミュレーションの未来
QueenV2: Future of Quantum Circuit Simulation ( http://arxiv.org/abs/2409.14697v2 ) ライセンス: Link先を確認 | Chuan-Chi Wang, | (参考訳) 状態ベクトルに基づく量子回路シミュレーションは、ノイズ干渉の影響を受けずに、量子コンピューティングアルゴリズムの開発と検証のための正確な結果を提供することができる。
しかし、既存の量子回路シミュレータは、量子回路や高性能コンピューティングアーキテクチャとの整合性が不十分なため、一貫して性能が低下している。
量子コンピューティングにおける課題に対処するため,Queenの設計原則を基盤として,性能を新たなレベルに引き上げるQueenV2を提案する。
NVIDIA RTX-4090の実験結果から、QueenV2はゲート性能を最大40倍改善し、hyQuasと比較して回路性能を5倍改善した。
さらに、QueenV2は、IBM Qiskitツールキットを介してゲート融合を有効にしたNVIDIA cuQuantumと比較して、ゲートベンチマークの137倍の高速化と回路性能の14倍の高速化を実現している。
サードパーティライブラリへの依存をなくすことで、QueenV2は量子回路シミュレーションを著しく高速化し、革新的なアクセラレータや量子アルゴリズムの開発を促進する。
A state vector-based quantum circuit simulation can provide accurate results for the development and validation of quantum computing algorithms, without being affected by noise interference. However, existing quantum circuit simulators have consistently underperformed due to inadequate integration with quantum circuits and high-performance computing architectures. To tackle the challenges in quantum computing, we propose QueenV2, which builds upon the design principles of Queen and elevates performance to a new level. Experimental results on the NVIDIA RTX-4090 demonstrate that QueenV2 achieves up to a 40x improvement in gate performance and a 5x improvement in circuit performance compared to hyQuas. Furthermore, QueenV2 realizes a 137x speedup in gate benchmarks and a 14x speedup in circuit performance relative to NVIDIA cuQuantum, enabled by gate fusion via the IBM Qiskit toolkit. By eliminating reliance on third-party libraries, QueenV2 is positioned to significantly accelerate quantum circuit simulation, thus promoting the development of innovative accelerators and quantum algorithms. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-26 |
# VARADE:エッジ上の異常検出のための変分ベース自動回帰モデル
VARADE: a Variational-based AutoRegressive model for Anomaly Detection on the Edge ( http://arxiv.org/abs/2409.14816v1 ) ライセンス: Link先を確認 | Alessio Mascolini, Sebastiano Gaiardelli, Francesco Ponzio, Nicola Dall'Ora, Enrico Macii, Sara Vinco, Santa Di Cataldo, Franco Fummi, | (参考訳) 大量のデータ上の複雑な異常を検出することは、Deep Learningによって対処される産業4.0において重要な課題である。
しかし、利用可能なソリューションは計算的に要求されるため、クラウドアーキテクチャはレイテンシや帯域幅の問題に悩まされる。
この研究は、変分推論に基づく軽量自動回帰フレームワークを実装した新しいソリューションであるVARADEを紹介し、エッジ上でのリアルタイム実行に最も適している。
提案手法は, ロボットアーム, パイロット生産ラインの一部で検証し, 最先端のアルゴリズムと比較し, 異常検出精度, 消費電力, 予測周波数の最良のトレードオフを得た。
Detecting complex anomalies on massive amounts of data is a crucial task in Industry 4.0, best addressed by deep learning. However, available solutions are computationally demanding, requiring cloud architectures prone to latency and bandwidth issues. This work presents VARADE, a novel solution implementing a light autoregressive framework based on variational inference, which is best suited for real-time execution on the edge. The proposed approach was validated on a robotic arm, part of a pilot production line, and compared with several state-of-the-art algorithms, obtaining the best trade-off between anomaly detection accuracy, power consumption and inference frequency on two different edge platforms. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-26 |
# VARADE:エッジ上の異常検出のための変分ベース自動回帰モデル
VARADE: a Variational-based AutoRegressive model for Anomaly Detection on the Edge ( http://arxiv.org/abs/2409.14816v2 ) ライセンス: Link先を確認 | Alessio Mascolini, Sebastiano Gaiardelli, Francesco Ponzio, Nicola Dall'Ora, Enrico Macii, Sara Vinco, Santa Di Cataldo, Franco Fummi, | (参考訳) 大量のデータ上の複雑な異常を検出することは、Deep Learningによって対処される産業4.0において重要な課題である。
しかし、利用可能なソリューションは計算的に要求されるため、クラウドアーキテクチャはレイテンシや帯域幅の問題に悩まされる。
この研究は、変分推論に基づく軽量自動回帰フレームワークを実装した新しいソリューションであるVARADEを紹介し、エッジ上でのリアルタイム実行に最も適している。
提案手法は, ロボットアーム, パイロット生産ラインの一部で検証し, 最先端のアルゴリズムと比較し, 異常検出精度, 消費電力, 予測周波数の最良のトレードオフを得た。
Detecting complex anomalies on massive amounts of data is a crucial task in Industry 4.0, best addressed by deep learning. However, available solutions are computationally demanding, requiring cloud architectures prone to latency and bandwidth issues. This work presents VARADE, a novel solution implementing a light autoregressive framework based on variational inference, which is best suited for real-time execution on the edge. The proposed approach was validated on a robotic arm, part of a pilot production line, and compared with several state-of-the-art algorithms, obtaining the best trade-off between anomaly detection accuracy, power consumption and inference frequency on two different edge platforms. | 翻訳日:2024-11-06 20:50:08 公開日:2024-09-26 |
# 量子制御景観のトップマニフォールド接続性
The Top Manifold Connectedness of Quantum Control Landscapes ( http://arxiv.org/abs/2409.15139v2 ) ライセンス: Link先を確認 | Yidian Fan, Re-Bing Wu, Tak-San Ho, Gaurav V. Bhole, Herschel Rabitz, | (参考訳) 量子システムの制御は、適切な仮定を満たすことにより、トラップフリーの最適化風景を持つことが証明されている。
しかし,ランドスケープ・ジオメトリーの細部と探索効率への影響については,いまだに十分に理解する必要がある。
本稿では,地形の上部多様体を形成する大域的最適制御解の経路接続性について数値的に検討する。
2つの任意の最適解を接続するランドスケープの上部における連続経路の存在を評価するために、トップ多様体に複数の最適制御をランダムにサンプリングする。
状態-状態遷移確率、観測可能な期待値、ユニタリ変換を含む異なる量子制御目標に対して、そのような連続経路は容易に見つけられ、これらのトップ多様体は基本的にパス連結であることを示す。
後者の予想の意義は、風景を定義する元の目的の完全な最適性を保ちながら、補助目的を最適化できるトップ多様体内の位置を求めることである。
The control of quantum systems has been proven to possess trap-free optimization landscapes under the satisfaction of proper assumptions. However, many details of the landscape geometry and their influence on search efficiency still need to be fully understood. This paper numerically explores the path-connectedness of globally optimal control solutions forming the top manifold of the landscape. We randomly sample a plurality of optimal controls in the top manifold to assess the existence of a continuous path at the top of the landscape that connects two arbitrary optimal solutions. It is shown that for different quantum control objectives including state-to-state transition probabilities, observable expectation values and unitary transformations, such a continuous path can be readily found, implying that these top manifolds are fundamentally path-connected. The significance of the latter conjecture lies in seeking locations in the top manifold where an ancillary objective can also be optimized while maintaining the full optimality of the original objective that defined the landscape. | 翻訳日:2024-11-06 20:27:58 公開日:2024-09-26 |
# API指向コード生成のための包括的フレームワーク
大規模言語モデル
A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models ( http://arxiv.org/abs/2409.15228v1 ) ライセンス: Link先を確認 | Yixi Wu, Pengfei He, Zehao Wang, Shaowei Wang, Yuan Tian and Tse-Hsun Chen | (参考訳) GitHub CopilotやChatGPTといった大規模言語モデル(LLM)は、コード生成の強力なツールとして登場し、生産性を大幅に向上し、ソフトウェア開発を加速しています。
しかし、既存のベンチマークは主にAPI指向のコード生成、すなわち特定のライブラリからAPIを呼び出すコードを生成することを考慮せずに、一般的なコード生成に焦点を当てている。
API指向のコード生成に対する需要が高まる中、API指向のコード生成においてLLMを評価するための体系的かつ自動化されたアプローチの必要性が高まっている。
このギャップに対処するために、API指向コード生成におけるLLMの機能を評価するために設計された軽量で自動化されたフレームワークであるAutoAPIEvalを提案する。
APIレコメンデーションとコード例生成、生成したAPIとコード例を評価するための4つのメトリクス、例えばTask 1の不正なAPIレコメンデーションの割合、特定のAPIが呼び出されないコード例の割合、Task 2の非コンパイル/実行不可能なコード例などです。
さらに、我々は3つのLCM(ChatGPT、MagiCoder、DeepSeek Coder)とJava Runtime Environment 8のケーススタディを行い、フレームワークの有効性を実証した。
この結果から,ChatGPTは命令に順応し,コード例生成において同様の効果(MagiCoderとDeekSeek Coder)を共有できることがわかった。
また,不正確なAPIレコメンデーションや誤コード例の検出において高精度なビルド分類器や,APIの人気やモデルの信頼性といった,コード品質に関連する重要な要因も同定する。
Retrieval-augmented generation は LLM によって生成されるコードの品質を向上させるが、その効果は LLM によって異なる。
Large language models (LLMs) like GitHub Copilot and ChatGPT have emerged as powerful tools for code generation, significantly enhancing productivity and accelerating software development. However, existing benchmarks primarily focus on general code generation without considering API-oriented code generation, i.e., generating code that invokes APIs from specific libraries. Given the growing demand for API-oriented code generation, there is a pressing need for a systematic and automated approach to evaluate LLM on API-oriented code generation. To address this gap, we propose AutoAPIEval, a lightweight and automated framework designed to evaluate the capabilities of LLMs in API-oriented code generation. Our framework works with any library that provides API documentation and focuses on two unit tasks: API recommendation and code example generation, along with four metrics to evaluate the generated APIs and code examples, such as the proportion of incorrect API recommendations for Task 1, and the proportion of code examples where no specific API is invoked and uncompilable/unexecutable code examples for Task 2. In addition, we conducted a case study on three LLMs (ChatGPT, MagiCoder, and DeepSeek Coder) and Java Runtime Environment 8 to demonstrate the framework's effectiveness. Our findings reveal substantial variability in LLM performance across tasks, with ChatGPT adhering better to instructions, while sharing similar effectiveness in code example generation with its counterparts (i.e., MagiCoder and DeekSeek Coder). We also identify key factors associated with code quality, such as API popularity and model confidence, and build classifiers that achieve high accuracy in detecting incorrect API recommendations and erroneous code examples. Retrieval-augmented generation enhances the quality of code generated by LLMs, though its effectiveness varies across different LLMs. | 翻訳日:2024-11-06 20:27:58 公開日:2024-09-26 |
# 大規模言語モデルにおけるAPI指向コード生成のための包括的フレームワーク
A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models ( http://arxiv.org/abs/2409.15228v3 ) ライセンス: Link先を確認 | Yixi Wu, Pengfei He, Zehao Wang, Shaowei Wang, Yuan Tian, Tse-Hsun Chen, | (参考訳) GitHub CopilotやChatGPTといった大規模言語モデル(LLM)は、コード生成の強力なツールとして登場し、生産性を大幅に向上し、ソフトウェア開発を加速しています。
しかし、既存のベンチマークは主にAPI指向のコード生成、すなわち特定のライブラリからAPIを呼び出すコードを生成することを考慮せずに、一般的なコード生成に焦点を当てている。
API指向のコード生成に対する需要が高まる中、API指向のコード生成においてLLMを評価するための体系的かつ自動化されたアプローチの必要性が高まっている。
このギャップに対処するために、API指向コード生成におけるLLMの機能を評価するために設計された軽量で自動化されたフレームワークであるAutoAPIEvalを提案する。
APIレコメンデーションとコード例生成、生成したAPIとコード例を評価するための4つのメトリクス、例えばTask 1の不正なAPIレコメンデーションの割合、特定のAPIが呼び出されないコード例の割合、Task 2の非コンパイル/実行不可能なコード例などです。
さらに、我々は3つのLCM(ChatGPT、MagiCoder、DeepSeek Coder)とJava Runtime Environment 8のケーススタディを行い、フレームワークの有効性を実証した。
この結果から,ChatGPTは命令に順応し,コード例生成において同様の効果(MagiCoderとDeekSeek Coder)を共有できることがわかった。
また,不正確なAPIレコメンデーションや誤コード例の検出において高精度なビルド分類器や,APIの人気やモデルの信頼性といった,コード品質に関連する重要な要因も同定する。
Retrieval-augmented generation は LLM によって生成されるコードの品質を向上させるが、その効果は LLM によって異なる。
Large language models (LLMs) like GitHub Copilot and ChatGPT have emerged as powerful tools for code generation, significantly enhancing productivity and accelerating software development. However, existing benchmarks primarily focus on general code generation without considering API-oriented code generation, i.e., generating code that invokes APIs from specific libraries. Given the growing demand for API-oriented code generation, there is a pressing need for a systematic and automated approach to evaluate LLM on API-oriented code generation. To address this gap, we propose AutoAPIEval, a lightweight and automated framework designed to evaluate the capabilities of LLMs in API-oriented code generation. Our framework works with any library that provides API documentation and focuses on two unit tasks: API recommendation and code example generation, along with four metrics to evaluate the generated APIs and code examples, such as the proportion of incorrect API recommendations for Task 1, and the proportion of code examples where no specific API is invoked and uncompilable/unexecutable code examples for Task 2. In addition, we conducted a case study on three LLMs (ChatGPT, MagiCoder, and DeepSeek Coder) and Java Runtime Environment 8 to demonstrate the framework's effectiveness. Our findings reveal substantial variability in LLM performance across tasks, with ChatGPT adhering better to instructions, while sharing similar effectiveness in code example generation with its counterparts (i.e., MagiCoder and DeekSeek Coder). We also identify key factors associated with code quality, such as API popularity and model confidence, and build classifiers that achieve high accuracy in detecting incorrect API recommendations and erroneous code examples. Retrieval-augmented generation enhances the quality of code generated by LLMs, though its effectiveness varies across different LLMs. | 翻訳日:2024-11-06 20:27:58 公開日:2024-09-26 |
# Er$^{3+}=ドープCaF$_{2}$結晶におけるC$_{\rm 3v}$(O$^{2-}$)中心の分光、結晶場および遷移強度解析
Spectroscopy, Crystal-Field, and Transition Intensity Analyses of the C$_{\rm 3v}$(O$^{2-}$) Centre in Er$^{3+}$ Doped CaF$_{2}$ Crystals ( http://arxiv.org/abs/2409.15622v2 ) ライセンス: Link先を確認 | M. D. Moull, J. B. L. Martin, T. G. M. Newman, A. L. Jeffery, J. G. Bartholomew, J. -P. R. Wells, M. F. Reid, | (参考訳) 結晶中のエルビウムイオンは、将来ネットワーク化された量子情報技術のバックボーンを形成する技術にかなり期待できる。
エルビウムの繊維互換の赤外遷移を古典的および量子的応用に活用する進歩にもかかわらず、遷移は一般にはよく理解されていない。
本稿では,CaF$_2$:Er$^{3+}$におけるC$_{\rm 3v}$(O$^{2-}$)中心の詳細な吸収とレーザーサイト選択分光を,興味深いエルビウムサイトケーススタディとして提示する。
$^{4}$I$_{15/2}$Z$_1 \rightarrow {^{4}}$I$_{13/2}$Y$_1$遷移は、$^{167}$Er同位体から観測可能な超微細構造を持つ1GHzの低温不均一線幅を持つ。
パラメタライズされた結晶フィールドハミルトニアンは34のエネルギーレベルと2つの基底状態磁気分裂因子に適合する。
波動関数は遷移強度解析に使われ、電気双極子パラメータは振動子強度を吸収する。
$^{4}$I$_{11/2}\rightarrow {^{4}}$I$_{15/2}$および$^{4}$I$_{13/2} \rightarrow {^{4}}$I$_{15/2}$-多重遷移のシミュレートされたスペクトルは、実験的に測定されたスペクトルと良好な一致である。
$^{4}$I$_{13/2}$励起状態寿命は25.0\,msであり、強度計算はこの値とよく一致している。
Erbium ions in crystals show considerable promise for the technologies that will form the backbone of future networked quantum information technology. Despite advances in leveraging erbium's fibre-compatible infrared transition for classical and quantum applications, the transitions are, in general, not well understood. We present detailed absorption and laser site-selective spectroscopy of the C$_{\rm 3v}$(O$^{2-}$) centre in CaF$_2$:Er$^{3+}$ as an interesting erbium site case study. The $^{4}$I$_{15/2}$Z$_1 \rightarrow {^{4}}$I$_{13/2}$Y$_1$ transition has a low-temperature inhomogeneous linewidth of 1 GHz with hyperfine structure observable from the $^{167}$Er isotope. A parametrized crystal-field Hamiltonian is fitted to 34 energy levels and the two ground state magnetic splitting factors. The wavefunctions are used to perform a transition intensity analysis and electric-dipole parameters are fitted to absorption oscillator strengths. Simulated spectra for the $^{4}$I$_{11/2}\rightarrow {^{4}}$I$_{15/2}$ and $^{4}$I$_{13/2} \rightarrow {^{4}}$I$_{15/2}$ inter-multiplet transitions are in excellent agreement with the experimentally measured spectra. The $^{4}$I$_{13/2}$ excited state lifetime is 25.0\,ms and the intensity calculation is in excellent agreement with this value. | 翻訳日:2024-11-06 19:32:29 公開日:2024-09-26 |
# Ho$^{3+}=ドープY$_{2}$SiO$_{5}$のレーザーサイト選択分光と磁気超微細分割
Laser Site-Selective Spectroscopy and Magnetic Hyperfine Splittings of Ho$^{3+}$ doped Y$_{2}$SiO$_{5}$ ( http://arxiv.org/abs/2409.15625v2 ) ライセンス: Link先を確認 | Sagar Mothkuri, Michael F. Reid, Jon-Paul R. Wells, Eloïse Lafitte-Houssat, Alban Ferrier, Philippe Goldner, | (参考訳) レーザーサイト選択分光法と高分解能吸収測定は、Y$_{2}$SiO$_{5}$におけるHo$^{3+}$中心の1つに対して51の結晶場エネルギーレベルを決定するために用いられている。
このセンターはサイト2と表記され、暫定的に7倍の座標センターに割り当てられている。
高分解能吸収測定は、選択規則に従って近似する複雑な超微細パターンを明らかにする。
3つの光学軸に沿った磁場の適用により、地面と励起状態の両方において0.5テスラ以下で回避された交差の存在が明らかになる。
Laser site-selective spectroscopy and high-resolution absorption measurements have been used to determine 51 crystal-field energy levels for one of the Ho$^{3+}$ centres in Y$_{2}$SiO$_{5}$. This centre is denoted as Site 2 and has been tentatively assigned as the seven-fold coordinated centre. High resolution absorption measurements reveal complex hyperfine patterns that obey and approximate selection rule. The application of a magnetic field along the three optical axes reveals the presence of avoided crossings below 0.5 Tesla, in both the ground and excited states. | 翻訳日:2024-11-06 19:32:29 公開日:2024-09-26 |
# K$_2$YF$_5$マイクロ粒子におけるEr$^{3+}$中心の分光と結晶場解析
Spectroscopy and Crystal-Field Analysis of Low -Symmetry Er$^{3+}$ Centres in K$_2$YF$_5$ Microparticles ( http://arxiv.org/abs/2409.15630v2 ) ライセンス: Link先を確認 | Pratik S. Solanki, Michael F. Reid, Jon-Paul R. Wells, | (参考訳) ランタノイドイオンをドープしたK$_2$YF$_5$結晶には、様々な光学的応用がある。
系の低対称性のため、結晶構造はX線回折によって明確に決定できない。
しかし、電子-常磁性共鳴研究により、ランタニドイオンがC$_{\rm s}=局所対称性の場所でイットリウムに置換されることが示されている。
本研究では、高分解能吸収およびレーザー分光法を用いて、K$_2$YF$_5$マイクロ粒子中のEr$^{3+}$イオンの電子エネルギーレベルを決定する。
Er$^{3+}=イオンの7つの倍数に分布する39個の結晶場エネルギー準位が割り当てられている。
この光学データは、K$_2$YF$_5$におけるEr$^{3+}$の電子構造の結晶場モデリングに使用される。
我々のモデルは電子エネルギーレベルだけでなく、基底状態のgテンソルにも適合する。
この磁気分割データは計算の軸系を定義し、低対称性の結晶-磁場の適合に付随するあいまいさを避ける。
K$_2$YF$_5$ crystals doped with lanthanide ions have a variety of possible optical applications. Owing to the low symmetry of the system, the crystal structure cannot be unambiguously determined by x-ray diffraction. However, electron-paramagnetic resonance studies have demonstrated that lanthanide ions substitute for yttrium in sites of C$_{\rm s}$ local symmetry. In this work, we use high-resolution absorption and laser spectroscopy to determine electronic energy levels for Er$^{3+}$ ions in K$_2$YF$_5$ microparticles. A total of 39 crystal-field energy levels, distributed among 7 multiplets of the Er$^{3+}$ ion, have been assigned. This optical data is used for crystal-field modelling of the electronic structure of Er$^{3+}$ in K$_2$YF$_5$. Our model is fitted not only to the electronic energy levels, but also to the ground-state g-tensor. This magnetic-splitting data defines the axis system of the calculation, avoiding ambiguities associated with low-symmetry crystal-field fits. | 翻訳日:2024-11-06 19:32:29 公開日:2024-09-26 |
# ランダムモデルを用いた確率最適化のための信頼回帰逐次二次計画法
Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models ( http://arxiv.org/abs/2409.15734v2 ) ライセンス: Link先を確認 | Yuchen Fang, Sen Na, Michael W. Mahoney, Mladen Kolar, | (参考訳) 本研究では,確率的目的と決定論的等式制約による最適化問題の解法を検討する。
本稿では,2次定常点と1次定常点の両方を求めるために,Trust-Region Sequential Quadratic Programming法を提案する。
本手法は,対象関数の確率的観測から構成され,高い確率で適切な適応精度条件を満たすために,ランダムモデルを用いて目的関数を表現する。
本手法は, 1次定常点に収束するために, 問題制約の線形近似と信頼領域制約の2次近似を最小化することにより, 各イテレーションの勾配ステップを計算する。
さらに, 2階定常点に収束するため, 還元ヘッセン行列の負曲率を探索する固有ステップと, 問題制約の非線形性から生じるマラトス効果に対処する2階補正ステップも計算する。
このような効果は、メソッドがサドルポイントから離れるのを妨げる可能性がある。
勾配と固有ステップの計算は、ステップと信頼領域半径の新たなパラメータフリー分解を利用しており、実現可能性残差、最適性残差、負曲率の比率を考慮に入れている。
我々は,本手法の1次および2次収束保証を大域的に確立し,CUTEst問題,回帰問題,サドルポイント問題に関する計算結果を示す。
In this work, we consider solving optimization problems with a stochastic objective and deterministic equality constraints. We propose a Trust-Region Sequential Quadratic Programming method to find both first- and second-order stationary points. Our method utilizes a random model to represent the objective function, which is constructed from stochastic observations of the objective and is designed to satisfy proper adaptive accuracy conditions with a high but fixed probability. To converge to first-order stationary points, our method computes a gradient step in each iteration defined by minimizing a quadratic approximation of the objective subject to a (relaxed) linear approximation of the problem constraints and a trust-region constraint. To converge to second-order stationary points, our method additionally computes an eigen step to explore the negative curvature of the reduced Hessian matrix, as well as a second-order correction step to address the potential Maratos effect, which arises due to the nonlinearity of the problem constraints. Such an effect may impede the method from moving away from saddle points. Both gradient and eigen step computations leverage a novel parameter-free decomposition of the step and the trust-region radius, accounting for the proportions among the feasibility residual, optimality residual, and negative curvature. We establish global almost sure first- and second-order convergence guarantees for our method, and present computational results on CUTEst problems, regression problems, and saddle-point problems to demonstrate its superiority over existing line-search-based stochastic methods. | 翻訳日:2024-11-06 19:32:29 公開日:2024-09-26 |
# IRSC: 検索型世代シナリオにおける意味的理解による情報検索のためのゼロショット評価ベンチマーク
IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios ( http://arxiv.org/abs/2409.15763v2 ) ライセンス: Link先を確認 | Hai Lin, Shaoxiong Zhan, Junyou Su, Haitao Zheng, Hui Wang, | (参考訳) 大規模言語モデル(LLM)を用いたRAG(Retrieval-Augmented Generation)タスクでは,検索した情報の質が最終出力に欠かせない。
本稿では,多言語RAGタスクにおける埋め込みモデルの性能評価のためのIRSCベンチマークを提案する。
このベンチマークには、クエリ検索、タイトル検索、パラグラフ検索、キーワード検索、要約検索の5つのタスクが含まれている。
我々の研究は、RAGシナリオにモデルを組み込むための包括的なテストと効果的な比較方法の欠如に対処している。
また,Snowflake-Arctic,BGE,GTE,M3Eなどの評価モデルも導入した。
コントリビューションには以下のものがある。
1)IRSCベンチマーク。
2)SSCIとRCCIの測定値,及び
3)埋め込みモデルの言語間制限に関する洞察。
IRSCベンチマークは、RAGタスクにおける正確な検索システムの理解と開発を促進することを目的としている。
すべてのコードとデータセットは、https://github.com/Jasaxion/IRSC_Benchmarkで入手できる。
In Retrieval-Augmented Generation (RAG) tasks using Large Language Models (LLMs), the quality of retrieved information is critical to the final output. This paper introduces the IRSC benchmark for evaluating the performance of embedding models in multilingual RAG tasks. The benchmark encompasses five retrieval tasks: query retrieval, title retrieval, part-of-paragraph retrieval, keyword retrieval, and summary retrieval. Our research addresses the current lack of comprehensive testing and effective comparison methods for embedding models in RAG scenarios. We introduced new metrics: the Similarity of Semantic Comprehension Index (SSCI) and the Retrieval Capability Contest Index (RCCI), and evaluated models such as Snowflake-Arctic, BGE, GTE, and M3E. Our contributions include: 1) the IRSC benchmark, 2) the SSCI and RCCI metrics, and 3) insights into the cross-lingual limitations of embedding models. The IRSC benchmark aims to enhance the understanding and development of accurate retrieval systems in RAG tasks. All code and datasets are available at: https://github.com/Jasaxion/IRSC_Benchmark | 翻訳日:2024-11-06 19:21:13 公開日:2024-09-26 |
# 新規AI拡散V3におけるSDXLの改善
Improvements to SDXL in NovelAI Diffusion V3 ( http://arxiv.org/abs/2409.15997v2 ) ライセンス: Link先を確認 | Juan Ossa, Eren Doğan, Alex Birch, F. Johnson, | (参考訳) 本稿では,我々の最新アニメ画像生成モデルであるNoveAI Diffusion V3のトレーニング過程におけるSDXLの変更について報告する。
In this technical report, we document the changes we made to SDXL in the process of training NovelAI Diffusion V3, our state of the art anime image generation model. | 翻訳日:2024-11-06 18:04:33 公開日:2024-09-26 |
# オブジェクト指向のコントラスト学習とヒストグラムを用いた教師なし画像間変換の強化
Enhanced Unsupervised Image-to-Image Translation Using Contrastive Learning and Histogram of Oriented Gradients ( http://arxiv.org/abs/2409.16042v2 ) ライセンス: Link先を確認 | Wanchen Zhao, | (参考訳) 画像から画像への変換はコンピュータビジョンの重要な領域であり、中心となる内容と構造を保ちながら、ある視覚領域から別の視覚領域への変換に焦点を当てている。
しかし、この分野は2つの大きな課題に直面している: 第一に、2つのドメインのデータは、しばしば損なわれ、生成的敵ネットワークを効果的に訓練することは困難である; 第二に、既存の手法は、画像生成中に人工物や幻覚を作り出す傾向があり、画像の品質が低下する。
これらの問題に対処するため,コントラストアンペアド翻訳(CUT)モデルに基づく教師なし画像・画像翻訳手法を提案し,Histogram of Oriented Gradients (HOG) の特徴を取り入れた。
この手法により、入力画像と生成された画像のHOG特徴の損失を最小限に抑えることにより、意味ラベルなしでも画像のセマンティック構造を維持できる。
本手法は,GTA5データセットから都市景観データセットのリアルな都市シーンへの合成ゲーム環境の変換について検討し,幻覚の低減と画質の向上に大きく貢献した。
Image-to-Image Translation is a vital area of computer vision that focuses on transforming images from one visual domain to another while preserving their core content and structure. However, this field faces two major challenges: first, the data from the two domains are often unpaired, making it difficult to train generative adversarial networks effectively; second, existing methods tend to produce artifacts or hallucinations during image generation, leading to a decline in image quality. To address these issues, this paper proposes an enhanced unsupervised image-to-image translation method based on the Contrastive Unpaired Translation (CUT) model, incorporating Histogram of Oriented Gradients (HOG) features. This novel approach ensures the preservation of the semantic structure of images, even without semantic labels, by minimizing the loss between the HOG features of input and generated images. The method was tested on translating synthetic game environments from GTA5 dataset to realistic urban scenes in cityscapes dataset, demonstrating significant improvements in reducing hallucinations and enhancing image quality. | 翻訳日:2024-11-06 18:04:33 公開日:2024-09-26 |
# 医療領域における話者プライバシ保護のための脅威モデル仕様
Scenario of Use Scheme: Threat Model Specification for Speaker Privacy Protection in the Medical Domain ( http://arxiv.org/abs/2409.16106v2 ) ライセンス: Link先を確認 | Mehtab Ur Rahman, Martha Larson, Louis ten Bosch, Cristian Tejedor-García, | (参考訳) 音声記録は病気を検知し、監視するために頻繁に使われており、プライバシー上の懸念につながっている。
暗号以外にも、言論の保護は、摂動、ゆがみ、再合成といったアプローチによって対処でき、それによって話者の機密情報を排除し、医療分析の目的に必要な情報を残すことができる。
このようなプライバシ保護アプローチを開発するためには、医療設定や医療専門家のニーズに関する前提の明確かつ体系的な仕様が必要である。
本稿では,話者のプライバシを守らなければならない相手を特徴付けるアタッカーモデルと,その防御を規定するプロテクタモデルとを組み込んだユースケースシナリオ・オブ・ユース・スキームを提案する。
提案手法と過去の音声のプライバシーに関する研究との関係について論じる。
最後に、特定のシナリオ・オブ・ユース(Senario of Use)の具体例と、パーキンソンの検出の実用性を維持しつつ、ジェンダー推論攻撃から話者データを保護するための一連の実験を示す。
Speech recordings are being more frequently used to detect and monitor disease, leading to privacy concerns. Beyond cryptography, protection of speech can be addressed by approaches, such as perturbation, disentanglement, and re-synthesis, that eliminate sensitive information of the speaker, leaving the information necessary for medical analysis purposes. In order for such privacy protective approaches to be developed, clear and systematic specifications of assumptions concerning medical settings and the needs of medical professionals are necessary. In this paper, we propose a Scenario of Use Scheme that incorporates an Attacker Model, which characterizes the adversary against whom the speaker's privacy must be defended, and a Protector Model, which specifies the defense. We discuss the connection of the scheme with previous work on speech privacy. Finally, we present a concrete example of a specified Scenario of Use and a set of experiments about protecting speaker data against gender inference attacks while maintaining utility for Parkinson's detection. | 翻訳日:2024-11-06 18:04:33 公開日:2024-09-26 |
# Gaussian Deja-vu: 一般化とパーソナライズ能力の強化による制御可能な3次元ガウスヘッドアバターの作成
Gaussian Deja-vu: Creating Controllable 3D Gaussian Head-Avatars with Enhanced Generalization and Personalization Abilities ( http://arxiv.org/abs/2409.16147v2 ) ライセンス: Link先を確認 | Peizhi Yan, Rabab Ward, Qiang Tang, Shan Du, | (参考訳) 近年の3Dガウス・スプラッティング(3DGS)は、3Dヘッドアバターをモデル化する大きな可能性を解き放ち、メッシュベースの手法よりも柔軟性があり、NeRFベースの手法よりも効率の良いレンダリングを実現している。
これらの進歩にもかかわらず、制御可能な3DGSベースのヘッドアバターの作成は時間集約的であり、しばしば数分間から数時間を要する。
この過程を高速化するために、まず頭部アバターの一般化モデルを取得し、その結果をパーソナライズする ``Gaussian D\'ej\`a-vu" フレームワークを導入する。
一般化されたモデルは、大規模な2D(合成および実)画像データセットに基づいて訓練される。
このモデルは、パーソナライズされた頭部アバターを実現するためにモノクロビデオを用いてさらに洗練される、十分に初期化された3Dガウスヘッドを提供する。
パーソナライズのために,最初の3次元ガウシアンを補正し,ニューラルネットワークに頼らずに迅速な収束を確保するために,学習可能な表現認識補正ブレンドマップを提案する。
実験により,提案手法が目的を満たすことを示す。
最先端の3Dガウシアンヘッドアバターをフォトリアリスティックな品質で上回り、トレーニング時間を既存の方法の少なくとも4分の1に短縮し、数分でアバターを生産する。
Recent advancements in 3D Gaussian Splatting (3DGS) have unlocked significant potential for modeling 3D head avatars, providing greater flexibility than mesh-based methods and more efficient rendering compared to NeRF-based approaches. Despite these advancements, the creation of controllable 3DGS-based head avatars remains time-intensive, often requiring tens of minutes to hours. To expedite this process, we here introduce the ``Gaussian D\'ej\`a-vu" framework, which first obtains a generalized model of the head avatar and then personalizes the result. The generalized model is trained on large 2D (synthetic and real) image datasets. This model provides a well-initialized 3D Gaussian head that is further refined using a monocular video to achieve the personalized head avatar. For personalizing, we propose learnable expression-aware rectification blendmaps to correct the initial 3D Gaussians, ensuring rapid convergence without the reliance on neural networks. Experiments demonstrate that the proposed method meets its objectives. It outperforms state-of-the-art 3D Gaussian head avatars in terms of photorealistic quality as well as reduces training time consumption to at least a quarter of the existing methods, producing the avatar in minutes. | 翻訳日:2024-11-06 17:52:35 公開日:2024-09-26 |
# SEA-ViT:視覚変換器とGRUに基づく時空間共分散モデリングによる海面電流予測
SEA-ViT: Sea Surface Currents Forecasting Using Vision Transformer and GRU-Based Spatio-Temporal Covariance Modeling ( http://arxiv.org/abs/2409.16313v2 ) ライセンス: Link先を確認 | Teerapong Panboonyuen, | (参考訳) 海洋航行、環境モニタリング、気候分析などの応用、特にタイ湾やアンダマン海などの地域では、海面流の予測が不可欠である。
本稿では,視覚変換器(ViT)を双方向GRU(Gated Recurrent Units)と統合した高度な深層学習モデルSEA-ViTを紹介し,高周波数レーダ(HF)データを用いて海面電流(U,V)の時空間共分散を推定する。
SEA-ViTという名前は '`Sea Surface Currents Forecasting using Vision Transformer' に由来するもので、モデルが海洋力学に重点を置いており、予測能力を高めるためにViTアーキテクチャを使用していることを強調している。
SEA-ViTは、30年以上にわたる豊富なデータセットを活用して、座標座標と気候変動の間の複雑な関係に対処するためにENSO指標(El Ni\~no, La Ni\~na, neutral phases)を組み込むことによって、複雑な依存関係を解き放つように設計されている。
この開発は海流の予測能力を高め、タイの海洋地域の地球情報・宇宙技術開発庁(GISTDA)の努力を支援している。
コードと事前訓練されたモデルは、 \url{https://github.com/kaopanboonyuen/gistda-ai- Surface-currents} で利用可能である。
Forecasting sea surface currents is essential for applications such as maritime navigation, environmental monitoring, and climate analysis, particularly in regions like the Gulf of Thailand and the Andaman Sea. This paper introduces SEA-ViT, an advanced deep learning model that integrates Vision Transformer (ViT) with bidirectional Gated Recurrent Units (GRUs) to capture spatio-temporal covariance for predicting sea surface currents (U, V) using high-frequency radar (HF) data. The name SEA-ViT is derived from ``Sea Surface Currents Forecasting using Vision Transformer,'' highlighting the model's emphasis on ocean dynamics and its use of the ViT architecture to enhance forecasting capabilities. SEA-ViT is designed to unravel complex dependencies by leveraging a rich dataset spanning over 30 years and incorporating ENSO indices (El Ni\~no, La Ni\~na, and neutral phases) to address the intricate relationship between geographic coordinates and climatic variations. This development enhances the predictive capabilities for sea surface currents, supporting the efforts of the Geo-Informatics and Space Technology Development Agency (GISTDA) in Thailand's maritime regions. The code and pretrained models are available at \url{https://github.com/kaopanboonyuen/gistda-ai-sea-surface-currents}. | 翻訳日:2024-11-06 17:42:27 公開日:2024-09-26 |
# 品質問題:LLMのツール利用のための合成データの評価
Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs ( http://arxiv.org/abs/2409.16341v2 ) ライセンス: Link先を確認 | Shadi Iskander, Nachshon Cohen, Zohar Karnin, Ori Shapira, Sofia Tolmach, | (参考訳) 外部ツール使用のための大規模言語モデル(LLM)のトレーニングは急速に拡大しており、利用可能なデータの不足に対処する合成データの生成に焦点が当てられている。
しかし、体系的なデータ品質チェックの欠如は、適切なトレーニングとテストモデルに複雑さをもたらす。
そこで本研究では,LCMを外部ツールでトレーニングするためのデータの信頼性を評価するための2つの手法を提案する。
最初のアプローチは直感的で人間の定義した正当性基準を使用する。
2つ目のアプローチは、コンテキスト内評価を伴うモデル駆動評価を使用する。
2つの一般的なベンチマークでデータ品質の徹底的な評価を行い、それに続いて、データ品質がモデル性能に与える影響を示す外在的な評価を行った。
以上の結果から,データ量が少ない場合であっても,高品質なデータでトレーニングしたモデルは,非有意なデータでトレーニングしたモデルよりも優れていることが示された。
これらの知見は,ツール利用LLMのトレーニングデータの信頼性評価と信頼性確保の意義を実証的に裏付けるものである。
Training large language models (LLMs) for external tool usage is a rapidly expanding field, with recent research focusing on generating synthetic data to address the shortage of available data. However, the absence of systematic data quality checks poses complications for properly training and testing models. To that end, we propose two approaches for assessing the reliability of data for training LLMs to use external tools. The first approach uses intuitive, human-defined correctness criteria. The second approach uses a model-driven assessment with in-context evaluation. We conduct a thorough evaluation of data quality on two popular benchmarks, followed by an extrinsic evaluation that showcases the impact of data quality on model performance. Our results demonstrate that models trained on high-quality data outperform those trained on unvalidated data, even when trained with a smaller quantity of data. These findings empirically support the significance of assessing and ensuring the reliability of training data for tool-using LLMs. | 翻訳日:2024-11-06 17:42:27 公開日:2024-09-26 |
# ディープラーニングのためのAscend HiFloat8フォーマット
Ascend HiFloat8 Format for Deep Learning ( http://arxiv.org/abs/2409.16626v2 ) ライセンス: Link先を確認 | Yuanyong Luo, Zhongxing Zhang, Richard Wu, Hu Liu, Ying Jin, Kai Zheng, Minmin Wang, Zhanying He, Guipeng Hu, Luyao Chen, Tianchi Hu, Junsong Wang, Minqi Chen, Mikhaylov Dmitry, Korviakov Vladimir, Bobrin Maxim, Yuhao Hu, Guanfu Chen, Zeyi Huang, | (参考訳) 本稿では,ディープラーニングのための8ビット浮動小数点データフォーマットHiFloat8を提案する。
HiF8はテーパーの精度を特徴としている。
通常の値符号化では、3ビットのマティッサを持つ7の指数値、2ビットのマティッサを持つ8の指数値、1ビットのマティッサを持つ16の指数値を提供する。
正規値符号化では、31から38ビネード(FP16が40ビネードをカバーすることに注意)の7つの余分なパワーでダイナミックレンジを拡張する。
一方、HiF8は、正の零点と負の零点が1ビットパターンで表される以外、全ての特別な値を符号化する。
精度とダイナミックレンジのバランスが良くなったため、AIトレーニングの前方パスと後方パスの両方でHiF8を同時に使用することができる。
本稿では,HF8の定義と丸めの手法と,暫定的なトレーニングと推論のソリューションについて述べる。
HiF8の有効性を示すために、従来のニューラルネットワークや大規模言語モデル(LLM)など、さまざまなニューラルネットワーク上での大規模なシミュレーション結果も提示する。
This preliminary white paper proposes a novel 8-bit floating-point data format HiFloat8 (abbreviated as HiF8) for deep learning. HiF8 features tapered precision. For normal value encoding, it provides 7 exponent values with 3-bit mantissa, 8 exponent values with 2-bit mantissa, and 16 exponent values with 1-bit mantissa. For denormal value encoding, it extends the dynamic range by 7 extra powers of 2, from 31 to 38 binades (notice that FP16 covers 40 binades). Meanwhile, HiF8 encodes all the special values except that positive zero and negative zero are represented by only one bit-pattern. Thanks to the better balance between precision and dynamic range, HiF8 can be simultaneously used in both forward and backward passes of AI training. In this paper, we will describe the definition and rounding methods of HiF8, as well as the tentative training and inference solutions. To demonstrate the efficacy of HiF8, massive simulation results on various neural networks, including traditional neural networks and large language models (LLMs), will also be presented. | 翻訳日:2024-11-06 17:30:16 公開日:2024-09-26 |
# 潜在空間生成世界モデルを用いた自動車の模擬学習における共変量シフトの緩和
Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models ( http://arxiv.org/abs/2409.16663v2 ) ライセンス: Link先を確認 | Alexander Popov, Alperen Degirmenci, David Wehr, Shashank Hegde, Ryan Oldja, Alexey Kamenev, Bertrand Douillard, David Nistér, Urs Muller, Ruchi Bhargava, Stan Birchfield, Nikolai Smolyanskiy, | (参考訳) 本稿では,自律運転における共変量シフト問題に対処するために,潜在空間生成世界モデルを提案する。
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
トレーニング中に世界モデルを活用することにより、運転方針は過剰なトレーニングデータを必要とすることなく、共変量シフトを効果的に緩和する。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学び、実行時にトレーニング分布外の摂動から回復する。
さらに,マルチビューのクロスアテンションと学習シーンクエリを用いた,トランスフォーマーに基づく新しい認識エンコーダを提案する。
我々は,CARLAシミュレータにおけるクローズドループ試験における先行技術の改善と,CARLAとNVIDIAのDRIVE Simにおける摂動の処理能力を示す質的,定量的な結果を示す。
We propose the use of latent space generative world models to address the covariate shift problem in autonomous driving. A world model is a neural network capable of predicting an agent's next state given past states and actions. By leveraging a world model during training, the driving policy effectively mitigates covariate shift without requiring an excessive amount of training data. During end-to-end training, our policy learns how to recover from errors by aligning with states observed in human demonstrations, so that at runtime it can recover from perturbations outside the training distribution. Additionally, we introduce a novel transformer-based perception encoder that employs multi-view cross-attention and a learned scene query. We present qualitative and quantitative results, demonstrating significant improvements upon prior state of the art in closed-loop testing in the CARLA simulator, as well as showing the ability to handle perturbations in both CARLA and NVIDIA's DRIVE Sim. | 翻訳日:2024-11-06 17:20:02 公開日:2024-09-26 |
# CryptoTrain: 暗号化データセットによる高速なセキュアトレーニング
CryptoTrain: Fast Secure Training on Encrypted Dataset ( http://arxiv.org/abs/2409.16675v2 ) ライセンス: Link先を確認 | Jiaqi Xue, Yancheng Zhang, Yanshan Wang, Xueqiang Wang, Hao Zheng, Qian Lou, | (参考訳) セキュアなトレーニングは、データとモデルウェイトの両方の機密性を保護しながら、通常、かなりのトレーニングオーバーヘッドを発生させる。
従来のFHE(Fully Homomorphic Encryption)ベースの非アクティブトレーニングモデルは、ブートストラップの計算要求によって大きな負担を受ける。
そこで我々は,FHE と Oblivious Transfer (OT) を併用して線形および非線形操作を扱うハイブリッド暗号プロトコルを基盤として,効率的なセキュアなトレーニングシステムである CryptoTrain-B を構築した。
この統合により、コストのかかるブートストラップが不要になる。
CryptoTrain-Bはパフォーマンスの新たなベースラインを設定するが、トレーニングオーバーヘッドの削減は依然として不可欠である。
我々は、暗号文-暗号文乗算(CCMul)が、暗号化された入力やモデルを含む操作において重要なボトルネックとなることを発見した。
我々のソリューションであるCCMul-Precomputeは、CCMulをオフラインでプリ計算し、プライベートトレーニング中にリソース集約の少ない暗号文-プレーンテキスト乗算(CPMul)を利用する。
さらに、FHEシステムにおける従来の多項式畳み込みは、無関係かつ冗長な値を多項式スロットにエンコードし、入力表現のために追加の多項式と暗号文を必要とし、余分な乗法をもたらす傾向にある。
これに対応するために,関連する入力値のみを多項式にエンコードする相関多項式畳み込みを導入し,計算量やオーバーヘッドを大幅に削減する。
CCMul-Precomputeと相関多項式の畳み込みをCryptoTrain-Bに統合することにより、迅速かつ効率的なセキュアなトレーニングフレームワークCryptoTrainを実現する。
大規模な実験により、CryptoTrainは以前の方法に比べて約5.3倍のトレーニング時間を短縮できることが示された。
Secure training, while protecting the confidentiality of both data and model weights, typically incurs significant training overhead. Traditional Fully Homomorphic Encryption (FHE)-based non-inter-active training models are heavily burdened by computationally demanding bootstrapping. To develop an efficient secure training system, we established a foundational framework, CryptoTrain-B, utilizing a hybrid cryptographic protocol that merges FHE with Oblivious Transfer (OT) for handling linear and non-linear operations, respectively. This integration eliminates the need for costly bootstrapping. Although CryptoTrain-B sets a new baseline in performance, reducing its training overhead remains essential. We found that ciphertext-ciphertext multiplication (CCMul) is a critical bottleneck in operations involving encrypted inputs and models. Our solution, the CCMul-Precompute technique, involves precomputing CCMul offline and resorting to the less resource-intensive ciphertext-plaintext multiplication (CPMul) during private training. Furthermore, conventional polynomial convolution in FHE systems tends to encode irrelevant and redundant values into polynomial slots, necessitating additional polynomials and ciphertexts for input representation and leading to extra multiplications. Addressing this, we introduce correlated polynomial convolution, which encodes only related input values into polynomials, thus drastically reducing the number of computations and overheads. By integrating CCMul-Precompute and correlated polynomial convolution into CryptoTrain-B, we facilitate a rapid and efficient secure training framework, CryptoTrain. Extensive experiments demonstrate that CryptoTrain achieves a ~5.3X training time reduction compared to prior methods. | 翻訳日:2024-11-06 17:20:02 公開日:2024-09-26 |
# EAGLE:マルチモーダル大言語モデルのための効率的な任意参照ビジュアルプロンプトの理解を目指して
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models ( http://arxiv.org/abs/2409.16723v2 ) ライセンス: Link先を確認 | Jiacheng Zhang, Yang Jiao, Shaoxiang Chen, Jingjing Chen, Yu-Gang Jiang, | (参考訳) 近年,Multimodal Large Language Models (MLLMs) が注目されている。
MLLMを効果的に指示するために、従来の言語表現に加えて、ユーザの意図を特定の画像領域に合わせる効果により、画像にブラシを塗ってオブジェクトを参照する慣行が、一般的なツール(「視覚的プロンプトの参照」と呼ばれる)として現れている。
最も一般的な視覚的プロンプト、すなわち点、ボックス、マスクに対応するために、既存のアプローチは、当初、これらのプロンプトによって示される強調された領域のセマンティクスをキャプチャするために、特別な特徴符号化モジュールを使用していた。
その後、これらの符号化された領域特徴は、微調整により、細かなキュレートされたマルチモーダル命令データセットに適応する。
しかし、このような設計は建築の冗長性に悩まされている。
さらに、現実のシナリオにおいて、様々な種類の任意の参照視覚的プロンプトに遭遇する場合、効果的に一般化するという課題に直面している。
上記の課題に対処するために,既存のアプローチよりも少ないトレーニング努力で任意の参照視覚刺激の理解を促進する新しいMLLMであるEAGLEを提案する。
具体的には、EAGLEは、指示調律を行うために、与えられた画像に色付きパッチで描画された参照視覚プロンプトの固有形式を維持している。
本手法は,視覚的プロンプトを,空間的領域をMLLMに理解可能な空間的概念として,MLLM自体を起源とする領域の意味的理解を組み込んだものである。
また、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに混乱させるゲノメトリ・アグノスティック・ラーニング・パラダイム(GAL)を提案する。
提案手法の有効性を実証するために, 大規模実験を行った。
Recently, Multimodal Large Language Models (MLLMs) have sparked great research interests owing to their exceptional content-reasoning and instruction-following capabilities. To effectively instruct an MLLM, in addition to conventional language expressions, the practice of referring to objects by painting with brushes on images has emerged as a prevalent tool (referred to as "referring visual prompts") due to its efficacy in aligning the user's intention with specific image regions. To accommodate the most common referring visual prompts, namely points, boxes, and masks, existing approaches initially utilize specialized feature encoding modules to capture the semantics of the highlighted areas indicated by these prompts. Subsequently, these encoded region features are adapted to MLLMs through fine-tuning on a meticulously curated multimodal instruction dataset. However, such designs suffer from redundancy in architecture. Moreover, they face challenges in effectively generalizing when encountering a diverse range of arbitrary referring visual prompts in real-life scenarios. To address the above issues, we propose EAGLE, a novel MLLM that empowers comprehension of arbitrary referring visual prompts with less training efforts than existing approaches. Specifically, our EAGLE maintains the innate format of the referring visual prompts as colored patches rendered on the given image for conducting the instruction tuning. Our approach embeds referring visual prompts as spatial concepts conveying specific spatial areas comprehensible to the MLLM, with the semantic comprehension of these regions originating from the MLLM itself. Besides, we also propose a Geometry-Agnostic Learning paradigm (GAL) to further disentangle the MLLM's region-level comprehension with the specific formats of referring visual prompts. Extensive experiments are conducted to prove the effectiveness of our proposed method. | 翻訳日:2024-11-06 17:20:02 公開日:2024-09-26 |
# HVT:非ユークリッド空間での学習のための総合視覚フレームワーク
HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space ( http://arxiv.org/abs/2409.16897v2 ) ライセンス: Link先を確認 | Jacob Fein-Ashley, Ethan Feng, Minh Pham, | (参考訳) 非ユークリッド空間におけるデータ表現は、実世界のデータセットにおける階層的および複雑な関係を捉えるのに有効であることが証明されている。
特に双曲空間は階層構造に対する効率的な埋め込みを提供する。
本稿では、双曲幾何学を統合した視覚変換器(ViT)の新たな拡張である、双曲型視覚変換器(HVT)を紹介する。
従来のViTはユークリッド空間で作用するが、この手法は双曲的距離と「M\」ビウス変換を活用することにより自己認識機構を強化する。
これにより、画像データの階層的および関係的な依存関係をより効果的にモデリングできる。
厳密な数学的定式化を行い、双曲幾何学を注意層、フィードフォワードネットワーク、最適化に組み込む方法を示す。
ImageNetデータセットを用いた画像分類の性能改善を行った。
Data representation in non-Euclidean spaces has proven effective for capturing hierarchical and complex relationships in real-world datasets. Hyperbolic spaces, in particular, provide efficient embeddings for hierarchical structures. This paper introduces the Hyperbolic Vision Transformer (HVT), a novel extension of the Vision Transformer (ViT) that integrates hyperbolic geometry. While traditional ViTs operate in Euclidean space, our method enhances the self-attention mechanism by leveraging hyperbolic distance and M\"obius transformations. This enables more effective modeling of hierarchical and relational dependencies in image data. We present rigorous mathematical formulations, showing how hyperbolic geometry can be incorporated into attention layers, feed-forward networks, and optimization. We offer improved performance for image classification using the ImageNet dataset. | 翻訳日:2024-11-06 17:10:14 公開日:2024-09-26 |
# 心内エコー画像におけるAI駆動型ビュー誘導システム
AI-driven View Guidance System in Intra-cardiac Echocardiography Imaging ( http://arxiv.org/abs/2409.16898v2 ) ライセンス: Link先を確認 | Jaeyoung Huh, Paul Klein, Gareth Funka-Lea, Puneet Sharma, Ankur Kapoor, Young-Ho Kim, | (参考訳) 心内エコー法(Intra-cardiac Echocardiography, ICE)は、電気生理学(EP)と構造心疾患(SHD)の介入において重要な画像モダリティであり、心臓内からのリアルタイムで高解像度な視認を提供する。
その利点にもかかわらず、ICEカテーテルを効果的に操作するにはかなりの専門知識が必要であり、特に経験の浅い操作者の間では矛盾した結果をもたらす可能性がある。
この課題に対処するため,我々は,AI駆動のクローズドループビュー誘導システムを提案し,特殊な知識を必要とせず,ICE画像のナビゲートを支援する。
本手法は、任意の視点と空間座標系における臨床的に定義されたICEビュー間の相対的な位置と向きのベクトルをモデル化し、ICEカテーテルを操作して現在の視点から所望の視点へ経時的に遷移する方法をユーザに指示する。
クローズドループ構成で動作するシステムは、必要なカテーテル操作を継続的に予測し、更新し、既存の臨床ワークフローへのシームレスな統合を保証する。
提案手法の有効性はシミュレーションに基づく評価により実証され,6532テストデータセットで89%の成功率を実現し,ICE画像の精度と効率を向上させる可能性を強調した。
Intra-cardiac Echocardiography (ICE) is a crucial imaging modality used in electrophysiology (EP) and structural heart disease (SHD) interventions, providing real-time, high-resolution views from within the heart. Despite its advantages, effective manipulation of the ICE catheter requires significant expertise, which can lead to inconsistent outcomes, particularly among less experienced operators. To address this challenge, we propose an AI-driven closed-loop view guidance system with human-in-the-loop feedback, designed to assist users in navigating ICE imaging without requiring specialized knowledge. Our method models the relative position and orientation vectors between arbitrary views and clinically defined ICE views in a spatial coordinate system, guiding users on how to manipulate the ICE catheter to transition from the current view to the desired view over time. Operating in a closed-loop configuration, the system continuously predicts and updates the necessary catheter manipulations, ensuring seamless integration into existing clinical workflows. The effectiveness of the proposed system is demonstrated through a simulation-based evaluation, achieving an 89% success rate with the 6532 test dataset, highlighting its potential to improve the accuracy and efficiency of ICE imaging procedures. | 翻訳日:2024-11-06 17:10:14 公開日:2024-09-26 |
# 歴史的文書における OCR-Sensitive Neurons を用いたエンティティ認識の改善
Investigating OCR-Sensitive Neurons to Improve Entity Recognition in Historical Documents ( http://arxiv.org/abs/2409.16934v2 ) ライセンス: Link先を確認 | Emanuela Boros, Maud Ehrmann, | (参考訳) 本稿では,Transformer アーキテクチャにおける OCR 感受性ニューロンの存在と,歴史的文書における名前付きエンティティ認識(NER)性能への影響について検討する。
クリーンでノイズの多いテキスト入力に応答してニューロンの活性化パターンを解析することにより、OCR感受性ニューロンを同定し、中和し、モデル性能を向上させる。
2つのオープンアクセス大言語モデル(Llama2とMistral)に基づいて、実験はOCR感受性領域の存在を実証し、歴史的新聞や古典的な注釈においてNER性能の改善を示し、ノイズのあるテキストにおけるモデルの性能を改善するために標的ニューロン変調の可能性を強調した。
This paper investigates the presence of OCR-sensitive neurons within the Transformer architecture and their influence on named entity recognition (NER) performance on historical documents. By analysing neuron activation patterns in response to clean and noisy text inputs, we identify and then neutralise OCR-sensitive neurons to improve model performance. Based on two open access large language models (Llama2 and Mistral), experiments demonstrate the existence of OCR-sensitive regions and show improvements in NER performance on historical newspapers and classical commentaries, highlighting the potential of targeted neuron modulation to improve models' performance on noisy text. | 翻訳日:2024-11-06 17:10:14 公開日:2024-09-26 |
# INT-Flashアテンション:INT8量子化のためのFlashアテンションの実現
INT-FlashAttention: Enabling Flash Attention for INT8 Quantization ( http://arxiv.org/abs/2409.16997v2 ) ライセンス: Link先を確認 | Shimao Chen, Zirui Liu, Zhiying Wu, Ce Zheng, Peizhuang Cong, Zihan Jiang, Yuhan Wu, Lei Su, Tong Yang, | (参考訳) 大規模言語モデル(LLM)の基礎として、自己保持モジュールは、シーケンス長に関して2次時間とメモリの複雑さの課題に直面している。
FlashAttentionは注意計算を加速し、GPUメモリ階層を活用することでメモリ使用量を削減する。
有望な研究方向は、FlashAttentionと量子化メソッドを統合することである。
本稿では、最初のINT8量子化アーキテクチャであるINT-FlashAttentionを紹介し、Ampere GPUにおけるFlashAttentionの推論速度を大幅に向上させる。
我々は、完全なINT8アクティベートとGEMM(GeneralMatrix-multiplication)カーネルを備えたINT-FlashAttentionプロトタイプを実装し、完全なINT8入力を持つ最初のアテンション演算子となった。
一般的なトークンレベルのポストトレーニング量子化フレームワークとして、INT-FlashAttentionはINT4などの他のデータフォーマットとも互換性がある。
実験結果から、INT-FlashAttentionはFP16およびFP8データフォーマットの標準FlashAttentionと比較して、推論速度が72%速く、量子化エラーが82%小さいことがわかった。
As the foundation of large language models (LLMs), self-attention module faces the challenge of quadratic time and memory complexity with respect to sequence length. FlashAttention accelerates attention computation and reduces its memory usage by leveraging the GPU memory hierarchy. A promising research direction is to integrate FlashAttention with quantization methods. This paper introduces INT-FlashAttention, the first INT8 quantization architecture compatible with the forward workflow of FlashAttention, which significantly improves the inference speed of FlashAttention on Ampere GPUs. We implement our INT-FlashAttention prototype with fully INT8 activations and general matrix-multiplication (GEMM) kernels, making it the first attention operator with fully INT8 input. As a general token-level post-training quantization framework, INT-FlashAttention is also compatible with other data formats like INT4, etc. Experimental results show INT-FlashAttention achieves 72% faster inference speed and 82% smaller quantization error compared to standard FlashAttention with FP16 and FP8 data format. | 翻訳日:2024-11-06 17:10:14 公開日:2024-09-26 |
# 粗粒Answer分解による長期文書理解におけるポストホック属性の促進
Enhancing Post-Hoc Attributions in Long Document Comprehension via Coarse Grained Answer Decomposition ( http://arxiv.org/abs/2409.17073v2 ) ライセンス: Link先を確認 | Pritika Ramu, Koustava Goswami, Apoorv Saxena, Balaji Vasan Srinivavsan, | (参考訳) 信頼性の高い質問応答システムを開発するためには,正確な回答文のソース文書化が不可欠である。
しかし、長文への帰属はほとんど解明されていない。
ポストホック属性システムは、回答テキストをソース文書にマッピングするように設計されているが、このマッピングの粒度は未解決である。
さらに、批判的な疑問が浮かび上がっています。
これには、接地を必要とする回答の中で、特定の情報単位を特定することが含まれる。
本稿では,テンプレートを用いたテキスト内学習を用いて,帰納的回答の事実分解のための新しい手法を提案し,検討する。
そこで本研究では,この疑問を生かし,数発のインコンテクスト学習におけるネガティブサンプリングを分解に活用する。
このアプローチは抽象的回答と抽出的回答の両方の意味的理解を強化する。
本研究では,検索に基づく手法からLCMに基づく属性まで,様々な属性アプローチの徹底的な検証を行うことで,回答の分解の影響について検討する。
Accurately attributing answer text to its source document is crucial for developing a reliable question-answering system. However, attribution for long documents remains largely unexplored. Post-hoc attribution systems are designed to map answer text back to the source document, yet the granularity of this mapping has not been addressed. Furthermore, a critical question arises: What exactly should be attributed? This involves identifying the specific information units within an answer that require grounding. In this paper, we propose and investigate a novel approach to the factual decomposition of generated answers for attribution, employing template-based in-context learning. To accomplish this, we utilize the question and integrate negative sampling during few-shot in-context learning for decomposition. This approach enhances the semantic understanding of both abstractive and extractive answers. We examine the impact of answer decomposition by providing a thorough examination of various attribution approaches, ranging from retrieval-based techniques to LLM-based attributors. | 翻訳日:2024-11-06 17:00:06 公開日:2024-09-26 |
# LLMの残留流における安定領域の特性
Characterizing stable regions in the residual stream of LLMs ( http://arxiv.org/abs/2409.17113v2 ) ライセンス: Link先を確認 | Jett Janiak, Jacek Karwowski, Chatrik Singh Mangat, Giorgi Giglemiani, Nora Petrova, Stefan Heimersheim, | (参考訳) モデルの出力は、小さな活性化変化に敏感でありながら、領域境界において高い感度を示すトランスフォーマーの残流中の「安定な領域」を同定する。
これらの領域はトレーニング中に現れ、トレーニングの進行やモデルサイズの増加に伴ってより定義される。
この領域は以前研究されたポリトープよりもずっと大きいようである。
解析の結果、これらの安定な領域は、類似の領域内のクラスタを誘導する意味的区別と一致し、同一領域からのアクティベーションは、同様の次のトークン予測をもたらすことが示唆された。
この研究は、ニューラルネットワークの複雑さを理解し、トレーニングダイナミクスに光を流し、解釈可能性を向上させるための有望な研究方向を提供する。
We identify "stable regions" in the residual stream of Transformers, where the model's output remains insensitive to small activation changes, but exhibits high sensitivity at region boundaries. These regions emerge during training and become more defined as training progresses or model size increases. The regions appear to be much larger than previously studied polytopes. Our analysis suggests that these stable regions align with semantic distinctions, where similar prompts cluster within regions, and activations from the same region lead to similar next token predictions. This work provides a promising research direction for understanding the complexity of neural networks, shedding light on training dynamics, and advancing interpretability. | 翻訳日:2024-11-06 17:00:06 公開日:2024-09-26 |
# 大規模多次元時系列データに対するShapley値の新しい応用:DNAプロファイル分類ニューラルネットワークへの説明可能なAIの適用
A novel application of Shapley values for large multidimensional time-series data: Applying explainable AI to a DNA profile classification neural network ( http://arxiv.org/abs/2409.18156v1 ) ライセンス: Link先を確認 | Lauren Elborough, Duncan Taylor, Melissa Humphries, | (参考訳) シェープリー値の高次元時系列的データへの適用は、計算的に困難であり、時には不可能である。
N$入力の場合、問題は2^N$ハードである。
画像処理では、スーパーピクセルと呼ばれるピクセルのクラスタが計算の合理化に使用される。
本研究は,シェープ値計算のためのスーパーピクセルの考え方に適応した時系列データに対する効率的な解を提案する。
法医学的なDNA分類の例により、この方法は、畳み込みニューラルネットワーク(CNN)によって分類された多変量時系列のようなデータに適用される。
DNA処理では,DNA抽出処理によって生じる背景雑音からアレルを同定することが重要である。
1つのDNAプロファイルは、分類するために31,200ドルのスキャンポイントを持ち、その分類決定は、裁判所で保護されなければならない。
これは、分類が人間の読者によって日常的に行われることを意味します。
意味のあるShapley値の高速な計算によるCNNの適用は、分類の代替となる可能性がある。
この膨大なタスクに対するシェープ値の現実的で正確かつ高速な計算を実証する
The application of Shapley values to high-dimensional, time-series-like data is computationally challenging - and sometimes impossible. For $N$ inputs the problem is $2^N$ hard. In image processing, clusters of pixels, referred to as superpixels, are used to streamline computations. This research presents an efficient solution for time-seres-like data that adapts the idea of superpixels for Shapley value computation. Motivated by a forensic DNA classification example, the method is applied to multivariate time-series-like data whose features have been classified by a convolutional neural network (CNN). In DNA processing, it is important to identify alleles from the background noise created by DNA extraction and processing. A single DNA profile has $31,200$ scan points to classify, and the classification decisions must be defensible in a court of law. This means that classification is routinely performed by human readers - a monumental and time consuming process. The application of a CNN with fast computation of meaningful Shapley values provides a potential alternative to the classification. This research demonstrates the realistic, accurate and fast computation of Shapley values for this massive task | 翻訳日:2024-11-06 15:41:17 公開日:2024-09-26 |
# 組換えと確率性:最大斜め問題の比較研究
Recombination vs Stochasticity: A Comparative Study on the Maximum Clique Problem ( http://arxiv.org/abs/2409.18157v1 ) ライセンス: Link先を確認 | Michael Vella, John Abela, Kristian Guillaumier, | (参考訳) 最大傾き問題(英: maximum clique problem、MCP)は、グラフ理論および計算複雑性における基本的な問題である。
グラフ G が与えられたとき、問題は G において最大の傾き(完全部分グラフ)を見つけることである。
この問題はNP-Hardであり、それに対応する決定問題はNP-Completeであることが示されている。
これまでに発見された全ての正確な(最適)アルゴリズムは指数時間で実行されている。
MCPを近似するために様々なメタヒューリスティックが用いられている。
その中には、遺伝子およびメメティックアルゴリズム、アリコロニー最適化、欲求アルゴリズム、タブアルゴリズム、シミュレートされたアニーリングが含まれる。
本研究は, 遺伝的アルゴリズム(GA)をMSPに適用することの有効性について, 純粋確率的アプローチと比較した。
以上の結果からモンテカルロのアルゴリズムは, 高速・高密度なグラフ, 特に低密度グラフにおいて, 遺伝的アルゴリズムを超越していることがわかった。
この観察は、従来の遺伝的アルゴリズムへの依存に挑戦し、解空間の探索におけるクロスオーバーと突然変異演算子の役割の再評価を示唆している。
より高密度なグラフでは、遺伝的アルゴリズムの組換え戦略が予期せぬ有効性を示し、特定の条件下での遺伝的手法の未発見の可能性を示している。
この研究は、パラダイムを確立しただけでなく、MPPや他のNP-Hard問題の解法におけるアルゴリズム効率を探求するための道を開き、遺伝的組換えよりも純粋に確率的手法を好む条件についてさらなる研究を促している。
The maximum clique problem (MCP) is a fundamental problem in graph theory and in computational complexity. Given a graph G, the problem is that of finding the largest clique (complete subgraph) in G. The MCP has many important applications in different domains and has been much studied. The problem has been shown to be NP-Hard and the corresponding decision problem to be NP-Complete. All exact (optimal) algorithms discovered so far run in exponential time. Various meta-heuristics have been used to approximate the MCP. These include genetic and memetic algorithms, ant colony optimization, greedy algorithms, Tabu algorithms, and simulated annealing. This study presents a critical examination of the effectiveness of applying genetic algorithms (GAs) to the MCP compared to a purely stochastic approach. Our results indicate that Monte Carlo algorithms, which employ random searches to generate and then refine sub-graphs into cliques, often surpass genetic algorithms in both speed and capability, particularly in less dense graphs. This observation challenges the conventional reliance on genetic algorithms, suggesting a reevaluation of the roles of the crossover and mutation operators in exploring the solution space. We observe that, in some of the denser graphs, the recombination strategy of genetic algorithms shows unexpected efficacy, hinting at the untapped potential of genetic methods under specific conditions. This work not only questions established paradigms but also opens avenues for exploring algorithmic efficiency in solving the MCP and other NP-Hard problems, inviting further research into the conditions that favor purely stochastic methods over genetic recombination and vice versa. | 翻訳日:2024-11-06 15:41:17 公開日:2024-09-26 |
# 分解可能な変圧器点過程
Decomposable Transformer Point Processes ( http://arxiv.org/abs/2409.18158v1 ) ライセンス: Link先を確認 | Aristeidis Panos, | (参考訳) マークポイントプロセスのモデリングの標準パラダイムは、注意に基づく(トランスフォーマースタイル)アーキテクチャを用いて強度関数をパラメータ化することである。
これらの手法の柔軟性にもかかわらず、それらの推論は計算集約的な薄化アルゴリズムに基づいている。
本研究では,注目度に基づくアーキテクチャの利点の維持と,薄型化アルゴリズムの限界を回避する枠組みを提案する。
このフレームワークは、マルコフ特性を満たす対数正規分布と、トランスフォーマーアーキテクチャを用いたマークに対する条件確率質量関数の混合により、時間間の条件分布をモデル化することに依存する。
提案手法は,その履歴が与えられたシーケンスの次の事象を予測する上で,最先端の性能を実現する。
実験では、推論中に薄型アルゴリズムに依存しない手法の有効性も明らかにした。
最後に,本手法を長軸予測課題に適用し,本課題に特化して開発されたベースラインよりも優れていることを示す。
The standard paradigm of modeling marked point processes is by parameterizing the intensity function using an attention-based (Transformer-style) architecture. Despite the flexibility of these methods, their inference is based on the computationally intensive thinning algorithm. In this work, we propose a framework where the advantages of the attention-based architecture are maintained and the limitation of the thinning algorithm is circumvented. The framework depends on modeling the conditional distribution of inter-event times with a mixture of log-normals satisfying a Markov property and the conditional probability mass function for the marks with a Transformer-based architecture. The proposed method attains state-of-the-art performance in predicting the next event of a sequence given its history. The experiments also reveal the efficacy of the methods that do not rely on the thinning algorithm during inference over the ones they do. Finally, we test our method on the challenging long-horizon prediction task and find that it outperforms a baseline developed specifically for tackling this task; importantly, inference requires just a fraction of time compared to the thinning-based baseline. | 翻訳日:2024-11-06 15:41:17 公開日:2024-09-26 |
# AR/VR, 大規模言語モデル, UI/UX, ロボット技術による子どもの学習とソーシャルインタラクションの強化:システムレビュー
The Nexus of AR/VR, Large Language Models, UI/UX, and Robotics Technologies in Enhancing Learning and Social Interaction for Children: A Systematic Review ( http://arxiv.org/abs/2409.18162v1 ) ライセンス: Link先を確認 | Biplov Paneru, Bishwash Paneru, | (参考訳) 小児、特に自閉症スペクトラム障害(ASD)などの疾患の治療における言語モデル(LLM)、拡張現実(AR)、ユーザインターフェース/ユーザエクスペリエンス(UI/UX)デザインの組み合わせについて検討した。
150の出版物がPubMed、ACM、IEEE Xplore、Elsevier、Google Scholarで徹底的な文献検索によって発見された。
このレビューでは、ARが社会的および学習結果をどのように改善するか、LLMがコミュニケーションにどのように役立つか、UI/UX設計がこれらのテクノロジの有効性にどのように影響するか、という3つの主要な領域が取り上げられている。
LLMは個別の学習とコミュニケーションを支援することができるが、ARは社会的スキル、モチベーション、注意力を高めることを約束している。
ASDを持つ子供たちにとって、アクセスしやすく興味深い介入は、効果的なUI/UX設計に大きく依存する。
ASD療法におけるこれらの技術の利点を最適化するために、カスタマイズ、アクセシビリティ、統合に関する問題に対処するための追加研究の必要性を強調した。
The combination of large language models (LLMs), augmented reality (AR), and user interface/user experience (UI/UX) design in therapies for children, especially with disorders like autism spectrum disorder (ASD), is examined in this review study. 150 publications were found by a thorough literature search throughout PubMed, ACM, IEEE Xplore, Elsevier, and Google Scholar; 42 of them were chosen for in-depth study due to their methodological rigor and relevance. Three primary areas are covered in this review: how AR can improve social and learning results; how LLMs can help with communication; and how UI/UX design affects how effective these technologies are. Results reveal that while LLMs can provide individualized learning and communication support, AR has demonstrated promise in enhancing social skills, motivation, and attention. For children with ASD, accessible and interesting interventions depend heavily on effective UI/UX design. To optimize the benefits of these technologies in ASD therapies, the study emphasizes the need for additional research to address difficulties related to customization, accessibility, and integration. | 翻訳日:2024-11-06 15:41:17 公開日:2024-09-26 |
# Data-Prep-Kit: LLMアプリケーション開発のためのデータ準備
Data-Prep-Kit: getting your data ready for LLM application development ( http://arxiv.org/abs/2409.18164v1 ) ライセンス: Link先を確認 | David Wood, Boris Lublinsky, Alexy Roytman, Shivdeep Singh, Abdulhamid Adebayo, Revital Eres, Mohammad Nassar, Hima Patel, Yousaf Shah, Constantin Adam, Petros Zerfos, Nirmit Desai, Daiki Tsuzuku, Takuya Goto, Michele Dolfi, Saptha Surendran, Paramesvaran Selvam, Sungeun An, Yuan Chi Chang, Dhiraj Joshi, Hajar Emami-Gohari, Xuan-Hong Dang, Yan Koyfman, Shahrokh Daijavad, | (参考訳) データ準備は、あらゆる大規模言語モデル(LLM)開発への第一歩であり、非常に重要なステップです。
本稿では,Data Prep Kit (DPK) と呼ばれる,使いやすく,拡張性があり,スケールフレキシブルなオープンソースデータ作成ツールキットを提案する。
DPKは、ユーザが自分のニーズに合わせてデータ準備をスケールできるように設計され設計されている。
DPKを使用すると、ローカルマシン上でのデータの準備や、数千のCPUコアを持つクラスタ上での運用に苦労せずにスケールすることができる。
DPKは高度にスケーラブルで拡張可能なモジュールセットを備えており、自然言語とコードデータを変換する。
ユーザーが追加の変換が必要な場合、変換生成のために広範なDPKサポートを使用することで、容易に開発することができる。
これらのモジュールは独立して使用したり、パイプライン化して一連の操作を実行できる。
本稿では,DPKアーキテクチャを記述し,その性能を小規模から非常に多数のCPUに示す。
DPK の加群はグラナイトモデル [1] [2] の合成に用いられている。
DPKは、LLMモデルの性能向上や、Retrieval-Augmented Generation (RAG)による微調整モデルにデータを簡単に準備するために、AIコミュニティにとって貴重な貢献であると考えています。
Data preparation is the first and a very important step towards any Large Language Model (LLM) development. This paper introduces an easy-to-use, extensible, and scale-flexible open-source data preparation toolkit called Data Prep Kit (DPK). DPK is architected and designed to enable users to scale their data preparation to their needs. With DPK they can prepare data on a local machine or effortlessly scale to run on a cluster with thousands of CPU Cores. DPK comes with a highly scalable, yet extensible set of modules that transform natural language and code data. If the user needs additional transforms, they can be easily developed using extensive DPK support for transform creation. These modules can be used independently or pipelined to perform a series of operations. In this paper, we describe DPK architecture and show its performance from a small scale to a very large number of CPUs. The modules from DPK have been used for the preparation of Granite Models [1] [2]. We believe DPK is a valuable contribution to the AI community to easily prepare data to enhance the performance of their LLM models or to fine-tune models with Retrieval-Augmented Generation (RAG). | 翻訳日:2024-11-06 15:41:17 公開日:2024-09-26 |
# 最適量子純度増幅
Optimal Quantum Purity Amplification ( http://arxiv.org/abs/2409.18167v1 ) ライセンス: Link先を確認 | Zhaoyi Li, Honghao Fu, Takuya Isogawa, Isaac Chuang, | (参考訳) 量子純度増幅(QPA)は、量子状態が劣化する広範雑音に対抗する新しいアプローチを提供する。
本稿では,20年間にわたって知られていなかった大域的偏極雑音に対する一般量子システムに対する最適QPAプロトコルを提案する。
提案プロトコルは,最もよく知られた手法と比較して,忠実度スケーリングの改善を実証するプロトコルの最適性を構築し,証明する。
本稿では,プロトコルの動作解釈について検討し,短期実験のために効率的な回路にコンパイルする方法の簡単な例を示す。
さらに、ハミルトニアン進化の量子シミュレーションにおいて、我々のプロトコルの有効性を調べるために数値シミュレーションを行い、回路レベルのノイズの下でも忠実性を高める能力を示す。
以上の結果から,QPAは量子情報処理タスク,特に資源制限によるノイズの低減が重要となるノイズ中規模量子(NISQ)デバイスの性能を向上させる可能性が示唆された。
Quantum purity amplification (QPA) offers a novel approach to counteracting the pervasive noise that degrades quantum states. We present the optimal QPA protocol for general quantum systems against global depolarizing noise, which has remained unknown for two decades. We construct and prove the optimality of our protocol, which demonstrates improved fidelity scaling compared to the best-known methods. We explore the operational interpretation of the protocol and provide simple examples of how to compile it into efficient circuits for near-term experiments. Furthermore, we conduct numerical simulations to investigate the effectiveness of our protocol in the quantum simulation of Hamiltonian evolution, demonstrating its ability to enhance fidelity even under circuit-level noise. Our findings suggest that QPA could improve the performance of quantum information processing tasks, particularly in the context of Noisy Intermediate-Scale Quantum (NISQ) devices, where reducing the effect of noise with limited resources is critical. | 翻訳日:2024-11-06 15:31:31 公開日:2024-09-26 |
# データスカシティ下での正確なアメリカンオプション価格設定のための転送学習付きジャンプ拡散インフォームニューラルネットワーク
Jump Diffusion-Informed Neural Networks with Transfer Learning for Accurate American Option Pricing under Data Scarcity ( http://arxiv.org/abs/2409.18168v1 ) ライセンス: Link先を確認 | Qiguo Sun, Hanyue Huang, XiBei Yang, Yuwei Zhang, | (参考訳) 金融数学やリスク管理に不可欠なオプション価格モデルは、AI手法によって広く研究され、近年進歩している。
しかし、最適な運動時間を決定する複雑さや、確率的な経路から生じる非線形のペイオフをモデル化するため、アメリカのオプション価格設定は依然として難しいままである。
さらに、ハイブリッドモデルにおけるブラック・スコールズの公式の一般的な使用は、価格プロセスにおける不連続性を正確に捉えることができず、特に少ないデータ条件下でのモデル性能を制限する。
これらの問題に対処するために、非線形最適化アルゴリズム、解析モデル、数値モデル、ニューラルネットワークを組み合わせた6つの相互関連モジュールからなる、アメリカのオプション価格に関する包括的なフレームワークを提案する。
さらに、この少ないデータ課題に対処するため、このフレームワークは、数値データ拡張による転送学習と、物理的に制約されたジャンプ拡散プロセスインフォームドニューラルネットワークを統合し、ログ戻り分布のレプトアルトシスをキャプチャする。
トレーニング効率を向上させるため,ベイジアン最適化を用いたウォームアップ期間を最適データ損失と物理損失係数として設計した。
6つのケーススタディの実験結果は、フレームワークの正確性、収束性、物理的有効性、一般化を実証している。
さらに,提案モデルでは,より高額なオプションの価格設定において,優れた性能を示す。
Option pricing models, essential in financial mathematics and risk management, have been extensively studied and recently advanced by AI methodologies. However, American option pricing remains challenging due to the complexity of determining optimal exercise times and modeling non-linear payoffs resulting from stochastic paths. Moreover, the prevalent use of the Black-Scholes formula in hybrid models fails to accurately capture the discontinuity in the price process, limiting model performance, especially under scarce data conditions. To address these issues, this study presents a comprehensive framework for American option pricing consisting of six interrelated modules, which combine nonlinear optimization algorithms, analytical and numerical models, and neural networks to improve pricing performance. Additionally, to handle the scarce data challenge, this framework integrates the transfer learning through numerical data augmentation and a physically constrained, jump diffusion process-informed neural network to capture the leptokurtosis of the log return distribution. To increase training efficiency, a warm-up period using Bayesian optimization is designed to provide optimal data loss and physical loss coefficients. Experimental results of six case studies demonstrate the accuracy, convergence, physical effectiveness, and generalization of the framework. Moreover, the proposed model shows superior performance in pricing deep out-of-the-money options. | 翻訳日:2024-11-06 15:31:31 公開日:2024-09-26 |
# 医学領域における要約課題のための大規模言語モデルの評価:ナラティブレビュー
Evaluation of Large Language Models for Summarization Tasks in the Medical Domain: A Narrative Review ( http://arxiv.org/abs/2409.18170v1 ) ライセンス: Link先を確認 | Emma Croxford, Yanjun Gao, Nicholas Pellegrino, Karen K. Wong, Graham Wills, Elliot First, Frank J. Liao, Cherodeep Goswami, Brian Patterson, Majid Afshar, | (参考訳) 大規模言語モデルは、高度な臨床自然言語生成を持ち、医療用テキストの量を管理する機会を生み出している。
しかし, 医療の高度化には信頼性の高い評価が必要であり, 依然として課題である。
本稿では,臨床要約タスクの現況評価を行い,専門家による評価の資源制約に対処するための今後の方向性を提案する。
Large Language Models have advanced clinical Natural Language Generation, creating opportunities to manage the volume of medical text. However, the high-stakes nature of medicine requires reliable evaluation, which remains a challenge. In this narrative review, we assess the current evaluation state for clinical summarization tasks and propose future directions to address the resource constraints of expert human evaluation. | 翻訳日:2024-11-06 15:31:30 公開日:2024-09-26 |
# 符号自己同型からのフォールトトレラント論理クリフォードゲート
Fault-Tolerant Logical Clifford Gates from Code Automorphisms ( http://arxiv.org/abs/2409.18175v1 ) ライセンス: Link先を確認 | Hasan Sayginel, Stergios Koutsioumpas, Mark Webster, Abhishek Rajput, Dan E Browne, | (参考訳) 本稿では, 耐故障性論理クリフォードゲートの実装について, 対称性に基づく安定化器量子誤り訂正符号について検討する。
我々のアプローチは、安定化器コードを二進線型コードにマッピングし、自己同型群を計算し、クリフォード演算子に制約を課すことである。
安定化器符号の自己同型を見つけ、ZX-双対性を非CSS符号に一般化するための厳密な定式化法を提案する。
計算代数学システムMAGMAを利用するアルゴリズムを実装したPythonパッケージを提供する。
我々のアルゴリズムは、自己同型群生成器を物理回路にマッピングし、コードの不安定化器に基づいてパウリ補正を計算し、それらの論理的動作を決定する。
本稿では,回路の耐故障性について論じ,[4,2,2]および完全[5,1,3]符号の自己同型化によるゲートの例,二変量自転車符号,および最もよく知られた距離符号について述べる。
We study the implementation of fault-tolerant logical Clifford gates on stabilizer quantum error correcting codes based on their symmetries. Our approach is to map the stabilizer code to a binary linear code, compute its automorphism group, and impose constraints based on the Clifford operators permitted. We provide a rigorous formulation of the method for finding automorphisms of stabilizer codes and generalize ZX-dualities to non-CSS codes. We provide a Python package implementing our algorithms which uses the computational algebra system MAGMA. Our algorithms map automorphism group generators to physical circuits, calculate Pauli corrections based on the destabilizers of the code, and determine their logical action. We discuss the fault tolerance of the circuits and include examples of gates through automorphisms for the [[4,2,2]] and perfect [[5,1,3]] codes, bivariate bicycle codes, and the best known distance codes. | 翻訳日:2024-11-06 15:31:30 公開日:2024-09-26 |
# Feshbach共鳴による固体ボース-フェルミ混合体のチューニング輸送
Tuning transport in solid-state Bose-Fermi mixtures by Feshbach resonances ( http://arxiv.org/abs/2409.18176v1 ) ライセンス: Link先を確認 | Caterina Zerba, Clemens Kuhlenkamp, Léo Mangeolle, Michael Knap, | (参考訳) 遷移金属ジアルコゲナイド(TMD)ヘテロ構造は、調整可能なボース・フェルミ混合物を実現するための有望なプラットフォームとして出現している。
それらの成分はフェルミオン荷電担体であり、長寿命のボソニック層間励起子と共鳴的に結合し、トリオン結合状態を形成する。
このようなプラットフォームは、低い相対温度でフェルミオンやボソンの密度に匹敵する密度を達成することを約束する。
ここでは, 狭い固体フェシュバッハ共鳴に近いボース・フェルミ混合物の輸送特性を予測した。
ホール電流を駆動する際、ドープホール、エキシトン、トライアンの応答は共鳴相互作用によって著しく変化し、典型的なドリュードの挙動から逸脱し、エキシトンドラッグの符号が変化する。
これらの固体ボース-フェルミ混合系において, 従来の散乱機構よりも相互作用効果が支配的であることを示す。
Transition metal dichalcogenide (TMD) heterostructures have emerged as promising platforms for realizing tunable Bose-Fermi mixtures. Their constituents are fermionic charge carriers resonantly coupled to long-lived bosonic interlayer excitons, allowing them to form trion bound states. Such platforms promise to achieve comparable densities of fermions and bosons at low relative temperatures. Here, we predict the transport properties of Bose-Fermi mixtures close to a narrow solid-state Feshbach resonance. When driving a hole current, the response of doped holes, excitons, and trions are significantly modified by the resonant interactions, leading to deviations from the typical Drude behavior and to a sign change of the exciton drag. Our results on the temperature-dependent resistivities demonstrate that interaction effects dominate over established conventional scattering mechanisms in these solid-state Bose-Fermi mixtures. | 翻訳日:2024-11-06 15:31:30 公開日:2024-09-26 |
# LowREm:多言語グラフの知識で強化された87の低リソース言語のための単語埋め込みのリポジトリ
LowREm: A Repository of Word Embeddings for 87 Low-Resource Languages Enhanced with Multilingual Graph Knowledge ( http://arxiv.org/abs/2409.18193v1 ) ライセンス: Link先を確認 | Daniil Gurgurov, Rishu Kumar, Simon Ostermann, | (参考訳) 大規模言語モデル(LLM)に基づくコンテキスト適応型埋め込みは様々な言語で利用可能であるが、その範囲は低リソース言語に限られることが多い。
このような言語に対するLLMの訓練は、不十分なデータと高い計算コストのため、しばしば困難である。
特にリソースの少ない言語では、静的な単語の埋め込みが依然として有効な代替手段である。
しかし、様々な言語にそのような埋め込みを組み込んだ包括的なリポジトリが欠如している。
これに対処するため、87の低リソース言語のための静的埋め込みの集中リポジトリであるLowREmを紹介した。
また,GloVeをベースとした埋め込みを多言語グラフ知識に統合し,新たな知識源を活用する手法を提案する。
感情分析において,XLM-Rから抽出した文脈的埋め込みと比較して,拡張埋め込みの優れた性能を示す。
私たちのコードとデータはhttps://huggingface.co/DFKI.comで公開されています。
Contextualized embeddings based on large language models (LLMs) are available for various languages, but their coverage is often limited for lower resourced languages. Training LLMs for such languages is often difficult due to insufficient data and high computational cost. Especially for very low resource languages, static word embeddings thus still offer a viable alternative. There is, however, a notable lack of comprehensive repositories with such embeddings for diverse languages. To address this, we present LowREm, a centralized repository of static embeddings for 87 low-resource languages. We also propose a novel method to enhance GloVe-based embeddings by integrating multilingual graph knowledge, utilizing another source of knowledge. We demonstrate the superior performance of our enhanced embeddings as compared to contextualized embeddings extracted from XLM-R on sentiment analysis. Our code and data are publicly available under https://huggingface.co/DFKI. | 翻訳日:2024-11-06 15:31:30 公開日:2024-09-26 |
# 強化学習を用いた自律ネットワーク防御
Autonomous Network Defence using Reinforcement Learning ( http://arxiv.org/abs/2409.18197v1 ) ライセンス: Link先を確認 | Myles Foley, Chris Hicks, Kate Highnam, Vasilios Mavroudis, | (参考訳) ネットワークセキュリティの武器競争では、ディフェンダーは悪意のある攻撃を検知し、対処する必要があるため、非常に不利である。
一方、攻撃者は一度だけ成功する必要がある。
本研究では,現実的なネットワーク防衛シナリオにおける自律エージェントの有効性について検討する。
まず、問題を概説し、強化学習の背景を提供し、提案するエージェント設計について詳述する。
3つのサブネットにまたがる13のホストを持つネットワーク環境シミュレーションを用いて、新しい強化学習エージェントを訓練し、2つの先進的永続脅威(APT)レッドエージェントによる連続攻撃を確実に防御できることを示す。
In the network security arms race, the defender is significantly disadvantaged as they need to successfully detect and counter every malicious attack. In contrast, the attacker needs to succeed only once. To level the playing field, we investigate the effectiveness of autonomous agents in a realistic network defence scenario. We first outline the problem, provide the background on reinforcement learning and detail our proposed agent design. Using a network environment simulation, with 13 hosts spanning 3 subnets, we train a novel reinforcement learning agent and show that it can reliably defend continual attacks by two advanced persistent threat (APT) red agents: one with complete knowledge of the network layout and another which must discover resources through exploration but is more general. | 翻訳日:2024-11-06 15:31:30 公開日:2024-09-26 |
# LangSAMP:多言語事前トレーニングを意識した言語スクリプト
LangSAMP: Language-Script Aware Multilingual Pretraining ( http://arxiv.org/abs/2409.18199v1 ) ライセンス: Link先を確認 | Yihong Liu, Haotian Ye, Chunlan Ma, Mingyang Wang, Hinrich Schütze, | (参考訳) 最近の多言語事前訓練言語モデル(mPLM)は、言語埋め込み(言語に割り当てられた学習可能なベクトル)の使用を避けることが多い。
これらの埋め込みは、(1)mPLMはすべての言語にまたがる単一の統一パラメータを持つことが期待され、(2)言語IDを入力として必要とせずに、普遍的なテキストエンコーダとしてシームレスに機能する必要がある。
しかし、この除去により、全ての言語固有の情報をエンコードするトークン埋め込みの負担が増大し、より多くの言語中立表現を生成できない可能性がある。
この課題に対処するため,LangSAMP(Language-Script Aware Multilingual Pretraining)を提案する。
具体的には、最終的な表現を言語モデリングヘッドに渡す前に、これらの埋め込みを変換器ブロックの出力に統合して予測する。
我々は500以上の言語をカバーする多言語コーパス上のXLM-Rの継続事前学習にLangSAMPを適用した。
結果として得られるモデルは、ベースラインを一貫して上回る。
さらに、言語/スクリプトの埋め込みが言語/スクリプト固有の情報をエンコードすることを示し、言語間移動のためのソース言語の選択を改善する。
コードとモデルは、 \url{https://github.com/cisnlp/LangSAMP}で公開しています。
Recent multilingual pretrained language models (mPLMs) often avoid using language embeddings -- learnable vectors assigned to different languages. These embeddings are discarded for two main reasons: (1) mPLMs are expected to have a single, unified parameter set across all languages, and (2) they need to function seamlessly as universal text encoders without requiring language IDs as input. However, this removal increases the burden on token embeddings to encode all language-specific information, which may hinder the model's ability to produce more language-neutral representations. To address this challenge, we propose Language-Script Aware Multilingual Pretraining (LangSAMP), a method that incorporates both language and script embeddings to enhance representation learning while maintaining a simple architecture. Specifically, we integrate these embeddings into the output of the transformer blocks before passing the final representations to the language modeling head for prediction. We apply LangSAMP to the continual pretraining of XLM-R on a highly multilingual corpus covering more than 500 languages. The resulting model consistently outperforms the baseline. Extensive analysis further shows that language/script embeddings encode language/script-specific information, which improves the selection of source languages for crosslingual transfer. We make our code and models publicly available at \url{https://github.com/cisnlp/LangSAMP}. | 翻訳日:2024-11-06 15:31:30 公開日:2024-09-26 |
# ループ拡散-タンパク質ループの設計と評価のための同変拡散モデル
Loop-Diffusion: an equivariant diffusion model for designing and scoring protein loops ( http://arxiv.org/abs/2409.18201v1 ) ライセンス: Link先を確認 | Kevin Borisiak, Gian Marco Visani, Armita Nourmohammad, | (参考訳) 構造からタンパク質の機能的特性を予測することは、タンパク質科学の中心的な問題であり、疾患のメカニズムの理解から新しい治療法の設計まで幅広い意味を持つ。
残念なことに、現在の機械学習手法は、不足と偏見のある実験データによって制限されており、物理ベースの手法は有用であるには遅すぎるか、正確であるには単純すぎる。
本研究では,タンパク質全体の一般タンパク質ループのデータセットを利用して,機能的予測タスクに一般化するエネルギー関数を学習するエネルギーベース拡散モデルであるLoop-Diffusionを提案する。
我々は,TCR-pMHCインタフェースの評価におけるLoop-Diffusionの性能を評価し,結合強調突然変異の認識における最先端の結果を示す。
Predicting protein functional characteristics from structure remains a central problem in protein science, with broad implications from understanding the mechanisms of disease to designing novel therapeutics. Unfortunately, current machine learning methods are limited by scarce and biased experimental data, and physics-based methods are either too slow to be useful, or too simplified to be accurate. In this work, we present Loop-Diffusion, an energy based diffusion model which leverages a dataset of general protein loops from the entire protein universe to learn an energy function that generalizes to functional prediction tasks. We evaluate Loop-Diffusion's performance on scoring TCR-pMHC interfaces and demonstrate state-of-the-art results in recognizing binding-enhancing mutations. | 翻訳日:2024-11-06 15:31:30 公開日:2024-09-26 |
# 量子スイッチは決定論的にシミュレートできるのか?
Can the quantum switch be deterministically simulated? ( http://arxiv.org/abs/2409.18202v1 ) ライセンス: Link先を確認 | Jessica Bavaresco, Satoshi Yoshida, Tatsuki Odake, Hlér Kristjánsson, Philip Taranto, Mio Murao, Marco Túlio Quintino, | (参考訳) 特定の数の入力量子チャネル(例えば量子スイッチ)に作用する高次変換は、入力量子チャネルの同じ数の呼び出しを使用する標準量子回路では記述できない。
しかしながら、入力チャネルに対する動作が任意の入力に対して決定論的に再現できるかどうかを、入力チャネルのより多くの呼び出しを使用する量子回路によってシミュレートできるかどうかという疑問が残る。
ここでは、各入力チャネルに1つの余分な呼び出ししかできない場合、量子スイッチは任意の量子回路でシミュレートできないことを示す。
確率的および近似的なシミュレーションが検討されたとしても、量子スイッチに近い高次変換は1つ未満の確率でうまくシミュレートできることを示すことにより、この結果が堅牢であることを示す。
この結果は、量子スイッチがユニタリチャネルにのみ作用すると、その作用をシミュレートできるという既知の事実とは対照的である。
Higher-order transformations that act on a certain number of input quantum channels in an indefinite causal order - such as the quantum switch - cannot be described by standard quantum circuits that use the same number of calls of the input quantum channels. However, the question remains whether they can be simulated, i.e., whether their action on their input channels can be deterministically reproduced, for all arbitrary inputs, by a quantum circuit that uses a larger number of calls of the input channels. Here, we prove that when only one extra call of each input channel is available, the quantum switch cannot be simulated by any quantum circuit. We demonstrate that this result is robust by showing that, even when probabilistic and approximate simulations are considered, higher-order transformations that are close to the quantum switch can be at best simulated with a probability strictly less than one. This result stands in stark contrast with the known fact that, when the quantum switch acts exclusively on unitary channels, its action can be simulated. | 翻訳日:2024-11-06 15:31:30 公開日:2024-09-26 |
# AIポリシープロジェクタ - 反復マップ作成におけるLLMポリシー設計の基礎
AI Policy Projector: Grounding LLM Policy Design in Iterative Mapmaking ( http://arxiv.org/abs/2409.18203v1 ) ライセンス: Link先を確認 | Michelle S. Lam, Fred Hohman, Dominik Moritz, Jeffrey P. Bigham, Kenneth Holstein, Mary Beth Kery, | (参考訳) 大きな言語モデルポリシーが明示的な憲法や暗黙の報酬モデルであるかどうかに関わらず、政策が競合しなければならない現実的な状況の無境界の集合に対するカバレッジを評価することは困難である。
我々は、地図作成にインスパイアされたAIポリシー設計プロセスを導入し、完全なカバレッジが不可能な場合でも、地図を視覚化し、反復するための戦術を開発した。
Policy Projectorを使えば、ポリシーデザイナはモデル入力と出力ペアの状況を調査し、カスタムリージョン(例:「違反」)を定義し、LSM出力に適用可能なルールでこれらのリージョンをナビゲートできる(例:出力が「違反」と「グラフィック詳細」を含む場合)。
ポリシープロジェクタは、LCM分類とステアリングを用いたインタラクティブなポリシーオーサリングと、ポリシーデザイナの業務を反映したマップ視覚化をサポートする。
我々のシステムは、12人のAI安全専門家による評価において、既存の包括的有害分類を超えて、問題のあるモデル行動に対処するのに役立つ。
Whether a large language model policy is an explicit constitution or an implicit reward model, it is challenging to assess coverage over the unbounded set of real-world situations that a policy must contend with. We introduce an AI policy design process inspired by mapmaking, which has developed tactics for visualizing and iterating on maps even when full coverage is not possible. With Policy Projector, policy designers can survey the landscape of model input-output pairs, define custom regions (e.g., "violence"), and navigate these regions with rules that can be applied to LLM outputs (e.g., if output contains "violence" and "graphic details," then rewrite without "graphic details"). Policy Projector supports interactive policy authoring using LLM classification and steering and a map visualization reflecting the policy designer's work. In an evaluation with 12 AI safety experts, our system helps policy designers to address problematic model behaviors extending beyond an existing, comprehensive harm taxonomy. | 翻訳日:2024-11-06 15:31:30 公開日:2024-09-26 |
# 深ブラインドRAW画像の高効率化に向けて
Toward Efficient Deep Blind RAW Image Restoration ( http://arxiv.org/abs/2409.18204v1 ) ライセンス: Link先を確認 | Marcos V. Conde, Florin Vasluianu, Radu Timofte, | (参考訳) 複数の低ビジョンタスク、例えばデノイング、デブロアリング、超分解能はRGBイメージから離脱し、さらに劣化を低減し、品質を改善した。
しかし、画像信号プロセッサ(ISP)変換のため、sRGB領域の劣化のモデル化は複雑である。
この既知の問題にもかかわらず、文献ではセンサーRAW画像を直接扱う方法はほとんどない。
本研究では,RAW領域での画像復元を行う。
我々は、深部ブラインドRAW復元モデルをトレーニングするための、新しい現実的な劣化パイプラインを設計する。
私たちのパイプラインでは、リアルなセンサーノイズ、動きのぼかし、カメラの揺れ、その他の一般的な劣化について検討しています。
パイプラインと複数のセンサーのデータで訓練されたモデルは、ノイズとぼやけをうまく低減し、異なるカメラから撮影されたRAW画像の細部を復元する。
我々の知る限りでは、RAW画像復元に関する最も徹底的な分析である。
https://github.com/mv-lab/AISP
Multiple low-vision tasks such as denoising, deblurring and super-resolution depart from RGB images and further reduce the degradations, improving the quality. However, modeling the degradations in the sRGB domain is complicated because of the Image Signal Processor (ISP) transformations. Despite of this known issue, very few methods in the literature work directly with sensor RAW images. In this work we tackle image restoration directly in the RAW domain. We design a new realistic degradation pipeline for training deep blind RAW restoration models. Our pipeline considers realistic sensor noise, motion blur, camera shake, and other common degradations. The models trained with our pipeline and data from multiple sensors, can successfully reduce noise and blur, and recover details in RAW images captured from different cameras. To the best of our knowledge, this is the most exhaustive analysis on RAW image restoration. Code available at https://github.com/mv-lab/AISP | 翻訳日:2024-11-06 15:21:45 公開日:2024-09-26 |
# ブリジングOOD検出と一般化:グラフ理論の視点から
Bridging OOD Detection and Generalization: A Graph-Theoretic View ( http://arxiv.org/abs/2409.18205v1 ) ライセンス: Link先を確認 | Han Wang, Yixuan Li, | (参考訳) 現代の機械学習の文脈では、現実世界のシナリオにデプロイされたモデルは、共変量やセマンティックシフトのような多様なデータシフトに遭遇することが多く、アウト・オブ・ディストリビューション(OOD)の一般化と検出の両面での課題に繋がる。
これらの問題に別々に注意を払っているにもかかわらず、理論的理解と実践的利用のための統一された枠組みは欠如している。
このギャップを埋めるために,OODの一般化と検出の両問題に共同で取り組むグラフ理論の枠組みを導入する。
グラフ定式化を利用すると、グラフの隣接行列の分解によってデータ表現が得られ、OOD一般化と検出性能の証明可能な誤差を導出できる。
実験の結果,既存の手法と比較して競争性能が向上し,理論的基盤の検証が可能となった。
コードはhttps://github.com/deeplearning-wisc/graph-spectral-ood.comで公開されている。
In the context of modern machine learning, models deployed in real-world scenarios often encounter diverse data shifts like covariate and semantic shifts, leading to challenges in both out-of-distribution (OOD) generalization and detection. Despite considerable attention to these issues separately, a unified framework for theoretical understanding and practical usage is lacking. To bridge the gap, we introduce a graph-theoretic framework to jointly tackle both OOD generalization and detection problems. By leveraging the graph formulation, data representations are obtained through the factorization of the graph's adjacency matrix, enabling us to derive provable error quantifying OOD generalization and detection performance. Empirical results showcase competitive performance in comparison to existing methods, thereby validating our theoretical underpinnings. Code is publicly available at https://github.com/deeplearning-wisc/graph-spectral-ood. | 翻訳日:2024-11-06 15:21:45 公開日:2024-09-26 |
# ノイズコントラスト推定による非正規分布学習の一考察
A Unified View on Learning Unnormalized Distributions via Noise-Contrastive Estimation ( http://arxiv.org/abs/2409.18209v1 ) ライセンス: Link先を確認 | J. Jon Ryu, Abhin Shah, Gregory W. Wornell, | (参考訳) 本稿では,非正規分布学習のためのノイズコントラスト推定(NCE)に基づく推定器群について検討する。
この研究の主な貢献は、NCEのレンズを通して独立した研究コミュニティで提案され研究されている、正規化されていない分布を学習するための様々な方法に関する統一的な視点を提供することである。
この統合されたビューは、既存の推定値に対する新たな洞察を提供する。
具体的には指数族に対して、提案された推定器の有限サンプル収束速度を正則性の仮定の集合の下で確立するが、そのほとんどは新しいものである。
This paper studies a family of estimators based on noise-contrastive estimation (NCE) for learning unnormalized distributions. The main contribution of this work is to provide a unified perspective on various methods for learning unnormalized distributions, which have been independently proposed and studied in separate research communities, through the lens of NCE. This unified view offers new insights into existing estimators. Specifically, for exponential families, we establish the finite-sample convergence rates of the proposed estimators under a set of regularity assumptions, most of which are new. | 翻訳日:2024-11-06 15:21:45 公開日:2024-09-26 |
# 信頼できるテキストと画像の拡散モデル:タイムリーで焦点を絞った調査
Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey ( http://arxiv.org/abs/2409.18214v1 ) ライセンス: Link先を確認 | Yi Zhang, Zhen Chen, Chih-Hong Cheng, Wenjie Ruan, Xiaowei Huang, Dezong Zhao, David Flynn, Siddartha Khastgir, Xingyu Zhao, | (参考訳) テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、画像生成における顕著な進歩に対して広く注目を集めている。
しかし、彼らの人気は、従来のディープラーニング(DL)タスクと同様、堅牢性、公正性、セキュリティ、プライバシ、事実性、説明可能性といった、信頼性の重要な非機能的特性に関連する倫理的・社会的関心を高めている。
従来のDLタスクの信頼性研究手法では,T2I DMの特異な特性,例えばマルチモーダルな性質が原因で,不足することが多い。
この課題を踏まえ、近年のT2I DMの信頼性調査手法の開発に、ファルシフィケーション、エンハンスメント、検証・検証、評価など、様々な手法を用いて取り組んでいる。
しかし、これらの機能的でない性質や手段に関する詳細な分析が欠如している。
本調査では,信頼性の高いT2I DMに関する文献をタイムリーかつ集中的にレビューし,特性,手段,ベンチマーク,アプリケーションの観点から,簡潔な分類を網羅する。
本稿では,T2I DM の基本前提について紹介し,T2I タスクに特有のキー定義/指標を要約し,これらの定義/指標に基づいて近年の文献で提案されている方法を分析する。
さらに、T2I DMのベンチマークとドメイン適用について検討する。
最後に、現在の研究のギャップを強調し、既存の手法の限界について議論し、信頼性の高いT2I DMの開発を進めるための今後の研究方向性を提案する。
さらに、この領域の最新のアップデートを更新して、最新の開発を追跡し、GitHubリポジトリを次のようにメンテナンスしています。
Text-to-Image (T2I) Diffusion Models (DMs) have garnered widespread attention for their impressive advancements in image generation. However, their growing popularity has raised ethical and social concerns related to key non-functional properties of trustworthiness, such as robustness, fairness, security, privacy, factuality, and explainability, similar to those in traditional deep learning (DL) tasks. Conventional approaches for studying trustworthiness in DL tasks often fall short due to the unique characteristics of T2I DMs, e.g., the multi-modal nature. Given the challenge, recent efforts have been made to develop new methods for investigating trustworthiness in T2I DMs via various means, including falsification, enhancement, verification \& validation and assessment. However, there is a notable lack of in-depth analysis concerning those non-functional properties and means. In this survey, we provide a timely and focused review of the literature on trustworthy T2I DMs, covering a concise-structured taxonomy from the perspectives of property, means, benchmarks and applications. Our review begins with an introduction to essential preliminaries of T2I DMs, and then we summarise key definitions/metrics specific to T2I tasks and analyses the means proposed in recent literature based on these definitions/metrics. Additionally, we review benchmarks and domain applications of T2I DMs. Finally, we highlight the gaps in current research, discuss the limitations of existing methods, and propose future research directions to advance the development of trustworthy T2I DMs. Furthermore, we keep up-to-date updates in this field to track the latest developments and maintain our GitHub repository at: https://github.com/wellzline/Trustworthy_T2I_DMs | 翻訳日:2024-11-06 15:21:45 公開日:2024-09-26 |
# MMMT-IF:ベンチマーク後のマルチモーダルマルチトゥルインストラクション
MMMT-IF: A Challenging Multimodal Multi-Turn Instruction Following Benchmark ( http://arxiv.org/abs/2409.18216v1 ) ライセンス: Link先を確認 | Elliot L. Epstein, Kaisheng Yao, Jing Li, Xinyi Bai, Hamid Palangi, | (参考訳) マルチモーダル・マルチターン対話のための命令追従機能の評価は困難である。
入力モデルのコンテキストにおいて、潜在的に複数の命令が与えられた場合、そのタスクは人間のレーダに時間を要するので、LLMベースの判断者は同一モデルからの回答に偏りがあることが示される。
画像に基づくマルチターンQ$&$A評価セットであるMMMT-IFを提案する。
これにより、長い対話と命令制約下での推論に分散した命令を検索するモデルに挑戦する。
すべての命令は、コード実行によって客観的に検証される。
我々は、推論タスクを実行しながら、正しく従う命令の分数を測定するために、Programmatic Instruction following ($\operatorname{PIF}$)メトリックを導入する。
さらに、$\operatorname{PIF-N-K}$の値集合は、コーパス内のサンプルの分数を測定することでロバスト性を評価し、各サンプルに対して、N 生成モデル応答のうち少なくとも K が$\operatorname{PIF}$のスコアを得る。
$\operatorname{PIF}$メトリックは、評価後の人間の指示と一致し、60%の相関を示す。
実験によると、Gemini 1.5 Pro、GPT-4o、Claude 3.5 Sonnetは$\operatorname{PIF}$の計量を持ち、平均で0.81から0.64に落ちている。
すべてのターンで、各レスポンスが4回繰り返す(\operatorname{PIF-4}$)と、GPT-4oとGeminiは、すべての命令に従うことに成功した。
すべての命令がモデル入力コンテキストの最後に付加される場合、$\operatorname{PIF}$のメトリックは平均22.3ポイント改善され、タスクの課題は命令に従うだけでなく、モデルコンテキストに散らばる命令を取得することにある。
我々はMMMT-IFデータセットとメートル法計算コードをオープンソース化する計画である。
Evaluating instruction following capabilities for multimodal, multi-turn dialogue is challenging. With potentially multiple instructions in the input model context, the task is time-consuming for human raters and we show LLM based judges are biased towards answers from the same model. We propose MMMT-IF, an image based multi-turn Q$\&$A evaluation set with added global instructions between questions, constraining the answer format. This challenges models to retrieve instructions dispersed across long dialogues and reason under instruction constraints. All instructions are objectively verifiable through code execution. We introduce the Programmatic Instruction Following ($\operatorname{PIF}$) metric to measure the fraction of the instructions that are correctly followed while performing a reasoning task. The $\operatorname{PIF-N-K}$ set of metrics further evaluates robustness by measuring the fraction of samples in a corpus where, for each sample, at least K out of N generated model responses achieve a $\operatorname{PIF}$ score of one. The $\operatorname{PIF}$ metric aligns with human instruction following ratings, showing 60 percent correlation. Experiments show Gemini 1.5 Pro, GPT-4o, and Claude 3.5 Sonnet, have a $\operatorname{PIF}$ metric that drops from 0.81 on average at turn 1 across the models, to 0.64 at turn 20. Across all turns, when each response is repeated 4 times ($\operatorname{PIF-4-4}$), GPT-4o and Gemini successfully follow all instructions only $11\%$ of the time. When all the instructions are also appended to the end of the model input context, the $\operatorname{PIF}$ metric improves by 22.3 points on average, showing that the challenge with the task lies not only in following the instructions, but also in retrieving the instructions spread out in the model context. We plan to open source the MMMT-IF dataset and metric computation code. | 翻訳日:2024-11-06 15:21:45 公開日:2024-09-26 |
# 非対称なセルフプレイによるドライブ学習
Learning to Drive via Asymmetric Self-Play ( http://arxiv.org/abs/2409.18218v1 ) ライセンス: Link先を確認 | Chris Zhang, Sourav Biswas, Kelvin Wong, Kion Fallah, Lunjun Zhang, Dian Chen, Sergio Casas, Raquel Urtasun, | (参考訳) 大規模データは、現実的で有能な運転ポリシーを学ぶために不可欠である。
しかし、実際のデータだけでデータセットのスケーリングに頼るのは現実的ではない。
運転データの大部分は興味がなく、新しいロングテールシナリオを意図的に収集することは高価で安全ではない。
我々は、より困難で、解決可能で、現実的な合成シナリオを伴って、実際のデータを超えてスケールする非対称なセルフプレイを提案する。
私たちのアプローチは、解決可能なシナリオを生成することを学ぶ教師と、それを解くことを学ぶ学生のペアです。
交通シミュレーションに適用すると、名目シナリオとロングテールシナリオの両方において、衝突が著しく少ない現実的なポリシーを学習する。
当社の方針は、エンドツーエンドの自律性のためのトレーニングデータを生成するためのゼロショット転送をさらに強化し、最先端の敵アプローチを著しく上回り、実際のデータのみを使用する。
詳細はhttps://waabi.ai/selfplay を参照してください。
Large-scale data is crucial for learning realistic and capable driving policies. However, it can be impractical to rely on scaling datasets with real data alone. The majority of driving data is uninteresting, and deliberately collecting new long-tail scenarios is expensive and unsafe. We propose asymmetric self-play to scale beyond real data with additional challenging, solvable, and realistic synthetic scenarios. Our approach pairs a teacher that learns to generate scenarios it can solve but the student cannot, with a student that learns to solve them. When applied to traffic simulation, we learn realistic policies with significantly fewer collisions in both nominal and long-tail scenarios. Our policies further zero-shot transfer to generate training data for end-to-end autonomy, significantly outperforming state-of-the-art adversarial approaches, or using real data alone. For more information, visit https://waabi.ai/selfplay . | 翻訳日:2024-11-06 15:21:45 公開日:2024-09-26 |
# 装填負荷検査の革新: 少しのショットで精度向上への自己監督的な旅
Revolutionizing Payload Inspection: A Self-Supervised Journey to Precision with Few Shots ( http://arxiv.org/abs/2409.18219v1 ) ライセンス: Link先を確認 | Kyle Stein, Arash Mahyari, Guillermo Francia III, Eman El-Sheikh, | (参考訳) ネットワークの拡大と相互接続化が進むにつれ,新たなマルウェア検出手法の必要性が高まっている。
従来のセキュリティ対策は、現代のサイバー攻撃の高度化に対してますます不十分になっている。
ディープパケット検査(Deep Packet Inspection, DPI)は、ネットワークセキュリティの強化において重要であり、従来の監視技術を超えるネットワークトラフィックの詳細な分析を提供する。
DPIは、ネットワークパケットのメタデータを調べるだけでなく、パケットペイロード内にある実際のコンテンツを掘り下げ、ネットワークを流れるデータの包括的なビューを提供する。
先進的なディープラーニング技術とDPIの統合により、マルウェア検出に現代的な手法が導入された。
しかし、最先端の教師付き学習アプローチの課題は、ペイロードに埋め込まれた未確認攻撃の一般化を防ぎ、新しい攻撃を正確に検出し、以前の攻撃から学んだ知識を小さなラベル付きサンプルサイズで新しい攻撃に転送することを禁止していることである。
本稿では,近年の自己教師型学習と少数ショット学習の進歩を活用する。
提案した自己教師型アプローチは,ペイロードの一部をマスキングすることで,大量の未ラベルデータセットからペイロードの埋め込みを学習するためにトランスフォーマーを訓練する。
ペイロードから表現が抽出されると、マルウェア検出アルゴリズムのトレーニングに使用される。
変換器から得られた表現は、数発の学習アプローチを用いて、マルウェア検出器を新しいタイプの攻撃に適応するために使用される。
いくつかのデータセットを対象とした実験結果から,提案手法の斬新なシナリオに対する大きな成功と一般化が示された。
As networks continue to expand and become more interconnected, the need for novel malware detection methods becomes more pronounced. Traditional security measures are increasingly inadequate against the sophistication of modern cyber attacks. Deep Packet Inspection (DPI) has been pivotal in enhancing network security, offering an in-depth analysis of network traffic that surpasses conventional monitoring techniques. DPI not only examines the metadata of network packets, but also dives into the actual content being carried within the packet payloads, providing a comprehensive view of the data flowing through networks. The integration of advanced deep learning techniques with DPI has introduced modern methodologies into malware detection. However, the challenge with the state-of-the-art supervised learning approaches is that they prevent the generalization to unseen attacks embedded in the payloads, prohibiting them from accurately detecting new attacks and transferring knowledge learned from previous attacks to the new attacks with small labeled sample sizes. This paper leverages the recent advancements in self-supervised learning and few-shot learning. Our proposed self-supervised approach trains a transformer to learn the embedding of the payloads from a vast amount of unlabeled datasets by masking portions of payloads, leading to a learnt representation that well generalizes to various downstream tasks. Once the representation is extracted from payloads, they are used to train a malware detection algorithm. The representation obtained from the transformer is then used to adapt the malware detector to novel types of attacks using few-shot learning approaches. Our experimental results across several datasets show the great success and generalization of the proposed approach to novel scenarios. | 翻訳日:2024-11-06 15:21:45 公開日:2024-09-26 |
# 信頼できるAI - 大規模言語モデルにおけるセンシティブなデータ保護
Trustworthy AI: Securing Sensitive Data in Large Language Models ( http://arxiv.org/abs/2409.18222v1 ) ライセンス: Link先を確認 | Georgios Feretzakis, Vassilios S. Verykios, | (参考訳) 大規模言語モデル(LLM)は、堅牢なテキスト生成と理解を可能にし、自然言語処理(NLP)を変革した。
しかしながら、医療、金融、法律サービスといった機密性の高い分野への展開は、プライバシとデータセキュリティに関する重要な懸念を提起する。
本稿では, 機密情報の開示を動的に制御するために, 信頼機構をLCMに組み込むための包括的枠組みを提案する。
このフレームワークは、ユーザ信頼プロファイリング、情報感度検出、適応出力制御の3つのコアコンポーネントを統合している。
RBAC(Role-Based Access Control)、ABAC(Attribute-Based Access Control)、NER(Named Entity Recognition)、コンテキスト分析(Contextual Analysis)、および差分プライバシーのようなプライバシ保護手法を活用することにより、システムはユーザの信頼度に基づいて機密情報が適切に開示されることを保証する。
データユーティリティとプライバシのバランスに焦点を合わせることで、提案されたソリューションは、リスクの高い環境でLLMをセキュアにデプロイするための新しいアプローチを提供する。
今後の作業は、このフレームワークをさまざまなドメインでテストすることに集中し、システムの効率を維持しながら機密データを管理する効率を評価する。
Large Language Models (LLMs) have transformed natural language processing (NLP) by enabling robust text generation and understanding. However, their deployment in sensitive domains like healthcare, finance, and legal services raises critical concerns about privacy and data security. This paper proposes a comprehensive framework for embedding trust mechanisms into LLMs to dynamically control the disclosure of sensitive information. The framework integrates three core components: User Trust Profiling, Information Sensitivity Detection, and Adaptive Output Control. By leveraging techniques such as Role-Based Access Control (RBAC), Attribute-Based Access Control (ABAC), Named Entity Recognition (NER), contextual analysis, and privacy-preserving methods like differential privacy, the system ensures that sensitive information is disclosed appropriately based on the user's trust level. By focusing on balancing data utility and privacy, the proposed solution offers a novel approach to securely deploying LLMs in high-risk environments. Future work will focus on testing this framework across various domains to evaluate its effectiveness in managing sensitive data while maintaining system efficiency. | 翻訳日:2024-11-06 15:21:45 公開日:2024-09-26 |
# PNR:高分解能FM再構成のための物理インフォームドニューラル表現
PNR: Physics-informed Neural Representation for high-resolution LFM reconstruction ( http://arxiv.org/abs/2409.18223v1 ) ライセンス: Link先を確認 | Jiayin Zhao, Zhifeng Zhao, Jiamin Wu, Tao Yu, Hui Qiao, | (参考訳) 光電場顕微鏡(LFM)は、高解像度の3Dシーンを効率よく捉えるために様々な分野で広く利用されている。
神経表現の急速な進歩にもかかわらず、微視的シーンに適した方法はほとんどない。
既存のアプローチは、デフォーカスやサンプル収差による高周波情報の損失などの問題に適切に対処しないことが多く、結果として準最適性能が得られる。
さらに、RTD、INR、教師付きU-Netを含む既存の手法では、初期推定への感度、広範なラベル付きデータへの依存、計算効率の低下といった課題に直面しており、これらは複雑な生物学的シナリオにおける実用性を著しく低下させる。
本稿ではPNR(Physics-informed Neural Representation)を提案する。
提案手法は教師なしかつ明示的な特徴表現手法を取り入れ,PSNRがRTDよりも6.1dB向上した。
さらに、本手法では、周波数に基づくトレーニング損失を生かし、高周波詳細の回復を向上し、SOTA法(DINERの1.762V.S. 3.646)と比較してLPIPSを少なくとも半分削減する。
さらに、PNRは、最適化中のZernike多項式パラメータを最適化する物理インフォームド収差補正戦略を統合し、収差による情報損失を低減し、空間分解能を向上させる。
これらの進歩により、PNRは長期の高分解能生体イメージング応用に有望な解決策となる。
コードとデータセットは公開されます。
Light field microscopy (LFM) has been widely utilized in various fields for its capability to efficiently capture high-resolution 3D scenes. Despite the rapid advancements in neural representations, there are few methods specifically tailored for microscopic scenes. Existing approaches often do not adequately address issues such as the loss of high-frequency information due to defocus and sample aberration, resulting in suboptimal performance. In addition, existing methods, including RLD, INR, and supervised U-Net, face challenges such as sensitivity to initial estimates, reliance on extensive labeled data, and low computational efficiency, all of which significantly diminish the practicality in complex biological scenarios. This paper introduces PNR (Physics-informed Neural Representation), a method for high-resolution LFM reconstruction that significantly enhances performance. Our method incorporates an unsupervised and explicit feature representation approach, resulting in a 6.1 dB improvement in PSNR than RLD. Additionally, our method employs a frequency-based training loss, enabling better recovery of high-frequency details, which leads to a reduction in LPIPS by at least half compared to SOTA methods (1.762 V.S. 3.646 of DINER). Moreover, PNR integrates a physics-informed aberration correction strategy that optimizes Zernike polynomial parameters during optimization, thereby reducing the information loss caused by aberrations and improving spatial resolution. These advancements make PNR a promising solution for long-term high-resolution biological imaging applications. Our code and dataset will be made publicly available. | 翻訳日:2024-11-06 15:01:18 公開日:2024-09-26 |
# 自己教師型モデルにおける空間拡張の分析 : トレーニングとテスト分布のパービュー
Analysis of Spatial augmentation in Self-supervised models in the purview of training and test distributions ( http://arxiv.org/abs/2409.18228v1 ) ライセンス: Link先を確認 | Abhishek Jha, Tinne Tuytelaars, | (参考訳) 本稿では,自己指導型表現学習手法(対照的・非対照的),すなわちランダムな作物と切り抜きに使用される典型的な空間拡張技術について,実証的研究を行う。
私たちの貢献は次のとおりです。
(a) 乱作を2つの別個の増補, オーバーラップ, パッチに分解し, ダウンストリームタスクの精度に対するオーバーラップ面積とパッチサイズの影響を詳細に解析する。
b) 以前の文献で報告されたように, カットアウト増強がよい表現を学ばない理由について考察する。
最後に、これらの分析に基づいて。
(c) オブジェクト中心の分布における下流タスクのシーン中心の表現を学習するための不分散損失に対する距離ベースマージンを提案し, シーン中心の画像における2つの空間ビュー間の画素距離に比例するマージンとして, 学習された表現を改善することができることを示した。
本研究は, 空間拡張の理解と, トレーニング強化とテスト分布の領域ギャップの影響について検討した。
In this paper, we present an empirical study of typical spatial augmentation techniques used in self-supervised representation learning methods (both contrastive and non-contrastive), namely random crop and cutout. Our contributions are: (a) we dissociate random cropping into two separate augmentations, overlap and patch, and provide a detailed analysis on the effect of area of overlap and patch size to the accuracy on down stream tasks. (b) We offer an insight into why cutout augmentation does not learn good representation, as reported in earlier literature. Finally, based on these analysis, (c) we propose a distance-based margin to the invariance loss for learning scene-centric representations for the downstream task on object-centric distribution, showing that as simple as a margin proportional to the pixel distance between the two spatial views in the scence-centric images can improve the learned representation. Our study furthers the understanding of the spatial augmentations, and the effect of the domain-gap between the training augmentations and the test distribution. | 翻訳日:2024-11-06 15:01:18 公開日:2024-09-26 |
# ビジュアルコンセプトネットワーク:ディープニューラルネットワークにおける異常データ検出のためのグラフベースのアプローチ
Visual Concept Networks: A Graph-Based Approach to Detecting Anomalous Data in Deep Neural Networks ( http://arxiv.org/abs/2409.18235v1 ) ライセンス: Link先を確認 | Debargha Ganguly, Debayan Gupta, Vipin Chaudhary, | (参考訳) ディープニューラルネットワーク(DNN)は多くのアプリケーションにますますデプロイされているが、異常やアウト・オブ・ディストリビューション(OOD)データに対する堅牢性に苦慮している。
現在のOODベンチマークは、しばしば単純化され、単一のオブジェクトタスクに重点を置いており、複雑な現実世界の異常を完全に表現していない。
本稿では, グラフ構造とトポロジ的特徴を利用して, 遠距離OODデータと近距離OODデータの両方を効果的に検出する手法を提案する。
画像を相互接続された人間の理解可能な特徴や視覚概念のネットワークに変換する。
大きな語彙と多様なタスクによるアブレーション研究を含む2つの新しいタスクの広範なテストを通じて、本手法の有効性を実証する。
このアプローチにより、OODデータに対するDNNレジリエンスが向上し、さまざまなアプリケーションのパフォーマンスが向上する。
Deep neural networks (DNNs), while increasingly deployed in many applications, struggle with robustness against anomalous and out-of-distribution (OOD) data. Current OOD benchmarks often oversimplify, focusing on single-object tasks and not fully representing complex real-world anomalies. This paper introduces a new, straightforward method employing graph structures and topological features to effectively detect both far-OOD and near-OOD data. We convert images into networks of interconnected human understandable features or visual concepts. Through extensive testing on two novel tasks, including ablation studies with large vocabularies and diverse tasks, we demonstrate the method's effectiveness. This approach enhances DNN resilience to OOD data and promises improved performance in various applications. | 翻訳日:2024-11-06 15:01:18 公開日:2024-09-26 |
# 聴取者における低ミリ秒レイテンシリアルタイム音声強調モデルの実現に向けて
Towards sub-millisecond latency real-time speech enhancement models on hearables ( http://arxiv.org/abs/2409.18239v1 ) ライセンス: Link先を確認 | Artem Dementyev, Chandan K. A. Reddy, Scott Wisdom, Navin Chatlani, John R. Hershey, Richard F. Lyon, | (参考訳) 低レイテンシモデルは、補聴器や補聴器などのリアルタイム音声強調アプリケーションに不可欠である。
しかし、資源制約された可聴器のミリ秒未満の遅延空間は、まだ探索されていない。
計算効率の低い最小位相FIRフィルタを用いて音声強調を行い、サンプル・バイ・サンプル処理により平均アルゴリズム遅延0.32msから1.25msを実現し、単一のマイクロホンで平均SI-SDRiの4.1dBを観測する。
このアプローチは、未確認音声記録におけるDNSMOSの0.2増加による一般化を示す。
我々は、FIRタップを生成するために、644kパラメータの軽量LSTMモデルを使用する。
我々は,388 MIPSの低消費電力DSPと3.35 msの平均終端遅延をベンチマークし,ベースラインの低遅延スペクトルマスキング技術との比較を行った。
この作業によってレイテンシの理解が向上し,可聴性の快適性とユーザビリティの向上が期待できます。
Low latency models are critical for real-time speech enhancement applications, such as hearing aids and hearables. However, the sub-millisecond latency space for resource-constrained hearables remains underexplored. We demonstrate speech enhancement using a computationally efficient minimum-phase FIR filter, enabling sample-by-sample processing to achieve mean algorithmic latency of 0.32 ms to 1.25 ms. With a single microphone, we observe a mean SI-SDRi of 4.1 dB. The approach shows generalization with a DNSMOS increase of 0.2 on unseen audio recordings. We use a lightweight LSTM-based model of 644k parameters to generate FIR taps. We benchmark that our system can run on low-power DSP with 388 MIPS and mean end-to-end latency of 3.35 ms. We provide a comparison with baseline low-latency spectral masking techniques. We hope this work will enable a better understanding of latency and can be used to improve the comfort and usability of hearables. | 翻訳日:2024-11-06 15:01:18 公開日:2024-09-26 |
# ICS攻撃に耐えるエッジレジリエントMLアンサンブルの開発
Development of an Edge Resilient ML Ensemble to Tolerate ICS Adversarial Attacks ( http://arxiv.org/abs/2409.18244v1 ) ライセンス: Link先を確認 | Likai Yao, Qinxuan Shi, Zhanglong Yang, Sicong Shao, Salim Hariri, | (参考訳) 動的データ駆動型アプリケーションシステム(DDDAS)に機械学習(ML)をデプロイすることで、産業制御システム(ICS)のセキュリティが向上する。
しかし、MLベースのDDDASは、敵が入力データをわずかに変更してMLモデルが異なる結果を予測することができるため、敵攻撃に対して脆弱である。
本稿では、データエアギャップ変換(DAGT)を実行し、深層ニューラルネットワークを用いてデータ特徴空間を匿名化し、予測に使用するMLモデルをランダム化することにより、敵攻撃に耐えられるレジリエントエッジ機械学習(reML)アーキテクチャを構築することを目的とする。
reMLはResilient DDDASパラダイム、移動目標防衛(MTD)理論、TinyMLに基づいており、ICSに対する敵の攻撃に適用される。
さらに、提案手法は電力効率とプライバシ保護であり、そのため、ICSセキュリティを強化するために、電力制約のあるデバイスにデプロイすることができる。
このアプローチは、計算をコンピューティング集約型プラットフォームからリソース制約のエッジデバイスにシフトすることで、エッジでのレジリエントML推論を可能にする。
TinyMLとTensorFlow Liteの併用により、リソースの効率的な利用が保証され、その結果、さまざまな産業制御環境へのデプロイに適したreMLが実現される。
さらに、レジリエントなDDDAS開発環境によって促進されるreMLの動的な性質は、新たな脅威に対応する継続的適応と改善を可能にします。
最後に、ICSデータセットに対する我々のアプローチを評価し、reMLがエッジデバイスでのレジリエントML推論に有効かつ効果的なソリューションを提供することを示す。
Deploying machine learning (ML) in dynamic data-driven applications systems (DDDAS) can improve the security of industrial control systems (ICS). However, ML-based DDDAS are vulnerable to adversarial attacks because adversaries can alter the input data slightly so that the ML models predict a different result. In this paper, our goal is to build a resilient edge machine learning (reML) architecture that is designed to withstand adversarial attacks by performing Data Air Gap Transformation (DAGT) to anonymize data feature spaces using deep neural networks and randomize the ML models used for predictions. The reML is based on the Resilient DDDAS paradigm, Moving Target Defense (MTD) theory, and TinyML and is applied to combat adversarial attacks on ICS. Furthermore, the proposed approach is power-efficient and privacy-preserving and, therefore, can be deployed on power-constrained devices to enhance ICS security. This approach enables resilient ML inference at the edge by shifting the computation from the computing-intensive platforms to the resource-constrained edge devices. The incorporation of TinyML with TensorFlow Lite ensures efficient resource utilization and, consequently, makes reML suitable for deployment in various industrial control environments. Furthermore, the dynamic nature of reML, facilitated by the resilient DDDAS development environment, allows for continuous adaptation and improvement in response to emerging threats. Lastly, we evaluate our approach on an ICS dataset and demonstrate that reML provides a viable and effective solution for resilient ML inference at the edge devices. | 翻訳日:2024-11-06 15:01:18 公開日:2024-09-26 |
# 自動運転車の車線検出におけるブラックボックス攻撃の新たなシャドウパターンの発見
Discovering New Shadow Patterns for Black-Box Attacks on Lane Detection of Autonomous Vehicles ( http://arxiv.org/abs/2409.18248v1 ) ライセンス: Link先を確認 | Pedram MohajerAnsari, Alkim Domeke, Jan de Voor, Arkajyoti Mitra, Grace Johnson, Amir Salarpour, Habeeb Olufowobi, Mohammad Hamad, Mert D. Pesé, | (参考訳) 自動運転車(AV)の安全性の確保は依然として重要な問題である。
最も重要な分野は、知覚システムの脆弱性を悪用することを目的とした物理世界の敵例(AE)の研究である。
しかしながら、AEsに関する一般的な研究の多くは、盗聴と合法性について考慮を怠っており、その結果、人間のドライバーがすぐに介入したり、攻撃者が迅速に検出され罰せられるシナリオが生じた。
これらの制限は、実生活におけるそのような例の適用性を妨げている。
本稿では,日光を戦略的に遮断し,人工車線様のパターンを呈する道路上の光の擬似パターンを,陰影(負影)と呼ぶ手法を提案する。
これらの影は、特に車線検出アルゴリズムに依存しているAV認識システムを欺いている間、運転者には目立たない。
ドライバーの介入を最小限に抑え、攻撃者の立場から合法性を確保するために、攻撃のステルスな性質を優先することにより、より妥当なシナリオが確立される。
低速を含む複数のシナリオにおいて,本手法は高い安全性違反率を示す。
20メートルの負の影を使って、10mph以上の速度で100%違反率で車両をオフロードに誘導することができる。
衝突を引き起こすような他の攻撃シナリオは、少なくとも30mの負の影で実行でき、60-100%の成功率を達成することができる。
この攻撃はまた、人体実験を通じて測定された平均ステルス性83.6%を維持し、秘密の設定における有効性を保証する。
Ensuring autonomous vehicle (AV) security remains a critical concern. An area of paramount importance is the study of physical-world adversarial examples (AEs) aimed at exploiting vulnerabilities in perception systems. However, most of the prevailing research on AEs has neglected considerations of stealthiness and legality, resulting in scenarios where human drivers would promptly intervene or attackers would be swiftly detected and punished. These limitations hinder the applicability of such examples in real-life settings. In this paper, we introduce a novel approach to generate AEs using what we term negative shadows: deceptive patterns of light on the road created by strategically blocking sunlight, which then cast artificial lane-like patterns. These shadows are inconspicuous to a driver while deceiving AV perception systems, particularly those reliant on lane detection algorithms. By prioritizing the stealthy nature of attacks to minimize driver interventions and ensuring their legality from an attacker's standpoint, a more plausible range of scenarios is established. In multiple scenarios, including at low speeds, our method shows a high safety violation rate. Using a 20-meter negative shadow, it can direct a vehicle off-road with a 100% violation rate at speeds over 10 mph. Other attack scenarios, such as causing collisions, can be performed with at least 30 meters of negative shadow, achieving a 60-100% success rate. The attack also maintains an average stealthiness of 83.6% as measured through a human subject experiment, ensuring its efficacy in covert settings. | 翻訳日:2024-11-06 15:01:18 公開日:2024-09-26 |
# 保護ギャップのブリッジ:AI強化詐欺から高齢者を守るための革新的アプローチ
Bridging the Protection Gap: Innovative Approaches to Shield Older Adults from AI-Enhanced Scams ( http://arxiv.org/abs/2409.18249v1 ) ライセンス: Link先を確認 | LD Herrera, London Van Sickle, Ashley Podhradsky, | (参考訳) 人工知能(AI)は、個人、グループ、組織がその拡大する能力を発見し、応用するにつれ、急速に人気が高まっている。
Generative AIは、テキスト、画像、オーディオ、ビデオなどのさまざまなコンテンツタイプを作成し、変更する。
しかし、悪意のあるAIの使用を防ぐためのガードレールは容易にバイパスされる。
詐欺師はすでにAIを使って既に成功した詐欺を強化し、詐欺の有効性、スピード、信頼性を改善しつつ、新しい技術を採用するのが遅いと知られている高齢者をターゲットにした詐欺の発見可能性を減らすことを示唆している。
技術サポート詐欺とロマンス詐欺の2つの主要な詐欺の仮説ケース分析を通じて、現在の脆弱性を特定することによって、高齢者に影響を及ぼす詐欺におけるAIの将来を探求し、AI強化詐欺に対する信頼性と防御能力を高めるための信頼性の高い支援ネットワークの構築に焦点を当てた、最新の防衛対策を推奨する。
Artificial Intelligence (AI) is rapidly gaining popularity as individuals, groups, and organizations discover and apply its expanding capabilities. Generative AI creates or alters various content types including text, image, audio, and video that are realistic and challenging to identify as AI-generated constructs. However, guardrails preventing malicious use of AI are easily bypassed. Numerous indications suggest that scammers are already using AI to enhance already successful scams, improving scam effectiveness, speed and credibility, while reducing detectability of scams that target older adults, who are known to be slow to adopt new technologies. Through hypothetical cases analysis of two leading scams, the tech support scams and the romance scams, this paper explores the future of AI in scams affecting older adults by identifying current vulnerabilities and recommending updated defensive measures focusing the establishment of a reliable support network offering elevated support to increase confidence and ability to defend against AI-enhanced scams. | 翻訳日:2024-11-06 15:01:18 公開日:2024-09-26 |
# 肺疾患分類のためのデュアルステージ視覚変換器モデルの開発
Developing a Dual-Stage Vision Transformer Model for Lung Disease Classification ( http://arxiv.org/abs/2409.18257v1 ) ライセンス: Link先を確認 | Anirudh Mazumder, Jianguo Liu, | (参考訳) 肺疾患は全米で流行し、3400万人以上の人に影響を与えている。
さまざまな種類の肺疾患の正確な診断とタイムリーな診断が重要であり、人工知能(AI)の手法はこれらのプロセスを高速化する可能性がある。
この研究を通じて、視覚変換器(ViT)とスイニング変換器(Swin Transformer)を統合して、X線スキャンで14種類の肺疾患を分類する。
提案モデルでは,ニューラルネットワークを前処理し,トレーニングした後,データセットの未知のテストサブセット上で予測を行うと,92.06\%の精度を達成した。
このモデルでは、肺疾患を正確に分類し、これらの有害疾患に苦しむ患者を診断することが約束された。
Lung diseases have become a prevalent problem throughout the United States, affecting over 34 million people. Accurate and timely diagnosis of the different types of lung diseases is critical, and Artificial Intelligence (AI) methods could speed up these processes. A dual-stage vision transformer is built throughout this research by integrating a Vision Transformer (ViT) and a Swin Transformer to classify 14 different lung diseases from X-ray scans of patients with these diseases. The proposed model achieved an accuracy of 92.06\% when making predictions on an unseen testing subset of the dataset after data preprocessing and training the neural network. The model showed promise for accurately classifying lung diseases and diagnosing patients who suffer from these harmful diseases. | 翻訳日:2024-11-06 15:01:18 公開日:2024-09-26 |
# DisGeM:スパンマスキングによる複数選択質問のためのディトラクタ生成
DisGeM: Distractor Generation for Multiple Choice Questions with Span Masking ( http://arxiv.org/abs/2409.18263v1 ) ライセンス: Link先を確認 | Devrim Cavusoglu, Secil Sen, Ulas Sert, | (参考訳) 自然言語処理(NLP)の最近の進歩は、自然言語生成、自然言語推論、質問応答など、多くのサブフィールドに影響を与えている。
しかし、質問生成の分野では、マルチチョイス質問(MCQ)のための注意散布器の作成は依然として困難な課題である。
そこで本研究では,PLM(Pre-trained Language Models)を用いたイントラクタ生成のための簡易な汎用フレームワークを提案する。
従来の手法とは異なり、我々のフレームワークは事前訓練された言語モデルのみに依存しており、特定のデータセットに対する追加のトレーニングを必要としない。
これまでの研究に基づいて、候補生成と候補選択からなる2段階の枠組みを導入する。
提案手法は, トレーニングや微調整を必要とせず, 従来の手法よりも優れていた。
人間の評価は、我々のアプローチがより効果的で魅力的であることを示す。
関連するコードベースはhttps://github.com/obss/disgem.comで公開されている。
Recent advancements in Natural Language Processing (NLP) have impacted numerous sub-fields such as natural language generation, natural language inference, question answering, and more. However, in the field of question generation, the creation of distractors for multiple-choice questions (MCQ) remains a challenging task. In this work, we present a simple, generic framework for distractor generation using readily available Pre-trained Language Models (PLMs). Unlike previous methods, our framework relies solely on pre-trained language models and does not require additional training on specific datasets. Building upon previous research, we introduce a two-stage framework consisting of candidate generation and candidate selection. Our proposed distractor generation framework outperforms previous methods without the need for training or fine-tuning. Human evaluations confirm that our approach produces more effective and engaging distractors. The related codebase is publicly available at https://github.com/obss/disgem. | 翻訳日:2024-11-06 14:51:14 公開日:2024-09-26 |
# 筋活動パターンによる筋厚変化の予測:二重注意の枠組み
Predicting Muscle Thickness Deformation from Muscle Activation Patterns: A Dual-Attention Framework ( http://arxiv.org/abs/2409.18266v1 ) ライセンス: Link先を確認 | Bangyu Lan, Kenan Niu, | (参考訳) 筋活動と厚さ変形の関係を理解することは、筋関連疾患の診断と筋の健康のモニタリングに重要である。
超音波技術は筋運動時の筋厚変化を測定することができるが、携帯機器への応用は配線やデータ収集の課題によって制限される。
一方、表面筋電図(sEMG)では、筋の生体電気信号が筋肉の活性化として記録されている。
本稿では,筋厚の変形予測にsEMG信号を利用する深層学習手法を導入し,超音波計測の必要性を排除した。
本手法は, 自己注意機構とクロスアテンション機構を組み合わせた二重アテンション機構を用いて, 筋の変形を直接sEMGデータから予測する。
健常者6名の実験結果から,本手法は平均精度0.923$\pm$0.900mmの筋運動を正確に予測し,リアルタイムの携帯型筋健康モニタリングを容易にし,臨床診断,スポーツ科学,リハビリテーションへの応用の可能性を示した。
Understanding the relationship between muscle activation and thickness deformation is critical for diagnosing muscle-related diseases and monitoring muscle health. Although ultrasound technique can measure muscle thickness change during muscle movement, its application in portable devices is limited by wiring and data collection challenges. Surface electromyography (sEMG), on the other hand, records muscle bioelectrical signals as the muscle activation. This paper introduced a deep-learning approach to leverage sEMG signals for muscle thickness deformation prediction, eliminating the need for ultrasound measurement. Using a dual-attention framework combining self-attention and cross-attention mechanisms, this method predicted muscle deformation directly from sEMG data. Experimental results with six healthy subjects showed that the approach could accurately predict muscle excursion with an average precision of 0.923$\pm$0.900mm, which shows that this method can facilitate real-time portable muscle health monitoring, showing potential for applications in clinical diagnostics, sports science, and rehabilitation. | 翻訳日:2024-11-06 14:51:14 公開日:2024-09-26 |
# 動的損失重み付けによる予測安定性の向上
Using dynamic loss weighting to boost improvements in forecast stability ( http://arxiv.org/abs/2409.18267v1 ) ライセンス: Link先を確認 | Daan Caljon, Jeff Vercauteren, Simon De Vos, Wouter Verbeke, Jente Van Belle, | (参考訳) ローリングオリジン予測不安定性(ローリングオリジン予測不安定性)とは、新しいデータポイントが利用可能になったときに予測を更新することで、特定の期間の予測における変動をいう。
近年,一変量時系列点予測のためのN-BEATSモデルの拡張が提案されている。
予測誤差と予測不安定成分の両方を含む複合損失関数を静的ハイパーパラメータで最小化し, 安定性を損なうことなく, より安定した予測が得られることを示した。
本稿では、動的損失重み付けアルゴリズムを適用し、トレーニング中の損失重み付けを変化させることにより、精度を損なうことなく、さらなる安定性の向上が得られるかどうかを実験的に検討する。
既存の動的損失重み付け手法がこの目的を達成することを示す。
しかし、提案したRandom Weightingアプローチの拡張 -- Task-Aware Random Weighting -- は、最高のパフォーマンスを示している。
Rolling origin forecast instability refers to variability in forecasts for a specific period induced by updating the forecast when new data points become available. Recently, an extension to the N-BEATS model for univariate time series point forecasting was proposed to include forecast stability as an additional optimization objective, next to accuracy. It was shown that more stable forecasts can be obtained without harming accuracy by minimizing a composite loss function that contains both a forecast error and a forecast instability component, with a static hyperparameter to control the impact of stability. In this paper, we empirically investigate whether further improvements in stability can be obtained without compromising accuracy by applying dynamic loss weighting algorithms, which change the loss weights during training. We show that some existing dynamic loss weighting methods achieve this objective. However, our proposed extension to the Random Weighting approach -- Task-Aware Random Weighting -- shows the best performance. | 翻訳日:2024-11-06 14:51:14 公開日:2024-09-26 |
# SLIDE:マルチボディシステムの強制動的応答推定のための機械学習に基づく手法
SLIDE: A machine-learning based method for forced dynamic response estimation of multibody systems ( http://arxiv.org/abs/2409.18272v1 ) ライセンス: Link先を確認 | Peter Manzl, Alexander Humer, Qasim Khadim, Johannes Gerstmayr, | (参考訳) 計算工学では、シミュレーションのスピードと効率を向上させることが永遠の目標である。
ニューラルネットワーク技術とハードウェアを完全に活用するために,SLiding-window First-Truncated Dynamic-Response Estimator (SLIDE)を提案する。
SLIDEの重要な利点は、システム全体の状態を必要とせずに減衰系の動的応答を推定できることであり、柔軟性のあるマルチボディシステムに特に有効である。
この方法は、系の線形化方程式の複素固有値によって近似される減衰のような初期効果の減衰に基づいて出力ウィンドウを切断する。
さらに、第2のニューラルネットワークがトレーニングされ、エラー推定が提供され、メソッドの適用性がさらに向上する。
この方法は、フレキシブルソケットに搭載されたダッフィング発振器、フレキシブルスライダクランクシステム、産業用6Rマニピュレータを含む多様なシステムに適用される。
シミュレーションの結果,最大で数百万の高速化を実現し,実時間性能を大きく上回った。
In computational engineering, enhancing the simulation speed and efficiency is a perpetual goal. To fully take advantage of neural network techniques and hardware, we present the SLiding-window Initially-truncated Dynamic-response Estimator (SLIDE), a deep learning-based method designed to estimate output sequences of mechanical or multibody systems with primarily, but not exclusively, forced excitation. A key advantage of SLIDE is its ability to estimate the dynamic response of damped systems without requiring the full system state, making it particularly effective for flexible multibody systems. The method truncates the output window based on the decay of initial effects, such as damping, which is approximated by the complex eigenvalues of the systems linearized equations. In addition, a second neural network is trained to provide an error estimation, further enhancing the methods applicability. The method is applied to a diverse selection of systems, including the Duffing oscillator, a flexible slider-crank system, and an industrial 6R manipulator, mounted on a flexible socket. Our results demonstrate significant speedups from the simulation up to several millions, exceeding real-time performance substantially. | 翻訳日:2024-11-06 14:51:14 公開日:2024-09-26 |
# ブロック不変対称性シフト(BLISS)法による線形計画による電子ハミルトニアン1ノルムの大域的最小化
Guaranteed Global Minimum of Electronic Hamiltonian 1-Norm via Linear Programming in the Block Invariant Symmetry Shift (BLISS) Method ( http://arxiv.org/abs/2409.18277v1 ) ライセンス: Link先を確認 | Smik Patel, Aritra Sankar Brahmachari, Joshua T. Cantin, Linjun Wang, Artur F. Izmaylov, | (参考訳) ユニタリ(LCU)の線形結合としてのデジタル量子コンピュータにおけるハミルトニアンシステムの符号化コストは、LCU拡張の1ノルムとともに増大する。
ブロック不変対称性シフト(BLISS)技術は、望ましくない電子数部分空間のみにハミルトン作用を変更することにより、この1ノルムを減少させる。
これまで、BLISSは計算コストのかかる非線形最適化を必要としていた。
本稿では,最適性を保証し,計算コストを大幅に削減する線形プログラミング問題として,この最適化の様々な改革を導入する。
最大76軌道の活性空間における工業的関連同質触媒にBLISSを適用し、修正ハミルトンスペクトル範囲とパウリおよびフェルミオンLCUの1-ノルムの双方に相当の還元が認められた。
BLISS演算子を得る線形プログラミング手法により、より効率的なハミルトニアンシミュレーションが可能となり、ハミルトニアンスペクトル範囲を小さくすることで、1ノルムをより小さくするLCUグルーピングを改善する機会を提供する。
The cost of encoding a system Hamiltonian in a digital quantum computer as a linear combination of unitaries (LCU) grows with the 1-norm of the LCU expansion. The Block Invariant Symmetry Shift (BLISS) technique reduces this 1-norm by modifying the Hamiltonian action on only the undesired electron-number subspaces. Previously, BLISS required a computationally expensive nonlinear optimization that was not guaranteed to find the global minimum. Here, we introduce various reformulations of this optimization as a linear programming problem, which guarantees optimality and significantly reduces the computational cost. We apply BLISS to industrially-relevant homogeneous catalysts in active spaces of up to 76 orbitals, finding substantial reductions in both the spectral range of the modified Hamiltonian and the 1-norms of Pauli and fermionic LCUs. Our linear programming techniques for obtaining the BLISS operator enable more efficient Hamiltonian simulation and, by reducing the Hamiltonian's spectral range, offer opportunities for improved LCU groupings to further reduce the 1-norm. | 翻訳日:2024-11-06 14:51:13 公開日:2024-09-26 |
# マルチモーダル大言語モデル(MLLM)を用いた輸送における物体検出の促進 : 包括的レビューと実証試験
Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing ( http://arxiv.org/abs/2409.18286v1 ) ライセンス: Link先を確認 | Huthaifa I. Ashqar, Ahmed Jaber, Taqwa I. Alhadidi, Mohammed Elhenawy, | (参考訳) 本研究の目的は,多モード大言語モデル (MLLM) と大規模視覚モデル (VLM) の交通システムにおけるオブジェクト検出への応用を総合的に検証し,実証的に評価することである。
第一に,輸送分野におけるMLLMのメリットに関する背景と,これまでの研究におけるMLLM技術の総合的なレビューを行う。
各種輸送シナリオにおけるオブジェクト検出の有効性と限界を強調した。
第2部では、輸送アプリケーションにおけるエンドツーエンドのオブジェクト検出の分類と今後の方向性について概観する。
そこで本研究では,物体検出タスク,道路安全属性抽出,安全クリティカル事象検出,サーマル画像の視覚的推論など,3つの現実的交通問題を対象としたMLLMの実証分析を行った。
本研究は,MLLMの性能を詳細に評価し,改善のための強度と領域を明らかにした。
最後に、輸送における物体検出の強化におけるMLLMの実践的限界と課題について論じ、この重要な領域における今後の研究・開発のためのロードマップを提供する。
This study aims to comprehensively review and empirically evaluate the application of multimodal large language models (MLLMs) and Large Vision Models (VLMs) in object detection for transportation systems. In the first fold, we provide a background about the potential benefits of MLLMs in transportation applications and conduct a comprehensive review of current MLLM technologies in previous studies. We highlight their effectiveness and limitations in object detection within various transportation scenarios. The second fold involves providing an overview of the taxonomy of end-to-end object detection in transportation applications and future directions. Building on this, we proposed empirical analysis for testing MLLMs on three real-world transportation problems that include object detection tasks namely, road safety attributes extraction, safety-critical event detection, and visual reasoning of thermal images. Our findings provide a detailed assessment of MLLM performance, uncovering both strengths and areas for improvement. Finally, we discuss practical limitations and challenges of MLLMs in enhancing object detection in transportation, thereby offering a roadmap for future research and development in this critical area. | 翻訳日:2024-11-06 07:10:35 公開日:2024-09-26 |
# 強化学習における臨界度と安全マージン
Criticality and Safety Margins for Reinforcement Learning ( http://arxiv.org/abs/2409.18289v1 ) ライセンス: Link先を確認 | Alexander Grushin, Walt Woods, Alvaro Velasquez, Simon Khan, | (参考訳) 最先端の強化学習手法は、時には安全でない状況に遭遇することがある。
これらの状況がいつ起きたかを特定することは、ポストホック分析とデプロイメントの間の両方で関心があり、人間監督官に助けを求めるのが有利かもしれない。
時間内の異なる点の臨界度を測る試みが開発されているが、その正確さは根本的真実の欠如により十分に確立されておらず、エンドユーザが容易に解釈できるように設計されていない。
そこで,本研究では,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
安全マージンは、パフォーマンス損失がある程度の許容範囲を超えないようなランダムなアクションの数と定義されている場合、これらを解釈可能である。
Atari Beamrider 環境での A3C エージェントの場合、安全マージンの最低 5% はエージェントの損失の 47% を含む。
このクリティカルリティフレームワークは、決定が下される前であっても、悪い決定の潜在的な影響を計測し、自律エージェントのより効率的なデバッグと監視を可能にします。
State of the art reinforcement learning methods sometimes encounter unsafe situations. Identifying when these situations occur is of interest both for post-hoc analysis and during deployment, where it might be advantageous to call out to a human overseer for help. Efforts to gauge the criticality of different points in time have been developed, but their accuracy is not well established due to a lack of ground truth, and they are not designed to be easily interpretable by end users. Therefore, we seek to define a criticality framework with both a quantifiable ground truth and a clear significance to users. We introduce true criticality as the expected drop in reward when an agent deviates from its policy for n consecutive random actions. We also introduce the concept of proxy criticality, a low-overhead metric that has a statistically monotonic relationship to true criticality. Safety margins make these interpretable, when defined as the number of random actions for which performance loss will not exceed some tolerance with high confidence. We demonstrate this approach in several environment-agent combinations; for an A3C agent in an Atari Beamrider environment, the lowest 5% of safety margins contain 47% of agent losses; i.e., supervising only 5% of decisions could potentially prevent roughly half of an agent's errors. This criticality framework measures the potential impacts of bad decisions, even before those decisions are made, allowing for more effective debugging and oversight of autonomous agents. | 翻訳日:2024-11-06 07:10:35 公開日:2024-09-26 |
# 前立腺癌In-Basketメッセージの回顧的比較分析 : 閉鎖型LDMと臨床チームとの反応
Retrospective Comparative Analysis of Prostate Cancer In-Basket Messages: Responses from Closed-Domain LLM vs. Clinical Teams ( http://arxiv.org/abs/2409.18290v1 ) ライセンス: Link先を確認 | Yuexing Hao, Jason M. Holmes, Jared Hobson, Alexandra Bennett, Daniel K. Ebner, David M. Routman, Satomi Shiraishi, Samir H. Patel, Nathan Y. Yu, Chris L. Hallemeier, Brooke E. Ball, Mark R. Waddle, Wei Liu, | (参考訳) In-basketメッセージインタラクションは、患者のケアジャーニーのすべてのフェーズ(前、中、後)で起こる、医師と患者のコミュニケーションにおいて重要な役割を果たす。
しかし,これらの患者の質問に対する回答は,医療のワークフローに大きな負担となり,臨床医療チームにとってかなりの時間を要するようになった。
そこで本研究では,GPT-4を用いた特殊な大規模言語モデル(LLM)であるRadOnc-GPTを紹介する。
我々は,RadOnc-GPTを患者電子健康記録(EHR)と統合した。
RadOnc-GPTは、以前記録された158個のバスケメッセージインタラクションに対して評価された。
RadOnc-GPTの反応を評価するために, 定量的自然言語処理(NLP)分析と, 臨床医と看護師による2つのグレーディングスタディを用いた。
以上の結果から,RadOnc-GPTはClarityとEmpathyで臨床チームをわずかに上回り,CompletenessとCorrectnessでは同等のスコアを得た。
RadOnc-GPTは、看護師のメッセージに5.2分、臨床医のメッセージに2.4分節約すると見積もられている。
RadOnc-GPTを社内メッセージのドラフト生成に利用することで、臨床ケアチームの作業負荷を軽減し、高品質でタイムリーなレスポンスを生み出すことで医療コストを削減できる可能性がある。
In-basket message interactions play a crucial role in physician-patient communication, occurring during all phases (pre-, during, and post) of a patient's care journey. However, responding to these patients' inquiries has become a significant burden on healthcare workflows, consuming considerable time for clinical care teams. To address this, we introduce RadOnc-GPT, a specialized Large Language Model (LLM) powered by GPT-4 that has been designed with a focus on radiotherapeutic treatment of prostate cancer with advanced prompt engineering, and specifically designed to assist in generating responses. We integrated RadOnc-GPT with patient electronic health records (EHR) from both the hospital-wide EHR database and an internal, radiation-oncology-specific database. RadOnc-GPT was evaluated on 158 previously recorded in-basket message interactions. Quantitative natural language processing (NLP) analysis and two grading studies with clinicians and nurses were used to assess RadOnc-GPT's responses. Our findings indicate that RadOnc-GPT slightly outperformed the clinical care team in "Clarity" and "Empathy," while achieving comparable scores in "Completeness" and "Correctness." RadOnc-GPT is estimated to save 5.2 minutes per message for nurses and 2.4 minutes for clinicians, from reading the inquiry to sending the response. Employing RadOnc-GPT for in-basket message draft generation has the potential to alleviate the workload of clinical care teams and reduce healthcare costs by producing high-quality, timely responses. | 翻訳日:2024-11-06 07:10:35 公開日:2024-09-26 |
# 食品結晶品質制御のための高能率顕微鏡画像インスタンス分割法
Efficient Microscopic Image Instance Segmentation for Food Crystal Quality Control ( http://arxiv.org/abs/2409.18291v1 ) ライセンス: Link先を確認 | Xiaoyu Ji, Jan P Allebach, Ali Shakouri, Fengqing Zhu, | (参考訳) 本論文は,食品結晶量と粒度分布の効率的な予測に焦点をあてた,製造用食品結晶品質管理領域に向けたものである。
これまでメーカーは、食品液製品の顕微鏡画像に手動計数法を使用していた。
食品結晶のセグメンテーションは、結晶の多様な形状と周囲の硬い模倣のために難しい問題である。
そこで本研究では,オブジェクト検出に基づく効率的なインスタンス分割手法を提案する。
実験結果から, 予測結晶計数精度は既存の分別法に匹敵するが, 5倍高速であることがわかった。
また,本実験に基づいて,類似したデータセット上で手動のアノテーションタスクに有利な,ハード模倣と食品結晶を分離するための客観的基準も定義した。
This paper is directed towards the food crystal quality control area for manufacturing, focusing on efficiently predicting food crystal counts and size distributions. Previously, manufacturers used the manual counting method on microscopic images of food liquid products, which requires substantial human effort and suffers from inconsistency issues. Food crystal segmentation is a challenging problem due to the diverse shapes of crystals and their surrounding hard mimics. To address this challenge, we propose an efficient instance segmentation method based on object detection. Experimental results show that the predicted crystal counting accuracy of our method is comparable with existing segmentation methods, while being five times faster. Based on our experiments, we also define objective criteria for separating hard mimics and food crystals, which could benefit manual annotation tasks on similar dataset. | 翻訳日:2024-11-06 07:10:35 公開日:2024-09-26 |
# 科学応用のためのクロスフィールド情報による損失圧縮の促進
Enhancing Lossy Compression Through Cross-Field Information for Scientific Applications ( http://arxiv.org/abs/2409.18295v1 ) ライセンス: Link先を確認 | Youyuan Liu, Wenqi Jia, Taolue Yang, Miao Yin, Sian Jin, | (参考訳) ロスシー圧縮は、複数のデータフィールドを含む科学データのサイズを減らす最も効果的な方法の1つである。
予測や変換技術によって情報密度を低減し、データを圧縮する。
従来のアプローチでは、ターゲットデータポイントを予測する際に、単一のターゲットフィールドからのローカル情報を使用し、より高い圧縮比を達成する可能性を制限する。
本稿では,科学的データセット内の有意な分野間相関を同定した。
本稿では,CNNを用いた新たなハイブリッド予測モデルを提案する。
データ品質を損なうことなく圧縮率を向上し, 圧縮率の向上を図った。
提案手法を3つの科学的データセット上で評価し, 特定の誤差境界下で圧縮率を最大25%向上できることを示す。
さらに、我々のソリューションはデータの詳細を保存し、ベースラインアプローチと比較してアーティファクトを削減します。
Lossy compression is one of the most effective methods for reducing the size of scientific data containing multiple data fields. It reduces information density through prediction or transformation techniques to compress the data. Previous approaches use local information from a single target field when predicting target data points, limiting their potential to achieve higher compression ratios. In this paper, we identified significant cross-field correlations within scientific datasets. We propose a novel hybrid prediction model that utilizes CNN to extract cross-field information and combine it with existing local field information. Our solution enhances the prediction accuracy of lossy compressors, leading to improved compression ratios without compromising data quality. We evaluate our solution on three scientific datasets, demonstrating its ability to improve compression ratios by up to 25% under specific error bounds. Additionally, our solution preserves more data details and reduces artifacts compared to baseline approaches. | 翻訳日:2024-11-06 07:10:35 公開日:2024-09-26 |
# Flat'n'Fold: ガーメント知覚とマニピュレーションのための多様なマルチモーダルデータセット
Flat'n'Fold: A Diverse Multi-Modal Dataset for Garment Perception and Manipulation ( http://arxiv.org/abs/2409.18297v1 ) ライセンス: Link先を確認 | Lipeng Zhuang, Shiyu Fan, Yingdong Ru, Florent Audonnet, Paul Henderson, Gerardo Aragon-Camarasa, | (参考訳) Flat'n'Foldは、既存のデータセットにおける重要なギャップに対処する衣服操作のための、新しい大規模データセットである。
Flat'n'Foldは8つのカテゴリにまたがって44のユニークな衣服をフラットに折り畳んだ1,212人の人間と887人のロボットによるデモを補完する。
我々のデータセットは、折り畳まれた状態から折り畳まれた状態までの操作プロセス全体を一意にキャプチャし、同期されたマルチビューRGB-D画像、点雲、手やグリップの位置や回転を含むアクションデータを提供します。
既存のベンチマークと比較すると、データセットの多様性と複雑さを定量化し、私たちのデータセットは、視覚的およびアクション情報の観点から、人間とロボットの実世界デモの自然な、多様な操作を特徴としています。
Flat'n'Fold の実用性を示すために,我々は点予測とサブタスク分解を把握するための新しいベンチマークを構築した。
これらのタスクにおける最先端モデルの評価は、改善の余地が顕著であることを示している。
このことは、Flat'n'Foldがロボットの知覚と変形可能な物体の操作の進歩を推し進める可能性を浮き彫りにした。
私たちのデータセットはhttps://cvas-ug.github.io/flat-n-foldでダウンロードできます。
We present Flat'n'Fold, a novel large-scale dataset for garment manipulation that addresses critical gaps in existing datasets. Comprising 1,212 human and 887 robot demonstrations of flattening and folding 44 unique garments across 8 categories, Flat'n'Fold surpasses prior datasets in size, scope, and diversity. Our dataset uniquely captures the entire manipulation process from crumpled to folded states, providing synchronized multi-view RGB-D images, point clouds, and action data, including hand or gripper positions and rotations. We quantify the dataset's diversity and complexity compared to existing benchmarks and show that our dataset features natural and diverse manipulations of real-world demonstrations of human and robot demonstrations in terms of visual and action information. To showcase Flat'n'Fold's utility, we establish new benchmarks for grasping point prediction and subtask decomposition. Our evaluation of state-of-the-art models on these tasks reveals significant room for improvement. This underscores Flat'n'Fold's potential to drive advances in robotic perception and manipulation of deformable objects. Our dataset can be downloaded at https://cvas-ug.github.io/flat-n-fold | 翻訳日:2024-11-06 07:10:35 公開日:2024-09-26 |
# fMRI時系列データを用いた因果関係に基づく課題フィンガープリント
Causality-based Subject and Task Fingerprints using fMRI Time-series Data ( http://arxiv.org/abs/2409.18298v1 ) ライセンス: Link先を確認 | Dachuan Song, Li Shen, Duy Duong-Tran, Xuan Wang, | (参考訳) 近年、マルチスケール脳ネットワークにおける複雑な関係を解き放つユニークな能力のために、システム神経科学因果関係モデルへの関心が復活している。
本稿では,fMRIフィンガープリントにおける因果性に基づくアプローチの有効性と有効性を検証することを目的とする。
具体的には、脳の因果ダイナミクスを利用して、個人(例えば、被写体指紋)とfMRIタスク(例えば、タスク指紋)のユニークな認知パターンを識別する革新的な手法を提案する。
提案手法の重要な特徴は,fMRI時系列データから「時空間」(いわゆる因果)署名を抽出する2時間線形状態空間モデルの開発に端を発する。
我々の知る限り、我々は「因果指紋」という概念を開拓し、その後定量化する。
本手法は, 原因・効果の観点から指紋を定量化し, 対象識別を行うためのモーダル分解・投影法と, タスク識別を行うためのGNNベース(Graph Neural Network)モデルとを組み込むことにより, 他の指紋研究とよく分離されている。
最後に,実験結果と非因果性に基づく手法との比較により,提案手法の有効性が示された。
得られた因果的シグネチャを可視化し,脳機能に関する既存の理解を踏まえ,それらの生物学的関連性について考察する。
我々の研究は、健康管理と神経変性疾患の両方に応用可能な因果指紋のさらなる研究の道を開くものである。
Recently, there has been a revived interest in system neuroscience causation models due to their unique capability to unravel complex relationships in multi-scale brain networks. In this paper, our goal is to verify the feasibility and effectiveness of using a causality-based approach for fMRI fingerprinting. Specifically, we propose an innovative method that utilizes the causal dynamics activities of the brain to identify the unique cognitive patterns of individuals (e.g., subject fingerprint) and fMRI tasks (e.g., task fingerprint). The key novelty of our approach stems from the development of a two-timescale linear state-space model to extract 'spatio-temporal' (aka causal) signatures from an individual's fMRI time series data. To the best of our knowledge, we pioneer and subsequently quantify, in this paper, the concept of 'causal fingerprint.' Our method is well-separated from other fingerprint studies as we quantify fingerprints from a cause-and-effect perspective, which are then incorporated with a modal decomposition and projection method to perform subject identification and a GNN-based (Graph Neural Network) model to perform task identification. Finally, we show that the experimental results and comparisons with non-causality-based methods demonstrate the effectiveness of the proposed methods. We visualize the obtained causal signatures and discuss their biological relevance in light of the existing understanding of brain functionalities. Collectively, our work paves the way for further studies on causal fingerprints with potential applications in both healthy controls and neurodegenerative diseases. | 翻訳日:2024-11-06 07:10:35 公開日:2024-09-26 |
# SOAR: 効率的なオブジェクト指向事前学習による自己超過最適化UAV行動認識
SOAR: Self-supervision Optimized UAV Action Recognition with Efficient Object-Aware Pretraining ( http://arxiv.org/abs/2409.18300v1 ) ライセンス: Link先を確認 | Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha, | (参考訳) 本稿では,無人航空機(UAV)が撮影した航空映像の自己教師型事前学習アルゴリズムであるSOARを紹介する。
我々は,UAVビデオの事前学習効率と下流行動認識性能を向上させるために,事前学習プロセスを通じて人体知識を取り入れた。
これは、主に微調整段階のオブジェクト情報を含む以前の作品とは対照的である。
具体的には、まず、事前学習フェーズを通して、対象に関連する特定のパッチの可視性を維持するように設計された、新しいオブジェクト認識マスキング戦略を提案する。
第二に、オブジェクト情報を利用して再構成損失を調整するオブジェクト認識損失関数を導入し、情報の少ない背景パッチに対するバイアスを防ぐ。
実際には、バニラVTバックボーンを持つSOARは、最高のUAVアクション認識モデルより優れており、NEC-DroneとUAV-Humanデータセットでトップ1の精度を9.7%と21.4%アップし、推論速度は18.7msで、2倍から5倍速くなった。
さらに、SOARは、事前トレーニング時間87.5%、メモリ使用率25%の削減を必要としながら、以前の自己教師付き学習(SSL)手法に匹敵する精度を得る。
We introduce SOAR, a novel Self-supervised pretraining algorithm for aerial footage captured by Unmanned Aerial Vehicles (UAVs). We incorporate human object knowledge throughout the pretraining process to enhance UAV video pretraining efficiency and downstream action recognition performance. This is in contrast to prior works that primarily incorporate object information during the fine-tuning stage. Specifically, we first propose a novel object-aware masking strategy designed to retain the visibility of certain patches related to objects throughout the pretraining phase. Second, we introduce an object-aware loss function that utilizes object information to adjust the reconstruction loss, preventing bias towards less informative background patches. In practice, SOAR with a vanilla ViT backbone, outperforms best UAV action recognition models, recording a 9.7% and 21.4% boost in top-1 accuracy on the NEC-Drone and UAV-Human datasets, while delivering an inference speed of 18.7ms per video, making it 2x to 5x faster. Additionally, SOAR obtains comparable accuracy to prior self-supervised learning (SSL) methods while requiring 87.5% less pretraining time and 25% less memory usage | 翻訳日:2024-11-06 07:10:35 公開日:2024-09-26 |
# 一般化可能なディープフェイク偽造検出のためのハーネスングウェーブレット変換
Harnessing Wavelet Transformations for Generalizable Deepfake Forgery Detection ( http://arxiv.org/abs/2409.18301v1 ) ライセンス: Link先を確認 | Lalith Bharadwaj Baru, Shilhora Akshay Patel, Rohit Boddeda, | (参考訳) デジタル画像操作の進化、特に深部生成モデルの進歩は、特に深部フェイクの起源が不明な場合、既存の深部フェイク検出法に大きく挑戦する。
これらの偽造の複雑さの増大に対処するために、VT-L/14アーキテクチャから派生した機能とウェーブレット変換を統合するディープフェイク検出フレームワークである \textbf{Wavelet-CLIP} を提案する。
Wavelet-CLIPはWavelet Transformsを使用して画像から空間的特徴と周波数的特徴の両方を深く分析する。
提案手法の有効性を検証するため, 標準拡散モデルにより生成された未知画像のクロスデータセット一般化と検出のための既存手法に対して, 広範囲な評価を行った。
提案手法は,データ間一般化における平均AUC0.749,未確認のディープフェイクに対するロバスト性0.893を達成し,全ての比較手法より優れた性能を示す。
コードはリポジトリから再生できる。 \url{https://github.com/lalithbharadwajbaru/Wavelet-CLIP}
The evolution of digital image manipulation, particularly with the advancement of deep generative models, significantly challenges existing deepfake detection methods, especially when the origin of the deepfake is obscure. To tackle the increasing complexity of these forgeries, we propose \textbf{Wavelet-CLIP}, a deepfake detection framework that integrates wavelet transforms with features derived from the ViT-L/14 architecture, pre-trained in the CLIP fashion. Wavelet-CLIP utilizes Wavelet Transforms to deeply analyze both spatial and frequency features from images, thus enhancing the model's capability to detect sophisticated deepfakes. To verify the effectiveness of our approach, we conducted extensive evaluations against existing state-of-the-art methods for cross-dataset generalization and detection of unseen images generated by standard diffusion models. Our method showcases outstanding performance, achieving an average AUC of 0.749 for cross-data generalization and 0.893 for robustness against unseen deepfakes, outperforming all compared methods. The code can be reproduced from the repo: \url{https://github.com/lalithbharadwajbaru/Wavelet-CLIP} | 翻訳日:2024-11-06 07:10:35 公開日:2024-09-26 |
# Deep-ER:高速高分解能脳代謝イメージングのためのディープラーニング心電図再構成
Deep-ER: Deep Learning ECCENTRIC Reconstruction for fast high-resolution neurometabolic imaging ( http://arxiv.org/abs/2409.18303v1 ) ライセンス: Link先を確認 | Paul Weiser, Georg Langs, Wolfgang Bogner, Stanislav Motyka, Bernhard Strasser, Polina Golland, Nalini Singh, Jorg Dietrich, Erik Uhlmann, Tracy Batchelor, Daniel Cahill, Malte Hoffmann, Antoine Klauser, Ovidiu C. Andronesi, | (参考訳) 序説: 交互神経代謝は、多くの神経疾患や脳腫瘍において重要な病態機構であり、MRSI(磁気共鳴分光画像)によって非侵襲的にマッピングできる。
非カルテシアン圧縮センスによる高度なMRSIは、高速な高分解能代謝イメージングを可能にするが、スループットを制限し、専門家のユーザインタラクションを必要とする長い再構成時間を持つ。
本稿では,高品質なメタボリックマップを得るために,堅牢で効率的なDeep Learning再構成を提案する。
方法:高速高分解能全脳代謝イメージングを3.4 mm$^3$等方分解能で4:11-9:21 min:sの取得時間で7T MRIスキャナー上でECCENTRICパルスシーケンスを用いて行った。
患者は健常者22名,グリオーマ患者5名を含む27名であった。
深層学習型ECCENTRIC再構成 (Deep-ER) のために, 二重空間特徴表現を伴う繰り返し畳み込み畳み込み層を用いたディープニューラルネットワークを開発した。
被験者は21名, 被験者は6名であった。
画像とスペクトル品質の指標を用いた従来の反復的全一般化変分再構成と比較した。
結果:Deep-ERは従来の方法よりも600倍高速に再構成し,12%-45%(P<0.05)高信号量,8%-50%(P<0.05)小クレーマー-ラオ低域の代謝物定量化を実現した。
代謝像はグリオーマ腫瘍の異質性と境界をはっきりと可視化する。
結語:Deep-ERはスパースサンプリングMRSIの効率的で堅牢な再構築を提供する。
高速化された取得/再構成MRSIは、高スループットイメージングワークフローと互換性がある。
このような改善がMRSIの基礎的および臨床的応用を促進することが期待されている。
Introduction: Altered neurometabolism is an important pathological mechanism in many neurological diseases and brain cancer, which can be mapped non-invasively by Magnetic Resonance Spectroscopic Imaging (MRSI). Advanced MRSI using non-cartesian compressed-sense acquisition enables fast high-resolution metabolic imaging but has lengthy reconstruction times that limits throughput and needs expert user interaction. Here, we present a robust and efficient Deep Learning reconstruction to obtain high-quality metabolic maps. Methods: Fast high-resolution whole-brain metabolic imaging was performed at 3.4 mm$^3$ isotropic resolution with acquisition times between 4:11-9:21 min:s using ECCENTRIC pulse sequence on a 7T MRI scanner. Data were acquired in a high-resolution phantom and 27 human participants, including 22 healthy volunteers and 5 glioma patients. A deep neural network using recurring interlaced convolutional layers with joint dual-space feature representation was developed for deep learning ECCENTRIC reconstruction (Deep-ER). 21 subjects were used for training and 6 subjects for testing. Deep-ER performance was compared to conventional iterative Total Generalized Variation reconstruction using image and spectral quality metrics. Results: Deep-ER demonstrated 600-fold faster reconstruction than conventional methods, providing improved spatial-spectral quality and metabolite quantification with 12%-45% (P<0.05) higher signal-to-noise and 8%-50% (P<0.05) smaller Cramer-Rao lower bounds. Metabolic images clearly visualize glioma tumor heterogeneity and boundary. Conclusion: Deep-ER provides efficient and robust reconstruction for sparse-sampled MRSI. The accelerated acquisition-reconstruction MRSI is compatible with high-throughput imaging workflow. It is expected that such improved performance will facilitate basic and clinical MRSI applications. | 翻訳日:2024-11-06 07:10:35 公開日:2024-09-26 |
# QES性ポテンシャルとモースポテンシャル:正確なWKB条件と超対称性
The QES sextic and Morse potentials: exact WKB condition and supersymmetry ( http://arxiv.org/abs/2409.18311v1 ) ライセンス: Link先を確認 | Alonso Contreras-Astorga, A. M. Escobar-Ruiz, | (参考訳) 本稿では, [Contreras-Astorga A., Escobar-Ruiz A. M. and Linares R., \textit{Phys] の連続体として述べる。
Scr
x) = \frac{1}{2}(\nu\, x^{6} + 2\, \nu\, \mu\, x^{4} + \left[\mu^2-(4N+3)\nu \right]\, x^{2})$ を考える。
N=0,\frac{1}{4},\,\frac{1}{2},\,\frac{7}{10}$ WKB補正$\gamma=\gamma(N,n)$は、ラグランジュメッシュ法により得られた高精度なデータを用いて、第1の最低50州$n\in [0,\,50]$に対して計算される。
系の$\gamma$とエネルギー$E=E(N,n)$のクローズドな解析近似が構築される。
それらは、研究された$(N,n)$のすべての値に対して、上限$\lesssim 10^{-3}$を持つ合理的に相対的精度$|\Delta|$を提供する。
また、QES Morse ポテンシャルは、隠れた $\mathfrak{sl}_2(\mathbb{R})$ Lie 代数と WKB 補正 $\gamma=0$ が特徴的である。
In this paper, as a continuation of [Contreras-Astorga A., Escobar-Ruiz A. M. and Linares R., \textit{Phys. Scr.} {\bf99} 025223 (2024)] the one-dimensional quasi-exactly solvable (QES) sextic potential $V^{\rm(qes)}(x) = \frac{1}{2}(\nu\, x^{6} + 2\, \nu\, \mu\,x^{4} + \left[\mu^2-(4N+3)\nu \right]\, x^{2})$ is considered. In the cases $N=0,\frac{1}{4},\,\frac{1}{2},\,\frac{7}{10}$ the WKB correction $\gamma=\gamma(N,n)$ is calculated for the first lowest 50 states $n\in [0,\,50]$ using highly accurate data obtained by the Lagrange Mesh Method. Closed analytical approximations for both $\gamma$ and the energy $E=E(N,n)$ of the system are constructed. They provide a reasonably relative accuracy $|\Delta|$ with upper bound $\lesssim 10^{-3}$ for all the values of $(N,n)$ studied. Also, it is shown that the QES Morse potential is shape invariant characterized by a hidden $\mathfrak{sl}_2(\mathbb{R})$ Lie algebra and vanishing WKB correction $\gamma=0$. | 翻訳日:2024-11-06 07:10:35 公開日:2024-09-26 |
# 構成一般化のためのモデルマージの現実的評価
Realistic Evaluation of Model Merging for Compositional Generalization ( http://arxiv.org/abs/2409.18314v1 ) ライセンス: Link先を確認 | Derek Tam, Yash Kant, Brian Lester, Igor Gilitschenski, Colin Raffel, | (参考訳) マージは、個々のモデルを単一のモデルに安価に組み合わせて、その能力を継承し、より良いパフォーマンスを達成するための、広く普及している方法です。
この人気は、様々な実験環境で検証され、しばしばモデルアーキテクチャ、データ可用性、計算予算に関する仮定が異なる多くの新しいマージ手法の急速な発展を引き起こした。
本研究では,異なるマージ手法の相対的メリットを,共有実験環境で評価し,各手法の実用的要件を正確に同定することによって特徴付ける。
具体的には、画像分類、画像生成、自然言語処理における特徴の合成一般化にマージを用いることに焦点をあてる。
さらに、異なるマージ手法の計算コストと、マージされるモデルの数をスケールする際の性能を計測する。
そこで本研究では,モデルマージの分野の現状を明らかにし,新しい手法をテストするための包括的かつ厳密な実験環境を提供する。
Merging has become a widespread way to cheaply combine individual models into a single model that inherits their capabilities and attains better performance. This popularity has spurred rapid development of many new merging methods, which are typically validated in disparate experimental settings and frequently differ in the assumptions made about model architecture, data availability, and computational budget. In this work, we characterize the relative merits of different merging methods by evaluating them in a shared experimental setting and precisely identifying the practical requirements of each method. Specifically, our setting focuses on using merging for compositional generalization of capabilities in image classification, image generation, and natural language processing. Additionally, we measure the computational costs of different merging methods as well as how they perform when scaling the number of models being merged. Taken together, our results clarify the state of the field of model merging and provide a comprehensive and rigorous experimental setup to test new methods. | 翻訳日:2024-11-06 07:00:37 公開日:2024-09-26 |
# 半教師型学習における確認バイアスの軽減に向けて--偏見学習の視点から
Towards the Mitigation of Confirmation Bias in Semi-supervised Learning: a Debiased Training Perspective ( http://arxiv.org/abs/2409.18316v1 ) ライセンス: Link先を確認 | Yu Wang, Yuxuan Yin, Peng Li, | (参考訳) 半教師付き学習(SSL)は、モデルが特定のクラスを不均等に好んで選び、自己学習パラダイムの下で蓄積される予測された擬似ラベルの誤りにつながるという、確認バイアスを一般的に示している。
リッチで静的なデータ配布の恩恵を受ける教師付き設定とは異なり、SSLは本質的に、この自己強化バイアスを修正するメカニズムを欠いている。
嫌悪された擬似ラベルの生成は広く研究されているが、その有効利用は未解明のままである。
分析の結果,偏りのあるクラスからのデータはパラメータ更新に影響を及ぼすが,表現不足のクラスには注意を払わなければならないことがわかった。
これらの課題に対処するために、SSLのデバイアスドトレーニングのための統合フレームワークであるTaMatchを紹介します。
TaMatchは、事前の目標分布とモデルの学習状態の両方から導かれるスケーリング比を使用して、トレーニングの各ステップでバイアスを推定し、修正する。
この比はラベルなしデータの生の予測を調整し、デバイアス付き擬似ラベルを生成する。
利用段階において、これらのラベルは予測クラスに応じて異なる重み付けが行われ、トレーニングエクイティが向上し、クラスバイアスが最小化される。
さらに、TaMatchはモデルの学習進捗に応じてターゲット分布を動的に調整し、事前の分布が不明な実践シナリオの堅牢なハンドリングを容易にする。
実験的な評価によると、TaMatchは既存の最先端の手法よりも、さまざまな課題の画像分類タスクで優れており、SSLにおけるデバイアス発生と擬似ラベルの利用の両方の重要性を強調している。
Semi-supervised learning (SSL) commonly exhibits confirmation bias, where models disproportionately favor certain classes, leading to errors in predicted pseudo labels that accumulate under a self-training paradigm. Unlike supervised settings, which benefit from a rich, static data distribution, SSL inherently lacks mechanisms to correct this self-reinforced bias, necessitating debiased interventions at each training step. Although the generation of debiased pseudo labels has been extensively studied, their effective utilization remains underexplored. Our analysis indicates that data from biased classes should have a reduced influence on parameter updates, while more attention should be given to underrepresented classes. To address these challenges, we introduce TaMatch, a unified framework for debiased training in SSL. TaMatch employs a scaling ratio derived from both a prior target distribution and the model's learning status to estimate and correct bias at each training step. This ratio adjusts the raw predictions on unlabeled data to produce debiased pseudo labels. In the utilization phase, these labels are differently weighted according to their predicted class, enhancing training equity and minimizing class bias. Additionally, TaMatch dynamically adjust the target distribution in response to the model's learning progress, facilitating robust handling of practical scenarios where the prior distribution is unknown. Empirical evaluations show that TaMatch significantly outperforms existing state-of-the-art methods across a range of challenging image classification tasks, highlighting the critical importance of both the debiased generation and utilization of pseudo labels in SSL. | 翻訳日:2024-11-06 07:00:37 公開日:2024-09-26 |
# 局所予測による推論
Local Prediction-Powered Inference ( http://arxiv.org/abs/2409.18321v1 ) ライセンス: Link先を確認 | Yanwu Gu, Dong Xia, | (参考訳) 特定の点 $x$ 上の関数値を推測するためには、より高次の重みを $x$ に近い点に割り当てることが不可欠である。
多くのケースでは、限られたサンプルサイズでこの手法を台無しにすることができるが、予測パワー推論(PPI)技術により、そのような条件を改善することができる。
本稿では,PPIを用いた局所多変量回帰のアルゴリズムを提案する。
信頼区間, バイアス補正, カバレッジ確率を解析し, アルゴリズムの正しさと優越性を検証した。
数値シミュレーションと実データ実験を適用し,これらの結論を示す。
PPIに対するもうひとつの貢献は、従属変数の依存性を考慮した理論計算効率と説明可能性である。
To infer a function value on a specific point $x$, it is essential to assign higher weights to the points closer to $x$, which is called local polynomial / multivariable regression. In many practical cases, a limited sample size may ruin this method, but such conditions can be improved by the Prediction-Powered Inference (PPI) technique. This paper introduced a specific algorithm for local multivariable regression using PPI, which can significantly reduce the variance of estimations without enlarge the error. The confidence intervals, bias correction, and coverage probabilities are analyzed and proved the correctness and superiority of our algorithm. Numerical simulation and real-data experiments are applied and show these conclusions. Another contribution compared to PPI is the theoretical computation efficiency and explainability by taking into account the dependency of the dependent variable. | 翻訳日:2024-11-06 07:00:37 公開日:2024-09-26 |
# GPUにおける入力依存電力利用
Input-Dependent Power Usage in GPUs ( http://arxiv.org/abs/2409.18324v1 ) ライセンス: Link先を確認 | Theo Gregersen, Pratyush Patel, Esha Choukse, | (参考訳) GPUは電力不足で知られており、人工知能のブームにより、彼らは現在、今後のデータセンターの高電力需要に大きく貢献している。
これらの一般的なワークロードにおけるGPUの使用のほとんどは、ハードウェアリソースの高利用のために最適化された大規模な汎用行列行列乗算(GEMM)で構成されている。
本研究では,入力データをGEMMに変換し,行列形状やサイズを維持しながら,これらのカーネルの消費電力を著しく変化させることができることを示す。
我々は、異なるデータ型に対して、値分布、ビット類似性、配置、間隔の4種類の入力バリエーションを実験した。
以上の結果から,GEMMにおけるGPUの消費電力は,ほぼ40%変化することが示唆された。
我々は、GPUにおけるビットフリップ数の変化により、入力依存の電力使用量の変化が起こると仮定する。
本稿では,この特性をコンパイラとスケジューラの最適化によって利用し,電力管理と省エネルギー化を提案する。
GPUs are known to be power-hungry, and due to the boom in artificial intelligence, they are currently the major contributors to the high power demands of upcoming datacenters. Most GPU usage in these popular workloads consist of large general matrix-matrix multiplications (GEMMs), which have therefore been optimized to achieve high utilization of hardware resources. In this work, we show that modifying the input data to GEMMs, while maintaining the matrix shapes and sizes can notably change the power consumption of these kernels. We experiment with four kinds of input variations: value distribution, bit similarity, placement, and sparsity, across different data types. Our findings indicate that these variations can change the GPU power usage during GEMM by almost 40%. We hypothesize that input-dependent power usage variations occur due to changes in the number of bit flips in the GPUs. We propose leveraging this property through compiler and scheduler optimizations to manage power and reduce energy consumption. | 翻訳日:2024-11-06 07:00:37 公開日:2024-09-26 |
# 量子光学研究所における塵汚染の消毒--測定と勧告
Demystifying dust contamination in quantum optics labs: measurements and recommendations ( http://arxiv.org/abs/2409.18325v1 ) ライセンス: Link先を確認 | Jonas Gottschalk, Simon Stellmer, | (参考訳) 量子光学の分野での実験は、しばしば実験室で非常に低い濃度の塵粒子を必要とするが、作業ルーチンの複雑さは適切なクリーンルームでの操作を妨げる。
研究チームは、さまざまなアプローチ、予防措置、習慣を確立して、微妙な光学設備を汚染から解放した。
本稿では, 量子光学研究所の日々の作業中における塵粒子濃度を体系的に定量化し, 様々な測定方法の有効性を評価し, 実用的な勧告を行う。
Experiments in the field of quantum optics often require very low concentrations of dust particles in the laboratory, but the complexity of working routines precludes operation within a proper clean room. Research teams have established a multitude of different approaches, precaution measures, and habits to keep the delicate optics setups free of contamination. Here, we systematically quantify dust particle concentration during day-to-day operation of a quantum optics lab, assess the effectiveness of various measures, and give practical recommendations. | 翻訳日:2024-11-06 07:00:37 公開日:2024-09-26 |
# ニューラル生成モデルからのサンプルへのハーネスとカオスの調節
Harnessing and modulating chaos to sample from neural generative models ( http://arxiv.org/abs/2409.18329v1 ) ライセンス: Link先を確認 | Rishidev Chaudhuri, Vivek Handebagh, | (参考訳) カオスはモデルニューロンの強く結合したリカレントネットワークにおいて一般的であり、脳内で容易にアクセス可能な動的機構であると考えられている。
神経カオスは通常、堅牢な計算の障害と見なされるが、そのようなカオスが、生成モデルから脳を学習し、サンプルする上で、機能的な役割を担っていることを示す。
我々は、古典的なニューラルカオスモデルと標準生成モデリングアーキテクチャ、あるいはニューラルメモリのエネルギーベースモデルを組み合わせたアーキテクチャを構築する。
これらのアーキテクチャはサンプリングに魅力的な特性を有しており、全体としての利得変調によるサンプリング率の生物学的に証明可能な制御も容易である。
Chaos is generic in strongly-coupled recurrent networks of model neurons, and thought to be an easily accessible dynamical regime in the brain. While neural chaos is typically seen as an impediment to robust computation, we show how such chaos might play a functional role in allowing the brain to learn and sample from generative models. We construct architectures that combine a classic model of neural chaos either with a canonical generative modeling architecture or with energy-based models of neural memory. We show that these architectures have appealing properties for sampling, including easy biologically-plausible control of sampling rates via overall gain modulation. | 翻訳日:2024-11-06 07:00:37 公開日:2024-09-26 |
# DMC-VB:ビジュアルディトラクタを用いた制御のための表現学習ベンチマーク
DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors ( http://arxiv.org/abs/2409.18330v1 ) ライセンス: Link先を確認 | Joseph Ortiz, Antoine Dedieu, Wolfgang Lehrach, Swaroop Guntupalli, Carter Wendelken, Ahmad Humayun, Guangyao Zhou, Sivaramakrishnan Swaminathan, Miguel Lázaro-Gredilla, Kevin Murphy, | (参考訳) 行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学ぶことは、高価なオンライン学習の必要性を回避し、ジェネラリストエージェントをスケールするための強力なレシピである。
いくつかの点において強い一般化にもかかわらず、エージェントは背景やカメラの視点のような制御非関連要素の微妙な視覚的変化に対して著しく脆弱であることが多い。
本稿では,DeepMind Control Visual Benchmark (DMC-VB)を提案する。このデータセットはDeepMind Control Suiteで収集され,視覚的邪魔者の存在下での視覚入力から連続制御タスクを解くためのオフラインRLエージェントの堅牢性を評価する。
以前の作業とは対照的に、私たちのデータセットは
(a)難易度の異なる移動と航法作業を組み合わせたもの。
(b)静的および動的視覚変化を含む。
(c)異なるスキルレベルを持つポリシーによって生成されたデータを考える。
(d)状態と画素観察のペアを体系的に返す。
e)は桁違いに大きく、
(f) 隠れた目標を持つタスクを含む。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
まず、事前訓練された表現は、DMC-VBのポリシー学習に役立ちません。
第2に、専門家データが制限されている場合、ポリシー学習は事前訓練された表現の恩恵を受けることができることを示す。
(a)準最適データ、及び
(b)確率的隠れ目標を伴うタスク。
エージェントをトレーニングし、評価するためのデータセットとベンチマークコードは、https://github.com/google-deepmind/dmc_vision_benchmarkで利用可能です。
Learning from previously collected data via behavioral cloning or offline reinforcement learning (RL) is a powerful recipe for scaling generalist agents by avoiding the need for expensive online learning. Despite strong generalization in some respects, agents are often remarkably brittle to minor visual variations in control-irrelevant factors such as the background or camera viewpoint. In this paper, we present theDeepMind Control Visual Benchmark (DMC-VB), a dataset collected in the DeepMind Control Suite to evaluate the robustness of offline RL agents for solving continuous control tasks from visual input in the presence of visual distractors. In contrast to prior works, our dataset (a) combines locomotion and navigation tasks of varying difficulties, (b) includes static and dynamic visual variations, (c) considers data generated by policies with different skill levels, (d) systematically returns pairs of state and pixel observation, (e) is an order of magnitude larger, and (f) includes tasks with hidden goals. Accompanying our dataset, we propose three benchmarks to evaluate representation learning methods for pretraining, and carry out experiments on several recently proposed methods. First, we find that pretrained representations do not help policy learning on DMC-VB, and we highlight a large representation gap between policies learned on pixel observations and on states. Second, we demonstrate when expert data is limited, policy learning can benefit from representations pretrained on (a) suboptimal data, and (b) tasks with stochastic hidden goals. Our dataset and benchmark code to train and evaluate agents are available at: https://github.com/google-deepmind/dmc_vision_benchmark. | 翻訳日:2024-11-06 07:00:37 公開日:2024-09-26 |
# ベンチマークグラフのコンフォーマル予測:実証分析、スケーラビリティ、理論的考察
Benchmarking Graph Conformal Prediction: Empirical Analysis, Scalability, and Theoretical Insights ( http://arxiv.org/abs/2409.18332v1 ) ライセンス: Link先を確認 | Pranav Maneriker, Aditya T. Vadlamani, Anutam Srinivasan, Yuntian He, Ali Payani, Srinivasan Parthasarathy, | (参考訳) コンフォーマル予測は、機械学習モデルに関連する不確実性を定量化するために、ますます人気が高まっている。
グラフの不確実性定量化の最近の研究は、共形グラフ予測のためのこのアプローチに基づいている。
これらの調査の初期段階の性質は、実装、ベースライン、メソッド評価の相反する選択につながった。
本研究では,文献における設計選択を分析し,既存の手法と関連するトレードオフについて議論する。
既存手法の既存実装に基づいて,既存の手法を大規模グラフデータセットに拡張する手法を導入する。
我々の理論的および実証的な結果は、グラフ共形予測における将来の奨学金の勧告を正当化する。
Conformal prediction has become increasingly popular for quantifying the uncertainty associated with machine learning models. Recent work in graph uncertainty quantification has built upon this approach for conformal graph prediction. The nascent nature of these explorations has led to conflicting choices for implementations, baselines, and method evaluation. In this work, we analyze the design choices made in the literature and discuss the tradeoffs associated with existing methods. Building on the existing implementations for existing methods, we introduce techniques to scale existing methods to large-scale graph datasets without sacrificing performance. Our theoretical and empirical results justify our recommendations for future scholarship in graph conformal prediction. | 翻訳日:2024-11-06 07:00:37 公開日:2024-09-26 |
# 急速に発展する分野における類似度対策の標準化のための枠組み
A Framework for Standardizing Similarity Measures in a Rapidly Evolving Field ( http://arxiv.org/abs/2409.18333v1 ) ライセンス: Link先を確認 | Nathan Cloos, Guangyu Robert Yang, Christopher J. Cueva, | (参考訳) 類似度測定は、人工システムと生物学的システムのアライメントを定量化する基本的なツールである。
しかし、類似度尺度の多様性と命名・実施規則の多様性は、研究全体の比較を困難にしている。
比較を容易にし、与えられたコードパッケージの基盤となる実装の選択を明確にするために、私たちは類似度をベンチマークし標準化するPythonリポジトリを開発し続けています。
例えば、CKA(Centered Kernel Alignment)のような一般的な手法でさえ、少なくとも12種類のバリエーションがあり、フィールドが進化するにつれて、この数は増え続けるだろう。
そのため、我々は固定された決定的な命名規則を提唱しない。
類似度測定とベストプラクティスの展望は今後も変わり続けるので、現在のリポジトリには14のパッケージから約100種類の類似度測定が組み込まれています。
フィールドの進化に対応するため,命名規則の開発,検証,精錬を行う枠組みを,類似度対策を独自かつ効率的に特定する目的で提案する。
Similarity measures are fundamental tools for quantifying the alignment between artificial and biological systems. However, the diversity of similarity measures and their varied naming and implementation conventions makes it challenging to compare across studies. To facilitate comparisons and make explicit the implementation choices underlying a given code package, we have created and are continuing to develop a Python repository that benchmarks and standardizes similarity measures. The goal of creating a consistent naming convention that uniquely and efficiently specifies a similarity measure is not trivial as, for example, even commonly used methods like Centered Kernel Alignment (CKA) have at least 12 different variations, and this number will likely continue to grow as the field evolves. For this reason, we do not advocate for a fixed, definitive naming convention. The landscape of similarity measures and best practices will continue to change and so we see our current repository, which incorporates approximately 100 different similarity measures from 14 packages, as providing a useful tool at this snapshot in time. To accommodate the evolution of the field we present a framework for developing, validating, and refining naming conventions with the goal of uniquely and efficiently specifying similarity measures, ultimately making it easier for the community to make comparisons across studies. | 翻訳日:2024-11-06 07:00:37 公開日:2024-09-26 |
# フェアネス駆動による人間対応型ネゴシエーション戦略の学習
A Fairness-Driven Method for Learning Human-Compatible Negotiation Strategies ( http://arxiv.org/abs/2409.18335v1 ) ライセンス: Link先を確認 | Ryan Shea, Zhou Yu, | (参考訳) AIとNLPの最近の進歩にもかかわらず、交渉はAIエージェントにとって難しい領域である。
2人プレイのゼロサムゲームでうまく機能する伝統的なゲーム理論のアプローチは、人間互換の戦略を学べないため、交渉の文脈で苦労する。
一方、人間のデータのみを使用するアプローチは、ドメイン固有であり、ゲーム理論に根ざした戦略によって提供される理論的保証を欠く傾向にある。
一般のサムゲームにおける最適性の基準としての公正性の概念に触発されて、報酬設計と探索の両方に公正性を適用して人間互換の交渉戦略を学習するFDHCと呼ばれる交渉フレームワークを提案する。
我々の手法はLGM-Zeroと呼ばれる新しいRL+検索技術を含んでおり、LGM-Zeroはトレーニング済みの言語モデルを利用して大規模なアクション空間から人間互換のオファーを検索する。
提案手法は,より平等な交渉結果を達成し,交渉の質を向上させることができることを示す。
Despite recent advancements in AI and NLP, negotiation remains a difficult domain for AI agents. Traditional game theoretic approaches that have worked well for two-player zero-sum games struggle in the context of negotiation due to their inability to learn human-compatible strategies. On the other hand, approaches that only use human data tend to be domain-specific and lack the theoretical guarantees provided by strategies grounded in game theory. Motivated by the notion of fairness as a criterion for optimality in general sum games, we propose a negotiation framework called FDHC which incorporates fairness into both the reward design and search to learn human-compatible negotiation strategies. Our method includes a novel, RL+search technique called LGM-Zero which leverages a pre-trained language model to retrieve human-compatible offers from large action spaces. Our results show that our method is able to achieve more egalitarian negotiation outcomes and improve negotiation quality. | 翻訳日:2024-11-06 07:00:37 公開日:2024-09-26 |
# DeBaRA:Denoising-based 3D Room Arrangement Generation
DeBaRA: Denoising-Based 3D Room Arrangement Generation ( http://arxiv.org/abs/2409.18336v1 ) ライセンス: Link先を確認 | Léopold Maillard, Nicolas Sereyjol-Garros, Tom Durand, Maks Ovsjanikov, | (参考訳) 屋内3Dシーンのリアルで多様なレイアウトを生成することで、幅広い産業に影響を及ぼす複数のインタラクティブなアプリケーションを解き放つ。
オブジェクトの相互作用の本質的な複雑さ、利用可能なデータ量の制限、空間的制約を満たす必要性は、すべて3次元シーン合成とアレンジメントのための生成的モデリングを困難にしている。
現在の手法では,3次元推論を考慮せずに全ての属性を同時に予測することで,自己回帰的あるいは既成拡散目標を用いてこれらの課題に対処している。
本稿では,有界環境における精度,制御性,フレキシブルな配置生成に適したスコアベースモデルであるDeBaRAを紹介する。
シーン合成システムの最も重要な要素は,制限領域内における様々な物体のサイズと位置を正確に決定することである。
この知見に基づいて,3次元空間認識を中心とした軽量な条件付きスコアベースモデルを提案する。
本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
さらに,新たな自己スコア評価手法を導入し,外部LLMモデルと最適に併用できるようにする。
我々は、広範囲な実験を通してアプローチを評価し、様々なシナリオにおける最先端のアプローチに対する顕著な改善を実証する。
Generating realistic and diverse layouts of furnished indoor 3D scenes unlocks multiple interactive applications impacting a wide range of industries. The inherent complexity of object interactions, the limited amount of available data and the requirement to fulfill spatial constraints all make generative modeling for 3D scene synthesis and arrangement challenging. Current methods address these challenges autoregressively or by using off-the-shelf diffusion objectives by simultaneously predicting all attributes without 3D reasoning considerations. In this paper, we introduce DeBaRA, a score-based model specifically tailored for precise, controllable and flexible arrangement generation in a bounded environment. We argue that the most critical component of a scene synthesis system is to accurately establish the size and position of various objects within a restricted area. Based on this insight, we propose a lightweight conditional score-based model designed with 3D spatial awareness at its core. We demonstrate that by focusing on spatial attributes of objects, a single trained DeBaRA model can be leveraged at test time to perform several downstream applications such as scene synthesis, completion and re-arrangement. Further, we introduce a novel Self Score Evaluation procedure so it can be optimally employed alongside external LLM models. We evaluate our approach through extensive experiments and demonstrate significant improvement upon state-of-the-art approaches in a range of scenarios. | 翻訳日:2024-11-06 07:00:37 公開日:2024-09-26 |
# エネルギー効率の良い単一光子イメージングのための光子抑制
Photon Inhibition for Energy-Efficient Single-Photon Imaging ( http://arxiv.org/abs/2409.18337v1 ) ライセンス: Link先を確認 | Lucas J. Koerner, Shantanu Gupta, Atul Ingle, Mohit Gupta, | (参考訳) 単一光子カメラ(SPC)は、様々な課題の画像アプリケーションに最適なセンサーとして登場している。
単一光子アバランシェダイオード(SPAD)に基づくSPCの1つのクラスは、アバランシェプロセスを用いて個々の光子を検出し、得られた生光子データを処理して、極めて低照度、高ダイナミックレンジ、高速な動きでシーン情報を抽出することができる。
しかし、SPADの単一光子感度はコストがかかるため、それぞれの光子検出はCMOSカメラよりも多くのエネルギーを消費する。
この雪崩のパワーはセンサーの解像度を著しく制限し、SPADベースのSPCの普及を広範囲に制限する可能性がある。
本稿では,この課題に対処するために,emph{photon inhibition} という計算イメージング手法を提案する。
光子阻害は、下流の推論タスク目標とリソース制約に基づいて、空間と時間における検出を戦略的に割り当てる。
我々は,過去の光子データを用いてSPADピクセルをリアルタイムに無効にするための軽量でオンセンサーな計算抑制ポリシーを開発し,最も情報に富む未来の光子を選択する。
ケーススタディでは、画像再構成とエッジ検出に適したポリシーを設計し、シミュレーションと実SPCキャプチャデータの両方を通して、タスクパフォーマンス指標を維持しながら、光子検出(90%以上)を大幅に削減することを示した。
我々の研究は「どの光子が検出されるべきなのか?」という疑問を提起し、将来のエネルギー効率の高い単一光子イメージングの道を開く。
Single-photon cameras (SPCs) are emerging as sensors of choice for various challenging imaging applications. One class of SPCs based on the single-photon avalanche diode (SPAD) detects individual photons using an avalanche process; the raw photon data can then be processed to extract scene information under extremely low light, high dynamic range, and rapid motion. Yet, single-photon sensitivity in SPADs comes at a cost -- each photon detection consumes more energy than that of a CMOS camera. This avalanche power significantly limits sensor resolution and could restrict widespread adoption of SPAD-based SPCs. We propose a computational-imaging approach called \emph{photon inhibition} to address this challenge. Photon inhibition strategically allocates detections in space and time based on downstream inference task goals and resource constraints. We develop lightweight, on-sensor computational inhibition policies that use past photon data to disable SPAD pixels in real-time, to select the most informative future photons. As case studies, we design policies tailored for image reconstruction and edge detection, and demonstrate, both via simulations and real SPC captured data, considerable reduction in photon detections (over 90\% of photons) while maintaining task performance metrics. Our work raises the question of ``which photons should be detected?'', and paves the way for future energy-efficient single-photon imaging. | 翻訳日:2024-11-06 06:50:51 公開日:2024-09-26 |
# AER-LLM:大規模言語モデルを活用したあいまいさを考慮した感情認識
AER-LLM: Ambiguity-aware Emotion Recognition Leveraging Large Language Models ( http://arxiv.org/abs/2409.18339v1 ) ライセンス: Link先を確認 | Xin Hong, Yuan Gong, Vidhyasaharan Sethu, Ting Dang, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、多くの自然言語処理(NLP)タスクで大きな成功を収めている。
彼らの認知的知性に加えて、感情的知性における彼らの能力の探求も重要であり、より自然で共感的な会話型AIを可能にする。
近年の研究では、LLMが感情を認識する能力を示しているが、それらは単一の感情ラベルに集中し、人間の感情の複雑であいまいな性質を見落としていることが多い。
本研究は, あいまいな感情を認識する上でのLLMの可能性を探究し, 強い一般化能力と文脈内学習を活用することで, このギャップに対処する最初の試みである。
我々はゼロショットと少数ショットのプロンプトを設計し、過去の対話を曖昧な感情認識のための文脈情報として組み込んだ。
3つのデータセットを用いて行った実験は、あいまいな感情を認識する上でLLMにとって有意義な可能性を示し、文脈情報を含めることの実質的な利点を強調した。
さらに,LLMは,より曖昧な感情を認識する上で高い有効性を示し,人間の知覚能力と並行して,より曖昧な感情を識別する可能性が示唆された。
Recent advancements in Large Language Models (LLMs) have demonstrated great success in many Natural Language Processing (NLP) tasks. In addition to their cognitive intelligence, exploring their capabilities in emotional intelligence is also crucial, as it enables more natural and empathetic conversational AI. Recent studies have shown LLMs' capability in recognizing emotions, but they often focus on single emotion labels and overlook the complex and ambiguous nature of human emotions. This study is the first to address this gap by exploring the potential of LLMs in recognizing ambiguous emotions, leveraging their strong generalization capabilities and in-context learning. We design zero-shot and few-shot prompting and incorporate past dialogue as context information for ambiguous emotion recognition. Experiments conducted using three datasets indicate significant potential for LLMs in recognizing ambiguous emotions, and highlight the substantial benefits of including context information. Furthermore, our findings indicate that LLMs demonstrate a high degree of effectiveness in recognizing less ambiguous emotions and exhibit potential for identifying more ambiguous emotions, paralleling human perceptual capabilities. | 翻訳日:2024-11-06 06:50:51 公開日:2024-09-26 |
# DRL-STNet:unsupervised domain Adaptation for Cross-modality Medical Image Segmentation by Disentangled Representation Learning (特集:情報ネットワーク)
DRL-STNet: Unsupervised Domain Adaptation for Cross-modality Medical Image Segmentation via Disentangled Representation Learning ( http://arxiv.org/abs/2409.18340v1 ) ライセンス: Link先を確認 | Hui Lin, Florian Schiffers, Santiago López-Tapia, Neda Tavakoli, Daniel Kim, Aggelos K. Katsaggelos, | (参考訳) 非教師なし領域適応(UDA)は、医用画像のセグメンテーション、特にクロスモダリティデータシナリオにおいて不可欠である。
UDAはラベル付きソースドメインからラベルなしのターゲットドメインに知識を転送することを目的としている。
本稿では、GAN(Generative Adversarial Network)、DRL(Disentangled Expression Learning)、ST(Self-training)を活用した、クロスモーダルな医療画像セグメンテーションのための新しいフレームワークであるDRL-STNetを提案する。
本手法は、GAN内のDRLを利用して、ソースからターゲットモダリティへの変換を行う。
次に、まずこれらの翻訳画像と対応するソースラベルを用いてセグメンテーションモデルを訓練し、その後擬似ラベルと実ラベルを組み合わせた合成画像と実画像の組み合わせを用いて微調整を行う。
提案フレームワークは,FLAREチャレンジデータセットの腹部臓器のセグメンテーションにおいて,Dice類似度係数の11.4%,正常化サーフェスDice測定値の13.1%を上回り,74.21%,80.69%のスコアを得た。
平均実行時間は41秒で、GPUメモリタイム曲線以下の領域は11,292MBである。
これらの結果から, DRL-STNetの医療画像分割タスクの強化の可能性が示唆された。
Unsupervised domain adaptation (UDA) is essential for medical image segmentation, especially in cross-modality data scenarios. UDA aims to transfer knowledge from a labeled source domain to an unlabeled target domain, thereby reducing the dependency on extensive manual annotations. This paper presents DRL-STNet, a novel framework for cross-modality medical image segmentation that leverages generative adversarial networks (GANs), disentangled representation learning (DRL), and self-training (ST). Our method leverages DRL within a GAN to translate images from the source to the target modality. Then, the segmentation model is initially trained with these translated images and corresponding source labels and then fine-tuned iteratively using a combination of synthetic and real images with pseudo-labels and real labels. The proposed framework exhibits superior performance in abdominal organ segmentation on the FLARE challenge dataset, surpassing state-of-the-art methods by 11.4% in the Dice similarity coefficient and by 13.1% in the Normalized Surface Dice metric, achieving scores of 74.21% and 80.69%, respectively. The average running time is 41 seconds, and the area under the GPU memory-time curve is 11,292 MB. These results indicate the potential of DRL-STNet for enhancing cross-modality medical image segmentation tasks. | 翻訳日:2024-11-06 06:50:51 公開日:2024-09-26 |
# 自動運転車には認識タスクが本当に必要か?
Does End-to-End Autonomous Driving Really Need Perception Tasks? ( http://arxiv.org/abs/2409.18341v1 ) ライセンス: Link先を確認 | Peidong Li, Dixiao Cui, | (参考訳) E2EAD(End-to-End Autonomous Driving)の手法は、通常、明示的なシーン情報(例えば、オブジェクト、マップ)を抽出するために、教師付き知覚タスクに依存する。
この依存は、高額なアノテーションを必要とし、リアルタイムアプリケーションにおけるデプロイメントとデータのスケーラビリティを制約します。
本稿では,16個のナビゲーション誘導トークンのみをスパースシーン表現として利用し,E2EADの重要なシーン情報を効率的に抽出する新しいフレームワークであるSSRを紹介する。
本手法では,教師付きサブタスクの必要性を排除し,ナビゲーション意図に直接関係する重要な要素に計算資源を集中させることができる。
さらに,バードアイビュー(BEV)の世界モデルを用いた時間的拡張モジュールを導入する。
SSR は nuScenes データセット上での最先端の計画性能を達成し、L2 エラーの相対減少率 27.2 % と、主要な E2EAD 法である UniAD との衝突速度 51.6 % を実証した。
さらに、SSRは10.9$\times$高速な推論速度と13$\times$高速なトレーニングタイムを提供する。
このフレームワークは、リアルタイム自動運転システムにおける大きな飛躍であり、将来のスケーラブルなデプロイメントの道を開くものだ。
コードは \url{https://github.com/PeidongLi/SSR} でリリースされる。
End-to-End Autonomous Driving (E2EAD) methods typically rely on supervised perception tasks to extract explicit scene information (e.g., objects, maps). This reliance necessitates expensive annotations and constrains deployment and data scalability in real-time applications. In this paper, we introduce SSR, a novel framework that utilizes only 16 navigation-guided tokens as Sparse Scene Representation, efficiently extracting crucial scene information for E2EAD. Our method eliminates the need for supervised sub-tasks, allowing computational resources to concentrate on essential elements directly related to navigation intent. We further introduce a temporal enhancement module that employs a Bird's-Eye View (BEV) world model, aligning predicted future scenes with actual future scenes through self-supervision. SSR achieves state-of-the-art planning performance on the nuScenes dataset, demonstrating a 27.2\% relative reduction in L2 error and a 51.6\% decrease in collision rate to the leading E2EAD method, UniAD. Moreover, SSR offers a 10.9$\times$ faster inference speed and 13$\times$ faster training time. This framework represents a significant leap in real-time autonomous driving systems and paves the way for future scalable deployment. Code will be released at \url{https://github.com/PeidongLi/SSR}. | 翻訳日:2024-11-06 06:50:51 公開日:2024-09-26 |
# 自律走行のためのRL微細調整によるエージェントの挙動改善
Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving ( http://arxiv.org/abs/2409.18343v1 ) ライセンス: Link先を確認 | Zhenghao Peng, Wenjie Luo, Yiren Lu, Tianyi Shen, Cole Gulino, Ari Seff, Justin Fu, | (参考訳) これは、オフボード評価のための現実的で信頼性の高いシミュレーションの構築や、オンボード計画のための交通エージェントの動きの予測など、重要な応用がある。
教師付き学習は、さまざまなドメインにわたるモデリングエージェントで成功しているが、これらのモデルは、テスト時にデプロイされた場合、分散シフトに悩まされる可能性がある。
本研究では,強化学習を伴う行動モデルのクローズドループ微調整によりエージェント動作の信頼性を向上させる。
本手法は、Waymo Open Sim Agents チャレンジにおいて、全体的な性能の向上と、衝突速度などの目標メトリクスの改善を実証する。
さらに,シミュレーションエージェントが自律走行車プランナーの質を計測する能力を直接評価し,本ベンチマークにおけるアプローチの有効性を実証する,新たなポリシー評価ベンチマークを提案する。
A major challenge in autonomous vehicle research is modeling agent behaviors, which has critical applications including constructing realistic and reliable simulations for off-board evaluation and forecasting traffic agents motion for onboard planning. While supervised learning has shown success in modeling agents across various domains, these models can suffer from distribution shift when deployed at test-time. In this work, we improve the reliability of agent behaviors by closed-loop fine-tuning of behavior models with reinforcement learning. Our method demonstrates improved overall performance, as well as improved targeted metrics such as collision rate, on the Waymo Open Sim Agents challenge. Additionally, we present a novel policy evaluation benchmark to directly assess the ability of simulated agents to measure the quality of autonomous vehicle planners and demonstrate the effectiveness of our approach on this new benchmark. | 翻訳日:2024-11-06 06:50:51 公開日:2024-09-26 |
# 一般化LLM拡張BIMフレームワーク:音声-BIMシステムへの応用
A Generalized LLM-Augmented BIM Framework: Application to a Speech-to-BIM system ( http://arxiv.org/abs/2409.18345v1 ) ライセンス: Link先を確認 | Ghang Lee, Suhyung Jang, Seokho Hyun, | (参考訳) ビルディング情報モデリング(BIM)タスクの実行は、多数のコマンドのシーケンスを記憶する必要があるため、急勾配の学習曲線と重い認知負荷を課す複雑なプロセスである。
大規模言語モデル(LLM)の急速な進歩により、BIMデータ、4Dおよび5D BIM、設計コンプライアンスチェック、または設計のオーサリングを含むBIMタスクが、手書きまたは音声の自然言語(テキスト・トゥ・BIMまたは音声・BIM)によって、間もなく従来のグラフィカル・ユーザ・インタフェースに取って代わることが予想される。
本稿では、ステップバイステップ開発プロセスを提供することで、LLM強化BIMアプリケーションの開発を高速化する一般化されたLLM拡張BIMフレームワークを提案する。
提案するフレームワークは6つのステップで構成されている。
提案手法の適用性について,外壁を例として, NADIA-S (Natural-lang-based Architectural Detailing through Interaction with Artificial Intelligence via Speech) を実装した。
Performing building information modeling (BIM) tasks is a complex process that imposes a steep learning curve and a heavy cognitive load due to the necessity of remembering sequences of numerous commands. With the rapid advancement of large language models (LLMs), it is foreseeable that BIM tasks, including querying and managing BIM data, 4D and 5D BIM, design compliance checking, or authoring a design, using written or spoken natural language (i.e., text-to-BIM or speech-to-BIM), will soon supplant traditional graphical user interfaces. This paper proposes a generalized LLM-augmented BIM framework to expedite the development of LLM-enhanced BIM applications by providing a step-by-step development process. The proposed framework consists of six steps: interpret-fill-match-structure-execute-check. The paper demonstrates the applicability of the proposed framework through implementing a speech-to-BIM application, NADIA-S (Natural-language-based Architectural Detailing through Interaction with Artificial Intelligence via Speech), using exterior wall detailing as an example. | 翻訳日:2024-11-06 06:50:51 公開日:2024-09-26 |
# マルチクライメート:気候変動映像におけるマルチモーダルスタンス検出
MultiClimate: Multimodal Stance Detection on Climate Change Videos ( http://arxiv.org/abs/2409.18346v1 ) ライセンス: Link先を確認 | Jiawen Wang, Longfei Zuo, Siyao Peng, Barbara Plank, | (参考訳) 気候変動(CC)は近年,NLPの注目を集めている。
しかしながら、マルチモーダルデータにおけるCCに対するスタンスの検出は検討されており、信頼できるデータセットが欠如しているため、依然として困難である。
本稿では,世論とコミュニケーション戦略の理解を深めるために,CC関連YouTubeビデオ100ドルとフレーム書き起こしペア4,209ドルという,手動による手動による姿勢検出データセットであるMultiClimateを提案する。
我々は、最先端のビジョンと言語モデル、およびマルチクライメート姿勢検出のためのマルチモーダルモデルをデプロイする。
その結果、テキストのみのBERTは画像のみのResNet50やViTよりも大幅に優れていた。
両方のモダリティを組み合わせることで、0.747$/$0.749$の精度/F1が得られる。
私たちの100Mサイズの核融合モデルもCLIPとBLIPを上回り、さらに大きな9BサイズのマルチモーダルIDEFICSとテキストのみのLlama3とGemma2を上回りました。
私たちのコード、データセット、および補足資料はhttps://github.com/werywjw/MultiClimate.comで利用可能です。
Climate change (CC) has attracted increasing attention in NLP in recent years. However, detecting the stance on CC in multimodal data is understudied and remains challenging due to a lack of reliable datasets. To improve the understanding of public opinions and communication strategies, this paper presents MultiClimate, the first open-source manually-annotated stance detection dataset with $100$ CC-related YouTube videos and $4,209$ frame-transcript pairs. We deploy state-of-the-art vision and language models, as well as multimodal models for MultiClimate stance detection. Results show that text-only BERT significantly outperforms image-only ResNet50 and ViT. Combining both modalities achieves state-of-the-art, $0.747$/$0.749$ in accuracy/F1. Our 100M-sized fusion models also beat CLIP and BLIP, as well as the much larger 9B-sized multimodal IDEFICS and text-only Llama3 and Gemma2, indicating that multimodal stance detection remains challenging for large language models. Our code, dataset, as well as supplementary materials, are available at https://github.com/werywjw/MultiClimate. | 翻訳日:2024-11-06 06:50:51 公開日:2024-09-26 |
# 室内のエレファント:アライメントにおけるリワードモデル品質の影響を明らかにする
Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment ( http://arxiv.org/abs/2409.19024v1 ) ライセンス: Link先を確認 | Yan Liu, Xiaoyuan Yi, Xiaokang Chen, Jing Yao, Jingwei Yi, Daoguang Zan, Zheng Liu, Xing Xie, Tsung-Yi Ho, | (参考訳) 大規模言語モデル(LLM)の潜在的危険行動の規制に対する需要は、アライメント手法の研究に火をつけている。
LLMアライメントは最適化や評価のための報酬モデルに大きく依存しているため、報酬モデルの品質を無視すると、信頼性の低い結果や不正な調整を引き起こす可能性がある。
重要な役割の報酬モデルが整列しているにもかかわらず、前作では一貫してパフォーマンスを見落としており、検証無しに既製の報酬モデルを任意に使用しており、報酬モデル '`\emph{an elephant in the room}' を描画している。
この目的のために、まず広く使われている選好データセットHH-RLHFの品質を調査し、クリーンバージョンCHH-RLHFをキュレートする。
本稿では,CHH-RLHFに基づいて,従来のアライメント作業で使用する幅広い報酬モデルの精度をベンチマークし,最適化と評価の両方に使用するという信頼性の欠如を明らかにした。
さらに,報酬モデル品質が3つの報酬利用パラダイムにおけるアライメント性能に及ぼす影響を系統的に検討した。
大規模な実験では、より良い報酬モデルがより良い人間の嗜好のプロキシとして機能することが示された。
この研究は、人々の目を覚ますことで、アライメント研究においてこの巨大な象に気づくことを目的としています。
1)アライメント最適化か評価かにかかわらず、報酬モデルを厳格に評価する必要がある。
2)報酬モデルの役割を考えると,研究はアライメントアルゴリズムだけでなく,より信頼性の高いヒューマンプロキシの開発にも注力すべきである。
The demand for regulating potentially risky behaviors of large language models (LLMs) has ignited research on alignment methods. Since LLM alignment heavily relies on reward models for optimization or evaluation, neglecting the quality of reward models may cause unreliable results or even misalignment. Despite the vital role reward models play in alignment, previous works have consistently overlooked their performance and used off-the-shelf reward models arbitrarily without verification, rendering the reward model ``\emph{an elephant in the room}''. To this end, this work first investigates the quality of the widely-used preference dataset, HH-RLHF, and curates a clean version, CHH-RLHF. Based on CHH-RLHF, we benchmark the accuracy of a broad range of reward models used in previous alignment works, unveiling the unreliability of using them both for optimization and evaluation. Furthermore, we systematically study the impact of reward model quality on alignment performance in three reward utilization paradigms. Extensive experiments reveal that better reward models perform as better human preference proxies. This work aims to awaken people to notice this huge elephant in alignment research. We call attention to the following issues: (1) The reward model needs to be rigorously evaluated, whether for alignment optimization or evaluation. (2) Considering the role of reward models, research efforts should not only concentrate on alignment algorithm, but also on developing more reliable human proxy. | 翻訳日:2024-11-06 04:50:50 公開日:2024-09-26 |
# 論争への対処:ロールプレイングに基づく感情・コーピング戦略コーパス
Dealing with Controversy: An Emotion and Coping Strategy Corpus Based on Role Playing ( http://arxiv.org/abs/2409.19025v1 ) ライセンス: Link先を確認 | Enrica Troiano, Sofie Labat, Marco Antonio Stranisci, Viviana Patti, Rossana Damiano, Roman Klinger, | (参考訳) 感情に関する心理学的な研究と計算的な研究の間にはミスマッチがある。
心理学的研究は、これらの現象の内部メカニズムの説明と文書化を目的としており、計算作業はしばしばそれらをラベルに単純化する。
多くの感情基礎は、自然言語処理、特に感情がどのように発達し、人々がそれらにどう対処するかにおいて、未解明のままである。
このギャップを減らすために、私たちは対処の理論に従い、感情を健全な状況に対処するための戦略として扱う(つまり、人々が感情を過小評価する出来事にどう対処するか)。
このアプローチは、言語にも現れる感情と行動の関連を調査することを可能にする。
我々は,ロールプレイングによって構築されたコーパスとともに,識別に対処するタスクを導入する。
我々は、人間と自動システムの両方が、同じタスクで訓練され、促されるように、認識するのが困難であるにもかかわらず、対処戦略がテキストで実現されていることを発見した。
そこで我々は,テキストから感情のメカニズムを捉える能力を高めるために,有望な研究の方向性を定めている。
There is a mismatch between psychological and computational studies on emotions. Psychological research aims at explaining and documenting internal mechanisms of these phenomena, while computational work often simplifies them into labels. Many emotion fundamentals remain under-explored in natural language processing, particularly how emotions develop and how people cope with them. To help reduce this gap, we follow theories on coping, and treat emotions as strategies to cope with salient situations (i.e., how people deal with emotion-eliciting events). This approach allows us to investigate the link between emotions and behavior, which also emerges in language. We introduce the task of coping identification, together with a corpus to do so, constructed via role-playing. We find that coping strategies realize in text even though they are challenging to recognize, both for humans and automatic systems trained and prompted on the same task. We thus open up a promising research direction to enhance the capability of models to better capture emotion mechanisms from text. | 翻訳日:2024-11-06 04:50:50 公開日:2024-09-26 |
# Llama 3.1 405B を用いたコード生成とアルゴリズム問題の解法
Code Generation and Algorithmic Problem Solving Using Llama 3.1 405B ( http://arxiv.org/abs/2409.19027v1 ) ライセンス: Link先を確認 | Aniket Deroy, Subhankar Maity, | (参考訳) メタのLlama 3.1 405BのようなLlama 3.1モデルによるコード生成は、人工知能、特に自然言語処理とプログラミング自動化の分野で大きな進歩を示している。
本稿では,Llama-driven code generationの機能と応用について考察し,自然言語プロンプトを複数のプログラミング言語にまたがる実行可能コードに変換する能力を強調した。
主な機能として、コンテキスト認識、多言語サポート、デバッグ機能と最適化機能が強化されている。
これらの側面を調べることで、Llamaがあらゆるスキルレベルを持つ開発者にとって汎用的なツールとして機能し、ソフトウェア開発の生産性と効率を改善する方法について説明する。
教育、産業、そしてコーディングプラクティスの将来への潜在的な影響についても論じられ、プログラミングにおけるAIの変革的な影響を浮き彫りにしている。
実験によると、Llama 3.1 405Bは単純なアルゴリズムとデータ構造に基づく問題でうまく機能するが、量子コンピューティング、バイオインフォマティクス、人工知能の問題に苦戦している。
Code generation by Llama 3.1 models, such as Meta's Llama 3.1 405B, represents a significant advancement in the field of artificial intelligence, particularly in natural language processing and programming automation. This paper explores the capabilities and applications of Llama-driven code generation, highlighting its ability to translate natural language prompts into executable code across multiple programming languages. Key features include contextual awareness, multi-language support, and enhanced debugging and optimization functionalities. By examining these aspects, we illustrate how Llama can serve as a versatile tool for developers of all skill levels, improving productivity and efficiency in software development. The potential implications for education, industry, and the future of coding practices are also discussed, underscoring the transformative impact of AI in programming. Experimentation shows that while Llama 3.1 405B performs well with simple algorithmic and data structure based problems, it still struggles with problems on Quantum Computing, Bioinformatics, and Artificial Intelligence. | 翻訳日:2024-11-06 04:50:50 公開日:2024-09-26 |
# 量子アルゴリズムのためのLCM駆動記述の探索
Exploring LLM-Driven Explanations for Quantum Algorithms ( http://arxiv.org/abs/2409.19028v1 ) ライセンス: Link先を確認 | Giordano d'Aloisio, Sophie Fortz, Carol Hanna, Daniel Fortunato, Avner Bensoussan, Eñaut Mendiluze Usandizaga, Federica Sarro, | (参考訳) 背景: 量子コンピューティングは急速に成長する新しいプログラミングパラダイムであり、アルゴリズムの設計と実装に大きな変化をもたらす。
量子アルゴリズムを理解するには物理と数学の知識が必要です。
Aims: この研究では、LLMが開発者の量子コード理解をどのようにサポートするか、最初の分析を行います。
方法:7つの最先端量子アルゴリズムのための2つの異なる人書きプロンプトスタイルを用いて,広く採用されている3つのLLM(Gpt3.5,Llama2,Tinyllama)による説明の質を実証的に分析し,比較する。
また、LLMの説明が複数のラウンドでどれだけ一貫したものであるか、LLMが量子アルゴリズムの既存の記述を改善する方法について分析する。
結果: Llama2はスクラッチから最高の品質説明を提供する一方、Gpt3.5は既存の説明を改善するのに最適なLLMとして登場した。
さらに,少量のコンテキストをプロンプトに追加することで,説明の質が大幅に向上することを示す。
最後に,複数のラウンドにおける説明の質的・統語的一貫性について考察する。
結論: この研究は有望な結果を強調し、量子コード説明のためのLLMの分野における今後の研究の課題を開放する。
今後の作業には、量子コード説明の迅速な最適化と解析を通じてメソッドを精査することや、説明の質を体系的に評価することが含まれる。
Background: Quantum computing is a rapidly growing new programming paradigm that brings significant changes to the design and implementation of algorithms. Understanding quantum algorithms requires knowledge of physics and mathematics, which can be challenging for software developers. Aims: In this work, we provide a first analysis of how LLMs can support developers' understanding of quantum code. Method: We empirically analyse and compare the quality of explanations provided by three widely adopted LLMs (Gpt3.5, Llama2, and Tinyllama) using two different human-written prompt styles for seven state-of-the-art quantum algorithms. We also analyse how consistent LLM explanations are over multiple rounds and how LLMs can improve existing descriptions of quantum algorithms. Results: Llama2 provides the highest quality explanations from scratch, while Gpt3.5 emerged as the LLM best suited to improve existing explanations. In addition, we show that adding a small amount of context to the prompt significantly improves the quality of explanations. Finally, we observe how explanations are qualitatively and syntactically consistent over multiple rounds. Conclusions: This work highlights promising results, and opens challenges for future research in the field of LLMs for quantum code explanation. Future work includes refining the methods through prompt optimisation and parsing of quantum code explanations, as well as carrying out a systematic assessment of the quality of explanations. | 翻訳日:2024-11-06 04:50:50 公開日:2024-09-26 |
# ISMS開発におけるAIによる生産性向上 - ケースケムパワー
Enhancing Productivity with AI During the Development of an ISMS: Case Kempower ( http://arxiv.org/abs/2409.19029v1 ) ライセンス: Link先を確認 | Atro Niemeläinen, Muhammad Waseem, Tommi Mikkonen, | (参考訳) ISMS(Information Security Management System)への投資は、組織の競争力を高め、情報資産を保護する。
しかし、ISMSの導入は重要なリソースを消費する。例えば、ISO27001標準に従ってISMSを実装するには、116の異なるコントロールを文書化する必要がある。
本稿では、フィンランドの企業であるKempowerが、ISMSの作成と実装に生成AIを効果的に利用し、必要なリソースを大幅に削減した方法について論じる。
本研究は、生成AIの使用が、IMSの作成プロセスを強化する方法について研究する。
我々は、サイバーセキュリティとAIの様々なレベルの経験を持つICSプロジェクトの様々なステークホルダーと、半構造化された7つのインタビューを行った。
Investing in an Information Security Management System (ISMS) enhances organizational competitiveness and protects information assets. However, introducing an ISMS consumes significant resources; for instance, implementing an ISMS according to the ISO27001 standard involves documenting 116 different controls. This paper discusses how Kempower, a Finnish company, has effectively used generative AI to create and implement an ISMS, significantly reducing the resources required. This research studies how the use of generative AI can enhance the process of creating an ISMS. We conducted seven semi-structured interviews held with various stakeholders of the ISMS project, who had varying levels experience in cyber security and AI. | 翻訳日:2024-11-06 04:50:50 公開日:2024-09-26 |
# 知識の体系化: ヨーロッパのデジタルアイデンティティとWeb3を結びつける
A Systematisation of Knowledge: Connecting European Digital Identities with Web3 ( http://arxiv.org/abs/2409.19032v1 ) ライセンス: Link先を確認 | Ben Biedermann, Matthew Scerri, Victoria Kozlova, Joshua Ellul, | (参考訳) 自己主権アイデンティティ (SSI) と分散アイデンティティ (decentralized identity) という用語は、しばしば相互に使用される。
本論は,eIDAS 2.0の実施に繋がる技術開発に関する知識の体系化を提供することにより,欧州デジタルアイデンティティフレームワーク(eIDAS 2.0)の確立に関する改正規則(eIDAS 2.0)に関して,この2つの概念を明確に区別することを目的とする。
帰納的な探索的アプローチを適用して、関連する文献は9ヶ月の時間枠で繰り返し選択され、2005年から2024年までの文献をカバーした。
レビューでは、分散IDセクターがOpen AuthenticationのOpenID Connect(OIDC)パラダイムに隣接して出現したのに対して、SSIはブロックチェーンベースのソリューションへの移行を示している。
本研究では,SSIと分散IDの相互利用がOIDC上の新しいプロトコルと一致することを示す。
本論文の第1部では,OIDCと分散IDを区別するが,第2部ではeIDAS 2.0 と Web3 による OIDC の不整合性に対処する。
本論文は,eIDAS 2.0 から派生したデータと OIDC を用いて提示されるデータとを相互に接続するデジタルIDブリッジの確立に向けたさらなる研究を締めくくっている。
The terms self-sovereign identity (SSI) and decentralised identity are often used interchangeably, which results in increasing ambiguity when solutions are being investigated and compared. This article aims to provide a clear distinction between the two concepts in relation to the revised Regulation as Regards establishing the European Digital Identity Framework (eIDAS 2.0) by providing a systematisation of knowledge of technological developments that led up to implementation of eIDAS 2.0. Applying an inductive exploratory approach, relevant literature was selected iteratively in waves over a nine months time frame and covers literature between 2005 and 2024. The review found that the decentralised identity sector emerged adjacent to the OpenID Connect (OIDC) paradigm of Open Authentication, whereas SSI denotes the sector's shift towards blockchain-based solutions. In this study, it is shown that the interchangeable use of SSI and decentralised identity coincides with novel protocols over OIDC. While the first part of this paper distinguishes OIDC from decentralised identity, the second part addresses the incompatibility between OIDC under eIDAS 2.0 and Web3. The paper closes by suggesting further research for establishing a digital identity bridge for connecting applications on public-permissionless ledgers with data originating from eIDAS 2.0 and being presented using OIDC. | 翻訳日:2024-11-06 04:50:50 公開日:2024-09-26 |
# 変圧器の新しいスピノルベース埋め込みモデル
A Novel Spinor-Based Embedding Model for Transformers ( http://arxiv.org/abs/2410.00038v1 ) ライセンス: Link先を確認 | Rick White, | (参考訳) 本稿では,幾何代数学からのスピノルを利用したトランスフォーマーモデルにおける単語埋め込み手法を提案する。
スピノルは高次元空間における複雑な関係や変換を捉えることができるリッチな数学的枠組みを提供する。
単語をスピノルとして符号化することで,表現表現の表現性や頑健性を高めることを目指す。
本稿では,スピノルの理論的基礎を提示し,トランスフォーマーアーキテクチャへの統合を詳述するとともに,潜在的な利点と課題について論じる。
This paper proposes a novel approach to word embeddings in Transformer models by utilizing spinors from geometric algebra. Spinors offer a rich mathematical framework capable of capturing complex relationships and transformations in high-dimensional spaces. By encoding words as spinors, we aim to enhance the expressiveness and robustness of language representations. We present the theoretical foundations of spinors, detail their integration into Transformer architectures, and discuss potential advantages and challenges. | 翻訳日:2024-11-05 15:19:28 公開日:2024-09-26 |
# デジタル人間のための全体グラスピング動作生成のためのターゲットポーズガイド
Target Pose Guided Whole-body Grasping Motion Generation for Digital Humans ( http://arxiv.org/abs/2410.01840v1 ) ライセンス: Link先を確認 | Quanquan Shao, Yi Fang, | (参考訳) グラッピング操作は、人間の日常生活オブジェクトとの相互作用の基本的なモードである。
つかみ動作の合成は、アニメーションやロボット工学といった多くの応用においても非常に要求される。
物体をつかむ研究分野において、ほとんどの研究は、平行グリップまたはデキスタラスハンドで最後の静的グリップポーズを生成することに重点を置いている。
フルアーム、特にフルヒューマンライクなインテリジェントエージェントのためのグラスピング動作生成は、まだ未調査である。
本研究では,仮想世界で自由度の高い人間型知的エージェントであるデジタル人間のための把握動作生成フレームワークを提案する。
3次元空間における初期ポーズが既知のオブジェクトに与えられると、まず、オフザシェルフ目標把握ポーズ生成法に基づいて、全身デジタル人間のターゲットポーズを生成する。
初期ポーズとこの生成されたターゲットポーズを用いて、トランスフォーマーベースのニューラルネットワークを使用して、初期ポーズとターゲットポーズをスムーズに自然に接続する把握軌道全体を生成する。
さらに、2つのポスト最適化コンポーネントは、フットスケート問題とハンドオブジェクトの相互接続を別々に軽減するように設計されている。
GRABデータセットを用いて,ランダムに配置された未知物体を用いた全身把握動作生成法の有効性を示す実験を行った。
Grasping manipulation is a fundamental mode for human interaction with daily life objects. The synthesis of grasping motion is also greatly demanded in many applications such as animation and robotics. In objects grasping research field, most works focus on generating the last static grasping pose with a parallel gripper or dexterous hand. Grasping motion generation for the full arm especially for the full humanlike intelligent agent is still under-explored. In this work, we propose a grasping motion generation framework for digital human which is an anthropomorphic intelligent agent with high degrees of freedom in virtual world. Given an object known initial pose in 3D space, we first generate a target pose for whole-body digital human based on off-the-shelf target grasping pose generation methods. With an initial pose and this generated target pose, a transformer-based neural network is used to generate the whole grasping trajectory, which connects initial pose and target pose smoothly and naturally. Additionally, two post optimization components are designed to mitigates foot-skating issue and hand-object interpenetration separately. Experiments are conducted on GRAB dataset to demonstrate effectiveness of this proposed method for whole-body grasping motion generation with randomly placed unknown objects. | 翻訳日:2024-11-04 14:34:44 公開日:2024-09-26 |
# GPTの判断の不確実性
GPT's Judgements Under Uncertainty ( http://arxiv.org/abs/2410.02820v1 ) ライセンス: Link先を確認 | Payam Saeedi, Mahsa Goodarzi, | (参考訳) 我々は、GPT-4oがどのように判断し、確率的シナリオで決定するかにおいて、損失回避、フレーミング効果、協調誤認などの人間の認知に固有のバイアスが現れるかどうかを考察する。
9つの認知バイアスにまたがる1350の実験を行い、統計的・ヒューリスティックな推論に対する応答を解析することにより、GPT-4oの矛盾するアプローチを、同様の確率表記のプロンプトに反応しながら示す。
我々の研究結果は、人間のようなヒューリスティックなエラーと統計的に正しい判断の両方を示すAIとの混合性能も明らかにした。
We investigate whether biases inherent in human cognition, such as loss aversion, framing effects, and conjunction fallacy, manifest in how GPT-4o judges and makes decisions in probabilistic scenarios. By conducting 1350 experiments across nine cognitive biases and analyzing the responses for statistical versus heuristic reasoning, we demonstrate GPT-4o's contradicting approach while responding to prompts with similar underlying probability notations. Our findings also reveal mixed performances with the AI demonstrating both human-like heuristic errors and statistically sound decisions, even as it goes through identical iterations of the same prompt. | 翻訳日:2024-11-03 05:34:38 公開日:2024-09-26 |
# サイバーセキュリティにおける攻撃的AIに関する調査
A Survey on Offensive AI Within Cybersecurity ( http://arxiv.org/abs/2410.03566v1 ) ライセンス: Link先を確認 | Sahil Girhepuje, Aviral Verma, Gaurav Raina, | (参考訳) 人工知能(AI)は、さまざまな領域で大きな成長と統合を目撃している。
AIシステムがますます普及するにつれて、悪意のある目的のためにその機能を操作するための脅威アクターの標的にもなっています。
攻撃的AIに関する調査論文は、AIシステムに対する攻撃および使用に関する様々な側面を包括的にカバーする。
消費者、企業、公共のデジタルインフラストラクチャなど、さまざまな分野における攻撃的なAIプラクティスの影響を掘り下げる。
この論文では、敵対的な機械学習、AIモデルに対する攻撃、インフラストラクチャ、インターフェース、および情報収集、ソーシャルエンジニアリング、兵器化されたAIといった攻撃的テクニックについて検討する。
さらに、攻撃的なAIの結果と影響について議論し、さらなる研究のためのケーススタディ、洞察、道程を提示する。
Artificial Intelligence (AI) has witnessed major growth and integration across various domains. As AI systems become increasingly prevalent, they also become targets for threat actors to manipulate their functionality for malicious purposes. This survey paper on offensive AI will comprehensively cover various aspects related to attacks against and using AI systems. It will delve into the impact of offensive AI practices on different domains, including consumer, enterprise, and public digital infrastructure. The paper will explore adversarial machine learning, attacks against AI models, infrastructure, and interfaces, along with offensive techniques like information gathering, social engineering, and weaponized AI. Additionally, it will discuss the consequences and implications of offensive AI, presenting case studies, insights, and avenues for further research. | 翻訳日:2024-11-02 21:17:55 公開日:2024-09-26 |
# マンバと金融市場:グラフ・マンバによる株価予測
Mamba Meets Financial Markets: A Graph-Mamba Approach for Stock Price Prediction ( http://arxiv.org/abs/2410.03707v1 ) ライセンス: Link先を確認 | Ali Mehrabian, Ehsan Hoseinzade, Mahdi Mazloum, Xiaohong Chen, | (参考訳) 株式市場は、正確な株価予測が大きな金融リターンをもたらす世界的な経済において重要な役割を担っている。
既存のトランスフォーマーベースのモデルは、金融時系列予測において、長い短期記憶ネットワークや畳み込みニューラルネットワークよりも優れているが、その高い計算複雑性とメモリ要求は、リアルタイムトレーディングとロングシーケンスデータ処理の実用性を制限している。
これらの課題に対処するため,我々は,Mambaアーキテクチャ上に構築され,グラフニューラルネットワークを統合するストックリターン予測のための革新的なフレームワークSAMBAを提案する。
SAMBAは、双方向のMambaブロックを使用して、歴史的価格データの長期的依存関係をキャプチャし、日々のストック特徴間の依存関係をモデル化するために適応グラフ畳み込みを利用することにより、ほぼ直線的な計算複雑性を実現する。
実験の結果,SAMBAは予測精度において最先端のベースラインモデルよりも優れ,計算複雑性が低いことがわかった。
コードとデータセットはgithub.com/Ali-Meh619/SAMBAで入手できる。
Stock markets play an important role in the global economy, where accurate stock price predictions can lead to significant financial returns. While existing transformer-based models have outperformed long short-term memory networks and convolutional neural networks in financial time series prediction, their high computational complexity and memory requirements limit their practicality for real-time trading and long-sequence data processing. To address these challenges, we propose SAMBA, an innovative framework for stock return prediction that builds on the Mamba architecture and integrates graph neural networks. SAMBA achieves near-linear computational complexity by utilizing a bidirectional Mamba block to capture long-term dependencies in historical price data and employing adaptive graph convolution to model dependencies between daily stock features. Our experimental results demonstrate that SAMBA significantly outperforms state-of-the-art baseline models in prediction accuracy, maintaining low computational complexity. The code and datasets are available at github.com/Ali-Meh619/SAMBA. | 翻訳日:2024-11-02 20:38:12 公開日:2024-09-26 |
# エンタングルメント・スワッピングによるベル状状態の対称二方向性量子テレポーテーション
Symmetric-Cyclic Bidirectional Quantum Teleportation of Bell-like State via Entanglement-Swapping ( http://arxiv.org/abs/2410.03709v1 ) ライセンス: Link先を確認 | Nikhita Singh, Ravi S Singh, | (参考訳) 量子テレポーテーション(quantum teleportation)は、量子ネットワークにおける量子情報を交換するための原始的な基本プロトコルであり、測定ベースの量子計算におけるインフラ運用戦略である。
量子テレポーテーションのための効率的なスキームを設計することは、集中的な研究の活発な分野である。
本稿では, 3つの最大絡み合ったGHZ状態のクラスタを量子チャネルとして利用して, 量子ネットワークを形成する3つの通信部, Alice, Bob, Charlie間において, 周期列,すなわち対称循環型双方向量子テレポーテーションにおいてベル様状態が同時に交換される方式を提案する。
さらに,通信と運用の複雑さに基づいて,プロトコルを他の等価プロトコルと比較し,本プロトコルの本質的な効率が33.33%のペギングであることを確認した。
Quantum teleportation is a primitive foundational protocol for exchanging quantum information in a quantum network as well as infrastructural operational strategy in the measurement-based quantum computation. Designing an efficient scheme for quantum teleportation is a vibrant field of intensive research. We propose a scheme wherein Bell-like states are being exchanged simultaneously in cyclic sequence, i.e., symmetric-cyclic bi-directional quantum teleportation, amongst three communicating parties forming a quantum network, Alice, Bob and Charlie via entanglement-swapping with the aid of a cluster of three maximally entangled GHZ-states as the quantum channel. Moreover, based upon communication- and operation- complexity, we compare our protocol with other equivalent protocols and found that the intrinsic efficiency of our protocol is maximum pegging at 33.33%. | 翻訳日:2024-11-02 20:38:12 公開日:2024-09-26 |
# CBIDR : TOPSISを用いた画像とデータを組み合わせた新しい情報検索法
CBIDR: A novel method for information retrieval combining image and data by means of TOPSIS applied to medical diagnosis ( http://arxiv.org/abs/2410.06180v1 ) ライセンス: Link先を確認 | Humberto Giuri, Renato A. Krohling, | (参考訳) CBIR(Content-Based Image Retrieval)は、医療専門家(医師または病理医)への支援を目的とした医療診断の分野で有望な成果を示している。
しかし、診断に関する最終的な決定は、蓄積した経験に基づいて、医療専門家によってなされる。
この文脈では、最終決定を行うのではなく、最も関連性の高い情報を用いて診断プロセスを支援することで、人工知能が医療診断の課題に対処する上で重要な役割を担っていると信じている。
CBIR法は類似度を使って、畳み込みニューラルネットワーク(CNN)を用いて画像から生成された特徴ベクトルを比較する。
医療画像に含まれる情報に加えて、患者に関する臨床データもしばしば利用可能であり、医療専門家による最終意思決定プロセスにも関係している。
本稿では,患者の医療画像と臨床データの両方を活用するCBIDRという新しい手法を提案する。
目的は、データベースからの問い合わせデータと最もよく似た患者の画像と臨床データを検索することで、医療専門家の最終的な診断を支援することである。
本症例では,病理組織像と臨床データを含む口腔癌診断のためのCBIDRについて報告する。
精度の面での実験結果は、Top-1で97.44%、Top-5で100%達成し、提案手法の有効性を示した。
Content-Based Image Retrieval (CBIR) have shown promising results in the field of medical diagnosis, which aims to provide support to medical professionals (doctor or pathologist). However, the ultimate decision regarding the diagnosis is made by the medical professional, drawing upon their accumulated experience. In this context, we believe that artificial intelligence can play a pivotal role in addressing the challenges in medical diagnosis not by making the final decision but by assisting in the diagnosis process with the most relevant information. The CBIR methods use similarity metrics to compare feature vectors generated from images using Convolutional Neural Networks (CNNs). In addition to the information contained in medical images, clinical data about the patient is often available and is also relevant in the final decision-making process by medical professionals. In this paper, we propose a novel method named CBIDR, which leverage both medical images and clinical data of patient, combining them through the ranking algorithm TOPSIS. The goal is to aid medical professionals in their final diagnosis by retrieving images and clinical data of patient that are most similar to query data from the database. As a case study, we illustrate our CBIDR for diagnostic of oral cancer including histopathological images and clinical data of patient. Experimental results in terms of accuracy achieved 97.44% in Top-1 and 100% in Top-5 showing the effectiveness of the proposed approach. | 翻訳日:2024-11-01 10:50:51 公開日:2024-09-26 |
# ニューラルコントラスト:グラフィックデザイン推奨のための生成編集を活用する
Neural Contrast: Leveraging Generative Editing for Graphic Design Recommendations ( http://arxiv.org/abs/2410.07211v1 ) ライセンス: Link先を確認 | Marian Lupascu, Ionut Mironica, Mihai-Sorin Stupariu, | (参考訳) 視覚的に魅力的なコンポジットを作成するには、互換性のためにテキストとバックグラウンドの両方を最適化する必要がある。
これまでは、テキストの色を変えたり、コントラストに背景形状を追加したりといったシンプルなデザイン戦略に重点を置いてきた。
これらのアプローチは、しばしば破壊的であり、テキストの色を変えるか、背景画像の一部を妨害する。
他の手法では、設計要素を非塩分でコントラストのあるリージョンに配置するが、これは必ずしも効果的ではない。
これらの課題に対処するため,拡散モデルを用いた生成手法を提案する。
コントラストを高めつつ、設計資産の下の変化した領域が低い衛生性を示すことを保証し、設計資産の視認性を向上させる。
Creating visually appealing composites requires optimizing both text and background for compatibility. Previous methods have focused on simple design strategies, such as changing text color or adding background shapes for contrast. These approaches are often destructive, altering text color or partially obstructing the background image. Another method involves placing design elements in non-salient and contrasting regions, but this isn't always effective, especially with patterned backgrounds. To address these challenges, we propose a generative approach using a diffusion model. This method ensures the altered regions beneath design assets exhibit low saliency while enhancing contrast, thereby improving the visibility of the design asset. | 翻訳日:2024-10-31 21:37:02 公開日:2024-09-26 |
# ニューラルネットワークによる類似性学習
Similarity Learning with neural networks ( http://arxiv.org/abs/2410.07214v1 ) ライセンス: Link先を確認 | Gabriel Sanfins, Fabio Ramos, Danilo Naiff, | (参考訳) 本研究では,データから類似性関係を自動的に識別するニューラルネットワークアルゴリズムを提案する。
これらの類似性関係を明らかにすることで、ネットワークは次元のない量と次元のない変数と係数を関連付ける基礎となる物理法則を近似する。
さらに、これらの類似性関係に関連する対称性群を導出するために、コードを伴う線形代数フレームワークを開発する。
我々のアプローチは概ね一般的であるが、ラミナルニュートン流や非ニュートン流、滑らかな管内における乱流、滑らかな管内および粗い管内における乱流などの流体力学の例を通してその応用を解説する。
このような例は、単純なケースと複雑なケースの両方を扱うフレームワークの機能を強調し、データから基礎となる物理法則を発見する上での有効性をさらに検証するために選択される。
In this work, we introduce a neural network algorithm designed to automatically identify similarity relations from data. By uncovering these similarity relations, our network approximates the underlying physical laws that relate dimensionless quantities to their dimensionless variables and coefficients. Additionally, we develop a linear algebra framework, accompanied by code, to derive the symmetry groups associated with these similarity relations. While our approach is general, we illustrate its application through examples in fluid mechanics, including laminar Newtonian and non-Newtonian flows in smooth pipes, as well as turbulent flows in both smooth and rough pipes. Such examples are chosen to highlight the framework's capability to handle both simple and intricate cases, and further validates its effectiveness in discovering underlying physical laws from data. | 翻訳日:2024-10-31 21:37:02 公開日:2024-09-26 |
# 時間合成法による衛星画像からの雲の除去
Removal of clouds from satellite images using time compositing techniques ( http://arxiv.org/abs/2410.08223v1 ) ライセンス: Link先を確認 | Atma Bharathi Mani, Nagashree TR, Manavalan P, Diwakar PG, | (参考訳) 衛星画像の雲は定性的かつ定量的な研究の抑止力である。
時間合成法は、一連の登録された画像を比較し、結果として得られる画像に対して比較的少ない雲のカバーを持つピクセルのみを検索する。
時間合成の2つの異なるアプローチがテストされた。
最初の方法は、雲をすべての構成イメージの0に再符号化し、'max'関数を実行した。
第2の方法は、結果のイメージのすべてのイメージを書き換えることなく、直接「min」関数を実行した。
最大」の関数は、高度に湿ったイメージを与える一方、「最小」の関数は、より滑らかなテクスチャで優れた画質のイメージを与える。
すべての構成画像上に持続する雲はいずれの方法にも保持されたが、それらは容易に識別可能で、0に復号されるときに'max'関数画像から抽出可能であり、"min'関数には様々なDN値が現れる。
そのため、クラウドを255に再コードし、"min"関数を実行するハイブリッド技術が開発された。
本手法は,「min」関数の品質と「max」関数画像のように雲を回収する利点を保存した。
このモデルは、2008年5月の海岸カルナタカのErdas Imagine Modeler 9.1とMODIS 250m解像度画像を用いて作成された。
異なる手法について詳細な調査を行い、異なる手法を自動化するためのスコープについて論じる。
Clouds in satellite images are a deterrent to qualitative and quantitative study. Time compositing methods compare a series of co-registered images and retrieve only those pixels that have comparatively lesser cloud cover for the resultant image. Two different approaches of time compositing were tested. The first method recoded the clouds to value 0 on all the constituent images and ran a 'max' function. The second method directly ran a 'min' function without recoding on all the images for the resultant image. The 'max' function gave a highly mottled image while the 'min' function gave a superior quality image with smoother texture. Persistent clouds on all constituent images were retained in both methods, but they were readily identifiable and easily extractable in the 'max' function image as they were recoded to 0, while that in the 'min' function appeared with varying DN values. Hence a hybrid technique was created which recodes the clouds to value 255 and runs a 'min' function. This method preserved the quality of the 'min' function and the advantage of retrieving clouds as in the 'max' function image. The models were created using Erdas Imagine Modeler 9.1 and MODIS 250 m resolution images of coastal Karnataka in the months of May, June 2008 were used. A detailed investigation on the different methods is described and scope for automating different techniques is discussed. | 翻訳日:2024-10-31 04:36:03 公開日:2024-09-26 |
# 時空間脳波データ分析のモデルから応用まで
A Survey of Spatio-Temporal EEG data Analysis: from Models to Applications ( http://arxiv.org/abs/2410.08224v1 ) ライセンス: Link先を確認 | Pengfei Wang, Huanran Zheng, Silong Dai, Yiqiao Wang, Xiaotian Gu, Yuanbin Wu, Xiaoling Wang, | (参考訳) 近年、脳波解析(EEG)の分野は、機械学習と人工知能の統合によって、目覚ましい進歩をみせている。
本調査は、脳活動の理解と解釈を変革する新しい手法と技術に焦点を当て、最新の発展をカプセル化することを目的としている。
我々は、様々な下流アプリケーションに基本となる脳信号の堅牢な表現を可能にする自己教師あり学習手法を探求する。
また,グラフニューラルネットワーク(GNN)や基礎モデル,大規模言語モデル(LLM)に基づくアプローチなど,新たな差別的手法についても検討する。
さらに,脳波データを用いて画像やテキストを生成する生成技術について検討し,脳活動の可視化と解釈に関する新たな視点を提供する。
この調査は、これらの最先端技術、その応用、そして彼らが将来の研究および臨床実践に持つ深い影響について、広範囲にわたる概要を提供している。
関連する文献とオープンソース資料はコンパイルされ、一貫して \url{https://github.com/wpf535236337/LLMs4TS} で更新されている。
In recent years, the field of electroencephalography (EEG) analysis has witnessed remarkable advancements, driven by the integration of machine learning and artificial intelligence. This survey aims to encapsulate the latest developments, focusing on emerging methods and technologies that are poised to transform our comprehension and interpretation of brain activity. We delve into self-supervised learning methods that enable the robust representation of brain signals, which are fundamental for a variety of downstream applications. We also explore emerging discriminative methods, including graph neural networks (GNN), foundation models, and large language models (LLMs)-based approaches. Furthermore, we examine generative technologies that harness EEG data to produce images or text, offering novel perspectives on brain activity visualization and interpretation. The survey provides an extensive overview of these cutting-edge techniques, their current applications, and the profound implications they hold for future research and clinical practice. The relevant literature and open-source materials have been compiled and are consistently being refreshed at \url{https://github.com/wpf535236337/LLMs4TS} | 翻訳日:2024-10-31 04:36:03 公開日:2024-09-26 |
# 地理空間的ロードサイクルレース結果データセット
Geospatial Road Cycling Race Results Data Set ( http://arxiv.org/abs/2410.09055v1 ) ライセンス: Link先を確認 | Bram Janssens, Luca Pappalardo, Jelle De Bock, Matthias Bogaert, Steven Verstockt, | (参考訳) サイクリング分析の分野は、オープンなデータソースへのアクセスが限られているため、最近発展し始めたばかりである。
したがって、研究とデータソースは非常に異なっており、研究全体で使用される情報に大きな違いがある。
これを改善するため,2017-2023年のプロレース結果数千点とコースの詳細な地理情報,道路サイクリング解析における重要な側面を関連づけたデータセットの公開を提案する。
これら2つのデータソースをリンクする上での有用性を示す最初のユースケースを提案する。
The field of cycling analytics has only recently started to develop due to limited access to open data sources. Accordingly, research and data sources are very divergent, with large differences in information used across studies. To improve this, and facilitate further research in the field, we propose the publication of a data set which links thousands of professional race results from the period 2017-2023 to detailed geographic information about the courses, an essential aspect in road cycling analytics. Initial use cases are proposed, showcasing the usefulness in linking these two data sources. | 翻訳日:2024-10-30 16:58:09 公開日:2024-09-26 |
# スコアベース3次元残差拡散モデルを用いたARDS豚の高忠実度3次元肺CT合成
High-Fidelity 3D Lung CT Synthesis in ARDS Swine Models Using Score-Based 3D Residual Diffusion Models ( http://arxiv.org/abs/2410.10826v1 ) ライセンス: Link先を確認 | Siyeop Yoon, Yujin Oh, Xiang Li, Yi Xin, Maurizio Cereda, Quanzheng Li, | (参考訳) 急性呼吸不全症候群(ARDS)は、肺炎症と呼吸不全を特徴とする重症疾患であり、死亡率は約40%である。
胸部X線のような従来の画像撮影法は、肺病理の完全な評価において、その効果を制限し、2次元のビューのみを提供する。
3次元CT(3次元CT)は、より包括的な可視化を提供し、肺気道、無電解症、治療介入の効果の詳細な分析を可能にする。
しかし、ARDS管理におけるCTの日常的使用は、重篤な患者をリモートスキャナーに搬送する際の現実的な課題とリスクによって制限されている。
本研究では, スコアベース3D残差拡散モデルを用いて2次元X線画像から高忠実度3D肺CTを合成する。
予備的な結果から,本手法は高画質な3次元CT画像を生成することができることを示すとともに,ARDS管理の強化に期待できるソリューションを提供する。
Acute respiratory distress syndrome (ARDS) is a severe condition characterized by lung inflammation and respiratory failure, with a high mortality rate of approximately 40%. Traditional imaging methods, such as chest X-rays, provide only two-dimensional views, limiting their effectiveness in fully assessing lung pathology. Three-dimensional (3D) computed tomography (CT) offers a more comprehensive visualization, enabling detailed analysis of lung aeration, atelectasis, and the effects of therapeutic interventions. However, the routine use of CT in ARDS management is constrained by practical challenges and risks associated with transporting critically ill patients to remote scanners. In this study, we synthesize high-fidelity 3D lung CT from 2D generated X-ray images with associated physiological parameters using a score-based 3D residual diffusion model. Our preliminary results demonstrate that this approach can produce high-quality 3D CT images that are validated with ground truth, offering a promising solution for enhancing ARDS management. | 翻訳日:2024-10-29 19:24:58 公開日:2024-09-26 |
# 検索と検出: Web- Image Retrievalによるトレーニング不要のロングテール物体検出
Search and Detect: Training-Free Long Tail Object Detection via Web-Image Retrieval ( http://arxiv.org/abs/2409.18733v1 ) ライセンス: Link先を確認 | Mankeerat Sidhu, Hetarth Chopra, Ansel Blume, Jeonghwan Kim, Revanth Gangi Reddy, Heng Ji, | (参考訳) 本稿では,オープンボキャブラリオブジェクト検出性能を大幅に向上させる,トレーニングフリーのロングテールオブジェクト検出フレームワークであるSearchDetを紹介する。
SearchDetは、オブジェクトの正のイメージと負のイメージのセットを地上に取得し、これらのイメージを埋め込んで、イメージの望ましい概念を検出するために使用される入力画像重み付けクエリを計算する。
提案手法は単純かつトレーニング不要であるが,ODinWでは48.7% mAP,LVISでは59.1% mAPの改善を実現している。
さらに,Web 検索した例の集合に対する階層的オブジェクト検出のアプローチが,その例の変動に対して安定であることを示し,コストのかかるデータアノテーションやトレーニング手順の排除への道筋を示唆する。
In this paper, we introduce SearchDet, a training-free long-tail object detection framework that significantly enhances open-vocabulary object detection performance. SearchDet retrieves a set of positive and negative images of an object to ground, embeds these images, and computes an input image-weighted query which is used to detect the desired concept in the image. Our proposed method is simple and training-free, yet achieves over 48.7% mAP improvement on ODinW and 59.1% mAP improvement on LVIS compared to state-of-the-art models such as GroundingDINO. We further show that our approach of basing object detection on a set of Web-retrieved exemplars is stable with respect to variations in the exemplars, suggesting a path towards eliminating costly data annotation and training procedures. | 翻訳日:2024-10-01 15:09:41 公開日:2024-09-26 |
# MemFusionMap: オンラインベクトルHDマップ構築のためのワーキングメモリフュージョン
MemFusionMap: Working Memory Fusion for Online Vectorized HD Map Construction ( http://arxiv.org/abs/2409.18737v1 ) ライセンス: Link先を確認 | Jingyu Song, Xudong Chen, Liupei Lu, Jie Li, Katherine A. Skinner, | (参考訳) ハイデフィニション(HD)マップは、自律運転システムに環境情報を提供し、安全な計画に不可欠である。
単一フレーム入力を持つ既存の手法は,オンラインベクトル化HDマップ構築において優れた性能を発揮するが,複雑なシナリオやオクルージョンに苦慮している。
オンラインHDマップ構築のための時間的推論機能を強化した新しい時間的融合モデルであるMemFusionMapを提案する。
具体的には、履歴フレーム間の推論のために、モデルのメモリ容量を改善するワーキングメモリ融合モジュールをコントリビュートする。
また,バードアイビュー空間における時間重なり情報と車両軌道について,モデルに明確に通知する新しい時間重なりヒートマップを設計する。
これらの2つの設計を統合することで、MemFusionMapは既存のメソッドよりも大幅に優れ、スケーラビリティのための汎用的な設計を維持している。
我々は、オープンソースのベンチマークで広範囲に評価を行い、最先端の手法に比べて、mAPの最大5.4%の改善を実証する。
MemFusionMapのコードは、この記事の公開時にオープンソース化される。
High-definition (HD) maps provide environmental information for autonomous driving systems and are essential for safe planning. While existing methods with single-frame input achieve impressive performance for online vectorized HD map construction, they still struggle with complex scenarios and occlusions. We propose MemFusionMap, a novel temporal fusion model with enhanced temporal reasoning capabilities for online HD map construction. Specifically, we contribute a working memory fusion module that improves the model's memory capacity to reason across history frames. We also design a novel temporal overlap heatmap to explicitly inform the model about the temporal overlap information and vehicle trajectory in the Bird's Eye View space. By integrating these two designs, MemFusionMap significantly outperforms existing methods while also maintaining a versatile design for scalability. We conduct extensive evaluation on open-source benchmarks and demonstrate a maximum improvement of 5.4% in mAP over state-of-the-art methods. The code for MemFusionMap will be made open-source upon publication of this paper. | 翻訳日:2024-10-01 14:25:07 公開日:2024-09-26 |
# 牛涙ビデオからの鍵フレーム同定のための教師付き学習モデル
Supervised Learning Model for Key Frame Identification from Cow Teat Videos ( http://arxiv.org/abs/2409.18797v1 ) ライセンス: Link先を確認 | Minghao Wang, Pinxue Lin, | (参考訳) 本稿では, ウシの乳房炎リスク評価の精度をニューラルネットワークとビデオ解析を用いて改善する手法を提案する。
乳腺組織の感染である乳房炎は、牛にとって重要な健康問題であり、牛の乳房を調べて検出することができる。
伝統的に、獣医は乳牛の乳房の健康状態を評価するが、このプロセスは時間的に制限され、評価の正確さを弱める可能性がある。
商業農場では、牛は乳園で牛乳を飲んだときにカメラで記録される。
本論文は、牛のうどんが無傷に見えるビデオのキーフレームをニューラルネットワークで同定する。
これらのキーフレームにより、獣医はより柔軟な時間で、ティート上で健康評価を行い、効率と正確性を高めることができる。
しかし, 乳房炎リスク評価には, 複雑な環境, 牛の位置や姿勢の変化, 乳房の特定が困難などの課題がある。
これらの課題に対処するために、牛のティートビデオから鍵フレームを識別する性能(Fスコア)を改善するために、融合距離とアンサンブルモデルを提案する。
その結果, この2つの手法は, 単一距離測度やモデルを用いた場合に比べて性能が向上することがわかった。
This paper proposes a method for improving the accuracy of mastitis risk assessment in cows using neural networks and video analysis. Mastitis, an infection of the udder tissue, is a critical health problem for cows and can be detected by examining the cow's teat. Traditionally, veterinarians assess the health of a cow's teat during the milking process, but this process is limited in time and can weaken the accuracy of the assessment. In commercial farms, cows are recorded by cameras when they are milked in the milking parlor. This paper uses a neural network to identify key frames in the recorded video where the cow's udder appears intact. These key frames allow veterinarians to have more flexible time to perform health assessments on the teat, increasing their efficiency and accuracy. However, there are challenges in using cow teat video for mastitis risk assessment, such as complex environments, changing cow positions and postures, and difficulty in identifying the udder from the video. To address these challenges, a fusion distance and an ensemble model are proposed to improve the performance (F-score) of identifying key frames from cow teat videos. The results show that these two approaches improve performance compared to using a single distance measure or model. | 翻訳日:2024-10-01 11:53:50 公開日:2024-09-26 |
# ブロックチェーンとブロックチェーンのようなシステムの境界線を描く:分散レジャー技術に関する総合的な調査
Drawing the boundaries between Blockchain and Blockchain-like systems: A Comprehensive Survey on Distributed Ledger Technologies ( http://arxiv.org/abs/2409.18799v1 ) ライセンス: Link先を確認 | Badr Bellaj, Aafaf Ouaddah, Noel Crespi, Abdelatif Mezrioui, Emmanuel Bertin, | (参考訳) Bitcoinのグローバルな成功はブロックチェーンの台頭につながったが、"ブロックチェーン"と呼ばれる多くのシステムは、そのコア原則から逸脱し、エコシステムに複雑さを増している。
この調査は、ブロックチェーンとブロックチェーンのようなシステムの違いを明らかにするために、包括的なレビューと分類の必要性に対処する。
データ、コンセンサス、実行、アプリケーションという4つの重要なレイヤを持つ参照モデルを提案し、より良い分類のための新しい分類法を提案する。
44のDLT解と26のコンセンサス機構の質的・定量的分析を通じて、重要な課題を強調し、この分野における研究の方向性を示す。
Bitcoin's global success has led to the rise of blockchain, but many systems labeled as "blockchain" deviate from its core principles, adding complexity to the ecosystem. This survey addresses the need for a comprehensive review and taxonomy to clarify the differences between blockchain and blockchain-like systems. We propose a reference model with four key layers: data, consensus, execution, and application, and introduce a new taxonomy for better classification. Through a qualitative and quantitative analysis of 44 DLT solutions and 26 consensus mechanisms, we highlight key challenges and offer research directions in the field. | 翻訳日:2024-10-01 11:53:50 公開日:2024-09-26 |
# Recommender システムにおけるライブ実験の最小化: ユーザシミュレーションによる推奨緩和策の評価
Minimizing Live Experiments in Recommender Systems: User Simulation to Evaluate Preference Elicitation Policies ( http://arxiv.org/abs/2409.17436v1 ) ライセンス: Link先を確認 | Chih-Wei Hsu, Martin Mladenov, Ofer Meshi, James Pine, Hubert Pham, Shane Li, Xujian Liang, Anton Polishko, Li Yang, Ben Scheetz, Craig Boutilier, | (参考訳) 推奨システムにおけるポリシーの評価は、一般的に、関連するメトリクスに対する新しいポリシーの影響を評価するために、実ユーザでのライブ実験を使用してA/Bテストを行う。
しかし、この‘ゴールドスタンダード’は、サイクル時間、ユーザコスト、潜在的なユーザ保持の観点からは、高コストである。
新規ユーザの‘オンボーディング’のポリシーを開発する場合、オンボーディングは1回しか発生しないため、これらのコストは特に問題となる可能性がある。
本研究では,ライブ実験の利用を拡大(および削減)するために用いられるシミュレーション手法について述べる。
本稿では,YouTube Music プラットフォームの新規ユーザを対象にした ‘preference elicitation' アルゴリズムの評価を行った。
反実的に堅牢なユーザ行動モデルと、そのようなモデルと運用インフラストラクチャを結合するシミュレーションサービスを開発することで、デプロイ時に重要なメトリクスのパフォーマンスを確実に予測する方法で、新しいアルゴリズムをテストすることができます。
我々は、我々の領域、シミュレーションモデルとプラットフォーム、実験と展開の結果を説明し、ライブ実験の強力な補完として、さらなる現実的なシミュレーションに必要な将来のステップを提案する。
Evaluation of policies in recommender systems typically involves A/B testing using live experiments on real users to assess a new policy's impact on relevant metrics. This ``gold standard'' comes at a high cost, however, in terms of cycle time, user cost, and potential user retention. In developing policies for ``onboarding'' new users, these costs can be especially problematic, since on-boarding occurs only once. In this work, we describe a simulation methodology used to augment (and reduce) the use of live experiments. We illustrate its deployment for the evaluation of ``preference elicitation'' algorithms used to onboard new users of the YouTube Music platform. By developing counterfactually robust user behavior models, and a simulation service that couples such models with production infrastructure, we are able to test new algorithms in a way that reliably predicts their performance on key metrics when deployed live. We describe our domain, our simulation models and platform, results of experiments and deployment, and suggest future steps needed to further realistic simulation as a powerful complement to live experiments. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# リジェクションサンプリングIMLE:より優れたFew-Shot画像のための事前設計
合成
Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image Synthesis ( http://arxiv.org/abs/2409.17439v1 ) ライセンス: Link先を確認 | Chirag Vashist, Shichong Peng, Ke Li | (参考訳) 新たな研究分野は、限られたトレーニングデータで深層生成モデルを学ぶことを目的としている。
GANや拡散モデルのような以前の生成モデルでは、パフォーマンス向上のために大量のデータが必要であり、そのパフォーマンスは、少量のデータでのみトレーニングされた時に低下する。
Implicit Maximum Likelihood Estimation (IMLE)と呼ばれる最近の技術は、数ショット設定に適応し、最先端のパフォーマンスを実現している。
しかし、現在のIMLEベースのアプローチは、トレーニング用に選択された潜時符号と推論中に描画された符号との不適切な対応により、課題に直面する。
これにより、最適なテスト時間性能が得られる。
理論的には、この問題に対処する方法を示し、トレーニングに使用する事前分布を変更する新しいアプローチであるRS-IMLEを提案する。
これは既存のGANやIMLEベースの手法と比較して、9つの数枚の画像データセットで実施された包括的な実験によって検証され、かなり高品質な画像生成につながる。
An emerging area of research aims to learn deep generative models with limited training data. Prior generative models like GANs and diffusion models require a lot of data to perform well, and their performance degrades when they are trained on only a small amount of data. A recent technique called Implicit Maximum Likelihood Estimation (IMLE) has been adapted to the few-shot setting, achieving state-of-the-art performance. However, current IMLE-based approaches encounter challenges due to inadequate correspondence between the latent codes selected for training and those drawn during inference. This results in suboptimal test-time performance. We theoretically show a way to address this issue and propose RS-IMLE, a novel approach that changes the prior distribution used for training. This leads to substantially higher quality image generation compared to existing GAN and IMLE-based methods, as validated by comprehensive experiments conducted on nine few-shot image datasets. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# 時系列は価値ある5人の専門家:交通流予測の専門家の不均一な混合
A Time Series is Worth Five Experts: Heterogeneous Mixture of Experts for Traffic Flow Prediction ( http://arxiv.org/abs/2409.17440v1 ) ライセンス: Link先を確認 | Guangyu Wang, Yujie Chen, Ming Gao, Zhiqiao Wu, Jiafu Tang, Jiabi Zhao, | (参考訳) 正確な交通予測は、時間的および空間的な手がかりと、複数の変数にわたる複雑な相互作用の深い理解を必要とする、重大な課題に直面している。
交通予測システムの最近の進歩は、主に複雑なシーケンス中心モデルの開発によるものである。
しかし、既存のアプローチでは、各タイミングに複数の変数と空間的関係を埋め込むことが多く、効果的な変数中心学習を妨げる可能性があるため、最終的には従来のトラフィック予測タスクのパフォーマンスが低下する。
これらの制約を克服するために,変数中心および先行知識中心モデリング手法を導入する。
具体的には,交通流予測のためのヘテロジニアス・ミックス・オブ・エキスパート(TITAN)モデルを提案する。
TITANは当初、シーケンス中心モデリングに焦点を当てた3人の専門家で構成されている。
そして、低ランク適応法を設計し、同時に可変中心モデリングを可能にする。
さらに,従来の知識中心モデリング戦略を用いてゲーティングプロセスを監督し,正確なルーティングを保証する。
2つのパブリックトラフィックネットワークデータセットであるMETR-LAとPEMS-BAYの実験は、TITANが正確なルーティングを確保しながら、変数中心の依存関係を効果的にキャプチャすることを示した。
その結果、従来のSOTA(State-of-the-art)モデルと比較して、およそ4.37\%から11.53\%までのすべての評価指標の改善を実現している。
コードは \href{https://github.com/sqlcow/TITAN}{https://github.com/sqlcow/TITAN} で公開されている。
Accurate traffic prediction faces significant challenges, necessitating a deep understanding of both temporal and spatial cues and their complex interactions across multiple variables. Recent advancements in traffic prediction systems are primarily due to the development of complex sequence-centric models. However, existing approaches often embed multiple variables and spatial relationships at each time step, which may hinder effective variable-centric learning, ultimately leading to performance degradation in traditional traffic prediction tasks. To overcome these limitations, we introduce variable-centric and prior knowledge-centric modeling techniques. Specifically, we propose a Heterogeneous Mixture of Experts (TITAN) model for traffic flow prediction. TITAN initially consists of three experts focused on sequence-centric modeling. Then, designed a low-rank adaptive method, TITAN simultaneously enables variable-centric modeling. Furthermore, we supervise the gating process using a prior knowledge-centric modeling strategy to ensure accurate routing. Experiments on two public traffic network datasets, METR-LA and PEMS-BAY, demonstrate that TITAN effectively captures variable-centric dependencies while ensuring accurate routing. Consequently, it achieves improvements in all evaluation metrics, ranging from approximately 4.37\% to 11.53\%, compared to previous state-of-the-art (SOTA) models. The code is open at \href{https://github.com/sqlcow/TITAN}{https://github.com/sqlcow/TITAN}. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# HPHT処理ダイヤモンドの光コヒーレント窒素空孔中心
Optically Coherent Nitrogen-Vacancy Centers in HPHT Treated Diamonds ( http://arxiv.org/abs/2409.17442v1 ) ライセンス: Link先を確認 | Yuan-Han Tang, Xiaoran Zhang, Kang-Yuan Liu, Fan Xia, Huijie Zheng, Xiaobing Liu, Xin-Yu Pan, Heng Fan, Gang-Qin Liu, | (参考訳) 特異なスピンと光学的性質を持つ点欠陥として、ダイヤモンド中の窒素空孔(NV)中心は量子センシング、量子シミュレーション、量子ネットワークの分野で多くの注目を集めている。
NV中心の光学的性質はこれらの全ての量子応用に不可欠である。
しかしながら、電子照射やイオン注入などの破壊的な方法によって製造されたNV中心は、通常、光学的コヒーレンスを低下させる。
本研究では,光学的にコヒーレントなNV中心を作製するための非破壊的手法を実証する。
高純度単結晶ダイヤモンドは高圧と高温で熱処理され(1700$^{\circ}$C, 5.5GPa)、狭い数ミリの直線幅(100MHz)の個々の分解可能なNV中心が製造される。
高圧条件は、高温アニール中のダイヤモンドからグラファイトへの変換を防止し、量子情報科学のための高性能人工欠陥を生成するためのパラメータ空間を著しく拡張する。
これらの知見は、ダイヤモンド中のNV中心形成の理解を深め、炭化ケイ素や窒化ヘキサゴナルホウ素を含む固体中の色中心の最適化に影響を及ぼす。
As a point defect with unique spin and optical properties, nitrogen-vacancy (NV) center in diamond has attracted much attention in the fields of quantum sensing, quantum simulation, and quantum networks. The optical properties of an NV center are crucial for all these quantum applications. However, NV centers fabricated by destructive methods such as electron irradiation or ion implantation usually exhibit poor optical coherence. In this work, we demonstrate a non-destructive method to fabricate optically coherent NV centers. High-purity single crystal diamonds are annealed under high pressure and high temperature (1700 $^{\circ}$C, 5.5 GPa), and individually resolvable NV centers with narrow PLE linewidth (<100 MHz) are produced. The high-pressure condition prevents the conversion of diamond to graphite during high-temperature annealing, significantly expanding the parameter space for creating high-performance artificial defects for quantum information science. These findings deepen our understanding of NV center formation in diamond and have implications for the optimization of color centers in solids, including silicon carbide and hexagonal boron nitride. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# 脳-コンピュータインタフェース設計における計算・倫理・政策の相互作用
The Interplay of Computing, Ethics, and Policy in Brain-Computer Interface Design ( http://arxiv.org/abs/2409.17445v1 ) ライセンス: Link先を確認 | Muhammed Ugur, Raghavendra Pradyumna Pothukuchi, Abhishek Bhattacharjee, | (参考訳) 脳-コンピュータインターフェース(BCI)は、脳内の生物学的ニューロンと人工装具やコンピュータなどの外部システムとを接続する。
彼らは、神経活動を分析し、刺激するための処理機能を取り込んでおり、その結果、倫理、法律、ポリシーに関連するユニークな設計上の課題を提起している。
本稿は、BCIアーキテクチャ設計における倫理的、法的、政策的考慮がいかにして形成され得るか、アーキテクトによる決定が、それらに適用可能な倫理的、法的、政策的枠組みをいかに拡張するかを初めて明らかにする。
Brain-computer interfaces (BCIs) connect biological neurons in the brain with external systems like prosthetics and computers. They are increasingly incorporating processing capabilities to analyze and stimulate neural activity, and consequently, pose unique design challenges related to ethics, law, and policy. For the first time, this paper articulates how ethical, legal, and policy considerations can shape BCI architecture design, and how the decisions that architects make constrain or expand the ethical, legal, and policy frameworks that can be applied to them. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# 不均一性と非定常性に対する効果的なフェデレーション学習
クライアントの使いやすさ
Efficient Federated Learning against Heterogeneous and Non-stationary Client Unavailability ( http://arxiv.org/abs/2409.17446v1 ) ライセンス: Link先を確認 | Ming Xiang, Stratis Ioannidis, Edmund Yeh, Carlee Joe-Wong, Lili Su | (参考訳) 間欠的なクライアント可用性に対処することは、フェデレートされた学習アルゴリズムの現実的な展開に不可欠である。
ほとんどの以前の作業は、クライアントの非可用性のダイナミクスの潜在的な非定常性を見落としているか、あるいはかなりのメモリ/計算オーバーヘッドを必要としている。
異種および非定常的なクライアントの可用性が存在する場合のフェデレーション学習について検討し、デプロイ環境が不確実であったり、クライアントがモバイルであったりした場合に発生する可能性がある。
最も広く採用されているフェデレーション学習アルゴリズムであるFedAvgを用いることで、クライアントの不利用性における不均一性と非定常性の影響が明らかになる。
我々は,新しいアルゴリズム構造を含むFedAPMを提案する。
(i)標準のFedAvgに対するO(1)$追加メモリと計算量だけでは利用不可能な計算を補うこと。
(2)非定常力学に非依存であるにもかかわらず,暗黙のゴシップを通じて,連合学習システム内の局所的な更新を均等に拡散させる。
我々は,FedAPMが望まれる線形スピードアップ特性を達成しつつ,非凸目標の定常点に収束することを示す。
実世界のデータセット上での多様なクライアント不可用性のダイナミクスに対する数値実験と解析の相関関係を考察する。
Addressing intermittent client availability is critical for the real-world deployment of federated learning algorithms. Most prior work either overlooks the potential non-stationarity in the dynamics of client unavailability or requires substantial memory/computation overhead. We study federated learning in the presence of heterogeneous and non-stationary client availability, which may occur when the deployment environments are uncertain or the clients are mobile. The impacts of the heterogeneity and non-stationarity in client unavailability can be significant, as we illustrate using FedAvg, the most widely adopted federated learning algorithm. We propose FedAPM, which includes novel algorithmic structures that (i) compensate for missed computations due to unavailability with only $O(1)$ additional memory and computation with respect to standard FedAvg, and (ii) evenly diffuse local updates within the federated learning system through implicit gossiping, despite being agnostic to non-stationary dynamics. We show that FedAPM converges to a stationary point of even non-convex objectives while achieving the desired linear speedup property. We corroborate our analysis with numerical experiments over diversified client unavailability dynamics on real-world data sets. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# 専門家がデザインしたヒントによる財務感性分析の強化
Enhancing Financial Sentiment Analysis with Expert-Designed Hint ( http://arxiv.org/abs/2409.17448v1 ) ライセンス: Link先を確認 | Chung-Chi Chen, Hiroya Takamura, Ichiro Kobayashi, Yusuke Miyao, | (参考訳) 本稿では,金融メディア投稿における感情分析の強化における専門家指定ヒントの役割について検討する。
我々は,大規模言語モデル(LLM)の著者の視点に共感し,感情を分析する能力について検討する。
以上の結果から,専門家が設計したヒント,すなわち数の重要性を指摘することは,様々なLSMにおけるパフォーマンスを著しく向上させることが明らかとなった。
異なる種類の数値データを含むつぶやきのさらなる分析は、専門家が設計したヒントが組み込まれていることが、特に金融関連数字を持つつぶやきについて、感情分析性能の顕著な改善につながっていることを示している。
本研究は、NLPにおける心の理論の適用性に関する議論と、専門知識の戦略的活用を通じて金融分野における感情分析を改善するための新たな道を開くことに寄与する。
This paper investigates the role of expert-designed hint in enhancing sentiment analysis on financial social media posts. We explore the capability of large language models (LLMs) to empathize with writer perspectives and analyze sentiments. Our findings reveal that expert-designed hint, i.e., pointing out the importance of numbers, significantly improve performances across various LLMs, particularly in cases requiring perspective-taking skills. Further analysis on tweets containing different types of numerical data demonstrates that the inclusion of expert-designed hint leads to notable improvements in sentiment analysis performance, especially for tweets with monetary-related numbers. Our findings contribute to the ongoing discussion on the applicability of Theory of Mind in NLP and open new avenues for improving sentiment analysis in financial domains through the strategic use of expert knowledge. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# SR-IQAデータセットを用いた高解像度放送画像の主観的・客観的品質の検討
Study of Subjective and Objective Quality in Super-Resolution Enhanced Broadcast Images on a Novel SR-IQA Dataset ( http://arxiv.org/abs/2409.17451v1 ) ライセンス: Link先を確認 | Yongrok Kim, Junha Shin, Juhyun Lee, Hyunsuk Ko, | (参考訳) 高品質の放送コンテンツをフルスクリーン方式で高解像度画面に表示するためには、主要な消費者技術であるスーパーリゾリューション(SR)の適用が不可欠である。
近年,元の画像情報を保存しながら解像度を向上するばかりでなく,認識品質を向上させるSR手法が開発されている。
しかし、SR強調放送コンテンツのような低品質ソースから生成されたSR画像の品質を評価することは、歪みと改善の両方を考慮する必要があるため困難である。
さらに、元の高品質ソースを使わずにSR画像の品質を評価することは、もうひとつの重要な課題である。
残念なことに、これらの条件下では、SR画像の画像品質評価(IQA)に対処する研究が数多く行われている。
本研究では,2Kおよび4K解像度のSR放送画像を対象とした新しいIQAデータセットを提案する。
これらのSR画像に対する平均オピニオンスコア(MOS)を得るために主観的品質評価を行い、認識された品質に影響を及ぼす要因を特定するために包括的な人間研究を行った。
最後に、データセット上の既存のIQAメトリクスのパフォーマンスを評価した。
本研究は、現在の指標の限界を明らかにし、SR画像の品質と相関するより堅牢なIQAメトリクスの必要性を明らかにする。
To display low-quality broadcast content on high-resolution screens in full-screen format, the application of Super-Resolution (SR), a key consumer technology, is essential. Recently, SR methods have been developed that not only increase resolution while preserving the original image information but also enhance the perceived quality. However, evaluating the quality of SR images generated from low-quality sources, such as SR-enhanced broadcast content, is challenging due to the need to consider both distortions and improvements. Additionally, assessing SR image quality without original high-quality sources presents another significant challenge. Unfortunately, there has been a dearth of research specifically addressing the Image Quality Assessment (IQA) of SR images under these conditions. In this work, we introduce a new IQA dataset for SR broadcast images in both 2K and 4K resolutions. We conducted a subjective quality evaluation to obtain the Mean Opinion Score (MOS) for these SR images and performed a comprehensive human study to identify the key factors influencing the perceived quality. Finally, we evaluated the performance of existing IQA metrics on our dataset. This study reveals the limitations of current metrics, highlighting the need for a more robust IQA metric that better correlates with the perceived quality of SR images. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# 言語間音声を用いた記述型可制御テキスト音声合成
制御
Description-based Controllable Text-to-Speech with Cross-Lingual Voice Control ( http://arxiv.org/abs/2409.17452v1 ) ライセンス: Link先を確認 | Ryuichi Yamamoto, Yuma Shirahata, Masaya Kawamura, Kentaro Tachibana | (参考訳) 本稿では,言語間制御機能を備えた新しい記述型制御可能なテキスト音声合成手法を提案する。
対象言語における音声記述ペアリングデータの欠如に対処するため、ターゲット言語で訓練されたTSモデルと、入力されたテキスト記述をTSモデルの条件付き特徴にマッピングする他言語で訓練された記述制御モデルを組み合わせる。
これら2つのモデルは、自己教師付き学習(SSL)に基づいて、アンタングル付き音色とスタイル表現を共有し、元の音色を維持しながら話し方を制御するなど、アンタングル型音声制御を可能にする。
さらに、SSLベースの音色とスタイル表現は言語に依存しないため、TTSと記述制御モデルを組み合わせて同じ埋め込み空間を共有することで、音声特性の言語間制御を効果的に実現する。
日本語と英語のTTS実験では,日本語の音声記述ペアは使用されていないものの,両言語で高い自然性や制御性が得られることが示された。
We propose a novel description-based controllable text-to-speech (TTS) method with cross-lingual control capability. To address the lack of audio-description paired data in the target language, we combine a TTS model trained on the target language with a description control model trained on another language, which maps input text descriptions to the conditional features of the TTS model. These two models share disentangled timbre and style representations based on self-supervised learning (SSL), allowing for disentangled voice control, such as controlling speaking styles while retaining the original timbre. Furthermore, because the SSL-based timbre and style representations are language-agnostic, combining the TTS and description control models while sharing the same embedding space effectively enables cross-lingual control of voice characteristics. Experiments on English and Japanese TTS demonstrate that our method achieves high naturalness and controllability for both languages, even though no Japanese audio-description pairs are used. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# リモートセンシングにおけるFew-shot Segmentationのためのエージェントマイニング変換器AgMTR
AgMTR: Agent Mining Transformer for Few-shot Segmentation in Remote Sensing ( http://arxiv.org/abs/2409.17453v1 ) ライセンス: Link先を確認 | Hanbo Bi, Yingchao Feng, Yongqiang Mao, Jianning Pei, Wenhui Diao, Hongqi Wang, Xian Sun, | (参考訳) Few-shot Segmentation (FSS) は、関心のあるオブジェクトを少数のラベル付きサンプル(つまりサポートイメージ)でクエリイメージに分割することを目的としている。
以前のスキームでは、サポートクエリのピクセルペア間の類似性を利用して、ピクセルレベルのセマンティックな相関を構築していた。
しかし、極端にクラス内の変化や背景が散らばったリモートセンシングのシナリオでは、そのようなピクセルレベルの相関は膨大なミスマッチを引き起こし、クエリフォアグラウンド(FG)とバックグラウンド(BG)のセマンティックな曖昧さをもたらす可能性がある。
この問題に対処するため,エージェントレベルの意味的相関を構築するために,一組のローカルエージェントを適応的にマイニングする新しいエージェントマイニングトランス (AgMTR) を提案する。
ピクセルレベルのセマンティクスと比較して、与えられたエージェントは局所的なコンテキスト情報を備え、より広い受容領域を有する。
この時点で、異なるクエリピクセルは、異なるエージェントのきめ細かいローカルセマンティクスを選択的に集約することができ、クエリFGとBGピクセル間のセマンティクスの明確性を高めることができる。
具体的には、エージェント学習エンコーダ(ALE)が最初に提案され、異なるエージェントが異なるローカル領域下でサポートセマンティクスを集約するように配置する最適なトランスポートプランを策定する。
そして、エージェントをさらに最適化するために、エージェント集約デコーダ(AAD)とセマンティックアライメントデコーダ(SAD)をそれぞれ、ラベルのないデータソースとクエリイメージ自体から貴重なクラス固有のセマンティクスをマイニングするための限定的なサポートセットを分解するように構成する。
リモートセンシングベンチマークiSAIDの大規模な実験により,提案手法が最先端の性能を達成することを示す。
驚いたことに,本手法はPASCAL-5iやCOCO-20iといった,より一般的な自然シナリオに拡張されても,競争力は保たれる。
Few-shot Segmentation (FSS) aims to segment the interested objects in the query image with just a handful of labeled samples (i.e., support images). Previous schemes would leverage the similarity between support-query pixel pairs to construct the pixel-level semantic correlation. However, in remote sensing scenarios with extreme intra-class variations and cluttered backgrounds, such pixel-level correlations may produce tremendous mismatches, resulting in semantic ambiguity between the query foreground (FG) and background (BG) pixels. To tackle this problem, we propose a novel Agent Mining Transformer (AgMTR), which adaptively mines a set of local-aware agents to construct agent-level semantic correlation. Compared with pixel-level semantics, the given agents are equipped with local-contextual information and possess a broader receptive field. At this point, different query pixels can selectively aggregate the fine-grained local semantics of different agents, thereby enhancing the semantic clarity between query FG and BG pixels. Concretely, the Agent Learning Encoder (ALE) is first proposed to erect the optimal transport plan that arranges different agents to aggregate support semantics under different local regions. Then, for further optimizing the agents, the Agent Aggregation Decoder (AAD) and the Semantic Alignment Decoder (SAD) are constructed to break through the limited support set for mining valuable class-specific semantics from unlabeled data sources and the query image itself, respectively. Extensive experiments on the remote sensing benchmark iSAID indicate that the proposed method achieves state-of-the-art performance. Surprisingly, our method remains quite competitive when extended to more common natural scenarios, i.e., PASCAL-5i and COCO-20i. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# ショートカット迷路をナビゲートする:ショートカットの包括的分析
言語モデルによるテキスト分類の学習
Navigating the Shortcut Maze: A Comprehensive Analysis of Shortcut Learning in Text Classification by Language Models ( http://arxiv.org/abs/2409.17455v1 ) ライセンス: Link先を確認 | Yuqing Zhou, Ruixiang Tang, Ziyu Yao, Ziwei Zhu | (参考訳) 言語モデル(LM)は、その進歩にもかかわらず、しばしば素早い相関に依存し、その正確さと一般化性を損なう。
この研究は、過度に単純化されたショートカットを超えてモデルの信頼性を損なう微妙で複雑なショートカットの影響を克服する。
本稿では,ショートカットを発生,スタイル,概念に分類し,これらのショートカットがLMの性能に影響を及ぼす微妙な方法を探究する総合ベンチマークを提案する。
本研究は,従来のLM,大規模言語モデル,最先端のロバストモデルにまたがる広範な実験を通じて,洗練されたショートカットに対するモデルの弾力性と感受性を体系的に調査する。
ベンチマークとコードは、https://github.com/yuqing-zhou/shortcut-learning-in-text-classificationで確認できます。
Language models (LMs), despite their advances, often depend on spurious correlations, undermining their accuracy and generalizability. This study addresses the overlooked impact of subtler, more complex shortcuts that compromise model reliability beyond oversimplified shortcuts. We introduce a comprehensive benchmark that categorizes shortcuts into occurrence, style, and concept, aiming to explore the nuanced ways in which these shortcuts influence the performance of LMs. Through extensive experiments across traditional LMs, large language models, and state-of-the-art robust models, our research systematically investigates models' resilience and susceptibilities to sophisticated shortcuts. Our benchmark and code can be found at: https://github.com/yuqing-zhou/shortcut-learning-in-text-classification. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# CadVLM:パラメトリックCADスケッチの生成におけるブリッジ言語とビジョン
CadVLM: Bridging Language and Vision in the Generation of Parametric CAD Sketches ( http://arxiv.org/abs/2409.17457v1 ) ライセンス: Link先を確認 | Sifan Wu, Amir Khasahmadi, Mor Katz, Pradeep Kumar Jayaraman, Yewen Pu, Karl Willis, Bang Liu, | (参考訳) CAD(Parametric Computer-Aided Design)は、現代の機械設計の中心である。
しかし、正確なパラメトリックスケッチモデリングを実現する上での課題に遭遇し、機械設計に適した実用的な評価基準が欠如している。
我々は、自然言語処理やコンピュータビジョンで成功したことで知られる、事前学習された基礎モデルの能力を活用し、CAD専用の生成モデルを開発する。
これらのモデルは、CAD技術の重要な進歩である複雑な幾何学と設計推論を理解することに長けている。
本稿では,CAD生成のためのエンドツーエンド視覚言語モデルであるCadVLMを提案する。
提案手法では,事前学習した基礎モデルを用いて,スケッチプリミティブシーケンスとスケッチイメージを併用して,エンジニアリングスケッチを効果的に操作する。
CADオートコンプリート,CADオートコンプリート,画像条件生成などの複数のCADスケッチ生成タスクにおいて,大規模な実験により優れた性能を示す。
我々の知る限り、これはコンピュータ支援機械設計の分野における先駆的なステップとしてパラメトリックCAD生成に成功しているマルチモーダル大規模言語モデル(LLM)の最初の例である。
Parametric Computer-Aided Design (CAD) is central to contemporary mechanical design. However, it encounters challenges in achieving precise parametric sketch modeling and lacks practical evaluation metrics suitable for mechanical design. We harness the capabilities of pre-trained foundation models, renowned for their successes in natural language processing and computer vision, to develop generative models specifically for CAD. These models are adept at understanding complex geometries and design reasoning, a crucial advancement in CAD technology. In this paper, we propose CadVLM, an end-to-end vision language model for CAD generation. Our approach involves adapting pre-trained foundation models to manipulate engineering sketches effectively, integrating both sketch primitive sequences and sketch images. Extensive experiments demonstrate superior performance on multiple CAD sketch generation tasks such as CAD autocompletion, CAD autoconstraint, and image conditional generation. To our knowledge, this is the first instance of a multimodal Large Language Model (LLM) being successfully applied to parametric CAD generation, representing a pioneering step in the field of computer-aided mechanical design. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# RED QUEEN: 大規模言語モデルとConcealedの保護
マルチターンジェイルブレイク
RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking ( http://arxiv.org/abs/2409.17458v1 ) ライセンス: Link先を確認 | Yifan Jiang, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara, Subhabrata Mukherjee | (参考訳) LLM(Large Language Models)の急速な進歩は、さまざまなドメインやアプリケーションにまたがる新たな機会を広げている。
このようなリスクを軽減するため、レッド・チームリングは、ジェイルブレイク攻撃による有害なアウトプットのための言語モデルを探索するための積極的なセキュリティ対策として採用されている。
しかし、現在のjailbreak攻撃アプローチは、現実世界のインタラクションの複雑さを完全に捉えない、明示的な悪意のあるクエリを持つシングルターンである。
実際には、ユーザーはLLMベースのチャットアシスタントとマルチターンインタラクションをすることで、より隠蔽的な方法で真の意図を隠蔽することができる。
このギャップを埋めるために、私たちはまず、新しいジェイルブレイクアプローチRED QUEEN ATTACKを提案します。
この方法は多ターンシナリオを構築し、害を防ぎつつ悪意のある意図を隠蔽する。
順番に変化する40のシナリオを作成し、14の有害なカテゴリを選択して56kのマルチターン攻撃データポイントを生成します。
RED QUEEN ATTACKにおいて,異なる大きさの4種類のLLMファミリーを用いて包括的実験を行った。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
さらなる分析により、より大きなモデルはRED QUEEN ATTACKより感受性が高く、マルチターン構造と隠蔽戦略がその成功に寄与していることが明らかになった。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
このアプローチは、標準的なベンチマークでモデルのパフォーマンスを維持しながら、攻撃成功率を1%以下に下げる。
完全な実装とデータセットはhttps://github.com/kriti-hippo/red_queen.comで公開されている。
The rapid progress of Large Language Models (LLMs) has opened up new opportunities across various domains and applications; yet it also presents challenges related to potential misuse. To mitigate such risks, red teaming has been employed as a proactive security measure to probe language models for harmful outputs via jailbreak attacks. However, current jailbreak attack approaches are single-turn with explicit malicious queries that do not fully capture the complexity of real-world interactions. In reality, users can engage in multi-turn interactions with LLM-based chat assistants, allowing them to conceal their true intentions in a more covert manner. To bridge this gap, we, first, propose a new jailbreak approach, RED QUEEN ATTACK. This method constructs a multi-turn scenario, concealing the malicious intent under the guise of preventing harm. We craft 40 scenarios that vary in turns and select 14 harmful categories to generate 56k multi-turn attack data points. We conduct comprehensive experiments on the RED QUEEN ATTACK with four representative LLM families of different sizes. Our experiments reveal that all LLMs are vulnerable to RED QUEEN ATTACK, reaching 87.62% attack success rate on GPT-4o and 75.4% on Llama3-70B. Further analysis reveals that larger models are more susceptible to the RED QUEEN ATTACK, with multi-turn structures and concealment strategies contributing to its success. To prioritize safety, we introduce a straightforward mitigation strategy called RED QUEEN GUARD, which aligns LLMs to effectively counter adversarial attacks. This approach reduces the attack success rate to below 1% while maintaining the model's performance across standard benchmarks. Full implementation and dataset are publicly accessible at https://github.com/kriti-hippo/red_queen. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# TFS-NeRF:動的シーンのセマンティック3次元再構成のためのテンプレートフリーNeRF
TFS-NeRF: Template-Free NeRF for Semantic 3D Reconstruction of Dynamic Scene ( http://arxiv.org/abs/2409.17459v1 ) ライセンス: Link先を確認 | Sandika Biswas, Qianyi Wu, Biplab Banerjee, Hamid Rezatofighi, | (参考訳) 3次元表面再構成のためのニューラルインプリシットモデルの発展にもかかわらず、任意の剛性、非剛性、変形可能なエンティティによる動的環境の扱いは依然として困難である。
多くのテンプレートベースの手法は、人間に焦点をあてたエンティティ固有であり、そのようなダイナミックなシーンに適応可能な汎用的な再構成手法は、しばしば深度や光の流れのような追加の入力を必要とするか、合理的な結果を得るために事前訓練された画像特徴に依存している。
これらの手法は通常、フレーム単位の変形をキャプチャするために潜時符号を使用する。
対照的に、いくつかのテンプレートフリーメソッドはこれらの要件を回避し、変形可能な物体の動きの詳細な表現に従来のLBS重み(Linear Blend Skinning)を採用する。
この目的のために,本稿では,スパースやシングルビューRGBビデオから取得した動的シーンのテンプレートフリーな3DセマンティックNeRFであるTFS-NeRFを紹介し,様々なエンティティ間のインタラクションと,他のLBSベースのアプローチよりも時間効率のよいアプローチを提案する。
我々のフレームワークは、LBS予測にInvertible Neural Network(INN)を使用し、トレーニングプロセスを簡素化する。
本手法は,複数の実体の運動を分離し,各中心のスキン重量を最適化することにより,高精度でセマンティックに分離可能な測地を効率的に生成する。
大規模実験により, 複雑な相互作用において, 変形可能なオブジェクトと非変形可能なオブジェクトの両方を高品質に再構成し, 既存の手法と比較して訓練効率が向上した。
Despite advancements in Neural Implicit models for 3D surface reconstruction, handling dynamic environments with arbitrary rigid, non-rigid, or deformable entities remains challenging. Many template-based methods are entity-specific, focusing on humans, while generic reconstruction methods adaptable to such dynamic scenes often require additional inputs like depth or optical flow or rely on pre-trained image features for reasonable outcomes. These methods typically use latent codes to capture frame-by-frame deformations. In contrast, some template-free methods bypass these requirements and adopt traditional LBS (Linear Blend Skinning) weights for a detailed representation of deformable object motions, although they involve complex optimizations leading to lengthy training times. To this end, as a remedy, this paper introduces TFS-NeRF, a template-free 3D semantic NeRF for dynamic scenes captured from sparse or single-view RGB videos, featuring interactions among various entities and more time-efficient than other LBS-based approaches. Our framework uses an Invertible Neural Network (INN) for LBS prediction, simplifying the training process. By disentangling the motions of multiple entities and optimizing per-entity skinning weights, our method efficiently generates accurate, semantically separable geometries. Extensive experiments demonstrate that our approach produces high-quality reconstructions of both deformable and non-deformable objects in complex interactions, with improved training efficiency compared to existing methods. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-26 |
# 条件不確かさ校正のための回帰モデルの調整
Adjusting Regression Models for Conditional Uncertainty Calibration ( http://arxiv.org/abs/2409.17466v1 ) ライセンス: Link先を確認 | Ruijiang Gao, Mingzhang Yin, James McInerney, Nathan Kallus | (参考訳) 等角予測法は有限サンプル分布自由境界被覆保証を有する。
しかし、彼らは一般的に条件付きカバレッジ保証を提供していません。
本稿では,分割共形予測手法を適用した後,条件付きカバレッジを改善するために回帰関数を訓練する新しいアルゴリズムを提案する。
本研究では,条件付きカバレッジと名目付きカバレッジ率の差分を求める上限を確立し,この上限値を制御するためのエンドツーエンドアルゴリズムを提案する。
提案手法の有効性を実世界の合成・実世界のデータセットに実証的に示す。
Conformal Prediction methods have finite-sample distribution-free marginal coverage guarantees. However, they generally do not offer conditional coverage guarantees, which can be important for high-stakes decisions. In this paper, we propose a novel algorithm to train a regression function to improve the conditional coverage after applying the split conformal prediction procedure. We establish an upper bound for the miscoverage gap between the conditional coverage and the nominal coverage rate and propose an end-to-end algorithm to control this upper bound. We demonstrate the efficacy of our method empirically on synthetic and real-world datasets. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# ヘイトスピーチ検出研究の社会的メリット : システムレビュー
What is the social benefit of hate speech detection research? A Systematic Review ( http://arxiv.org/abs/2409.17467v1 ) ライセンス: Link先を確認 | Sidney Gig-Jan Wong, | (参考訳) ヘイトスピーチ検出に関するNLP研究は過去30年で指数関数的に増加しているが、政策立案者や非営利団体からの取り込みや関与は最小限に抑えられている。
我々は、倫理的枠組みの欠如が、現在の実践とベストプラクティスの亀裂に寄与したと主張している。
適切な倫理的枠組みを採用することで、NLP研究者はヘイトスピーチ研究の社会的影響の可能性を有効にすることができる。
この位置紙は, 異なる会場からの37の出版物に関連する48のヘイトスピーチ検出システムについて, レビューを行った結果, 得られた知見が得られた。
While NLP research into hate speech detection has grown exponentially in the last three decades, there has been minimal uptake or engagement from policy makers and non-profit organisations. We argue the absence of ethical frameworks have contributed to this rift between current practice and best practice. By adopting appropriate ethical frameworks, NLP researchers may enable the social impact potential of hate speech research. This position paper is informed by reviewing forty-eight hate speech detection systems associated with thirty-seven publications from different venues. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# Scoring-aware Multiple Rewards を用いた強化学習による自己回帰的マルチトレイ評価
Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards ( http://arxiv.org/abs/2409.17472v1 ) ライセンス: Link先を確認 | Heejin Do, Sangwon Ryu, Gary Geunbae Lee, | (参考訳) 自動エッセイスコア(AES)の最近の進歩は、豊富なフィードバックを提供するために、複数の特性の評価に移行している。
一般的なAESシステムと同様に、マルチトレイAESは、人間のレーティングスキーマと密接に一致して、人間のラッカーとの合意を測定するために2次重み付きカッパ(QWK)を使用しているが、その非微分性は、ニューラルネットワークトレーニングにおいて直接の使用を妨げている。
本稿では,QWKに基づく報酬と平均二乗誤差ペナルティを設計し,実評価スキームをトレーニングプロセスに統合したScoring-aware Multi-Reward Reinforcement Learning (SaMRL)を提案する。
AESにおける既存の強化学習(RL)アプリケーションは、RLが確率分布を必要とするため、関連する性能劣化にもかかわらず分類モデルに限られる。
経験的分析により、SaMRLはモデルトレーニングを促進することが示され、特に以前に劣ったプロンプトのスコアが向上する。
Recent advances in automated essay scoring (AES) have shifted towards evaluating multiple traits to provide enriched feedback. Like typical AES systems, multi-trait AES employs the quadratic weighted kappa (QWK) to measure agreement with human raters, aligning closely with the rating schema; however, its non-differentiable nature prevents its direct use in neural network training. In this paper, we propose Scoring-aware Multi-reward Reinforcement Learning (SaMRL), which integrates actual evaluation schemes into the training process by designing QWK-based rewards with a mean-squared error penalty for multi-trait AES. Existing reinforcement learning (RL) applications in AES are limited to classification models despite associated performance degradation, as RL requires probability distributions; instead, we adopt an autoregressive score generation framework to leverage token generation probabilities for robust multi-trait score predictions. Empirical analyses demonstrate that SaMRL facilitates model training, notably enhancing scoring of previously inferior prompts. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# コミュニティベースの質問応答プラットフォームとGPT-3によるジェネレーティブAIの探索分析:オンラインコミュニティベースの学習の終わりか?
An exploratory analysis of Community-based Question-Answering Platforms and GPT-3-driven Generative AI: Is it the end of online community-based learning? ( http://arxiv.org/abs/2409.17473v1 ) ライセンス: Link先を確認 | Mohammed Mehedi Hasan, Mahady Hasan, Mamun Bin Ibne Reaz, Jannat Un Nayeem Iqra, | (参考訳) ChatGPTのような大規模言語モデル駆動ツールの出現は、ソフトウェアエンジニアにStack Overflowのようなコミュニティ質問回答(CQA)プラットフォームに代わるインタラクティブな代替手段を提供する。
Stack Overflowはクラウドソースの知識の蓄積によるメリットを提供するが、しばしば不快なコメントやリアクション、長い待ち時間に悩まされる。
本研究では,2022年1月から2022年12月までにスタックオーバーフローに投稿された2564 Python と JavaScript の質問に対して,その性能を分析し,ソフトウェア工学的問題に対する解決策を提供する上で,ChatGPT の有効性を評価する。
Stack Overflowから質問や回答を解析し、ChatGPTからAPIを通じて同じ質問に対する回答を収集し、4つのテキストと4つの認知メトリクスを使用して、ChatGPTが生成した回答と、人間の主題の専門家が提示した回答を比較し、将来の知識希望者がCQAプラットフォームよりもChatGPTを好む可能性を探る。
分析の結果,ChatGPTの反応は66 %短く,質問に対して35 %以上の単語を共有でき,人間の反応と比較して肯定的な感情が25 %増加することが示された。
ChatGPTの回答の正確度は71~75\%であり、JavaScriptとPythonの応答特性は様々である。
さらに,Stack Overflowにおけるコメントインタラクションの38倍の減少が示唆され,コミュニティの関与パターンのシフトが示唆された。
PythonとJavaScriptのプロフェッショナル14名による補足的な調査で、これらの調査結果が検証された。
ChatGPTは、より迅速で簡潔な応答を提供するが、コミュニティへの関与を減らすことの意味は、さらなる調査を保証している。
The advent of Large Language Model-driven tools like ChatGPT offers software engineers an interactive alternative to community question-answering (CQA) platforms like Stack Overflow. While Stack Overflow provides benefits from the accumulated crowd-sourced knowledge, it often suffers from unpleasant comments, reactions, and long waiting times. In this study, we assess the efficacy of ChatGPT in providing solutions to software engineering questions by analyzing its performance specifically against human answers on 2564 Python and JavaScript questions posted between January 2022 and December 2022 in Stack Overflow. We parse the questions and answers from Stack Overflow, then collect the answers to the same questions from ChatGPT through API, and employ four textual and four cognitive metrics to compare the answers generated by ChatGPT with the accepted answers provided by human subject matter experts to find out the potential reasons for which future knowledge seekers may prefer ChatGPT over CQA platforms. Our analysis indicates that ChatGPT's responses are 66\% shorter and share 35\% more words with the questions, showing a 25\% increase in positive sentiment compared to human responses. ChatGPT's answers' accuracy rate is between 71 to 75\%, with a variation in response characteristics between JavaScript and Python. Additionally, our findings suggest a recent 38\% decrease in comment interactions on Stack Overflow, indicating a shift in community engagement patterns. A supplementary survey with 14 Python and JavaScript professionals validated these findings. While ChatGPT offers quicker, more concise responses, the implications of reduced community involvement warrant further investigation. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# メタリヘアリングによるデータ拡張ノイズの低減と爆発
テキスト分類のためのコントラスト学習
Reducing and Exploiting Data Augmentation Noise through Meta Reweighting Contrastive Learning for Text Classification ( http://arxiv.org/abs/2409.17474v1 ) ライセンス: Link先を確認 | Guanyi Mou, Yichuan Li, Kyumin Lee | (参考訳) データ拡張は、データハングリー問題の解決とモデルの一般化能力の向上に効果を示した。
しかし、特に原データや原データと比較すると、拡張データの質は変化する。
テキスト分類タスクにおける強化データ/サンプルの深層学習モデルの性能向上を目的として,メタラーニングとコントラスト学習の両手法を併用した新しいフレームワークを提案する。
本フレームワークでは,拡張サンプルの重み/品質情報を効果的に活用するために,新しい重み依存型列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列列
実験により,本フレームワークは既存のディープラーニングモデル(RoBERTa-baseやText-CNNなど)や拡張技術(WordnetやEasydataなど)と合理的に連携できることを示す。
その結果,我々のフレームワークは平均1.6%,テキストCNNエンコーダは最大4.3%,RoBERTaベースエンコーダは最大4.4%,GLUEベンチマークデータセットは最良ベースラインと比較して4.4%向上していることがわかった。
ネットワークコンポーネントの非自明なコントリビューションを明らかにするとともに,フレームワーク設計の詳細な分析を行う。
私たちのコードは再現性の向上のために公開されています。
Data augmentation has shown its effectiveness in resolving the data-hungry problem and improving model's generalization ability. However, the quality of augmented data can be varied, especially compared with the raw/original data. To boost deep learning models' performance given augmented data/samples in text classification tasks, we propose a novel framework, which leverages both meta learning and contrastive learning techniques as parts of our design for reweighting the augmented samples and refining their feature representations based on their quality. As part of the framework, we propose novel weight-dependent enqueue and dequeue algorithms to utilize augmented samples' weight/quality information effectively. Through experiments, we show that our framework can reasonably cooperate with existing deep learning models (e.g., RoBERTa-base and Text-CNN) and augmentation techniques (e.g., Wordnet and Easydata) for specific supervised learning tasks. Experiment results show that our framework achieves an average of 1.6%, up to 4.3% absolute improvement on Text-CNN encoders and an average of 1.4%, up to 4.4% absolute improvement on RoBERTa-base encoders on seven GLUE benchmark datasets compared with the best baseline. We present an indepth analysis of our framework design, revealing the non-trivial contributions of our network components. Our code is publicly available for better reproducibility. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# グラフニューラルネットワークを用いたリンク予測における特徴ヘテロフォリーの影響について
On the Impact of Feature Heterophily on Link Prediction with Graph Neural Networks ( http://arxiv.org/abs/2409.17475v1 ) ライセンス: Link先を確認 | Jiong Zhu, Gaotang Li, Yao-An Yang, Jing Zhu, Xuehao Cui, Danai Koutra, | (参考訳) ネットワーク内の接続ノードが異なるクラスラベルや異種特徴を持つ傾向は、多くのグラフニューラルネットワーク(GNN)モデルでは困難であると認識されている。
クラスラベルが強いヘテロフィリーを示す場合のノード分類にGNNを適用するという課題はよく理解されているが、クラスラベルが利用できない他の重要なグラフ学習タスクにおいて、GNNのパフォーマンスにヘテロフィリーがどのような影響を及ぼすかは定かではない。
本稿では,リンク予測タスクに着目し,ノード特徴がGNN性能に与える影響を系統的に解析する。
理論的には、まず、同好性および異好性リンク予測タスクの形式的定義を導入し、各タスクに必要な最適化の違いを強調する理論的枠組みを提案する。
次に、異なるリンク予測エンコーダとデコーダの相同性にどのように適応するかを分析し、性能改善のための設計を導入する。
種々の合成および実世界のデータセットに関する実証分析は、我々の理論的知見を裏付け、ホモフィリーを超えたリンク予測タスクのためのメッセージパッシングにおいて、egoおよびbebedding分離を伴う学習可能なデコーダとGNNエンコーダを採用することの重要性を強調している。
Heterophily, or the tendency of connected nodes in networks to have different class labels or dissimilar features, has been identified as challenging for many Graph Neural Network (GNN) models. While the challenges of applying GNNs for node classification when class labels display strong heterophily are well understood, it is unclear how heterophily affects GNN performance in other important graph learning tasks where class labels are not available. In this work, we focus on the link prediction task and systematically analyze the impact of heterophily in node features on GNN performance. Theoretically, we first introduce formal definitions of homophilic and heterophilic link prediction tasks, and present a theoretical framework that highlights the different optimizations needed for the respective tasks. We then analyze how different link prediction encoders and decoders adapt to varying levels of feature homophily and introduce designs for improved performance. Our empirical analysis on a variety of synthetic and real-world datasets confirms our theoretical insights and highlights the importance of adopting learnable decoders and GNN encoders with ego- and neighbor-embedding separation in message passing for link prediction tasks beyond homophily. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# 今後どうなるか? イベント因果グラフから結果を予測する
What Would Happen Next? Predicting Consequences from An Event Causality Graph ( http://arxiv.org/abs/2409.17480v1 ) ライセンス: Link先を確認 | Chuanhong Zhan, Wei Xiang, Chao Liang, Bang Wang, | (参考訳) 既存のスクリプトイベント予測タスクは、イベントスクリプトチェーンに基づいて、その後のイベントを転送する。
しかし、過去の出来事の進化は現実のシナリオではより複雑であり、イベントスクリプトチェーンが提供する限られた情報は、その後の出来事を正確に予測するのも困難である。
本稿では,事象因果グラフ(ECG)に基づく連続事象を予測する因果グラフイベント予測(CGEP)タスクを提案する。
CGEPタスクのためのセマンティック拡張距離感性グラフプロンプト学習(SeDGPL)モデルを提案する。
SeDGPL では,(1) 距離に敏感なグラフ線形化 (DsGL) モジュールを設計し,ECG を PLM の入力としてグラフプロンプトテンプレートに再構成し,(2) イベントエンリッチな因果エンコーディング (EeCE) モジュールを提案し,イベントコンテキスト意味とグラフスキーマ情報を統合し,(3) セマンティックコントラストイベント予測 (ScEP) モジュールを提案する。
実験のために,既存のMAVEN-EREとESCコーパスに基づく2つのCGEPデータセットを構築した。
実験の結果,提案したSeDGPLモデルはCGEPタスクの先進的競合よりも優れていた。
Existing script event prediction task forcasts the subsequent event based on an event script chain. However, the evolution of historical events are more complicated in real world scenarios and the limited information provided by the event script chain also make it difficult to accurately predict subsequent events. This paper introduces a Causality Graph Event Prediction(CGEP) task that forecasting consequential event based on an Event Causality Graph (ECG). We propose a Semantic Enhanced Distance-sensitive Graph Prompt Learning (SeDGPL) Model for the CGEP task. In SeDGPL, (1) we design a Distance-sensitive Graph Linearization (DsGL) module to reformulate the ECG into a graph prompt template as the input of a PLM; (2) propose an Event-Enriched Causality Encoding (EeCE) module to integrate both event contextual semantic and graph schema information; (3) propose a Semantic Contrast Event Prediction (ScEP) module to enhance the event representation among numerous candidate events and predict consequential event following prompt learning paradigm. %We construct two CGEP datasets based on existing MAVEN-ERE and ESC corpus for experiments. Experiment results validate our argument our proposed SeDGPL model outperforms the advanced competitors for the CGEP task. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# MaskLLM:大規模言語モデルのための学習可能な半構造化空間
MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models ( http://arxiv.org/abs/2409.17481v1 ) ライセンス: Link先を確認 | Gongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg Heinrich, Jeff Pool, Jan Kautz, Pavlo Molchanov, Xinchao Wang | (参考訳) 大規模言語モデル(LLM)は、大きなパラメータ数によって区別される。
本研究は,Semi-structured(または ``N:M'') Sparsity in LLMsを確立する学習可能なプルーニング手法であるMaskLLMを紹介する。
新しい重要な基準を開発する代わりに、MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
このアプローチは、大規模データセットのエンドツーエンドトレーニングを促進し、次の2つの顕著なアドバンテージを提供する。
1)高品質マスク - 当社の手法は,大規模なデータセットに効果的にスケールし,正確なマスクを学習する。
2)伝達可能性(Transferability) - マスク分布の確率論的モデリングにより,領域やタスク間の疎さの伝達学習が可能になる。
LLaMA-2, Nemotron-4, GPT-3 など様々な LLM の2:4 間隔で MaskLLM の評価を行った。
例えば、先導的なアプローチは、密度の高いモデルの5.12 PPLと比較して、Wikitext上で10以上のパープレキシティ(PPL)を達成するが、MaskLLMは、凍結重量でマスクを学習することで、かなり低い6.72 PPLを達成する。
さらに、MaskLLMの学習可能な性質は、ダウンストリームタスクやドメインへの2:4のロスレス適用のためにカスタマイズされたマスクを可能にする。
コードは \url{https://github.com/NVlabs/MaskLLM} で入手できる。
Large Language Models (LLMs) are distinguished by their massive parameter counts, which typically result in significant redundancy. This work introduces MaskLLM, a learnable pruning method that establishes Semi-structured (or ``N:M'') Sparsity in LLMs, aimed at reducing computational overhead during inference. Instead of developing a new importance criterion, MaskLLM explicitly models N:M patterns as a learnable distribution through Gumbel Softmax sampling. This approach facilitates end-to-end training on large-scale datasets and offers two notable advantages: 1) High-quality Masks - our method effectively scales to large datasets and learns accurate masks; 2) Transferability - the probabilistic modeling of mask distribution enables the transfer learning of sparsity across domains or tasks. We assessed MaskLLM using 2:4 sparsity on various LLMs, including LLaMA-2, Nemotron-4, and GPT-3, with sizes ranging from 843M to 15B parameters, and our empirical results show substantial improvements over state-of-the-art methods. For instance, leading approaches achieve a perplexity (PPL) of 10 or greater on Wikitext compared to the dense model's 5.12 PPL, but MaskLLM achieves a significantly lower 6.72 PPL solely by learning the masks with frozen weights. Furthermore, MaskLLM's learnable nature allows customized masks for lossless application of 2:4 sparsity to downstream tasks or domains. Code is available at \url{https://github.com/NVlabs/MaskLLM}. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# コンテキスト認識型ヒューマンアクティビティ認識のための不均一ハイパーグラフニューラルネットワーク
Heterogeneous Hyper-Graph Neural Networks for Context-aware Human Activity Recognition ( http://arxiv.org/abs/2409.17483v1 ) ライセンス: Link先を確認 | Wen Ge, Guanyi Mou, Emmanuel O. Agu, Kyumin Lee, | (参考訳) コンテキスト認識型ヒューマンアクティビティ認識(CHAR)は,電話の配置や異なるユーザが同一のアクティビティを行うさまざまなスタイルなど,文脈的要因と大きく異なる信号からユーザの現在のアクティビティを認識する必要があるため,課題である。
本稿では,実世界の現実的なデータにおけるコンテキスト認識活動の訪問パターンを,グラフ表現学習の一般的な課題として等しく考えることができると論じる。
我々はCHARデータにおけるグラフィカルなパターンを活用することで、CHARタスクのパフォーマンスと表現学習を改善することができると仮定する。
特定の活動が特定の位置に配置された電話で頻繁に行われるという直感に基づいて,<Activity, Phone Placement> タプル認識のコンテキスト認識型人間活動問題に焦点を当てた。
我々は、CHARデータには、複数のノードとハイパーエッジ(2つ以上のノードを接続するエッジ)を持つ異種ハイパーグラフとして見ることのできる、基盤となるグラフ構造があることを実証する。
その後,<Activity, Phone Placement>表現の学習はグラフノード表現学習問題となる。
タスク変換後,さらに3種類の異種ノード(ユーザ,電話の配置,アクティビティ)を持つコンテキスト認識型ヒューマンアクティビティ認識(HHGNN-CHAR)のための新しいハイパーグラフニューラルネットワークアーキテクチャを提案する。
すべてのノード間の接続はハイパーエッジによって表現される。
厳密な評価は,未記述のCHARデータセットにおいて,グラフを活用しないCHARモデルや,マシューズ相関係数(MCC)で14.04%,マクロF1で7.01%,異種ノードやハイパーエッジを含まないGNN変種など,最先端(SOTA)ベースラインを著しく上回ることを示した。
Context-aware Human Activity Recognition (CHAR) is challenging due to the need to recognize the user's current activity from signals that vary significantly with contextual factors such as phone placements and the varied styles with which different users perform the same activity. In this paper, we argue that context-aware activity visit patterns in realistic in-the-wild data can equivocally be considered as a general graph representation learning task. We posit that exploiting underlying graphical patterns in CHAR data can improve CHAR task performance and representation learning. Building on the intuition that certain activities are frequently performed with the phone placed in certain positions, we focus on the context-aware human activity problem of recognizing the <Activity, Phone Placement> tuple. We demonstrate that CHAR data has an underlying graph structure that can be viewed as a heterogenous hypergraph that has multiple types of nodes and hyperedges (an edge connecting more than two nodes). Subsequently, learning <Activity, Phone Placement> representations becomes a graph node representation learning problem. After task transformation, we further propose a novel Heterogeneous HyperGraph Neural Network architecture for Context-aware Human Activity Recognition (HHGNN-CHAR), with three types of heterogeneous nodes (user, phone placement, and activity). Connections between all types of nodes are represented by hyperedges. Rigorous evaluation demonstrated that on an unscripted, in-the-wild CHAR dataset, our proposed framework significantly outperforms state-of-the-art (SOTA) baselines including CHAR models that do not exploit graphs, and GNN variants that do not incorporate heterogeneous nodes or hyperedges with overall improvements 14.04% on Matthews Correlation Coefficient (MCC) and 7.01% on Macro F1 scores. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# 創造的合成現実性:フォトリアリスティックAI生成画像の視覚的リアリズムと誤情報可能性の検討
Crafting Synthetic Realities: Examining Visual Realism and Misinformation Potential of Photorealistic AI-Generated Images ( http://arxiv.org/abs/2409.17484v1 ) ライセンス: Link先を確認 | Qiyao Peng, Yingdan Lu, Yilang Peng, Sijia Qian, Xinyi Liu, Cuihua Shen, | (参考訳) 生成モデルの進歩は、実際の写真とほとんど区別できない人工知能生成画像(AIGI)を作成した。
InstagramとTwitterから収集された30,824のAIGIの大規模なコーパスを活用し、定量的コンテンツ分析と質的分析を組み合わせることで、この研究は、AIGIのAIフォトリアリズムを4つの重要な次元、コンテンツ、人間、美学、プロダクション機能から解放する。
フォトリアリスティックなAIGIは、しばしば人間の人物、特に有名人や政治家を描写し、高度な超現実主義と審美的プロフェッショナリズムと、AI生産の低レベルの過度な信号と共に表現している。
この研究は、複数のプラットフォームにわたる光リアルAIGIを混合メソッドアプローチで実験的に研究した初めてのものである。
本研究は,視覚的誤報の理解と,フォトリアリスティックAIGIに関連する潜在的なリスクの軽減に重要な意味と知見を提供する。
また,AIGIの責任ある利用を促進するために設計勧告を提案する。
Advances in generative models have created Artificial Intelligence-Generated Images (AIGIs) nearly indistinguishable from real photographs. Leveraging a large corpus of 30,824 AIGIs collected from Instagram and Twitter, and combining quantitative content analysis with qualitative analysis, this study unpacks AI photorealism of AIGIs from four key dimensions, content, human, aesthetic, and production features. We find that photorealistic AIGIs often depict human figures, especially celebrities and politicians, with a high degree of surrealism and aesthetic professionalism, alongside a low degree of overt signals of AI production. This study is the first to empirically investigate photorealistic AIGIs across multiple platforms using a mixed-methods approach. Our findings provide important implications and insights for understanding visual misinformation and mitigating potential risks associated with photorealistic AIGIs. We also propose design recommendations to enhance the responsible use of AIGIs. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# 医学的異常検出のための深部アンサンブル不確かさの再検討
Revisiting Deep Ensemble Uncertainty for Enhanced Medical Anomaly Detection ( http://arxiv.org/abs/2409.17485v1 ) ライセンス: Link先を確認 | Yi Gu, Yi Lin, Kwang-Ting Cheng, Hao Chen, | (参考訳) 医学的異常検出(AD)は病理的同定と局所化において重要である。
現在の手法は、通常、アンサンブル学習者が正常なサンプルに同意すべきであり、出力空間における見当たらない異常に不一致を示すことを前提として、ディープアンサンブルにおける不確実性推定に頼っている。
しかし、これらの手法は異常に対する不適切な意見の不一致や、正常なサンプルに対する合意の低下に悩まされる可能性がある。
そこで我々はD2UEを提案する。D2UEは医学的異常検出のための分散空間不確実性推定フレームワークである。
異方性スケーリングと直交変換の両方に相変わらず,学習者の特徴空間における多様性を明示的に促進する類似性カーネル(RAR)を提案する。
さらに、異常領域をアクセント化するために、入力空間と出力空間におけるアンサンブルの不確実性を利用するDual-Space Uncertainty (DSU)を開発した。
入力空間では、まず入力画像に対する再構成誤差の勾配を計算する。
次に、勾配を再構成出力と統合して入力の不確かさを推定し、出力空間の不一致が最小でも効果的な異常判別を可能にする。
バックボーンの異なる5つの医療ベンチマークを総合的に評価する。
実験により,本手法の最先端手法に対する優位性と,フレームワークにおける各コンポーネントの有効性が示された。
私たちのコードはhttps://github.com/Rubiscol/D2UEで公開されています。
Medical anomaly detection (AD) is crucial in pathological identification and localization. Current methods typically rely on uncertainty estimation in deep ensembles to detect anomalies, assuming that ensemble learners should agree on normal samples while exhibiting disagreement on unseen anomalies in the output space. However, these methods may suffer from inadequate disagreement on anomalies or diminished agreement on normal samples. To tackle these issues, we propose D2UE, a Diversified Dual-space Uncertainty Estimation framework for medical anomaly detection. To effectively balance agreement and disagreement for anomaly detection, we propose Redundancy-Aware Repulsion (RAR), which uses a similarity kernel that remains invariant to both isotropic scaling and orthogonal transformations, explicitly promoting diversity in learners' feature space. Moreover, to accentuate anomalous regions, we develop Dual-Space Uncertainty (DSU), which utilizes the ensemble's uncertainty in input and output spaces. In input space, we first calculate gradients of reconstruction error with respect to input images. The gradients are then integrated with reconstruction outputs to estimate uncertainty for inputs, enabling effective anomaly discrimination even when output space disagreement is minimal. We conduct a comprehensive evaluation of five medical benchmarks with different backbones. Experimental results demonstrate the superiority of our method to state-of-the-art methods and the effectiveness of each component in our framework. Our code is available at https://github.com/Rubiscol/D2UE. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# 完全適応に基づくグローバルローカル医療用SAMアダプタ
Global-Local Medical SAM Adaptor Based on Full Adaption ( http://arxiv.org/abs/2409.17486v1 ) ライセンス: Link先を確認 | Meng Wang, Yarong Feng, Yongwei Tang, Tian Zhang, Yuxin Liang, Chao Lv, | (参考訳) セグメンテーションモデル(SAM)のような視覚言語モデルの創出は、普遍的なセグメンテーションの分野で大きなブレークスルーをもたらし、特にメディカルSAMアダプタ(Med-SA)の助けを借りて、医用画像セグメンテーションの改善に大きく貢献している。
しかし、Med-SAはSAMを部分適応的に微調整するので改善できる。
この問題を解決するため,グローバルなSAM適応器 (GMed-SA) を提案する。
GMed-SA と Med-SA を併用し,グローバル・ローカルな SAM 適応器 (GLMed-SA) を提案する。
挑戦的な2Dメラノーマセグメンテーションデータセット上で大規模な実験が行われた。
その結果, GLMed-SAは様々な評価指標において, 最先端のセマンティックセマンティックセマンティックセマンティクス法よりも優れており, 本手法の優位性を示している。
Emerging of visual language models, such as the segment anything model (SAM), have made great breakthroughs in the field of universal semantic segmentation and significantly aid the improvements of medical image segmentation, in particular with the help of Medical SAM adaptor (Med-SA). However, Med-SA still can be improved, as it fine-tunes SAM in a partial adaption manner. To resolve this problem, we present a novel global medical SAM adaptor (GMed-SA) with full adaption, which can adapt SAM globally. We further combine GMed-SA and Med-SA to propose a global-local medical SAM adaptor (GLMed-SA) to adapt SAM both globally and locally. Extensive experiments have been performed on the challenging public 2D melanoma segmentation dataset. The results show that GLMed-SA outperforms several state-of-the-art semantic segmentation methods on various evaluation metrics, demonstrating the superiority of our methods. | 翻訳日:2024-09-28 23:28:14 公開日:2024-09-26 |
# 拡散モデルのための量子化適応条件の学習
Learning Quantized Adaptive Conditions for Diffusion Models ( http://arxiv.org/abs/2409.17487v1 ) ライセンス: Link先を確認 | Yuchen Liang, Yuchuan Tian, Lei Yu, Huao Tang, Jie Hu, Xiangzhong Fang, Hanting Chen, | (参考訳) 拡散モデルにおけるODE軌道の曲率は、少数の関数評価(NFE)において高品質な画像を生成する能力を妨げている。
本稿では,適応条件を利用して軌道曲率を小さくする,新しい効果的手法を提案する。
極端に軽量な量子化エンコーダを用いることで、トレーニングパラメータの1%しか増加せず、余分な正規化項が不要となるが、試料の品質は著しく向上する。
提案手法は,SDE手法の下流タスク画像編集能力を保ちながら,ODEサンプリングを高速化する。
大規模な実験により,本手法が極めて限られたサンプリングコストで高品質な結果が得られることが確認された。
6 NFEでCIFAR-10で5.14 FID、FFHQ 64x64で6.91 FID、AFHQv2で3.10 FIDを達成する。
The curvature of ODE trajectories in diffusion models hinders their ability to generate high-quality images in a few number of function evaluations (NFE). In this paper, we propose a novel and effective approach to reduce trajectory curvature by utilizing adaptive conditions. By employing a extremely light-weight quantized encoder, our method incurs only an additional 1% of training parameters, eliminates the need for extra regularization terms, yet achieves significantly better sample quality. Our approach accelerates ODE sampling while preserving the downstream task image editing capabilities of SDE techniques. Extensive experiments verify that our method can generate high quality results under extremely limited sampling costs. With only 6 NFE, we achieve 5.14 FID on CIFAR-10, 6.91 FID on FFHQ 64x64 and 3.10 FID on AFHQv2. | 翻訳日:2024-09-28 23:28:13 公開日:2024-09-26 |
# MathDSL: プログラム合成による簡潔な数学的解のためのドメイン特化言語
MathDSL: A Domain-Specific Language for Concise Mathematical Solutions Via Program Synthesis ( http://arxiv.org/abs/2409.17490v1 ) ライセンス: Link先を確認 | Sagnik Anupam, Maddy Bowers, Omar Costilla-Reyes, Armando Solar-Lezama, | (参考訳) 数式解析のためのドメイン特化言語(DSL)であるMathDSLを,プログラム合成モデルに展開すると,最先端の強化学習法より優れる。
また,数理解の簡潔さを測定するための定量的な測定基準を導入し,他の方法と比較して,生成した解の品質向上を実証する。
本研究では,MathDSLを用いたプログラム合成システム(DreamCoder)が,強化学習システムよりも高精度かつ簡潔に線形方程式を解くプログラムを生成することを示す。
さらに、従来の強化学習システムのアクション空間をDSLとして使う場合、MathDSLはアクション空間DSLよりも優れています。
私たちはDreamCoderを使って、プログラムライブラリの学習抽象化として方程式解決戦略を格納し、MathDSLを使用することで、数学的教育に応用可能な人間解釈可能なソリューション戦略に変換できることを実証します。
We present MathDSL, a Domain-Specific Language (DSL) for mathematical equation solving, which, when deployed in program synthesis models, outperforms state-of-the-art reinforcement-learning-based methods. We also introduce a quantitative metric for measuring the conciseness of a mathematical solution and demonstrate the improvement in the quality of generated solutions compared to other methods. Our system demonstrates that a program synthesis system (DreamCoder) using MathDSL can generate programs that solve linear equations with greater accuracy and conciseness than using reinforcement learning systems. Additionally, we demonstrate that if we use the action spaces of previous reinforcement learning systems as DSLs, MathDSL outperforms the action-space-DSLs. We use DreamCoder to store equation-solving strategies as learned abstractions in its program library and demonstrate that by using MathDSL, these can be converted into human-interpretable solution strategies that could have applications in mathematical education. | 翻訳日:2024-09-28 23:28:13 公開日:2024-09-26 |
# 大規模言語モデルを用いた限定情報を用いた人間のモビリティモデリング
Human Mobility Modeling with Limited Information via Large Language Models ( http://arxiv.org/abs/2409.17495v1 ) ライセンス: Link先を確認 | Yifan Liu, Xishun Liao, Haoxuan Ma, Brian Yueshuai He, Chris Stanford, Jiaqi Ma, | (参考訳) 人間の移動パターンを理解することは、伝統的に交通モデリングにおいて複雑な課題であった。
多様な場所で高品質なトレーニングデータセットを得るのに困難があるため、従来のアクティビティベースモデルと学習ベースのヒューマンモビリティモデリングアルゴリズムは、データセットの可用性と品質によって特に制限されている。
さらに、近年の研究は、主に空間的時間的移動パターンに焦点を当てているが、活動間の相互依存のモデル化に不可欠である活動間の意味情報の理解が欠如している。
本稿では,人間のモビリティ・モデリング・フレームワークであるLLM(Large Language Model)を提案する。
提案手法は、個人の基本社会デコグラフィー情報を用いて、日々の移動パターンを生成することによって、詳細な移動統計データへの依存を著しく低減する。
我々は、NHTSおよびSCAG-ABMデータセットを用いて、この結果を検証するとともに、モビリティパターンの効果的なモデリングと、様々な地域にわたるフレームワークの強力な適応性を実証した。
Understanding human mobility patterns has traditionally been a complex challenge in transportation modeling. Due to the difficulties in obtaining high-quality training datasets across diverse locations, conventional activity-based models and learning-based human mobility modeling algorithms are particularly limited by the availability and quality of datasets. Furthermore, current research mainly focuses on the spatial-temporal travel pattern but lacks an understanding of the semantic information between activities, which is crucial for modeling the interdependence between activities. In this paper, we propose an innovative Large Language Model (LLM) empowered human mobility modeling framework. Our proposed approach significantly reduces the reliance on detailed human mobility statistical data, utilizing basic socio-demographic information of individuals to generate their daily mobility patterns. We have validated our results using the NHTS and SCAG-ABM datasets, demonstrating the effective modeling of mobility patterns and the strong adaptability of our framework across various geographic locations. | 翻訳日:2024-09-28 23:28:13 公開日:2024-09-26 |
# 最悪性能のエージェントはパックをリードするか? : エージェントダイナミクスの解析
統一分散SGD
Does Worst-Performing Agent Lead the Pack? Analyzing Agent Dynamics in Unified Distributed SGD ( http://arxiv.org/abs/2409.17499v1 ) ライセンス: Link先を確認 | Jie Hu, Yi-Ting Ma, Do Young Eun | (参考訳) データプライバシを維持しながら、異種エージェント間で機械学習アルゴリズムをトレーニングするためには、分散学習が不可欠だ。
我々は,統一分散SGD (UD-SGD) の漸近解析を行い,Federated Learning (FL) における分散SGDとローカルSGDの分散化や,FL設定における通信間隔の増加など,様々なコミュニケーションパターンを探索する。
本研究では,中央極限定理(CLT)に記載されている制限共分散行列に対するエージェントダイナミクスの影響を考慮し,サンプリング,シャッフル,マルコフサンプリングなどの異なるサンプリング戦略がUD-SGDの収束速度に与える影響を評価する。
本研究は, 線形スピードアップと漸近的ネットワーク独立に関する既存の理論を裏付けるだけでなく, 個別エージェントによる効率的なサンプリング手法がUD-SGDの総合収束にいかに貢献するかを理論的および実証的に示す。
シミュレーションにより、高効率サンプリングを用いるエージェントは、適度に改善された戦略を採用する多数派のパフォーマンスを達成または超えることができ、最悪のパフォーマンスのエージェントに焦点を当てた従来の分析以上の新たな洞察を提供する。
Distributed learning is essential to train machine learning algorithms across heterogeneous agents while maintaining data privacy. We conduct an asymptotic analysis of Unified Distributed SGD (UD-SGD), exploring a variety of communication patterns, including decentralized SGD and local SGD within Federated Learning (FL), as well as the increasing communication interval in the FL setting. In this study, we assess how different sampling strategies, such as i.i.d. sampling, shuffling, and Markovian sampling, affect the convergence speed of UD-SGD by considering the impact of agent dynamics on the limiting covariance matrix as described in the Central Limit Theorem (CLT). Our findings not only support existing theories on linear speedup and asymptotic network independence, but also theoretically and empirically show how efficient sampling strategies employed by individual agents contribute to overall convergence in UD-SGD. Simulations reveal that a few agents using highly efficient sampling can achieve or surpass the performance of the majority employing moderately improved strategies, providing new insights beyond traditional analyses focusing on the worst-performing agent. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# GLinSAT: 勾配の加速による一般線形満足度ニューラルネットワーク層
GLinSAT: The General Linear Satisfiability Neural Network Layer By Accelerated Gradient Descent ( http://arxiv.org/abs/2409.17500v1 ) ライセンス: Link先を確認 | Hongtai Zeng, Chao Yang, Yanzhen Zhou, Cheng Yang, Qinglai Guo, | (参考訳) ニューラルネットワークの出力が特定の制約を満たすことを保証することは、ニューラルネットワークを実生活における意思決定問題に適用するために不可欠である。
本稿では,ニューラルネットワークの一連の出力を有界および一般線形制約を満たすものにすることを検討する。
まず、エントロピー規則化線形計画問題として、ニューラルネットワーク出力予測問題を再構成する。
このような問題は、双対性定理に従ってリプシッツ連続勾配を持つ非制約凸最適化問題に同値に変換できることを示す。
そして,数値的性能向上を伴う高速化勾配降下アルゴリズムに基づいて,その問題を解決するためのアーキテクチャGLinSATを提案する。
我々の知る限りでは、これはすべての操作が微分可能で行列分解のない、最初の一般線形満足層である。
自動微分機構に基づくバックプロパゲーションを明示的に行うことができるにもかかわらず、最適化条件の暗黙的な微分に基づいて導関数を計算するための別のアプローチもGLinSATで提供する。
制約付きトラベルセールスマン問題,部分グラフマッチング,予測ポートフォリオ割り当て,電力系統単位のコミットメントに関する実験結果は,既存の満足層よりもGLinSATの利点を実証している。
Ensuring that the outputs of neural networks satisfy specific constraints is crucial for applying neural networks to real-life decision-making problems. In this paper, we consider making a batch of neural network outputs satisfy bounded and general linear constraints. We first reformulate the neural network output projection problem as an entropy-regularized linear programming problem. We show that such a problem can be equivalently transformed into an unconstrained convex optimization problem with Lipschitz continuous gradient according to the duality theorem. Then, based on an accelerated gradient descent algorithm with numerical performance enhancement, we present our architecture, GLinSAT, to solve the problem. To the best of our knowledge, this is the first general linear satisfiability layer in which all the operations are differentiable and matrix-factorization-free. Despite the fact that we can explicitly perform backpropagation based on automatic differentiation mechanism, we also provide an alternative approach in GLinSAT to calculate the derivatives based on implicit differentiation of the optimality condition. Experimental results on constrained traveling salesman problems, partial graph matching with outliers, predictive portfolio allocation and power system unit commitment demonstrate the advantages of GLinSAT over existing satisfiability layers. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# 放送製品:形状整列要素の乗算と超越
Broadcast Product: Shape-aligned Element-wise Multiplication and Beyond ( http://arxiv.org/abs/2409.17502v1 ) ライセンス: Link先を確認 | Yusuke Matsui, Tatsuya Yokota, | (参考訳) 本稿では,2つのテンソルの間に定義された新しい演算子,ブロードキャスト製品を提案する。
放送製品は、2つのテンソルの形状を整列するために要素を重複させた後、アダマール積を算出する。
texttt{numpy} のようなライブラリにおける複素テンソル演算は、放送された積を用いて数学的表現として簡潔に表現することができる。
最後に,放送製品を用いた新しいテンソル分解法を提案する。
We propose a new operator defined between two tensors, the broadcast product. The broadcast product calculates the Hadamard product after duplicating elements to align the shapes of the two tensors. Complex tensor operations in libraries like \texttt{numpy} can be succinctly represented as mathematical expressions using the broadcast product. Finally, we propose a novel tensor decomposition using the broadcast product, highlighting its potential applications in dimensionality reduction. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# 堅牢な医用画像分割のための形状インテンシティ知識蒸留法
Shape-intensity knowledge distillation for robust medical image segmentation ( http://arxiv.org/abs/2409.17503v1 ) ライセンス: Link先を確認 | Wenhui Dong, Bo Du, Yongchao Xu, | (参考訳) 多くの医用画像分割法は印象的な成果を上げている。
しかし、ほとんどの既存手法は、形状と強度の事前情報を考慮していない。
これは、特に目に見えないデータセットのイメージに対して、不可解なセグメンテーション結果をもたらす可能性がある。
本稿では,関節形状・強度事前情報をセグメント化ネットワークに組み込む新しい手法を提案する。
具体的には、まず、クラス平均化訓練画像上にセグメンテーションネットワーク(教師ネットワーク)をトレーニングし、価値ある形状インテンシティ情報を抽出し、その後、知識蒸留により教師と同じネットワーク構造を持つ学生セグメンテーションネットワークに転送する。
このようにして、最終セグメンテーションモデルと見なされる学生ネットワークは、形状インテンシティ事前情報を効果的に統合することができ、より正確なセグメンテーション結果が得られる。
その単純さにもかかわらず、異なるモードの5つの医用画像セグメンテーションタスクの実験により、提案された形状-強度知識蒸留(SIKD)は、データセット内評価の下で複数のベースラインモデル(最近のMaxStyleやSAMedを含む)を一貫して改善し、データセット間の一般化能力を著しく改善することを示した。
コードはhttps://github.com/whdong-whu/SIKD.comで公開されている。
Many medical image segmentation methods have achieved impressive results. Yet, most existing methods do not take into account the shape-intensity prior information. This may lead to implausible segmentation results, in particular for images of unseen datasets. In this paper, we propose a novel approach to incorporate joint shape-intensity prior information into the segmentation network. Specifically, we first train a segmentation network (regarded as the teacher network) on class-wise averaged training images to extract valuable shape-intensity information, which is then transferred to a student segmentation network with the same network architecture as the teacher via knowledge distillation. In this way, the student network regarded as the final segmentation model can effectively integrate the shape-intensity prior information, yielding more accurate segmentation results. Despite its simplicity, experiments on five medical image segmentation tasks of different modalities demonstrate that the proposed Shape-Intensity Knowledge Distillation (SIKD) consistently improves several baseline models (including recent MaxStyle and SAMed) under intra-dataset evaluation, and significantly improves the cross-dataset generalization ability. The code is available at https://github.com/whdong-whu/SIKD. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# HaloScope:幻覚のためのラベルなしLCM生成のハーネス
検出
HaloScope: Harnessing Unlabeled LLM Generations for Hallucination Detection ( http://arxiv.org/abs/2409.17504v1 ) ライセンス: Link先を確認 | Xuefeng Du, Chaowei Xiao, Yixuan Li | (参考訳) 大規模言語モデル(LLM)の適用が急増し、幻覚として知られる誤解を招く情報や偽造情報の発生が懸念されている。
したがって、LLM生成物の信頼を維持するために幻覚を検出することが重要である。
真性分類器を学ぶ上での最大の課題は、大量のラベル付き真理と幻覚データがないことである。
この課題に対処するために,幻覚検出のために,未ラベルのLLM世代を活用した新しい学習フレームワークであるHaloScopeを紹介した。
このようなラベルのないデータは、オープンワールドにLSMを配置する際に自由に発生し、真理情報と幻覚情報の両方から構成される。
ラベル付けされていないデータを活用するために、ラベル付けされていない混合データの中で真偽と非真偽の世代を区別する自動会員推定スコアを提案する。
重要なことは、我々のフレームワークは追加のデータ収集やヒューマンアノテーションを必要とせず、現実世界のアプリケーションに強力な柔軟性と実用性を提供します。
大規模な実験により、HaloScopeはより優れた幻覚検出性能を達成でき、競争相手よりもかなりの差で勝っていることが示された。
コードはhttps://github.com/deeplearningwisc/haloscope.comで公開されている。
The surge in applications of large language models (LLMs) has prompted concerns about the generation of misleading or fabricated information, known as hallucinations. Therefore, detecting hallucinations has become critical to maintaining trust in LLM-generated content. A primary challenge in learning a truthfulness classifier is the lack of a large amount of labeled truthful and hallucinated data. To address the challenge, we introduce HaloScope, a novel learning framework that leverages the unlabeled LLM generations in the wild for hallucination detection. Such unlabeled data arises freely upon deploying LLMs in the open world, and consists of both truthful and hallucinated information. To harness the unlabeled data, we present an automated membership estimation score for distinguishing between truthful and untruthful generations within unlabeled mixture data, thereby enabling the training of a binary truthfulness classifier on top. Importantly, our framework does not require extra data collection and human annotations, offering strong flexibility and practicality for real-world applications. Extensive experiments show that HaloScope can achieve superior hallucination detection performance, outperforming the competitive rivals by a significant margin. Code is available at https://github.com/deeplearningwisc/haloscope. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# シークエンシャルカーネル化スタインの相違
Sequential Kernelized Stein Discrepancy ( http://arxiv.org/abs/2409.17505v1 ) ライセンス: Link先を確認 | Diego Martinez-Taboada, Aaditya Ramdas | (参考訳) 本稿では,非正規化密度に対する適合性試験を連続的に監視し,適応的に停止させることができるカーネル化スタインの相違点の逐次バージョンを提案する。
つまり、データ収集の前にサンプルのサイズを固定する必要はない; 実践者は、偽の発見率を制御しながら、テストを止めるか、いつでも証拠を収集するかを選択できる。
関連する文献とは対照的に、スタイン核に一様有界性は課さない。
代わりに、任意の点評価においてスタイン核の潜在的な有界性を利用してテストマーチンガレットを定義する。
我々は、この試験の有効性を証明し、代替法の下での富の対数的成長に対する漸近的な下限を証明した。
さらに、制限されたボルツマンマシンを含む様々な分布を持つ試験の実証的な性能について説明する。
We present a sequential version of the kernelized Stein discrepancy, which allows for conducting goodness-of-fit tests for unnormalized densities that are continuously monitored and adaptively stopped. That is, the sample size need not be fixed prior to data collection; the practitioner can choose whether to stop the test or continue to gather evidence at any time while controlling the false discovery rate. In stark contrast to related literature, we do not impose uniform boundedness on the Stein kernel. Instead, we exploit the potential boundedness of the Stein kernel at arbitrary point evaluations to define test martingales, that give way to the subsequent novel sequential tests. We prove the validity of the test, as well as an asymptotic lower bound for the logarithmic growth of the wealth process under the alternative. We further illustrate the empirical performance of the test with a variety of distributions, including restricted Boltzmann machines. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# Uni-Med:マルチタスクのための統一医療ゼネラルモデル
Via Connector-MoE の学習
Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE ( http://arxiv.org/abs/2409.17508v1 ) ライセンス: Link先を確認 | Xun Zhu, Ying Hu, Fanbin Mo, Miao Li, Ji Wu | (参考訳) MLLM(Multi-modal large language model)は、様々な視覚的・言語的タスクのための汎用インタフェースとして、印象的な機能を示している。
しかし、医療分野におけるマルチタスク学習のための統一MLLMの構築は、依然として厄介な課題である。
マルチモーダルマルチタスク最適化の綱引き問題を軽減するため、近年の進歩は、モダリティ間のギャップを埋めるコネクタを無視しながら、LLMコンポーネントの改善に重点を置いている。
本稿では,Uni-Medについて紹介する。Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med。
コネクタにプロジェクションの専門家が混在したよく設計されたルータを活用したCMoEの利点として、Uni-Medは綱引き問題に対する効率的な解決策を実現し、質問応答、視覚的質問応答、レポート生成、表現理解の参照、表現生成、画像分類を含む6つの異なる医療タスクを実行できる。
私たちの知る限りでは、Uni-Medはコネクタにおけるマルチタスク干渉に対処する最初の取り組みです。
大規模なアブレーション実験により、任意の構成でCMoEを導入する効果が検証され、平均8%の性能向上が得られた。
さらに、勾配最適化とパラメータ統計の観点から、綱引き問題の解釈分析を行う。
従来の最先端の医療MLLMと比較すると、Uni-Medは多様なタスクにおける競争力や優れた評価基準を達成している。
コード、データ、モデルは、間もなくGitHubで利用可能になる。
Multi-modal large language models (MLLMs) have shown impressive capabilities as a general-purpose interface for various visual and linguistic tasks. However, building a unified MLLM for multi-task learning in the medical field remains a thorny challenge. To mitigate the tug-of-war problem of multi-modal multi-task optimization, recent advances primarily focus on improving the LLM components, while neglecting the connector that bridges the gap between modalities. In this paper, we introduce Uni-Med, a novel medical generalist foundation model which consists of a universal visual feature extraction module, a connector mixture-of-experts (CMoE) module, and an LLM. Benefiting from the proposed CMoE that leverages a well-designed router with a mixture of projection experts at the connector, Uni-Med achieves efficient solution to the tug-of-war problem and can perform six different medical tasks including question answering, visual question answering, report generation, referring expression comprehension, referring expression generation and image classification. To the best of our knowledge, Uni-Med is the first effort to tackle multi-task interference at the connector. Extensive ablation experiments validate the effectiveness of introducing CMoE under any configuration, with up to an average 8% performance gains. We further provide interpretation analysis of the tug-of-war problem from the perspective of gradient optimization and parameter statistics. Compared to previous state-of-the-art medical MLLMs, Uni-Med achieves competitive or superior evaluation metrics on diverse tasks. Code, data and model will be soon available at GitHub. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# BioZero: オープンブロックチェーン上での、効率的かつプライバシ保護による分散型バイオメトリック認証プロトコル
BioZero: An Efficient and Privacy-Preserving Decentralized Biometric Authentication Protocol on Open Blockchain ( http://arxiv.org/abs/2409.17509v1 ) ライセンス: Link先を確認 | Junhao Lai, Taotao Wang, Shengli Zhang, Qing Yang, Soung Chang Liew, | (参考訳) デジタルアイデンティティは、デジタル世界のリソースやサービスへのセキュアなアクセスを可能にする上で重要な役割を果たす。
パスワードベースの認証や生体認証といった従来の認証方法は、セキュリティ、プライバシ、スケーラビリティの面で制限がある。
ブロックチェーン技術を活用した分散認証アプローチが,有望なソリューションとして浮上している。
しかし、既存の分散認証手法は間接認証(パスワードやデジタル署名を認証認証として使用するなど)と、Sybil攻撃のような課題に直面することが多い。
本稿では,オープンブロックチェーン上に実装可能な,効率的かつプライバシ保護の分散バイオメトリック認証プロトコルであるBioZeroを提案する。
BioZeroはPedersenのコミットメントと同型計算を利用して、ユーザの生体認証のプライバシーを保護し、効率的な検証を可能にする。
非インタラクティブなホモモルフィック計算によりプロトコルを強化し、セキュアなオンチェーン検証にゼロ知識証明を用いる。
BioZeroのユニークな側面は、完全に分散化されており、ブロックチェーンのスマートコントラクトによって非常に効率的な方法で実行可能であることだ。
我々は,BioZeroのセキュリティを分析し,プロトタイプ実装による性能評価を行う。
その結果、分散認証シナリオにおけるBioZeroの有効性、効率、セキュリティが示された。
本研究は,バイオメトリックスを用いた分散ID認証の高度化に寄与する。
Digital identity plays a vital role in enabling secure access to resources and services in the digital world. Traditional identity authentication methods, such as password-based and biometric authentications, have limitations in terms of security, privacy, and scalability. Decentralized authentication approaches leveraging blockchain technology have emerged as a promising solution. However, existing decentralized authentication methods often rely on indirect identity verification (e.g. using passwords or digital signatures as authentication credentials) and face challenges such as Sybil attacks. In this paper, we propose BioZero, an efficient and privacy-preserving decentralized biometric authentication protocol that can be implemented on open blockchain. BioZero leverages Pedersen commitment and homomorphic computation to protect user biometric privacy while enabling efficient verification. We enhance the protocol with non-interactive homomorphic computation and employ zero-knowledge proofs for secure on-chain verification. The unique aspect of BioZero is that it is fully decentralized and can be executed by blockchain smart contracts in a very efficient way. We analyze the security of BioZero and validate its performance through a prototype implementation. The results demonstrate the effectiveness, efficiency, and security of BioZero in decentralized authentication scenarios. Our work contributes to the advancement of decentralized identity authentication using biometrics. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# NeuroPath:人間のドットに繋がる神経経路変換器
コネクトーム
NeuroPath: A Neural Pathway Transformer for Joining the Dots of Human Connectomes ( http://arxiv.org/abs/2409.17510v1 ) ライセンス: Link先を確認 | Ziquan Wei, Tingting Dan, Jiaqi Ding, Paul J Laurienti, Guorong Wu | (参考訳) 現代のイメージング技術は、2つの異なる脳領域間の接続性の研究を可能にしていますが、解剖学的構造が脳機能をどのようにサポートするのか、そして自然に機能的な変動が目覚ましい認知を如何に生み出すのかを深く理解しています。
一方、ニューロイメージングデータと表現型特徴との間の非線形マッピングを確立するために、機械学習の領域において大きな努力がなされている。
しかし、現在のアプローチにおける神経科学的な洞察の欠如は、過渡的な神経活動から認知行動を理解する上で大きな課題となる。
この課題に対処するために,ネットワーク神経科学の問題を高次トポロジーのための表現型グラフ表現学習問題に定式化することで,構造接続(SC)と機能接続(FC)の結合機構に注目する。
具体的には、SCによって物理的に配線された神経経路(パターン)によって、FCのユビキタスインスタンスがどのようにサポートされるのかを特徴付けるために、トポロジカルデトゥールの概念を導入し、脳の構造と機能によって相互作用する環状ループを形成する。
機械学習のclich\'eでは、SC-FCカップリングの基礎となるマルチホップデトゥール経路により、Transformer内に新しいマルチヘッド自己アテンション機構を考案し、SCとFCのペアグラフからマルチモーダル特徴表現をキャプチャする。
本稿では,ニューロパス(NeuroPath)とよばれるバイオインスパイアされた深層モデルを提案し,これまでにない量のニューロイメージから有意な結合性特徴表現を求める。
我々は、HCPやUK Biobankなどの大規模公開データセットを教師付き・ゼロショット学習で評価し、NeuroPathによる最先端のパフォーマンスはネットワーク神経科学に大きな可能性を示唆している。
Although modern imaging technologies allow us to study connectivity between two distinct brain regions in-vivo, an in-depth understanding of how anatomical structure supports brain function and how spontaneous functional fluctuations emerge remarkable cognition is still elusive. Meanwhile, tremendous efforts have been made in the realm of machine learning to establish the nonlinear mapping between neuroimaging data and phenotypic traits. However, the absence of neuroscience insight in the current approaches poses significant challenges in understanding cognitive behavior from transient neural activities. To address this challenge, we put the spotlight on the coupling mechanism of structural connectivity (SC) and functional connectivity (FC) by formulating such network neuroscience question into an expressive graph representation learning problem for high-order topology. Specifically, we introduce the concept of topological detour to characterize how a ubiquitous instance of FC (direct link) is supported by neural pathways (detour) physically wired by SC, which forms a cyclic loop interacted by brain structure and function. In the clich\'e of machine learning, the multi-hop detour pathway underlying SC-FC coupling allows us to devise a novel multi-head self-attention mechanism within Transformer to capture multi-modal feature representation from paired graphs of SC and FC. Taken together, we propose a biological-inspired deep model, coined as NeuroPath, to find putative connectomic feature representations from the unprecedented amount of neuroimages, which can be plugged into various downstream applications such as task recognition and disease diagnosis. We have evaluated NeuroPath on large-scale public datasets including HCP and UK Biobank under supervised and zero-shot learning, where the state-of-the-art performance by our NeuroPath indicates great potential in network neuroscience. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# SCOMatch: オープンセットセミ教師付き学習における過剰信頼の軽減
SCOMatch: Alleviating Overtrusting in Open-set Semi-supervised Learning ( http://arxiv.org/abs/2409.17512v1 ) ライセンス: Link先を確認 | Zerun Wang, Liuyu Xiang, Lang Huang, Jiafeng Mao, Ling Xiao, Toshihiko Yamasaki, | (参考訳) オープンセット半教師付き学習(OSSL)は、見知らぬクラスからの非配布(ID)サンプルと、見つからないクラスからのアウト・オブ・ディストリビューション(OOD)サンプルの両方を、半教師付き学習(SSL)のために、実用的なオープンセット未ラベルデータを活用する。
以前のOSSLメソッドは、IDとOODの間の決定境界をラベル付きIDデータで学習し、その後、この境界を洗練させるために自己学習を用いていた。
ラベル付きデータの不足は、ラベル付きサンプルとIDデータ全体の分布バイアスを引き起こし、決定境界が過度に適合することを誤解させる。
その後の自己学習プロセスは、過度に適合した結果に基づいて、この問題の修正に失敗する。
本稿では,OODサンプルを新たなクラスとして扱い,新たなSSLプロセスを形成することで,過信問題に対処する。
具体的には,新しい OSSL 手法である SCOMatch を提案する。
1) 信頼性の高いOODサンプルをOODメモリキューと対応する更新戦略で新しいラベル付きデータとして選択する。
2) 新しいSSLプロセスは、我々の同時クローズセットとオープンセットのセルフトレーニングを通じて、元のタスクに統合されます。
SCOMatchはデータセット全体にわたるIDクラスとOODクラスの決定境界を洗練し、その結果が改善される。
SCOMatchは様々なベンチマークで最先端の手法よりも優れていた。
この効果はアブレーション研究と可視化によってさらに検証される。
Open-set semi-supervised learning (OSSL) leverages practical open-set unlabeled data, comprising both in-distribution (ID) samples from seen classes and out-of-distribution (OOD) samples from unseen classes, for semi-supervised learning (SSL). Prior OSSL methods initially learned the decision boundary between ID and OOD with labeled ID data, subsequently employing self-training to refine this boundary. These methods, however, suffer from the tendency to overtrust the labeled ID data: the scarcity of labeled data caused the distribution bias between the labeled samples and the entire ID data, which misleads the decision boundary to overfit. The subsequent self-training process, based on the overfitted result, fails to rectify this problem. In this paper, we address the overtrusting issue by treating OOD samples as an additional class, forming a new SSL process. Specifically, we propose SCOMatch, a novel OSSL method that 1) selects reliable OOD samples as new labeled data with an OOD memory queue and a corresponding update strategy and 2) integrates the new SSL process into the original task through our Simultaneous Close-set and Open-set self-training. SCOMatch refines the decision boundary of ID and OOD classes across the entire dataset, thereby leading to improved results. Extensive experimental results show that SCOMatch significantly outperforms the state-of-the-art methods on various benchmarks. The effectiveness is further verified through ablation studies and visualization. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# 一方向, 双方向, Word2vec モデルの比較
コンパイル済みコードにおける脆弱性の発見
Comparing Unidirectional, Bidirectional, and Word2vec Models for Discovering Vulnerabilities in Compiled Lifted Code ( http://arxiv.org/abs/2409.17513v1 ) ライセンス: Link先を確認 | Gary A. McCully, John D. Hastings, Shengjie Xu, Adam Fortier | (参考訳) ランサムウェアや他の種類のマルウェアは、長く、しばしば検出が難しいソフトウェア脆弱性を悪用することにより、組織に重大な金銭的および運用上の損害をもたらす。
コンパイルされたコードのバッファオーバーフローなどの脆弱性を検出するため、一方向トランスフォーマーベースの埋め込み、特にGPT-2の適用について検討する。
LLVM関数のデータセットを使用して、GPT-2モデルをトレーニングして埋め込みを生成し、その後、脆弱性のあるコードと非脆弱性なコードの区別のためにLSTMニューラルネットワークを構築するために使用された。
GPT-2モデルからの埋め込みはBERTとRoBERTaの双方向モデルよりも有意に優れており、精度は92.5%、F1スコアは89.7%である。
LSTMニューラルネットワークは、凍結層と凍結層の両方で開発された。
組込み層が凍結していないとき、最高性能のモデルが達成された。
さらに、この領域内で異なるオプティマイザの影響を調べる際に、SGDオプティマイザはAdamよりも優れたパフォーマンスを示す。
これらの発見は、サイバーセキュリティの防御を強化する一方向トランスフォーマーベースのアプローチの可能性に関する重要な洞察を明らかにしている。
Ransomware and other forms of malware cause significant financial and operational damage to organizations by exploiting long-standing and often difficult-to-detect software vulnerabilities. To detect vulnerabilities such as buffer overflows in compiled code, this research investigates the application of unidirectional transformer-based embeddings, specifically GPT-2. Using a dataset of LLVM functions, we trained a GPT-2 model to generate embeddings, which were subsequently used to build LSTM neural networks to differentiate between vulnerable and non-vulnerable code. Our study reveals that embeddings from the GPT-2 model significantly outperform those from bidirectional models of BERT and RoBERTa, achieving an accuracy of 92.5% and an F1-score of 89.7%. LSTM neural networks were developed with both frozen and unfrozen embedding model layers. The model with the highest performance was achieved when the embedding layers were unfrozen. Further, the research finds that, in exploring the impact of different optimizers within this domain, the SGD optimizer demonstrates superior performance over Adam. Overall, these findings reveal important insights into the potential of unidirectional transformer-based approaches in enhancing cybersecurity defenses. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# ニュースから予測へ:LLMに基づく時系列予測におけるイベント分析とリフレクションの統合
From News to Forecast: Integrating Event Analysis in LLM-Based Time Series Forecasting with Reflection ( http://arxiv.org/abs/2409.17515v1 ) ライセンス: Link先を確認 | Xinlei Wang, Maike Feng, Jing Qiu, Jinjin Gu, Junhua Zhao, | (参考訳) 本稿では,Large Language Models(LLM)とGenerative Agentsを用いた時系列予測の新たな手法を提案する。
言語をメディアとすることで,様々な社会的事象を予測モデルに適応的に統合し,ニュースコンテンツと時系列のゆらぎを協調させ,豊かな洞察を得る。
具体的には、LSMをベースとしたエージェントを用いて、無関係なニュースを反復的にフィルタリングし、人間ライクな推論とリフレクションを用いて予測を評価する。
これにより、予期せぬ出来事や社会行動の変化などの複雑な事象を分析し、ニュースの選択ロジックとエージェントの出力の堅牢さを継続的に改善することができる。
選択したニュースを時系列データでコンパイルすることにより、LLaMa2事前学習モデルを微調整する。
その結果、予測精度が大幅に向上し、構造化されていないニュースデータを効果的に活用することにより、時系列予測のパラダイムシフトの可能性を示している。
This paper introduces a novel approach to enhance time series forecasting using Large Language Models (LLMs) and Generative Agents. With language as a medium, our method adaptively integrates various social events into forecasting models, aligning news content with time series fluctuations for enriched insights. Specifically, we utilize LLM-based agents to iteratively filter out irrelevant news and employ human-like reasoning and reflection to evaluate predictions. This enables our model to analyze complex events, such as unexpected incidents and shifts in social behavior, and continuously refine the selection logic of news and the robustness of the agent's output. By compiling selected news with time series data, we fine-tune the LLaMa2 pre-trained model. The results demonstrate significant improvements in forecasting accuracy and suggest a potential paradigm shift in time series forecasting by effectively harnessing unstructured news data. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# 人工信号を用いたスパイキング信号データの機能分類
インテリジェンス技術: レビュー
Functional Classification of Spiking Signal Data Using Artificial Intelligence Techniques: A Review ( http://arxiv.org/abs/2409.17516v1 ) ライセンス: Link先を確認 | Danial Sharifrazi, Nouman Javed, Javad Hassannataj Joloudari, Roohallah Alizadehsani, Prasad N. Paradkar, Ru-San Tan, U. Rajendra Acharya, Asim Bhatti | (参考訳) 近年、ヒトの脳ニューロンの活動は極めて重要になっている。
神経行動は、脳波(EEG)などの信号データを分析して評価される。
これらの信号を評価する上で、研究者が直面する困難の1つは、大量のスパイクデータの存在である。
スパイクは、バイタルバイオマーカーや電極の動きなどの物理的問題によって起こりうる信号データのかなりの部分である。
したがって、スパイクの種類を区別することが重要である。
この点から、スパイク分類の概念が始まります。
以前は、研究者が手動でスパイクを分類していた。
手動の分類は、広範囲な分析を伴うほど正確ではなかった。
その結果、人工知能(AI)が神経科学に導入され、臨床医がスパイクを正しく分類するのを支援した。
本稿では、スパイク分類におけるAIの重要性と利用について論じ、ニューラルアクティビティノイズの認識に焦点を当てる。
タスクは前処理、分類、評価の3つの主要コンポーネントに分けられる。
既存の方法が導入され、その重要性が決定される。
レビューでは、より効率的なアルゴリズムの必要性も強調されている。
第一の目的は、将来の研究のためのスパイク分類の視点を提供し、関連する方法論と問題に関する包括的な理解を提供することである。
今後の研究のために, スパイク分類分野の資料を整理する。
この研究では、異なるデータベースから多くの研究が抽出された。
PRISMA関連の研究ガイドラインはその後、論文の選択に使用された。
そこで,機械学習を用いたスパイク分類に基づく研究と,前処理を効果的に行う深層学習手法を選択した。
Human brain neuron activities are incredibly significant nowadays. Neuronal behavior is assessed by analyzing signal data such as electroencephalography (EEG), which can offer scientists valuable information about diseases and human-computer interaction. One of the difficulties researchers confront while evaluating these signals is the existence of large volumes of spike data. Spikes are some considerable parts of signal data that can happen as a consequence of vital biomarkers or physical issues such as electrode movements. Hence, distinguishing types of spikes is important. From this spot, the spike classification concept commences. Previously, researchers classified spikes manually. The manual classification was not precise enough as it involves extensive analysis. Consequently, Artificial Intelligence (AI) was introduced into neuroscience to assist clinicians in classifying spikes correctly. This review discusses the importance and use of AI in spike classification, focusing on the recognition of neural activity noises. The task is divided into three main components: preprocessing, classification, and evaluation. Existing methods are introduced and their importance is determined. The review also highlights the need for more efficient algorithms. The primary goal is to provide a perspective on spike classification for future research and provide a comprehensive understanding of the methodologies and issues involved. The review organizes materials in the spike classification field for future studies. In this work, numerous studies were extracted from different databases. The PRISMA-related research guidelines were then used to choose papers. Then, research studies based on spike classification using machine learning and deep learning approaches with effective preprocessing were selected. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# 非IIDデータを用いたデータセット蒸留に基づくハイブリッドフェデレーション学習
Dataset Distillation-based Hybrid Federated Learning on Non-IID Data ( http://arxiv.org/abs/2409.17517v1 ) ライセンス: Link先を確認 | Xiufang Shi, Wei Zhang, Mincheng Wu, Guangyi Liu, Zhenyu Wen, Shibo He, Tejal Shah, Rajiv Ranjan | (参考訳) フェデレートラーニングでは、クライアントデータの異質性はモデルトレーニングのパフォーマンスに大きな影響を与えます。
このプロセスにおける多くの不均一性問題は、非独立で同一に分布する(Non-IID)データによって提起される。
本研究では,ラベル分布スキューの問題に焦点をあてる。
そこで本研究では,データセット蒸留を統合して,ほぼ独立かつ均等に分散した(IID)データを生成するハイブリッド学習フレームワークHFLDDを提案する。
特に、クライアントを異種クラスタに分割し、クラスタ内の異なるクライアント間でのデータラベルがバランスをとらず、異なるクラスタ間でのデータラベルがバランスをとる。
クラスタヘッダーは、対応するクラスタメンバーから蒸留データを収集し、サーバと協調してモデルトレーニングを行う。
このトレーニングプロセスは、従来のIDデータに対するフェデレーション学習に似ているため、モデルトレーニングにおける非IIDデータの影響を効果的に軽減する。
さらに,提案手法を公開データセット上の典型的なベースライン手法と比較した。
実験の結果,データラベルが著しく不均衡である場合,提案手法は試験精度と通信コストの両面において,ベースライン法よりも優れていることがわかった。
In federated learning, the heterogeneity of client data has a great impact on the performance of model training. Many heterogeneity issues in this process are raised by non-independently and identically distributed (Non-IID) data. This study focuses on the issue of label distribution skew. To address it, we propose a hybrid federated learning framework called HFLDD, which integrates dataset distillation to generate approximately independent and equally distributed (IID) data, thereby improving the performance of model training. Particularly, we partition the clients into heterogeneous clusters, where the data labels among different clients within a cluster are unbalanced while the data labels among different clusters are balanced. The cluster headers collect distilled data from the corresponding cluster members, and conduct model training in collaboration with the server. This training process is like traditional federated learning on IID data, and hence effectively alleviates the impact of Non-IID data on model training. Furthermore, we compare our proposed method with typical baseline methods on public datasets. Experimental results demonstrate that when the data labels are severely imbalanced, the proposed HFLDD outperforms the baseline methods in terms of both test accuracy and communication cost. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# 言語モデルのためのマルチDesignated Detector Watermarking
Multi-Designated Detector Watermarking for Language Models ( http://arxiv.org/abs/2409.17518v1 ) ライセンス: Link先を確認 | Zhengan Huang, Gongxian Zeng, Xin Mu, Yu Wang, Yue Yu, | (参考訳) 本稿では,大規模言語モデル (LLM) のための 'emph{multi-designated detector watermarking (MDDW) の研究を開始する。
この技術により、モデルプロバイダは2つの重要な特性を持つLLMから透かし出力を生成することができる。
一 特定し、又は複数の指定された検出器だけが、透かしを識別することができること。
(II)一般利用者の出力品質の低下は認められない。
MDDWのセキュリティ定義を形式化し、MDVS (Multi-designated verifier signatures) を用いて任意のLCMに対してMDDWを構築するためのフレームワークを提案する。
LLM出力の経済的価値を認識し、MDDWのオプションセキュリティ機能としてクレームビリティを導入し、モデルプロバイダが指定された検出器設定内でLLM出力の所有権を主張できるようにする。
クレーム可能なMDDWをサポートするために,任意のMDVSをクレーム可能なMDVSに変換する汎用変換を提案する。
MDDW スキームの実装は,既存の手法よりも高度な機能と柔軟性を示し,性能指標も良好である。
In this paper, we initiate the study of \emph{multi-designated detector watermarking (MDDW)} for large language models (LLMs). This technique allows model providers to generate watermarked outputs from LLMs with two key properties: (i) only specific, possibly multiple, designated detectors can identify the watermarks, and (ii) there is no perceptible degradation in the output quality for ordinary users. We formalize the security definitions for MDDW and present a framework for constructing MDDW for any LLM using multi-designated verifier signatures (MDVS). Recognizing the significant economic value of LLM outputs, we introduce claimability as an optional security feature for MDDW, enabling model providers to assert ownership of LLM outputs within designated-detector settings. To support claimable MDDW, we propose a generic transformation converting any MDVS to a claimable MDVS. Our implementation of the MDDW scheme highlights its advanced functionalities and flexibility over existing methods, with satisfactory performance metrics. | 翻訳日:2024-09-28 23:17:44 公開日:2024-09-26 |
# 事前学習型ビジョンランゲージモデルとブラックボックス最適化を用いたロボット環境認識
Robotic Environmental State Recognition with Pre-Trained Vision-Language Models and Black-Box Optimization ( http://arxiv.org/abs/2409.17519v1 ) ライセンス: Link先を確認 | Kento Kawaharazuka, Yoshiki Obinata, Naoaki Kanazawa, Kei Okada, Masayuki Inaba, | (参考訳) ロボットが様々な環境で自律的にナビゲートし、操作するためには、ロボットが環境の状態を認識することが不可欠である。
一方、環境状態認識には、従来、各州に合わせた個別の方法が関係していた。
本研究では,ロボットに対して,事前学習した大規模視覚言語モデルを用いた音声言語を用いて,統合された環境認識を行う。
視覚言語モデルのタスクである視覚質問応答と画像からテキストへの検索を応用する。
提案手法では, 室内扉が開閉されているだけでなく, 透明扉が開閉されているか, 水がシンク内を流れているか, ニューラルネットワークや手動プログラミングを訓練せずに認識できることを示す。
さらに、ブラックボックス最適化に基づいて、用意されたテキストセットから適切なテキストを選択することにより、認識精度を向上させることができる。
各状態認識では、テキストセットとその重み付けだけを変更する必要があり、複数の異なるモデルやプログラムを準備する必要がなくなり、ソースコードとコンピュータリソースの管理が容易になる。
本研究では,本手法の有効性を実験的に実証し,移動ロボットFetchの認識動作に適用する。
In order for robots to autonomously navigate and operate in diverse environments, it is essential for them to recognize the state of their environment. On the other hand, the environmental state recognition has traditionally involved distinct methods tailored to each state to be recognized. In this study, we perform a unified environmental state recognition for robots through the spoken language with pre-trained large-scale vision-language models. We apply Visual Question Answering and Image-to-Text Retrieval, which are tasks of Vision-Language Models. We show that with our method, it is possible to recognize not only whether a room door is open/closed, but also whether a transparent door is open/closed and whether water is running in a sink, without training neural networks or manual programming. In addition, the recognition accuracy can be improved by selecting appropriate texts from the set of prepared texts based on black-box optimization. For each state recognition, only the text set and its weighting need to be changed, eliminating the need to prepare multiple different models and programs, and facilitating the management of source code and computer resource. We experimentally demonstrate the effectiveness of our method and apply it to the recognition behavior on a mobile robot, Fetch. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# EAGLE: Egocentric AGgregated Language-Video Engine
EAGLE: Egocentric AGgregated Language-video Engine ( http://arxiv.org/abs/2409.17523v1 ) ライセンス: Link先を確認 | Jing Bi, Yunlong Tang, Luchuan Song, Ali Vosoughi, Nguyen Nguyen, Chenliang Xu, | (参考訳) エゴセントリックなビデオ分析の急速な進化は、一人称視点から人間の活動や意図を理解するための新たな洞察をもたらす。
この進歩にもかかわらず、アクション認識、手続き学習、モーメント検索といったタスクの断片化は、一貫性のないアノテーションと孤立したモデル開発と相まって、ビデオコンテンツの全体的解釈を妨げる。
これに対し,EAGLE(Egocentric AGgregated Language-video Engine)モデルとEAGLE-400Kデータセットを導入し,エゴセントリックなビデオ理解タスクを統合する統一フレームワークを提供する。
EAGLE-400Kは、エゴセントリックなビデオ用に調整された大規模なインストラクションチューニングデータセットである。
さらに,強力なビデオマルチモーダル大言語モデル(MLLM)であるEAGLEは,空間情報と時間情報の両方を効果的に捉えるように設計されている。
さらに,エゴセントリックなビデオ理解のためのMLLMの徹底的な評価を容易にするための評価指標のセットを提案する。
EAGLEは既存のモデルよりも優れた性能を示し、タスク固有の理解と全体論的ビデオ解釈のバランスをとる能力を強調した。
EAGLEでは,現実のシナリオにおける研究の機会と実践的応用の道を開くことを目的としている。
The rapid evolution of egocentric video analysis brings new insights into understanding human activities and intentions from a first-person perspective. Despite this progress, the fragmentation in tasks like action recognition, procedure learning, and moment retrieval, \etc, coupled with inconsistent annotations and isolated model development, hinders a holistic interpretation of video content. In response, we introduce the EAGLE (Egocentric AGgregated Language-video Engine) model and the EAGLE-400K dataset to provide a unified framework that integrates various egocentric video understanding tasks. EAGLE-400K, the \textit{first} large-scale instruction-tuning dataset tailored for egocentric video, features 400K diverse samples to enhance a broad spectrum of tasks from activity recognition to procedure knowledge learning. Moreover, EAGLE, a strong video multimodal large language model (MLLM), is designed to effectively capture both spatial and temporal information. In addition, we propose a set of evaluation metrics designed to facilitate a thorough assessment of MLLM for egocentric video understanding. Our extensive experiments demonstrate EAGLE's superior performance over existing models, highlighting its ability to balance task-specific understanding with holistic video interpretation. With EAGLE, we aim to pave the way for research opportunities and practical applications in real-world scenarios. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# JoyType: 多言語ビジュアルテキスト作成のためのロバスト設計
JoyType: A Robust Design for Multilingual Visual Text Creation ( http://arxiv.org/abs/2409.17524v1 ) ライセンス: Link先を確認 | Chao Li, Chen Jiang, Xiaolong Liu, Jun Zhao, Guoxin Wang, | (参考訳) 正確に表現されたテキストで画像を生成することは、特にラテン語以外の言語では拡散モデルにとって大きな課題となる。
補助ネットワーク(例えば、ControlNet)によるヒント条件図の統合など、既存のアプローチでは、この問題に対処する努力が続けられている。
しかし拡散モデルは、特定のフォントを指定したり、小さなフォントでテキストを生成するといった、制御されたテキスト生成を必要とするタスクにおいて不足することが多い。
本稿では,画像生成過程におけるテキストのフォントスタイルを維持するために,JoyTypeという,多言語視覚テキスト作成のための新しいアプローチを提案する。
当社の方法論は,100万組のデータからなるトレーニングデータセットであるJoyType-1Mを組み立てることから始まります。
各ペアは、画像内のフォントスタイルに対応する画像、その記述、グリフ命令を含む。
そこで我々はフォントスタイル情報を抽出して画像生成を支援するテキスト制御ネットワークFont ControlNetを開発した。
フォントスタイルの維持能力をさらに向上するため,我々は拡散過程に多層OCR認識損失を組み込んだ。
この拡張により、JoyTypeは低レベルのディスクリプタを使ってテキストレンダリングをダイレクトできる。
我々の評価は、視覚的および精度の両指標に基づいて、JoyTypeが既存の最先端の手法を大幅に上回っていることを示す。
さらに、JoyTypeはプラグインとして機能し、HuggingFaceやCivvitAI上の他の安定した拡散モデルとともに、さまざまなイメージスタイルの作成を容易にする。
私たちのプロジェクトはhttps://jdh-algo.github.io/JoyType/でオープンソース化されています。
Generating images with accurately represented text, especially in non-Latin languages, poses a significant challenge for diffusion models. Existing approaches, such as the integration of hint condition diagrams via auxiliary networks (e.g., ControlNet), have made strides towards addressing this issue. However, diffusion models often fall short in tasks requiring controlled text generation, such as specifying particular fonts or producing text in small fonts. In this paper, we introduce a novel approach for multilingual visual text creation, named JoyType, designed to maintain the font style of text during the image generation process. Our methodology begins with assembling a training dataset, JoyType-1M, comprising 1 million pairs of data. Each pair includes an image, its description, and glyph instructions corresponding to the font style within the image. We then developed a text control network, Font ControlNet, tasked with extracting font style information to steer the image generation. To further enhance our model's ability to maintain font style, notably in generating small-font text, we incorporated a multi-layer OCR-aware loss into the diffusion process. This enhancement allows JoyType to direct text rendering using low-level descriptors. Our evaluations, based on both visual and accuracy metrics, demonstrate that JoyType significantly outperforms existing state-of-the-art methods. Additionally, JoyType can function as a plugin, facilitating the creation of varied image styles in conjunction with other stable diffusion models on HuggingFace and CivitAI. Our project is open-sourced on https://jdh-algo.github.io/JoyType/. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# 話し言葉理解の合理的な説明のためのERPエビデンス
When A Man Says He Is Pregnant: ERP Evidence for A Rational Account of Speaker-contextualized Language Comprehension ( http://arxiv.org/abs/2409.17525v1 ) ライセンス: Link先を確認 | Hanlin Wu, Zhenguang G. Cai, | (参考訳) 音声言語は、必ずしも必ずしも、話者のアイデンティティを含む文脈で理解されることが多い。
例えば、「今週末はマニキュアをする」とか「初めて妊娠したときは辛かった」といった発声は女性に話しかけられるが、いつ男性に話しかけられるかは理解しづらい。
これまでの事象関連電位(ERP)研究は、このような話者ミスマッチした発話に対する神経生理学的反応について、N400効果やP600効果が報告されている。
64名の被験者を対象に実験を行ったところ,これらのERP効果は話者・メッセージミスマッチの解消に使用される認知過程を反映していることが判明した。
可能であれば、メッセージは話者コンテキストと統合され、社会的ステレオタイプ(例えば、男性がマニキュアを受けるなど)の違反の場合のように解釈に到達し、N400効果をもたらす。
しかし、生物学的知識の侵害(例えば、男性が妊娠するなど)により、そのような統合が不可能な場合、聴取者は、認識された発話または話者コンテキストを修正するための誤り訂正プロセスに従事し、結果としてP600効果が生じる。
さらに, 社会的N400効果は, 聴取者の個性と開放性の機能として低下し, 生物学的P600効果は健在であった。
本研究は,文献における経験的不整合の解明に役立ち,話者文脈言語理解の合理的な説明を提供する。
Spoken language is often, if not always, understood in a context that includes the identities of speakers. For instance, we can easily make sense of an utterance such as "I'm going to have a manicure this weekend" or "The first time I got pregnant I had a hard time" when the utterance is spoken by a woman, but it would be harder to understand when it is spoken by a man. Previous event-related potential (ERP) studies have shown mixed results regarding the neurophysiological responses to such speaker-mismatched utterances, with some reporting an N400 effect and others a P600 effect. In an experiment involving 64 participants, we showed that these different ERP effects reflect distinct cognitive processes employed to resolve the speaker-message mismatch. When possible, the message is integrated with the speaker context to arrive at an interpretation, as in the case of violations of social stereotypes (e.g., men getting a manicure), resulting in an N400 effect. However, when such integration is impossible due to violations of biological knowledge (e.g., men getting pregnant), listeners engage in an error correction process to revise either the perceived utterance or the speaker context, resulting in a P600 effect. Additionally, we found that the social N400 effect decreased as a function of the listener's personality trait of openness, while the biological P600 effect remained robust. Our findings help to reconcile the empirical inconsistencies in the literature and provide a rational account of speaker-contextualized language comprehension. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# ラディアタ松枝検出と距離測定のためのドローンステレオビジョン:SGBMとセグメンテーションモデルの統合
Drone Stereo Vision for Radiata Pine Branch Detection and Distance Measurement: Integrating SGBM and Segmentation Models ( http://arxiv.org/abs/2409.17526v1 ) ライセンス: Link先を確認 | Yida Lin, Bing Xue, Mengjie Zhang, Sam Schofield, Richard Green, | (参考訳) ラジエータの松の木を手作業で刈り取ると、かなりの高さと成長する困難な地形のために、かなりの安全性のリスクが生じる。
これらのリスクに対処するため、特殊な刈り取り具とステレオビジョンカメラを備えたドローン式刈り取り装置を開発し、枝の精密検出とトリミングを可能にすることを提案する。
YOLO や Mask R-CNN などの深層学習アルゴリズムは,精度の高い分岐検出を実現するために用いられ,Semi-Global Matching アルゴリズムは信頼性の高い距離推定を実現するために統合されている。
これらの技術間の相乗効果により、分岐位置の正確な同定が容易になり、効率的で標的とした刈り取りが可能となる。
実験の結果、YOLOとSGBMの組み合わせにより、ドローンは正確に分岐を検出し、ドローンからの距離を測定することができることがわかった。
本研究は、刈り取り作業の安全性と効率性を向上するだけでなく、農業・林業の自動化におけるドローン技術の進歩にも大きく貢献し、環境管理のさらなる革新のための基盤となる枠組みを構築している。
Manual pruning of radiata pine trees presents significant safety risks due to their substantial height and the challenging terrains in which they thrive. To address these risks, this research proposes the development of a drone-based pruning system equipped with specialized pruning tools and a stereo vision camera, enabling precise detection and trimming of branches. Deep learning algorithms, including YOLO and Mask R-CNN, are employed to ensure accurate branch detection, while the Semi-Global Matching algorithm is integrated to provide reliable distance estimation. The synergy between these techniques facilitates the precise identification of branch locations and enables efficient, targeted pruning. Experimental results demonstrate that the combined implementation of YOLO and SGBM enables the drone to accurately detect branches and measure their distances from the drone. This research not only improves the safety and efficiency of pruning operations but also makes a significant contribution to the advancement of drone technology in the automation of agricultural and forestry practices, laying a foundational framework for further innovations in environmental management. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# 大規模言語モデルのための最適データ管理のためのデータプロポーション検出
Data Proportion Detection for Optimized Data Management for Large Language Models ( http://arxiv.org/abs/2409.17527v1 ) ライセンス: Link先を確認 | Hao Liang, Keshi Zhao, Yajie Yang, Bin Cui, Guosheng Dong, Zenan Zhou, Wentao Zhang, | (参考訳) 大規模言語モデル(LLM)は、様々なタスクや領域で例外的な性能を示し、データ準備はこれらの結果を達成する上で重要な役割を担っている。
事前学習データは通常、複数のドメインの情報を組み合わせる。
各種領域からのデータを統合する際の性能を最大化するためには、最適なデータ比率を決定することが不可欠である。
しかし、SOTA (State-of-the-art) LLMはトレーニング前のデータの詳細を明らかにすることは滅多になく、研究者が理想的なデータの割合を特定することは困難である。
本稿では,LLMの生成した出力を分析して,事前学習データの割合の自動推定を可能にする,新しいトピックである‘textit{data proportion Detection’を紹介する。
データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
これらの知見に基づき、効率的なデータ比例検出とデータ管理のための課題と今後の方向性について貴重な知見を提供する。
Large language models (LLMs) have demonstrated exceptional performance across a wide range of tasks and domains, with data preparation playing a critical role in achieving these results. Pre-training data typically combines information from multiple domains. To maximize performance when integrating data from various domains, determining the optimal data proportion is essential. However, state-of-the-art (SOTA) LLMs rarely disclose details about their pre-training data, making it difficult for researchers to identify ideal data proportions. In this paper, we introduce a new topic, \textit{data proportion detection}, which enables the automatic estimation of pre-training data proportions by analyzing the generated outputs of LLMs. We provide rigorous theoretical proofs, practical algorithms, and preliminary experimental results for data proportion detection. Based on these findings, we offer valuable insights into the challenges and future directions for effective data proportion detection and data management. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# 1-形式対称性と本質的に混合した位相秩序の強弱自然破砕
Strong-to-weak spontaneous breaking of 1-form symmetry and intrinsically mixed topological order ( http://arxiv.org/abs/2409.17530v1 ) ライセンス: Link先を確認 | Carolyn Zhang, Yichen Xu, Jian-Hao Zhang, Cenke Xu, Zhen Bi, Zhu-Xi Luo, | (参考訳) 2+1d のトポロジカル秩序は、純粋な状態における 1-形式対称性の自発的対称性破れ(SSB)相である。
対称性の概念は混合状態の文脈においてさらに豊かになり、対称性は ``strong" または ` `weak" のいずれかである。
本研究では,[Sang, Lessa, Mong, Grover, Wang, & Hsieh] で提案された同値関係の R'enyi-2 バージョンを, 2方向接続よりもわずかに微細な密度行列に適用する。
この同値関係は、一般的な1-形式強弱SSB(SW-SSB)状態と純粋な状態を含む位相を区別し、SW-SSB状態は「内在混合」とラベル付けする。
我々の同値関係によれば、2つの状態が同値であることと、それらが連続的に変化し、R\enyi-2 マルコフ長を維持する有限リンドブラディアン進化によって互いに結びついていることは同値である。
次に、そのような密度行列を見つけるための自然な設定について検討する。
具体的には、様々な障害を伴うトーリックコードについて検討し、それぞれの場合において、異なる障害実現に対応する基底状態のアンサンブルが、SW-SSBを含む1形式対称性の強いSSBパターンと弱いSSBパターンの密度行列を形成することを示す。
さらに、これらの乱れたアンサンブルは、同値関係に従って、有限パラメータ範囲を越えて存在するという意味で安定な「相」を形成することを摂動計算によって示している。
Topological orders in 2+1d are spontaneous symmetry-breaking (SSB) phases of 1-form symmetries in pure states. The notion of symmetry is further enriched in the context of mixed states, where a symmetry can be either ``strong" or ``weak". In this work, we apply a R\'enyi-2 version of the proposed equivalence relation in [Sang, Lessa, Mong, Grover, Wang, & Hsieh, to appear] on density matrices that is slightly finer than two-way channel connectivity. This equivalence relation distinguishes general 1-form strong-to-weak SSB (SW-SSB) states from phases containing pure states, and therefore labels SW-SSB states as ``intrinsically mixed". According to our equivalence relation, two states are equivalent if and only if they are connected to each other by finite Lindbladian evolution that maintains continuously varying, finite R\'enyi-2 Markov length. We then examine a natural setting for finding such density matrices: disordered ensembles. Specifically, we study the toric code with various types of disorders and show that in each case, the ensemble of ground states corresponding to different disorder realizations form a density matrix with different strong and weak SSB patterns of 1-form symmetries, including SW-SSB. Furthermore we show by perturbative calculations that these disordered ensembles form stable ``phases" in the sense that they exist over a finite parameter range, according to our equivalence relation. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# SimVG: 分離したマルチモーダルフュージョンによる視覚的接地のためのシンプルなフレームワーク
SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion ( http://arxiv.org/abs/2409.17531v1 ) ライセンス: Link先を確認 | Ming Dai, Lingfeng Yang, Yihao Xu, Zhenhua Feng, Wankou Yang, | (参考訳) 視覚的接地は、画像の対応する領域に記述文を接地する、一般的な視覚課題である。
既存のほとんどの手法では、独立した画像テキストエンコーディングを使用し、複雑な手作りモジュールやエンコーダ・デコーダアーキテクチャを用いてモーダルインタラクションやクエリ推論を行っている。
しかし、複雑なテキスト表現を扱う場合、その性能は著しく低下する。
これは、前者のパラダイムがマルチモーダルな特徴融合に適合するために、限られた下流データのみを使用するためである。
したがって、文章表現が比較的単純である場合にのみ有効である。
対照的に、テキスト表現の多様性と下流トレーニングデータの独自性を考えると、視覚言語学的文脈からマルチモーダルコンテンツを抽出する既存の融合モジュールは、十分に研究されていない。
本稿では,ビジュアルグラウンドティングのためのシンプルだが頑健なトランスフォーマーベースのフレームワークSimVGを提案する。
具体的には、既存のマルチモーダル事前学習モデルを活用し、下流および事前学習タスクの深い統合を容易にするために追加のオブジェクトトークンを組み込むことにより、下流タスクと視覚言語的特徴融合を分離する。
さらに, より単純な分岐の表現能力を高めるために, 多分岐同期学習プロセスにおける動的重みバランス蒸留法を設計する。
このブランチは、構造を単純化し、推論速度を改善する軽量MLPのみで構成されている。
広く使われている6つのVGデータセット、すなわちRefCOCO/+/g、ReferIt、Flickr30K、GRefCOCOの実験は、SimVGの優位性を実証している。
最後に,提案手法は効率の向上と収束速度の向上だけでなく,これらのベンチマーク上での最先端性能の向上も達成している。
コードとモデルは \url{https://github.com/Dmmm1997/SimVG} で入手できる。
Visual grounding is a common vision task that involves grounding descriptive sentences to the corresponding regions of an image. Most existing methods use independent image-text encoding and apply complex hand-crafted modules or encoder-decoder architectures for modal interaction and query reasoning. However, their performance significantly drops when dealing with complex textual expressions. This is because the former paradigm only utilizes limited downstream data to fit the multi-modal feature fusion. Therefore, it is only effective when the textual expressions are relatively simple. In contrast, given the wide diversity of textual expressions and the uniqueness of downstream training data, the existing fusion module, which extracts multimodal content from a visual-linguistic context, has not been fully investigated. In this paper, we present a simple yet robust transformer-based framework, SimVG, for visual grounding. Specifically, we decouple visual-linguistic feature fusion from downstream tasks by leveraging existing multimodal pre-trained models and incorporating additional object tokens to facilitate deep integration of downstream and pre-training tasks. Furthermore, we design a dynamic weight-balance distillation method in the multi-branch synchronous learning process to enhance the representation capability of the simpler branch. This branch only consists of a lightweight MLP, which simplifies the structure and improves reasoning speed. Experiments on six widely used VG datasets, i.e., RefCOCO/+/g, ReferIt, Flickr30K, and GRefCOCO, demonstrate the superiority of SimVG. Finally, the proposed method not only achieves improvements in efficiency and convergence speed but also attains new state-of-the-art performance on these benchmarks. Codes and models will be available at \url{https://github.com/Dmmm1997/SimVG}. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# CAMOT:カメラアングル対応マルチオブジェクトトラッキング
CAMOT: Camera Angle-aware Multi-Object Tracking ( http://arxiv.org/abs/2409.17533v1 ) ライセンス: Link先を確認 | Felix Limanta, Kuniaki Uto, Koichi Shinoda, | (参考訳) 本稿では,複数物体追跡のための簡易カメラアングル推定器であるCAMOTを提案する。
1)排他的・排他的
2)深度方向の不正確な距離推定。
複数の物体が各ビデオフレームの平面上に位置していると仮定すると、CAMOTは物体検出を用いてカメラの角度を推定する。
さらに、各オブジェクトの深さを与え、擬似3DMOTを可能にする。
提案手法をMOT17とMOT20データセット上の様々な2次元MOT手法に付加して評価し,その有効性を確認した。
ByteTrack に CAMOT を適用して 63.8% HOTA,80.6% MOTA,78.5% IDF1 を MOT17 で取得した。
その計算コストは、トラッキングのための既存のディープラーニングベースの深度推定器よりも大幅に低い。
This paper proposes CAMOT, a simple camera angle estimator for multi-object tracking to tackle two problems: 1) occlusion and 2) inaccurate distance estimation in the depth direction. Under the assumption that multiple objects are located on a flat plane in each video frame, CAMOT estimates the camera angle using object detection. In addition, it gives the depth of each object, enabling pseudo-3D MOT. We evaluated its performance by adding it to various 2D MOT methods on the MOT17 and MOT20 datasets and confirmed its effectiveness. Applying CAMOT to ByteTrack, we obtained 63.8% HOTA, 80.6% MOTA, and 78.5% IDF1 in MOT17, which are state-of-the-art results. Its computational cost is significantly lower than the existing deep-learning-based depth estimators for tracking. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# 欲しいことだけを言う:オンラインの好みを最適化するセルフリワード
Just say what you want: only-prompting self-rewarding online preference optimization ( http://arxiv.org/abs/2409.17534v1 ) ライセンス: Link先を確認 | Ruijie Xu, Zhihan Liu, Yongfei Liu, Shipeng Yan, Zhaoran Wang, Zhi Zhang, Xuming He, | (参考訳) 本稿では,自己回帰的アライメントに着目したオンライン強化学習(RLHF)の課題に対処する。
オンラインRLHFでは、フィードバックを得るためには環境とのインタラクションが必要であり、追加の報酬モデルやGPT-4 APIを使用する場合にはコストがかかる。
現在の自己回帰アプローチは、大規模なモデルでは有効だが、より小さなモデルへの移行が困難である判別器の判断能力に大きく依存している。
これらの制約に対処するため,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
さらに、正と負のサンプル間の最適性ギャップに対して微粒な算術制御を用い、トレーニングの後半でより硬い負を発生させ、モデルが微妙な人間の嗜好をよりよく捉えるのに役立つ。
最後に,Mistral-7BとMistral-Instruct-7Bの2つのベースモデルについて広範な実験を行った。
We address the challenge of online Reinforcement Learning from Human Feedback (RLHF) with a focus on self-rewarding alignment methods. In online RLHF, obtaining feedback requires interaction with the environment, which can be costly when using additional reward models or the GPT-4 API. Current self-rewarding approaches rely heavily on the discriminator's judgment capabilities, which are effective for large-scale models but challenging to transfer to smaller ones. To address these limitations, we propose a novel, only-prompting self-rewarding online algorithm that generates preference datasets without relying on judgment capabilities. Additionally, we employ fine-grained arithmetic control over the optimality gap between positive and negative examples, generating more hard negatives in the later stages of training to help the model better capture subtle human preferences. Finally, we conduct extensive experiments on two base models, Mistral-7B and Mistral-Instruct-7B, which significantly bootstrap the performance of the reference model, achieving 34.5% in the Length-controlled Win Rates of AlpacaEval 2.0. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# ソースコード解析による診断データのプライバシー保護
Privacy-Preserving Redaction of Diagnosis Data through Source Code Analysis ( http://arxiv.org/abs/2409.17535v1 ) ライセンス: Link先を確認 | Lixi Zhou, Lei Yu, Jia Zou, Hong Min, | (参考訳) ログなどの診断データにおける機密情報を保護することは、産業用ソフトウェア診断・デバッグプロセスにおいて重要な関心事である。
機密情報の識別と削除のためにログを自動的に再現するツールが数多く開発されているが、重要な診断情報(偽陽性)のリアクションや損失、機密情報の開示(偽陰性)、あるいはその両方を引き起こす深刻な制限がある。
この問題に対処するため,本稿では,ログのリアクションに対するソースコード解析手法について論じる。
センシティブな情報を含むログメッセージを識別するために,ロガーコード拡張によるソースコード中の対応するログステートメントの特定を行い,ソースコードから構築したデータフローグラフを用いて,ログステートメントがセンシティブなソースからデータを出力するかどうかをチェックする。
適切なリアクションルールは、ログ内のプライバシ情報を保存するために、データソースの機密性に応じてさらに適用される。
実験による評価と,他の人気ベースラインとの比較を行った。
その結果, 本手法は感度情報の検出精度を大幅に向上し, 偽陽性と陰性の両方を低減できることがわかった。
Protecting sensitive information in diagnostic data such as logs, is a critical concern in the industrial software diagnosis and debugging process. While there are many tools developed to automatically redact the logs for identifying and removing sensitive information, they have severe limitations which can cause either over redaction and loss of critical diagnostic information (false positives), or disclosure of sensitive information (false negatives), or both. To address the problem, in this paper, we argue for a source code analysis approach for log redaction. To identify a log message containing sensitive information, our method locates the corresponding log statement in the source code with logger code augmentation, and checks if the log statement outputs data from sensitive sources by using the data flow graph built from the source code. Appropriate redaction rules are further applied depending on the sensitiveness of the data sources to preserve the privacy information in the logs. We conducted experimental evaluation and comparison with other popular baselines. The results demonstrate that our approach can significantly improve the detection precision of the sensitive information and reduce both false positives and negatives. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# MUSE:知識グラフ補完のためのマルチ知識の統合
MUSE: Integrating Multi-Knowledge for Knowledge Graph Completion ( http://arxiv.org/abs/2409.17536v1 ) ライセンス: Link先を確認 | Pengjie Liu, | (参考訳) 知識グラフ補完(KGC)は、(ヘッドエンティティ)--(リレーション]->(テールエンティティ)三重項の欠落した部分を予測することを目的としている。
既存のKGCメソッドのほとんどは、単一の機能(例えば、関係型)やサブグラフアグリゲーションに焦点を当てている。
しかし、彼らは知識グラフ(KG)の機能を完全に探求しておらず、外部意味知識のガイダンスを無視している。
これらの欠点に対処するため,知識認識推論モデル (MUSE) を提案する。
我々のモデルは、3つの平行成分を通して、配向した埋め込み空間を発達させる。
1)細調整BERTによる三重項の意味表現の強化のための事前知識学習
2)KGのコンテキストメッセージを強化するコンテキストメッセージパッシング
3) 経路表現をヘッドエンティティからテールエンティティへ拡張するためのリレーショナルパス集約
実験の結果、MUSEは4つの公開データセットで他のベースラインを大幅に上回り、NELL995データセットで5.50%以上のH@1改善と4.20%のMRR改善を達成した。
コードとデータセットはhttps://github.com/SUSTech-TP/ADMA2024-MUSE.gitから公開される。
Knowledge Graph Completion (KGC) aims to predict the missing [relation] part of (head entity)--[relation]->(tail entity) triplet. Most existing KGC methods focus on single features (e.g., relation types) or sub-graph aggregation. However, they do not fully explore the Knowledge Graph (KG) features and neglect the guidance of external semantic knowledge. To address these shortcomings, we propose a knowledge-aware reasoning model (MUSE), which designs a novel multi-knowledge representation learning mechanism for missing relation prediction. Our model develops a tailored embedding space through three parallel components: 1) Prior Knowledge Learning for enhancing the triplets' semantic representation by fine-tuning BERT; 2) Context Message Passing for enhancing the context messages of KG; 3) Relational Path Aggregation for enhancing the path representation from the head entity to the tail entity. The experimental results show that MUSE significantly outperforms other baselines on four public datasets, achieving over 5.50% H@1 improvement and 4.20% MRR improvement on the NELL995 dataset. The code and datasets will be released via https://github.com/SUSTech-TP/ADMA2024-MUSE.git. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# 低ランク適応と差分の関係について
プライバシー
On the Implicit Relation Between Low-Rank Adaptation and Differential Privacy ( http://arxiv.org/abs/2409.17538v1 ) ライセンス: Link先を確認 | Saber Malekmohammadi, Golnoosh Farnadi | (参考訳) 自然言語処理における重要なアプローチは、一般的なドメインデータに対する大規模な事前学習と、特定のタスクやドメインへの適応である。
モデルのサイズが大きくなるにつれて、完全な微調整のパラメータはますます実用的ではない。
これを解決するために、言語モデルの低ランクタスク適応のためのいくつかの手法、例えばLoRAとFLoRAが提案されている。
これらの方法は、事前訓練されたモデルの重みを固定し、トレーニング可能な低ランク分解行列を、アダプタと呼ばれるトランスアーキテクチャのいくつかの層に組み込む。
このアプローチは、ダウンストリームタスクに必要なトレーニング可能なパラメータの数を大幅に削減する。
本研究では,データプライバシのレンズによる低ランク適応について検討する。
理論的には、LoRAとFLoRAで使用される低ランク適応は、バッチ勾配にランダムノイズを注入することと同値である。
雑音分布とガウス分布の間の全変動距離を同じ分散で制限したベリー・エッシー型を定式化することにより、LoRAとFLoRAのダイナミクスは、差分的にプライベートなフルチューニングアダプタに非常に近いことを示し、低ランク適応が微調整データに対して暗黙的にプライバシーw.r.を提供することを示す。
最後に、Johnson-Lindenstrauss lemmaを用いて、勾配クリッピングで拡張した場合、低ランク適応は固定ノイズスケールの差分プライベートフルチューニングアダプタとほぼ等価であることを示す。
A significant approach in natural language processing involves large-scale pre-training on general domain data followed by adaptation to specific tasks or domains. As models grow in size, full fine-tuning all parameters becomes increasingly impractical. To address this, some methods for low-rank task adaptation of language models have been proposed, e.g. LoRA and FLoRA. These methods keep the pre-trained model weights fixed and incorporate trainable low-rank decomposition matrices into some layers of the transformer architecture, called adapters. This approach significantly reduces the number of trainable parameters required for downstream tasks compared to full fine-tuning all parameters. In this work, we look at low-rank adaptation from the lens of data privacy. We show theoretically that the low-rank adaptation used in LoRA and FLoRA is equivalent to injecting some random noise into the batch gradients w.r.t the adapter parameters coming from their full fine-tuning, and we quantify the variance of the injected noise. By establishing a Berry-Esseen type bound on the total variation distance between the noise distribution and a Gaussian distribution with the same variance, we show that the dynamics of LoRA and FLoRA are very close to differentially private full fine-tuning the adapters, which suggests that low-rank adaptation implicitly provides privacy w.r.t the fine-tuning data. Finally, using Johnson-Lindenstrauss lemma, we show that when augmented with gradient clipping, low-rank adaptation is almost equivalent to differentially private full fine-tuning adapters with a fixed noise scale. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# 論理-of-Thought:大言語モデルにおける完全推論のための文脈に論理を注入する
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models ( http://arxiv.org/abs/2409.17539v1 ) ライセンス: Link先を確認 | Tongxuan Liu, Wenjiang Xu, Weizhe Huang, Xingyu Wang, Jiaxing Wang, Hailong Yang, Jing Li, | (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示したが、複雑な論理的推論タスクのパフォーマンスは相変わらず満足できないままである。
Chain-of-Thoughtのようないくつかのプロンプト法はLLMの推論能力をある程度改善することができるが、導出された結論が生成された推論連鎖と一致しない不誠実な問題に悩まされる。
この問題に対処するために、LLMの論理的推論能力をさらに強化するために命題論理のアプローチを用いる研究もある。
しかし、これらの方法で論理式を抽出する際の潜在的な欠落は、論理的推論過程において情報損失を引き起こし、誤った結果を生み出す。
この目的のために,提案論理を用いて入力コンテキストから拡張論理情報を生成し,生成した論理情報を入力プロンプトへの付加的な拡張として利用し,論理推論の能力を高めることを提案する。
LoTは既存のプロンプトメソッドと直交しており、それらをシームレスに統合することができる。
広範囲な実験により、LoTは5つの論理的推論タスクに対して顕著なマージンで様々なプロンプト法の性能を高めることが示されている。
特にLoTは、ReClorデータセット上のChain-of-Thoughtのパフォーマンスを+4.35%向上させ、さらにLogiQA上でのSelf-Consistencyのパフォーマンスを+5%向上させ、ProofWriterデータセット上のTree-of-Thoughtsのパフォーマンスを+8%向上させた。
Large Language Models (LLMs) have demonstrated remarkable capabilities across various tasks but their performance in complex logical reasoning tasks remains unsatisfactory. Although some prompting methods, such as Chain-of-Thought, can improve the reasoning ability of LLMs to some extent, they suffer from an unfaithful issue where derived conclusions may not align with the generated reasoning chain. To address this issue, some studies employ the approach of propositional logic to further enhance logical reasoning abilities of LLMs. However, the potential omissions in the extraction of logical expressions in these methods can cause information loss in the logical reasoning process, thereby generating incorrect results. To this end, we propose Logic-of-Thought (LoT) prompting which employs propositional logic to generate expanded logical information from input context, and utilizes the generated logical information as an additional augmentation to the input prompts, thereby enhancing the capability of logical reasoning. The LoT is orthogonal to existing prompting methods and can be seamlessly integrated with them. Extensive experiments demonstrate that LoT boosts the performance of various prompting methods with a striking margin across five logical reasoning tasks. In particular, the LoT enhances Chain-of-Thought's performance on the ReClor dataset by +4.35%; moreover, it improves Chain-of-Thought with Self-Consistency's performance on LogiQA by +5%; additionally, it boosts performance of Tree-of-Thoughts on ProofWriter dataset by +8%. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# Omnibus Joint Graph Embedding における相関の最適化
Optimizing the Induced Correlation in Omnibus Joint Graph Embeddings ( http://arxiv.org/abs/2409.17544v1 ) ライセンス: Link先を確認 | Konstantinos Pantazis, Michael Trosset, William N. Frost, Carey E. Priebe, Vince Lyzinski | (参考訳) 理論的および実証的な証拠は、結合グラフ埋め込みアルゴリズムが埋め込み空間内のネットワーク間の相関を誘導することを示唆している。
Omnibusのジョイントグラフ埋め込みフレームワークにおいて、前回の結果は、組込みネットワーク間の相関に対するアルゴリズム誘起相関とモデル独立相関の二重効果を明示的に記述した。
アルゴリズムが引き起こした相関を考慮し緩和することがその後の推論の鍵であり、準最適オムニバス行列の構成が推論の不確かさを損なうことが示されている。
本研究は,Omnibus 構築の自動化に向けた最初の取り組みとして,OMNI 間の相関問題とフラット相関問題という2つの重要な問題に対処するものである。
平坦な相関問題では、一般化されたOmnibus埋め込みによって生成される最小のアルゴリズムによる平坦な相関(すなわち、すべてのグラフ対で同じ)を理解する。
完全に一般のオムニバス行列の部分空間で作用すると、この平坦な相関に対する下界と古典的なオムニバス構成が最大平坦な相関を誘導することの両方が証明される。
相関-OMNI問題において、推定ペアワイドグラフ相関の与えられた行列から、埋め込み空間における最適相関を誘導する一般化オムニバス重みの行列を推定するアルゴリズム(corr2Omni)を提案する。
さらに、シミュレーションと実データ設定の両方において、従来のOmnibus構築に対するcorr2Omniアルゴリズムの有効性の増大を実証する。
Theoretical and empirical evidence suggests that joint graph embedding algorithms induce correlation across the networks in the embedding space. In the Omnibus joint graph embedding framework, previous results explicitly delineated the dual effects of the algorithm-induced and model-inherent correlations on the correlation across the embedded networks. Accounting for and mitigating the algorithm-induced correlation is key to subsequent inference, as sub-optimal Omnibus matrix constructions have been demonstrated to lead to loss in inference fidelity. This work presents the first efforts to automate the Omnibus construction in order to address two key questions in this joint embedding framework: the correlation-to-OMNI problem and the flat correlation problem. In the flat correlation problem, we seek to understand the minimum algorithm-induced flat correlation (i.e., the same across all graph pairs) produced by a generalized Omnibus embedding. Working in a subspace of the fully general Omnibus matrices, we prove both a lower bound for this flat correlation and that the classical Omnibus construction induces the maximal flat correlation. In the correlation-to-OMNI problem, we present an algorithm -- named corr2Omni -- that, from a given matrix of estimated pairwise graph correlations, estimates the matrix of generalized Omnibus weights that induces optimal correlation in the embedding space. Moreover, in both simulated and real data settings, we demonstrate the increased effectiveness of our corr2Omni algorithm versus the classical Omnibus construction. | 翻訳日:2024-09-28 23:06:47 公開日:2024-09-26 |
# Modulated Intervention Preference Optimization (MIPO): Keey the Easy,
難易度を再定義する
Modulated Intervention Preference Optimization (MIPO): Keey the Easy, Refine the Difficult ( http://arxiv.org/abs/2409.17545v1 ) ライセンス: Link先を確認 | Cheolhun Jang | (参考訳) 優先最適化手法は、よく訓練されたSFTモデルを基準モデルとしてトレーニングを開始するのが一般的である。
RLHF と DPO では、ポリシーモデルが参照モデルの分布から過度に逸脱することを防止するために、優先順位最適化プロセス中に正規化項が使用される。
参照モデルが与えられたデータにすでに整合している場合、あるいはわずかな調整しか必要としていない場合、このアプローチは、整合性のあるモデルを生成することができる。
しかし、参照モデルが与えられたデータと一致せず、現在の状態からかなり逸脱する必要がある場合、正規化項が実際にモデルアライメントを妨げる可能性がある。
そこで本研究では,この問題に対処するために,textbf{Modulated Intervention Preference Optimization (MIPO)を提案する。
MIPOは、そのデータがどのように適合しているかに基づいて、参照モデルからの介入の度合いを変調する。
データが適切に整合している場合、ポリシーモデルが参照モデルから著しく逸脱することを防ぐために介入が増加する。
逆に、アライメントが不十分な場合、干渉を減らし、より広範なトレーニングを容易にする。
我々は,Alpaca Eval 2.0 と MT-Bench における Mistral-7B と Llama3-8B を用いた MIPO と DPO の性能を比較した。
実験の結果,MIPO は様々な評価シナリオにおいて DPO を一貫して上回っていることがわかった。
Preference optimization methods typically begin training with a well-trained SFT model as a reference model. In RLHF and DPO, a regularization term is used during the preference optimization process to prevent the policy model from deviating too far from the reference model's distribution, thereby avoiding the generation of anomalous responses. When the reference model is already well-aligned with the given data or only requires slight adjustments, this approach can produce a well-aligned model. However, if the reference model is not aligned with the given data and requires significant deviation from its current state, a regularization term may actually hinder the model alignment. In this study, we propose \textbf{Modulated Intervention Preference Optimization (MIPO)} to address this issue. MIPO modulates the degree of intervention from the reference model based on how well the given data is aligned with it. If the data is well-aligned, the intervention is increased to prevent the policy model from diverging significantly from reference model. Conversely, if the alignment is poor, the interference is reduced to facilitate more extensive training. We compare the performance of MIPO and DPO using Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental results demonstrate that MIPO consistently outperforms DPO across various evaluation scenarios. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# MASSFormer: Transformer-Driven を用いたモビリティを考慮したスペクトルセンシング
タイヤ構造
MASSFormer: Mobility-Aware Spectrum Sensing using Transformer-Driven Tiered Structure ( http://arxiv.org/abs/2409.17546v1 ) ライセンス: Link先を確認 | Dimpal Janu, Sandeep Mandia, Kuldeep Singh and Sandeep Kumar | (参考訳) 本稿では,ユーザの動きの時空間的ダイナミクスを効果的にモデル化する,新しいモビリティ・アウェア・トランスフォーマー駆動型タイred Structure (MASSFormer) を用いた協調スペクトルセンシング手法を提案する。
既存の手法とは違って,モバイルプライマリユーザ (PU) とセカンダリユーザ (SU) の動的シナリオを考慮し,ユーザモビリティがもたらす複雑さに対処する。
トランスアーキテクチャはアテンション機構を利用して,入力データ内の長距離依存性を効果的に捕捉することにより,ユーザモビリティの時間的ダイナミクスを十分にモデル化することができる。
提案手法はまず,各SUの共分散行列列(CM)からトークンを計算し,SUトランスフォーマーネットワークを用いて並列に処理し,SUレベルにおける時空間特性を学習する。
その後、協調トランスネットワークは、すべてのSUレベルの特徴表現からグループレベルのPU状態を学習する。
注意に基づくシーケンスプーリング法と変換器エンコーダは、全てのトークンのコントリビューションを調整する。
PU状態を各SUレベルおよびグループレベルで予測する主な目的は、検出性能をさらに向上することである。
シミュレーションを十分に行ない,異なるSS法の検出性能を比較した。
提案手法は, 堅牢性を示すために, 不完全な報告チャネルのシナリオ下で試験される。
本手法の有効性は,検出確率,検出誤差,分類精度の観点から,既存の手法と比較して高い性能を示すシミュレーション結果を用いて検証した。
In this paper, we develop a novel mobility-aware transformer-driven tiered structure (MASSFormer) based cooperative spectrum sensing method that effectively models the spatio-temporal dynamics of user movements. Unlike existing methods, our method considers a dynamic scenario involving mobile primary users (PUs) and secondary users (SUs)and addresses the complexities introduced by user mobility. The transformer architecture utilizes an attention mechanism, enabling the proposed method to adeptly model the temporal dynamics of user mobility by effectively capturing long-range dependencies within the input data. The proposed method first computes tokens from the sequence of covariance matrices (CMs) for each SU and processes them in parallel using the SUtransformer network to learn the spatio-temporal features at SUlevel. Subsequently, the collaborative transformer network learns the group-level PU state from all SU-level feature representations. The attention-based sequence pooling method followed by the transformer encoder adjusts the contributions of all tokens. The main goal of predicting the PU states at each SU-level and group-level is to improve detection performance even more. We conducted a sufficient amount of simulations and compared the detection performance of different SS methods. The proposed method is tested under imperfect reporting channel scenarios to show robustness. The efficacy of our method is validated with the simulation results demonstrating its higher performance compared with existing methods in terms of detection probability, sensing error, and classification accuracy. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# 三点マスキング
Triple Point Masking ( http://arxiv.org/abs/2409.17547v1 ) ライセンス: Link先を確認 | Jiaming Liu, Linghe Kong, Yue Wu, Maoguo Gong, Hao Li, Qiguang Miao, Wenping Ma, Can Qin, | (参考訳) 既存の3Dマスク学習手法では,データ制限下での性能ボトルネックに遭遇し,その限界を克服することが目的である。
本稿では,3次元点雲のマルチマスク学習を実現するために,マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして,TPMという3点マスキング方式を提案する。
具体的には,2つのマスク選択(中型マスクと低型マスク)でベースラインを増強する。
従来のハイマスキング方式は、グローバルな表現を捉えることに重点を置いていたが、微細な回復能力が欠如しているため、生成された事前学習重量は微調整プロセスにおいて限られた役割を果たす傾向にある。
提案したTPMのサポートにより、利用可能なメソッドはより柔軟で正確な補完能力を示し、事前学習段階における潜在的なオートエンコーダが単一の3Dオブジェクトの複数の表現を考慮できる。
さらに、SVM誘導重み選択モジュールは、微調整段階において、ダウンストリームネットワークのエンコーダパラメータを最適な重みで満たし、線形精度を最大化し、新しいオブジェクトの複雑な表現の取得を容易にする。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
Existing 3D mask learning methods encounter performance bottlenecks under limited data, and our objective is to overcome this limitation. In this paper, we introduce a triple point masking scheme, named TPM, which serves as a scalable framework for pre-training of masked autoencoders to achieve multi-mask learning for 3D point clouds. Specifically, we augment the baselines with two additional mask choices (i.e., medium mask and low mask) as our core insight is that the recovery process of an object can manifest in diverse ways. Previous high-masking schemes focus on capturing the global representation but lack the fine-grained recovery capability, so that the generated pre-trained weights tend to play a limited role in the fine-tuning process. With the support of the proposed TPM, available methods can exhibit more flexible and accurate completion capabilities, enabling the potential autoencoder in the pre-training stage to consider multiple representations of a single 3D object. In addition, an SVM-guided weight selection module is proposed to fill the encoder parameters for downstream networks with the optimal weight during the fine-tuning stage, maximizing linear accuracy and facilitating the acquisition of intricate representations for new objects. Extensive experiments show that the four baselines equipped with the proposed TPM achieve comprehensive performance improvements on various downstream tasks. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# 音声生成のためのシンプルだが強力なベースライン
共同生成のための音声・ビデオ拡散モデルの適応
A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation ( http://arxiv.org/abs/2409.17550v1 ) ライセンス: Link先を確認 | Masato Ishii and Akio Hayakawa and Takashi Shibuya and Yuki Mitsufuji | (参考訳) 本研究では,映像生成のためのシンプルだが強力なベースラインを構築する。
オーディオとビデオのベース拡散モデルを考えると,これらを1つのモデルに追加モジュールに統合し,モデルが共同でオーディオとビデオを生成するように訓練する。
音声とビデオのペア間のアライメントを高めるために,本モデルでは2つの新しいメカニズムを導入する。
1つ目は、各ベースモデルに異なるタイムステップ情報を提供するタイムステップ調整である。
サンプルの生成方法と、モジュール間のタイムステップを整合させるように設計されている。
2つ目は追加モジュールの新しい設計で、Cross-Modal Conditioningを位置符号化(CMC-PE)と呼ぶ。
CMC-PEでは、時間的位置情報を表すようなクロスモーダル情報を埋め込み、その埋め込みを位置符号化のようなモデルに入力する。
一般的なクロスアテンション機構と比較して、CMC-PEは、生成されたデータの時間的アライメントに対してより優れた誘導バイアスを提供する。
実験により,新たに導入された2つのメカニズムの有効性を検証し,提案手法が既存手法より優れていることを示す。
In this work, we build a simple but strong baseline for sounding video generation. Given base diffusion models for audio and video, we integrate them with additional modules into a single model and train it to make the model jointly generate audio and video. To enhance alignment between audio-video pairs, we introduce two novel mechanisms in our model. The first one is timestep adjustment, which provides different timestep information to each base model. It is designed to align how samples are generated along with timesteps across modalities. The second one is a new design of the additional modules, termed Cross-Modal Conditioning as Positional Encoding (CMC-PE). In CMC-PE, cross-modal information is embedded as if it represents temporal position information, and the embeddings are fed into the model like positional encoding. Compared with the popular cross-attention mechanism, CMC-PE provides a better inductive bias for temporal alignment in the generated data. Experimental results validate the effectiveness of the two newly introduced mechanisms and also demonstrate that our method outperforms existing methods. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# Evidential Bi-Level を用いたオープンセット領域の一般化の促進
ハードなドメインスケジューリング
Advancing Open-Set Domain Generalization Using Evidential Bi-Level Hardest Domain Scheduler ( http://arxiv.org/abs/2409.17555v1 ) ライセンス: Link先を確認 | Kunyu Peng, Di Wen, Kailun Yang, Ao Luo, Yufan Chen, Jia Fu, M. Saquib Sarfraz, Alina Roitberg, Rainer Stiefelhagen | (参考訳) Open-Set Domain Generalization (OSDG)では、このモデルは、テスト時に既知のカテゴリと新しいカテゴリの両方が存在する、新しいデータ外観(ドメイン)とオープンセット条件の両方に露出する。
このタスクの課題は、様々な領域をまたいで一般化し、動的環境における応用に欠かせないカテゴリの新規性を正確に定量化することによる。
近年、メタ学習技術はOSDGにおいて優れた結果を示し、様々なランダムカテゴリと事前定義されたドメイン分割戦略を用いて、メタトレインとテストタスクを効果的に編成している。
これらのアプローチは、主にデータ拡張と差別的特徴学習の強化に焦点を当てた従来の手法よりも、よく設計されたトレーニングスケジュールを優先する。
OSDGの一般的なメタラーニングモデルは、データパーティションを構成するために、定義済みのシーケンシャルドメインスケジューラを使用するのが一般的である。
しかし、まだ十分に調査されていない重要な側面は、トレーニング中にドメインスケジューラの戦略によってもたらされた影響である。
本稿では、プレフィックス付きシーケンシャルおよびランダムなドメインスケジューラと比較して、OSDGにおいて適応型ドメインスケジューラの方が有利であることを示す。
適応型ドメインスケジューラを実現するために,Evidential Bi-Level Hardest Domain Scheduler (EBiL-HaDS)を提案する。
本手法は、従者ネットワークを利用する際の信頼度を評価し、明らかな方法で学習した信頼度をトレーニングし、最大偏差で正規化し、二段階的に最適化することで、ドメインを戦略的にシーケンスする。
その結果,本手法はOSDGの性能を著しく向上し,目に見えるカテゴリと目立たないカテゴリの両方に対してより差別的な埋め込みを実現することがわかった。
ソースコードはhttps://github.com/KPeng9510/EBiL-HaDSで入手できる。
In Open-Set Domain Generalization (OSDG), the model is exposed to both new variations of data appearance (domains) and open-set conditions, where both known and novel categories are present at test time. The challenges of this task arise from the dual need to generalize across diverse domains and accurately quantify category novelty, which is critical for applications in dynamic environments. Recently, meta-learning techniques have demonstrated superior results in OSDG, effectively orchestrating the meta-train and -test tasks by employing varied random categories and predefined domain partition strategies. These approaches prioritize a well-designed training schedule over traditional methods that focus primarily on data augmentation and the enhancement of discriminative feature learning. The prevailing meta-learning models in OSDG typically utilize a predefined sequential domain scheduler to structure data partitions. However, a crucial aspect that remains inadequately explored is the influence brought by strategies of domain schedulers during training. In this paper, we observe that an adaptive domain scheduler benefits more in OSDG compared with prefixed sequential and random domain schedulers. We propose the Evidential Bi-Level Hardest Domain Scheduler (EBiL-HaDS) to achieve an adaptive domain scheduler. This method strategically sequences domains by assessing their reliabilities in utilizing a follower network, trained with confidence scores learned in an evidential manner, regularized by max rebiasing discrepancy, and optimized in a bi-level manner. The results show that our method substantially improves OSDG performance and achieves more discriminative embeddings for both the seen and unseen categories. The source code will be available at https://github.com/KPeng9510/EBiL-HaDS. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# 指数的ビットフリップ抑制を有する猫量子ビットの位相コヒーレンスと線形性
Preserving phase coherence and linearity in cat qubits with exponential bit-flip suppression ( http://arxiv.org/abs/2409.17556v1 ) ライセンス: Link先を確認 | Harald Putterman, Kyungjoo Noh, Rishi N. Patel, Gregory A. Peairs, Gregory S. MacCabe, Menyoung Lee, Shahriar Aghaeimeibodi, Connor T. Hann, Ignace Jarrige, Guillaume Marcaud, Yuan He, Hesam Moradinejad, John Clai Owens, Thomas Scaffidi, Patricio Arrangoiz-Arriola, Joe Iverson, Harry Levine, Fernando G. S. L. Brandão, Matthew H. Matheny, Oskar Painter, | (参考訳) 高調波発振器に符号化されたボソニックキュービットの一種であるキャットキュービットは、平均光子数の増加を伴うビットフリップ誤差に対して指数的なノイズバイアスを示すことができる。
ここでは, 2光子散逸により安定化された猫量子ビットに着目し, 補助的な損失バッファモードにより, 光子対を高調波発振器から追加・除去する。
この過程は、発振器のコヒーレンスと線形性を低下させてはいけないバッファモードの大きな損失率と強い非線形性を必要とする。
本研究では,バッファモードの損失環境を多極フィルタで色付けし,バッファモードに付加的なインダクタンスを考慮した回路を最適化することにより,この課題を克服する方法を示す。
これらの手法を用いることで、光子数の増加に伴い、猫のビットフリップ時間をほぼ理想的に向上し、平均光子数4ドルの光子数で0.1ドル秒以上に達する。
猫のクビットは相整合性が高く, 有効寿命はT_{1,\text{eff}} \simeq 70$$\mu$sである。
キャットキュービット状態を読み取るために用いられるアンシラトランスモンの存在下においても,可変振動子-アンシラ分散結合を工学的に構築することにより,この性能を実現する。
さらに、高調波発振器モードの低非線形性により、重要な制御プリミティブであるパルスキャットキュービット安定化を行うことができ、安定度は3〜\mathrm {\mu s}$サイクルの3〜\mathrm {\mu s} の有意な分数(例えば2/3)で、ビットフリップ時間を劣化させることなく保つことができる。
これらの進歩は、大きなノイズバイアスと低い位相フリップ誤差率によってハードウェア効率のよい外乱訂正符号を使用できる猫量子ビットによるスケーラブルな誤差補正を実現するために重要である。
Cat qubits, a type of bosonic qubit encoded in a harmonic oscillator, can exhibit an exponential noise bias against bit-flip errors with increasing mean photon number. Here, we focus on cat qubits stabilized by two-photon dissipation, where pairs of photons are added and removed from a harmonic oscillator by an auxiliary, lossy buffer mode. This process requires a large loss rate and strong nonlinearities of the buffer mode that must not degrade the coherence and linearity of the oscillator. In this work, we show how to overcome this challenge by coloring the loss environment of the buffer mode with a multi-pole filter and optimizing the circuit to take into account additional inductances in the buffer mode. Using these techniques, we achieve near-ideal enhancement of cat-qubit bit-flip times with increasing photon number, reaching over $0.1$ seconds with a mean photon number of only $4$. Concurrently, our cat qubit remains highly phase coherent, with phase-flip times corresponding to an effective lifetime of $T_{1,\text{eff}} \simeq 70$ $\mu$s, comparable with the bare oscillator lifetime. We achieve this performance even in the presence of an ancilla transmon, used for reading out the cat qubit states, by engineering a tunable oscillator-ancilla dispersive coupling. Furthermore, the low nonlinearity of the harmonic oscillator mode allows us to perform pulsed cat-qubit stabilization, an important control primitive, where the stabilization can remain off for a significant fraction (e.g., two thirds) of a $3~\mathrm{\mu s}$ cycle without degrading bit-flip times. These advances are important for the realization of scalable error-correction with cat qubits, where large noise bias and low phase-flip error rate enable the use of hardware-efficient outer error-correcting codes. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# ソース・チャネル連成符号化の基礎と最近の進歩
実用設計
Joint Source-Channel Coding: Fundamentals and Recent Progress in Practical Designs ( http://arxiv.org/abs/2409.17557v1 ) ライセンス: Link先を確認 | Deniz G\"und\"uz, Mich\`ele A. Wigger, Tze-Yang Tung, Ping Zhang, Yong Xiao | (参考訳) セマンティック通信とタスク指向通信は,受信機で特定のタスクを完了させるために必要な最も関連性の高い情報のみを送信することによって,次世代モバイルネットワークのレイテンシと帯域幅の要求を低減させる,有望なアプローチとして登場した。
これは、完全な信号再構成ではなく、高速かつ正確な推論を目標とする画像やビデオなどの高レートコンテンツのマシン指向通信において特に有利である。
従来の通信システムではセマンティックおよびタスク指向の圧縮を実装できるが、ジョイントソースチャネル符号化(JSCC)は、圧縮とチャネル符号化を最適化したり、ソース信号を変調波形に直接マッピングしたりすることで、代替的なエンドツーエンドのアプローチを提供する。
現在、全てのデジタル通信システムは分離に依存しているが、そのモジュラリティにより、JSCCは有限ブロック長のシナリオでは高い性能を達成し、時間変化のチャネルシナリオでは崖やレベリングオフの影響を避けることが知られている。
本稿では, 情報理論の基礎となるJSCCについて概説し, 現実的なJSCC設計を数十年にわたって調査し, 実用システムへの導入が限定された理由について論じる。
次に、深層学習技術の統合、特にDeepJSCCによるJSCCの最近の復活について検討し、様々なシナリオにおける多くの驚くべき利点を浮き彫りにした。
最後に、今日の厳密な分離アーキテクチャを再考し、JSCCを再導入して、自律運転、ドローン監視、ウェアラブルシステムといった重要なアプリケーションにおいて、高忠実で低レイテンシな通信を可能にする理由について議論する。
Semantic- and task-oriented communication has emerged as a promising approach to reducing the latency and bandwidth requirements of next-generation mobile networks by transmitting only the most relevant information needed to complete a specific task at the receiver. This is particularly advantageous for machine-oriented communication of high data rate content, such as images and videos, where the goal is rapid and accurate inference, rather than perfect signal reconstruction. While semantic- and task-oriented compression can be implemented in conventional communication systems, joint source-channel coding (JSCC) offers an alternative end-to-end approach by optimizing compression and channel coding together, or even directly mapping the source signal to the modulated waveform. Although all digital communication systems today rely on separation, thanks to its modularity, JSCC is known to achieve higher performance in finite blocklength scenarios, and to avoid cliff and the levelling-off effects in time-varying channel scenarios. This article provides an overview of the information theoretic foundations of JSCC, surveys practical JSCC designs over the decades, and discusses the reasons for their limited adoption in practical systems. We then examine the recent resurgence of JSCC, driven by the integration of deep learning techniques, particularly through DeepJSCC, highlighting its many surprising advantages in various scenarios. Finally, we discuss why it may be time to reconsider today's strictly separate architectures, and reintroduce JSCC to enable high-fidelity, low-latency communications in critical applications such as autonomous driving, drone surveillance, or wearable systems. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# シリコンナノフォトニックチップを用いた155km大都市圏繊維の絡み合い分布の実証
Demonstration of entanglement distribution over 155 km metropolitan fiber using a silicon nanophotonic chip ( http://arxiv.org/abs/2409.17558v1 ) ライセンス: Link先を確認 | Jinyi Du, Xingjian Zhang, George F. R. Chen, Hongwei Gao, Dawn T. H. Tan, Alexander Ling, | (参考訳) 長い距離で絡み合った状態を伝達することは、量子ネットワークの発展に不可欠である。
衛星やファイバーを用いて遠距離に絡み合った光子を伝達する以前の実証では、バルク結晶配列から生じる絡み合った光子対が用いられている。
別のアプローチは、シリコンオン絶縁体(SOI)チップを使用して光子対を生成することである。
多くの概念実証研究にもかかわらず、このプラットフォームを用いた長距離分布は、十分なオフチップ輝度を得るという課題のために達成されていない。
我々は、オフチップの光子対の明るさが8,000対から460,000対/秒のSOIプラットフォームを報告した。
これは前回の報告を3桁の明るさで上回っている。
絡み合いの忠実度はそれぞれ99.85(6)%、97.90(3)%である。
1つの光子を局所的に測定し、もう1つの光子を93km以上の展開繊維(リンク損失は40dB)で伝達すると、1秒間に132対の計数率が93.3(3)%となる。
光源は、155kmの展開繊維(66dBのリンク損失)で絡み合った光子の伝送を、毎秒0.7対の速度で可能とし、絡み合った密度は87.6(5)%である。
これらの結果から,SOIナノフォトニックチップはバルク結晶源と競合し,集積ナノフォトニックプラットフォームを用いた量子ネットワーク構築に向けた重要なステップを示す。
Transmitting an entangled state over an extended distance is crucial for the development of quantum networks. Previous demonstrations of transmitting entangled photons over long distance using satellites or fibers have use entangled photon pairs generated from bulk crystal arrangements. An alternative approach would be to generate photon pairs using silicon-on-insulator (SOI) chips. Despite numerous proof-of-concept studies, no long range distribution has been achieved using this platform because of the challenge of getting sufficient off-chip brightness. We report a SOI platform that provides an off-chip entangled photon pair brightness of between 8,000 to 460,000 pairs per second. This exceeds previous reports by three orders of magnitude in brightness. The entanglement fidelity is 99.85(6)% and 97.90(3)% respectively. Measuring one photon locally, and transmitting the other over 93 km of deployed fiber (link loss of 40 dB), achieves a count rate of 132 pairs per second with an entanglement fidelity of 93.3(3)%, after solving the additional challenges of chromatic dispersion. The source can be pumped harder to enable transmission of entangled photons over 155 km of deployed fiber (link loss of 66 dB) at a rate of 0.7 pairs per second, with an entanglement fidelity of 87.6(5)%. These results demonstrate that SOI nanophotonic chips can perform competitively with bulk crystal sources and represent an important step toward building quantum networks using integrated nanophotonic platforms. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# ザック相誘起トポロジカル非相互性
Zak Phase Induced Topological Nonreciprocity ( http://arxiv.org/abs/2409.17559v1 ) ライセンス: Link先を確認 | Xiao Liu, Jiefei Wang, Ruosong Mao, Huizhu Hu, Shi-Yao Zhu, Xingqi Xu, Han Cai, Da-Wei Wang, | (参考訳) トポロジカル物理学は、光学工学や量子情報処理において重要な、無磁光ダイオードのような機能的フォトニックデバイスを設計するための新しい洞察を提供する。
過去の研究は、主に2次元(2次元)フォトニックチャーン格子の位相的エッジモードに焦点を当てており、これは微妙な加工と時間的変調を必要とする。
特に、1次元の非相互エッジモードを2次元格子に埋め込む必要があるが、これは統合フォトニクスのコンパクトさとは矛盾する。
これらの課題に対処するために、室温原子中の1D Su-Schrieffer-Heeger(SSH)超放射率格子の光学的非相互性について検討する。
2つの反対方向に伝播するプローブ場は、Zak相と原子の熱運動との相互作用により異なる吸収スペクトルを持つ2つの異なるSSH位相を知覚し、光学的非相互性をもたらす。
本研究は, トポロジカル・非線形デバイスの設計を簡素化し, トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポロジカル・トポ
Topological physics provides novel insights for designing functional photonic devices, such as magnetic-free optical diodes, which are important in optical engineering and quantum information processing. Past efforts mostly focus on the topological edge modes in two-dimensional (2D) photonic Chern lattices, which, however, require delicate fabrication and temporal modulation. In particular, the 1D nonreciprocal edge mode needs to be embedded in a 2D lattice, contradicting with the compactness of integrated photonics. To address these challenges, we investigate the optical nonreciprocity of the 1D Su-Schrieffer-Heeger (SSH) superradiance lattices in room-temperature atoms. The probe fields propagating in two opposite directions perceive two different SSH topological phases, which have different absorption spectra due to the interplay between the Zak phase and the thermal motion of atoms, resulting in optical nonreciprocity. Our findings reveal the relationship between 1D topological matter and optical nonreciprocity, simplifying the design of topologically resilient nonreciprocal devices. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# RGB-E追跡における動的サブフレーム分割と時空間運動のスパースアテンション
Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking ( http://arxiv.org/abs/2409.17560v1 ) ライセンス: Link先を確認 | Pengcheng Shao, Tianyang Xu, Xuefeng Zhu, Xiaojun Wu, Josef Kittler, | (参考訳) イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンを非同期にキャプチャし、照明劣化と高速動作の条件下でのイベントとRGBの統合の可能性を提供する。
既存のRGB-E追跡手法は、両方のモードを統合する前に、Transformerのアテンションメカニズムを利用したイベント特性をモデル化する。
これらの手法では,イベントストリームを単一のイベントフレームに集約し,イベントストリーム固有の時間情報の活用を欠いている。
本稿では,イベントストリームをよりきめ細かなイベントクラスタに分割する動的イベントサブフレーム分割方式を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
実験結果から,本手法はFE240およびCOESOTデータセットにおける既存の最先端手法よりも優れており,イベントデータに対する効率的な処理方法が得られた。
Event-based bionic camera asynchronously captures dynamic scenes with high temporal resolution and high dynamic range, offering potential for the integration of events and RGB under conditions of illumination degradation and fast motion. Existing RGB-E tracking methods model event characteristics utilising attention mechanism of Transformer before integrating both modalities. Nevertheless, these methods involve aggregating the event stream into a single event frame, lacking the utilisation of the temporal information inherent in the event stream.Moreover, the traditional attention mechanism is well-suited for dense semantic features, while the attention mechanism for sparse event features require revolution. In this paper, we propose a dynamic event subframe splitting strategy to split the event stream into more fine-grained event clusters, aiming to capture spatio-temporal features that contain motion cues. Based on this, we design an event-based sparse attention mechanism to enhance the interaction of event features in temporal and spatial dimensions. The experimental results indicate that our method outperforms existing state-of-the-art methods on the FE240 and COESOT datasets, providing an effective processing manner for the event data. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# TestBench: 大規模言語モデルのクラスレベルテストケース生成機能の評価
TestBench: Evaluating Class-Level Test Case Generation Capability of Large Language Models ( http://arxiv.org/abs/2409.17561v1 ) ライセンス: Link先を確認 | Quanjun Zhang, Ye Shang, Chunrong Fang, Siqi Gu, Jianyi Zhou, Zhenyu Chen, | (参考訳) ソフトウェアテストはソフトウェアライフサイクルにおいて重要なフェーズであり、潜在的なリスクを特定し、メンテナンスコストを削減するのに役立つ。
LLM(Large Language Models)の進歩に伴い、研究者は、特にテストケース生成の分野で、LLMベースのソフトウェアテスト技術の増加を提案している。
関心が高まっているにもかかわらず、この課題におけるLLMの実際の能力を徹底的に評価するための限られた努力がなされている。
本稿では,クラスレベルのLLMテストケース生成のためのベンチマークであるTestBenchを紹介する。
GitHub上の9つの実世界の大規模プロジェクトから108のJavaプログラムのデータセットを構築します。
次に、自己完結したコンテキスト、完全なコンテキスト、シンプルなコンテキストを含む、コンテキスト記述に基づく3つの異なるタイプのプロンプトを設計する。
さらに,構文的正当性,コンパイル的正当性,テスト的正当性,コードカバレッジ率,欠陥検出率という,テストケースの5つの側面を考慮したきめ細かい評価フレームワークを提案する。
さらに,LLMが生成した誤テストケースを修復するヒューリスティックアルゴリズムを提案する。
We evaluate CodeLlama-13b, GPT-3.5, GPT-4 on the TestBench。
より小さなモデルは、完全なコンテキストに含まれる広範な情報によってもたらされるノイズに悩まされる可能性がある。
しかし、抽象構文木解析によって完全なコンテキストから派生した単純なコンテキストを単純化したバージョンを使用する場合、これらのモデルの性能は大幅に向上する。
本分析では,テストケース生成のための文脈情報を扱うことにより,モデルの有効性を高めるための今後の方向性を明らかにした。
Software testing is a crucial phase in the software life cycle, helping identify potential risks and reduce maintenance costs. With the advancement of Large Language Models (LLMs), researchers have proposed an increasing number of LLM-based software testing techniques, particularly in the area of test case generation. Despite the growing interest, limited efforts have been made to thoroughly evaluate the actual capabilities of LLMs in this task. In this paper, we introduce TestBench, a benchmark for class-level LLM-based test case generation. We construct a dataset of 108 Java programs from 9 real-world, large-scale projects on GitHub, each representing a different thematic domain. We then design three distinct types of prompts based on context descriptions, including self-contained context, full context, and simple context. Besides, we propose a fine-grained evaluation framework that considers five aspects of test cases: syntactic correctness, compilation correctness, test correctness, code coverage rate, and defect detection rate. Furthermore, we propose a heuristic algorithm to repair erroneous test cases generated by LLMs. We evaluate CodeLlama-13b, GPT-3.5, and GPT-4 on the TestBench, and our experimental results indicate that larger models demonstrate a greater ability to effectively utilize contextual information, thus generating higher-quality test cases. Smaller models may struggle with the noise introduced by the extensive information contained within the full context. However, when using the simplified version, namely the simple context, which is derived from the full context via abstract syntax tree analysis, the performance of these models improves significantly. Our analysis highlights the current progress and pinpoints future directions to further enhance the effectiveness of models by handling contextual information for test case generation. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# 効率的な変圧器オブジェクト追跡のための汎用圧縮フレームワーク
General Compression Framework for Efficient Transformer Object Tracking ( http://arxiv.org/abs/2409.17564v1 ) ライセンス: Link先を確認 | Lingyi Hong, Jinglun Li, Xinyu Zhou, Shilin Yan, Pinxue Guo, Kaixun Jiang, Zhaoyu Chen, Shuyong Gao, Wei Zhang, Hong Lu, Wenqiang Zhang, | (参考訳) トランスフォーマーベースのトラッカーは、視覚的物体追跡の分野において支配的な役割を担っている。
これらのトラッカーは有望な性能を示すが、リソース制限されたデバイスへの展開は、非効率のため、依然として困難である。
推論効率の向上と計算コストの削減を目的として、従来の手法では、より軽量なトラッカーを設計するか、より大きな教師モデルからよりコンパクトな生徒トラッカーに知識を抽出することを目的としていた。
しかし、これらの解はしばしば速度の精度を犠牲にする。
そこで本稿では,CompressTrackerと呼ばれる,効率的なトランスフォーマーオブジェクト追跡のための汎用モデル圧縮フレームワークを提案する。
本手法は,教師モデルのトランスフォーマー層を異なる段階に分割する新たな段階分割戦略を特徴とする。
また,学生モデルと教師モデルとを無作為に置き換える独自の代替訓練手法を設計し,生徒モデルを個別に訓練するのに対し,教師モデルと無作為に置き換える。
代替トレーニングは、教師モデルの振る舞いを再現する学生モデルの能力を高める。
さらに,教師モデルをエミュレートするよう学生モデルを強制するために,教師モデルの圧縮過程において,教師モデルにさらなる監督を与えるために,予測指導とステージワイド機能模倣を取り入れた。
当社のフレームワークであるCompressTrackerは構造的に非依存です。
我々はCompressTrackerの有効性と一般化性を検証する一連の実験を行った。
OSTrackから圧縮された4層を有するCompressTracker-4は、LaSOT(66.1% AUC)で約96%の性能を維持しながら、2.17倍の高速化を実現している。
Transformer-based trackers have established a dominant role in the field of visual object tracking. While these trackers exhibit promising performance, their deployment on resource-constrained devices remains challenging due to inefficiencies. To improve the inference efficiency and reduce the computation cost, prior approaches have aimed to either design lightweight trackers or distill knowledge from larger teacher models into more compact student trackers. However, these solutions often sacrifice accuracy for speed. Thus, we propose a general model compression framework for efficient transformer object tracking, named CompressTracker, to reduce the size of a pre-trained tracking model into a lightweight tracker with minimal performance degradation. Our approach features a novel stage division strategy that segments the transformer layers of the teacher model into distinct stages, enabling the student model to emulate each corresponding teacher stage more effectively. Additionally, we also design a unique replacement training technique that involves randomly substituting specific stages in the student model with those from the teacher model, as opposed to training the student model in isolation. Replacement training enhances the student model's ability to replicate the teacher model's behavior. To further forcing student model to emulate teacher model, we incorporate prediction guidance and stage-wise feature mimicking to provide additional supervision during the teacher model's compression process. Our framework CompressTracker is structurally agnostic, making it compatible with any transformer architecture. We conduct a series of experiment to verify the effectiveness and generalizability of CompressTracker. Our CompressTracker-4 with 4 transformer layers, which is compressed from OSTrack, retains about 96% performance on LaSOT (66.1% AUC) while achieves 2.17x speed up. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# 潜時拡散モデルの画素空間後評価
Pixel-Space Post-Training of Latent Diffusion Models ( http://arxiv.org/abs/2409.17565v1 ) ライセンス: Link先を確認 | Christina Zhang, Simran Motwani, Matthew Yu, Ji Hou, Felix Juefei-Xu, Sam Tsai, Peter Vajda, Zijian He, Jialiang Wang | (参考訳) 近年,遅延拡散モデル (LDM) は画像生成の分野で大きな進歩を遂げている。
LDMの大きな利点の1つは、圧縮された潜在空間での運用が可能であり、より効率的なトレーニングと展開を可能にすることである。
しかし、これらの利点にもかかわらず、LCDの課題は依然として残っている。
例えば、LDMがしばしば高周波の詳細や複雑な組成を不完全に生成することが観察されている。
これらの欠陥の1つの原因は、LCDの事前および後訓練が、通常出力画像よりも8×8$低い空間分解能を持つ潜在空間で行われるためである、という仮説を立てる。
この問題に対処するため、我々は、高頻度の詳細をよりよく保存するために、ポストトレーニングプロセスにピクセル空間の監視を追加することを提案する。
実験により、画素空間の目的を付加することで、教師付き品質の微調整と嗜好ベースのポストトレーニングの両方が、最先端のDit変換器とU-Net拡散モデルにおいて、同じテキストアライメント品質を維持しながら、視覚的品質と視覚的欠陥の両方で大幅に改善されることを示した。
Latent diffusion models (LDMs) have made significant advancements in the field of image generation in recent years. One major advantage of LDMs is their ability to operate in a compressed latent space, allowing for more efficient training and deployment. However, despite these advantages, challenges with LDMs still remain. For example, it has been observed that LDMs often generate high-frequency details and complex compositions imperfectly. We hypothesize that one reason for these flaws is due to the fact that all pre- and post-training of LDMs are done in latent space, which is typically $8 \times 8$ lower spatial-resolution than the output images. To address this issue, we propose adding pixel-space supervision in the post-training process to better preserve high-frequency details. Experimentally, we show that adding a pixel-space objective significantly improves both supervised quality fine-tuning and preference-based post-training by a large margin on a state-of-the-art DiT transformer and U-Net diffusion models in both visual quality and visual flaw metrics, while maintaining the same text alignment quality. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# Flexiffusion: フレキシブルなDenoisingスケジュールのためのセグメントワイズニューラルネットワーク検索
Flexiffusion: Segment-wise Neural Architecture Search for Flexible Denoising Schedule ( http://arxiv.org/abs/2409.17566v1 ) ライセンス: Link先を確認 | Hongtao Huang, Xiaojun Chang, Lina Yao, | (参考訳) 拡散モデル(diffusion model)は、多様な高品質な画像を生成するのに適した最先端の生成モデルである。
それらの有効性にもかかわらず、これらのモデルは、多くのシーケンシャルな denoising ステップと各ステップのかなりの推論コストのために、重要な計算資源を必要とすることが多い。
近年,より高速な生成プロセスの自動探索にNAS(Neural Architecture Search)技術が採用されている。
しかし、拡散のためのNASは、最適な拡散モデルを探すために数千の拡散モデルを推定する必要があるため、本質的に時間を要する。
本稿では、生成ステップとネットワーク構造を並列に最適化することにより、拡散モデルを高速化する新しいトレーニングフリーNASパラダイムであるFlexiffusionを紹介する。
具体的には、生成プロセスを等尺ステップセグメントに分割し、各ステップは全ステップ、複数の部分ステップ、いくつかのヌルステップから構成される。
完全なステップはすべてのネットワークブロックを計算し、部分的なステップはブロックの一部を含み、ヌルステップは計算を含まない。
フレキシフフュージョンは各セグメントの柔軟なステップの組み合わせを自律的に探索し、探索コストを大幅に削減し、拡散モデルの最先端(SOTA)法よりも大きな加速を可能にする。
LDM-4-GとSOTAはそれぞれ2.6\times$と1.5\times$のスピードアップ因子を報告した。
安定拡散V1.5とSOTAの要因は、$5.1\times$と$2.0\times$である。
また,複数のデータセット上でのFlexiffusionの性能を検証した結果,Flexiffusionが拡散モデルの冗長性を効果的に低減できることが示された。
Diffusion models are cutting-edge generative models adept at producing diverse, high-quality images. Despite their effectiveness, these models often require significant computational resources owing to their numerous sequential denoising steps and the significant inference cost of each step. Recently, Neural Architecture Search (NAS) techniques have been employed to automatically search for faster generation processes. However, NAS for diffusion is inherently time-consuming as it requires estimating thousands of diffusion models to search for the optimal one. In this paper, we introduce Flexiffusion, a novel training-free NAS paradigm designed to accelerate diffusion models by concurrently optimizing generation steps and network structures. Specifically, we partition the generation process into isometric step segments, each sequentially composed of a full step, multiple partial steps, and several null steps. The full step computes all network blocks, while the partial step involves part of the blocks, and the null step entails no computation. Flexiffusion autonomously explores flexible step combinations for each segment, substantially reducing search costs and enabling greater acceleration compared to the state-of-the-art (SOTA) method for diffusion models. Our searched models reported speedup factors of $2.6\times$ and $1.5\times$ for the original LDM-4-G and the SOTA, respectively. The factors for Stable Diffusion V1.5 and the SOTA are $5.1\times$ and $2.0\times$. We also verified the performance of Flexiffusion on multiple datasets, and positive experiment results indicate that Flexiffusion can effectively reduce redundancy in diffusion models. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# Derandomizing Multi-Distribution Learning
Derandomizing Multi-Distribution Learning ( http://arxiv.org/abs/2409.17567v1 ) ライセンス: Link先を確認 | Kasper Green Larsen, Omar Montasser, Nikita Zhivotovskiy | (参考訳) マルチディストリビューションまたは協調学習は、トレーニング中の各サンプルを使用して、複数のデータ分布でうまく動作する単一の予測子を学習する。
近年,二分損失と有限VC次元クラスに着目した多分散学習の研究が,オラクル効率のよいアルゴリズムで達成された準最適サンプルの複雑さを示している。
すなわち、これらのアルゴリズムは、クラスに対して効率的なEMMを考えると、計算的に効率的である。
古典的なPAC学習では、決定論的予測器によって最適なサンプル複雑性が達成されるのとは異なり、現在のマルチディストリビューション学習アルゴリズムはランダム化された予測器を出力する。
これらのアルゴリズムは、複数の分布に対する決定論的予測子を生成するためにデランドマイズできるのだろうか?
離散化を最小化することにより,EMM が計算効率が高い場合でも,マルチディストリビューション学習のデランドマイズが困難であることを示す。
正の面では、効率的なブラックボックス削減を可能にする構造条件を特定し、既存のランダム化マルチディストリビューション予測器を決定論的に変換する。
Multi-distribution or collaborative learning involves learning a single predictor that works well across multiple data distributions, using samples from each during training. Recent research on multi-distribution learning, focusing on binary loss and finite VC dimension classes, has shown near-optimal sample complexity that is achieved with oracle efficient algorithms. That is, these algorithms are computationally efficient given an efficient ERM for the class. Unlike in classical PAC learning, where the optimal sample complexity is achieved with deterministic predictors, current multi-distribution learning algorithms output randomized predictors. This raises the question: can these algorithms be derandomized to produce a deterministic predictor for multiple distributions? Through a reduction to discrepancy minimization, we show that derandomizing multi-distribution learning is computationally hard, even when ERM is computationally efficient. On the positive side, we identify a structural condition enabling an efficient black-box reduction, converting existing randomized multi-distribution predictors into deterministic ones. | 翻訳日:2024-09-28 22:56:36 公開日:2024-09-26 |
# 多ラベル分類モデルにおける多くのラベルの表示--敵対的事例の実証的研究
Showing Many Labels in Multi-label Classification Models: An Empirical Study of Adversarial Examples ( http://arxiv.org/abs/2409.17568v1 ) ライセンス: Link先を確認 | Yujiang Liu, Wenjian Luo, Zhijian Chen, Muhammad Luqman Naseem, | (参考訳) ディープニューラルネットワーク(DNN)の急速な発展に伴い、多くの分野に応用されている。
しかし、DNNは敵対的な例に影響を受けやすいことが研究で示されており、これはマルチラベル領域でも同様に当てはまる。
本研究は,複数ラベルの敵対的事例をさらに調査するため,"Showing Many Labels"と呼ばれる新たなタイプの攻撃を導入する。
この攻撃の目的は、分類器の予測結果に含まれるラベルの数を最大化することである。
実験では,9つの攻撃アルゴリズムを選択し,その性能を"Showing Many Labels"で評価した。
攻撃アルゴリズムの8つはマルチクラス環境からマルチラベル環境に適応し、残りの1つは特にマルチラベル環境向けに設計された。
ターゲットモデルとしてML-LIWとML-GCNを選択し、VOC2007、VOC2012、NAS-WIDE、COCOの4つの一般的なマルチラベルデータセットでトレーニングする。
予測されたラベル数を8つのシナリオで示すと,各アルゴリズムの成功率を記録する。
実験の結果、"Showing Many Labels"では、反復攻撃はワンステップ攻撃よりもはるかに優れていることが示された。
さらに、データセット内のすべてのラベルを表示することもできる。
With the rapid development of Deep Neural Networks (DNNs), they have been applied in numerous fields. However, research indicates that DNNs are susceptible to adversarial examples, and this is equally true in the multi-label domain. To further investigate multi-label adversarial examples, we introduce a novel type of attacks, termed "Showing Many Labels". The objective of this attack is to maximize the number of labels included in the classifier's prediction results. In our experiments, we select nine attack algorithms and evaluate their performance under "Showing Many Labels". Eight of the attack algorithms were adapted from the multi-class environment to the multi-label environment, while the remaining one was specifically designed for the multi-label environment. We choose ML-LIW and ML-GCN as target models and train them on four popular multi-label datasets: VOC2007, VOC2012, NUS-WIDE, and COCO. We record the success rate of each algorithm when it shows the expected number of labels in eight different scenarios. Experimental results indicate that under the "Showing Many Labels", iterative attacks perform significantly better than one-step attacks. Moreover, it is possible to show all labels in the dataset. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# 完全片側セキュリティをもつ不完全量子可逆移動
Incomplete quantum oblivious transfer with perfect one-sided security ( http://arxiv.org/abs/2409.17571v1 ) ライセンス: Link先を確認 | David Reichmuth, Ittoop Vergheese Puthoor, Petros Wallden, Erika Andersson, | (参考訳) Oblivious Transferは、セキュアなマルチパーティ計算に有用な基本的な暗号プリミティブである。
可逆転移にはいくつかの変種がある。
我々は、送信者が受信機に2ビットの情報を送信する2つの不愉快な転送のうち1つを考える。
受信機は2つのビットのうち1つしか受信しないが、送信機は受信機が受信したビットを知らない。
情報理論のセキュリティを備えた完全な量子オブザーバー転送は不可能であることが知られている。
私たちは最低限の不正確率を見つけることを目指している。
このプロトコルに従えば、受信側が取得したビット値は送信側ビット値と一致する。
代わりに、受信機が確率pfの誤りビット値を取得する不完全プロトコルを調査する。
我々は,Aliceビットの値を4つの対称純粋量子状態に符号化し,ランダムな推測よりもうまく不正にできない最適非対話プロトコルを提案する。
与えられた pf に対して、Bob が確率 pr を騙す確率は可能な限り低く、その逆であるようなプロトコルが見つかる。
さらに,非対話型量子プロトコルは非対話型古典的プロトコルよりも優れており,対話型量子プロトコルにおけるBobの不正な確率が低いことを示す。
重要な実装として、我々のプロトコルは絡み合いや量子メモリを必要としない。
Oblivious transfer is a fundamental cryptographic primitive which is useful for secure multiparty computation. There are several variants of oblivious transfer. We consider 1 out of 2 oblivious transfer, where a sender sends two bits of information to a receiver. The receiver only receives one of the two bits, while the sender does not know which bit the receiver has received. Perfect quantum oblivious transfer with information theoretic security is known to be impossible. We aim to find the lowest possible cheating probabilities. Bounds on cheating probabilities have been investigated for complete protocols, where if both parties follow the protocol, the bit value obtained by the receiver matches the sender bit value. We instead investigate incomplete protocols, where the receiver obtains an incorrect bit value with probability pf. We present optimal non interactive protocols where Alice bit values are encoded in four symmetric pure quantum states, and where she cannot cheat better than with a random guess. We find the protocols such that for a given pf, Bob cheating probability pr is as low as possible, and vice versa. Furthermore, we show that non-interactive quantum protocols can outperform non-interactive classical protocols, and give a lower bound on Bob cheating probability in interactive quantum protocols. Importantly for optical implementations, our protocols do not require entanglement nor quantum memory. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# キャンパスカウンセリングにおけるGPT : LLM支援メンタルヘルスサービスに対する高等教育学生の意見の理解
Dr. GPT in Campus Counseling: Understanding Higher Education Students' Opinions on LLM-assisted Mental Health Services ( http://arxiv.org/abs/2409.17572v1 ) ライセンス: Link先を確認 | Owen Xingjian Zhang, Shuyao Zhou, Jiayi Geng, Yuhan Liu, Sunny Xun Liu, | (参考訳) 大学生が直面するメンタルヘルスの課題に対する対応として,AIアプリケーション,特にLarge Language Models(LLMs)の考え方を,彼らのメンタルヘルス向上に活用する方法の理解を模索した。
10人の多様な学生とのパイロットインタビューを通じて、一般情報調査、初期スクリーニング、患者-専門ダイナミクスの再構築、長期ケア、フォローアップケアの5つの架空のシナリオでLLMの使用について、彼らの意見を探った。
その結果、学生のLCMの受容は、積極的エンゲージメントやパーソナライズされたフォローアップケアといった潜在的なメリットと、トレーニングデータや感情的サポートの制限といった懸念の両方に焦点が当てられ、シナリオによって異なることがわかった。
これらの知見は、特にLLMが従来の手法を補完し、共感を維持し、個人の好みを尊重するシナリオにおいて、生徒の精神的幸福を効果的に支援し、強化するために、AI技術をどのように設計し、実装すべきかを示唆する。
In response to the increasing mental health challenges faced by college students, we sought to understand their perspectives on how AI applications, particularly Large Language Models (LLMs), can be leveraged to enhance their mental well-being. Through pilot interviews with ten diverse students, we explored their opinions on the use of LLMs across five fictional scenarios: General Information Inquiry, Initial Screening, Reshaping Patient-Expert Dynamics, Long-term Care, and Follow-up Care. Our findings revealed that students' acceptance of LLMs varied by scenario, with participants highlighting both potential benefits, such as proactive engagement and personalized follow-up care, and concerns, including limitations in training data and emotional support. These insights inform how AI technology should be designed and implemented to effectively support and enhance students' mental well-being, particularly in scenarios where LLMs can complement traditional methods, while maintaining empathy and respecting individual preferences. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# 測定プロセスの超脱コヒーレンスモデル
Ultradecoherence model of the measurement process ( http://arxiv.org/abs/2409.17574v1 ) ライセンス: Link先を確認 | Hai-Chau Nguyen, | (参考訳) 量子論の定式化以来、測定は研究の興味深いトピックとして残っている。
ユニタリプロセスによる量子計測をモデル化しようとする試みは、様々な基礎的な問題を引き起こす。
ここでは、測定装置は、他のどの関連する時間スケールよりも高速なオープンデコヒーレンスダイナミクスを持つようにモデル化できることが提案されている。
この限界において、測定装置のクリック速度は、フォン・ノイマンの理想的な測定装置だけでなく、均等な足場における光子検出器に対しても、その基礎となるパラメータから導出できることが示されている。
この研究は、量子力学における測定プロセスの興味深い物理学を垣間見ることができ、多くの側面がさらなる研究のために開かれた。
Measurements remain as an interesting topic of research since the formulation of quantum theory. Attempts to model quantum measurements by unitary processes are prone to various foundational issues. Here, it is proposed that measurement devices can be modelled to have an open decoherence dynamics that is faster than any other relevant timescale, which is referred to as the ultradecoherence limit. In this limit, it is shown that the clicking rate of measurement devices can be derived from its underlying parameters, not only for the von Neumann ideal measurement devices but also for photon detectors in equal footing. This study offers a glimpse into the intriguing physics of measurement processes in quantum mechanics, with many aspects open for further investigation. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# ID$^3$: 顔認識のためのID保存・yet分散拡散モデル
ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition ( http://arxiv.org/abs/2409.17576v1 ) ライセンス: Link先を確認 | Shen Li, Jianqing Xu, Jiaying Wu, Miao Xiong, Ailin Deng, Jiazhen Ji, Yuge Huang, Wenjie Feng, Shouhong Ding, Bryan Hooi, | (参考訳) 合成顔認識(SFR)は、実際の顔データの分布を模倣する合成顔データセットを生成することを目的としており、プライバシー保護の方法で顔認識モデルをトレーニングすることができる。
画像生成における拡散モデルの顕著な可能性にもかかわらず、現在の拡散に基づくSFRモデルは現実の顔への一般化に苦慮している。
この制限に対処するため,(1)アイデンティティ間の多様性の促進(クラス間多様性),(2)さまざまな顔属性(クラス間多様性)を注入してアイデンティティ内の多様性を確保すること,(3)アイデンティティグループ内のアイデンティティの整合性を維持すること(クラス間アイデンティティ保存),の3つの目的を概説した。
これらの目標に触発されて、$\text{ID}^3$ と呼ばれる拡散燃料SFRモデルを導入する。
$\text{ID}^3$はID保存損失を使用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
理論的には、この損失を最小化することは、ID保存データに対する調整条件付きログ類似度の下限の最大化と等価であることを示す。
この等価性は、調整された勾配ベクトル場上で動作するID保存サンプリングアルゴリズムを動機付け、現実世界の顔の分布を近似した偽の顔認識データセットを生成する。
5つの挑戦的なベンチマークにわたる大規模な実験は、$\text{ID}^3$の利点を検証する。
Synthetic face recognition (SFR) aims to generate synthetic face datasets that mimic the distribution of real face data, which allows for training face recognition models in a privacy-preserving manner. Despite the remarkable potential of diffusion models in image generation, current diffusion-based SFR models struggle with generalization to real-world faces. To address this limitation, we outline three key objectives for SFR: (1) promoting diversity across identities (inter-class diversity), (2) ensuring diversity within each identity by injecting various facial attributes (intra-class diversity), and (3) maintaining identity consistency within each identity group (intra-class identity preservation). Inspired by these goals, we introduce a diffusion-fueled SFR model termed $\text{ID}^3$. $\text{ID}^3$ employs an ID-preserving loss to generate diverse yet identity-consistent facial appearances. Theoretically, we show that minimizing this loss is equivalent to maximizing the lower bound of an adjusted conditional log-likelihood over ID-preserving data. This equivalence motivates an ID-preserving sampling algorithm, which operates over an adjusted gradient vector field, enabling the generation of fake face recognition datasets that approximate the distribution of real-world faces. Extensive experiments across five challenging benchmarks validate the advantages of $\text{ID}^3$. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# テキスト分類におけるアノテーションの活用
Leveraging Annotator Disagreement for Text Classification ( http://arxiv.org/abs/2409.17577v1 ) ライセンス: Link先を確認 | Jin Xu, Mariët Theune, Daniel Braun, | (参考訳) テキスト分類では、データセットが複数のアノテータによってアノテートされた場合でも、モデルトレーニングに1つのマジョリティラベルのみを使用するのが一般的である。
そうすることで、アノテータのアセスメントに固有の貴重なニュアンスや多様な視点を排除できる。
本稿では,アノテータの不一致を利用したテキスト分類手法として,確率ベースマルチラベル法,アンサンブルシステム,命令チューニングの3つの戦略を提案し,比較する。
これら3つのアプローチは、ヘイトスピーチと虐待的会話検出のタスクに基づいて評価される。
さらに, モデル学習におけるアノテーションの不一致を受け入れることの有効性を評価するために, 複数ラベルモデルの性能を, 多数ラベルで学習したベースラインモデルと比較するオンライン調査を行った。
その結果、ヘイトスピーチ検出では、マルチラベル法が他の2つの手法より優れており、乱雑な会話検出では、命令チューニングが最高のパフォーマンスを達成していることがわかった。
また,本調査の結果から,複数ラベルモデルからの出力は単一ラベルモデルよりもテキストの表現性がよいと考えられた。
It is common practice in text classification to only use one majority label for model training even if a dataset has been annotated by multiple annotators. Doing so can remove valuable nuances and diverse perspectives inherent in the annotators' assessments. This paper proposes and compares three different strategies to leverage annotator disagreement for text classification: a probability-based multi-label method, an ensemble system, and instruction tuning. All three approaches are evaluated on the tasks of hate speech and abusive conversation detection, which inherently entail a high degree of subjectivity. Moreover, to evaluate the effectiveness of embracing annotation disagreements for model training, we conduct an online survey that compares the performance of the multi-label model against a baseline model, which is trained with the majority label. The results show that in hate speech detection, the multi-label method outperforms the other two approaches, while in abusive conversation detection, instruction tuning achieves the best performance. The results of the survey also show that the outputs from the multi-label models are considered a better representation of the texts than the single-label model. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# GraphRAGによる構造化データ検索の強化:サッカーデータケーススタディ
Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study ( http://arxiv.org/abs/2409.17580v1 ) ライセンス: Link先を確認 | Zahra Sepasdar, Sushant Gautam, Cise Midoglu, Michael A. Riegler, Pål Halvorsen, | (参考訳) 大規模で複雑なデータセットから有意義な洞察を抽出することは、特に検索された情報の正確性と関連性を保証する上で、大きな課題となる。
シーケンシャル検索やインデックスベースの検索のような従来のデータ検索手法は、複雑なデータ構造と相互接続されたデータ構造を扱うときにしばしば失敗し、不完全あるいは誤った出力をもたらす。
これらの制限を克服するために、自然言語クエリにおける構造化データセット間の情報検索を強化するために設計された汎用フレームワークであるStructured-GraphRAGを導入する。
Structured-GraphRAGは、構造化形式でデータを表現し、エンティティ間の複雑な関係をキャプチャする複数の知識グラフを利用する。
このグラフベースのアプローチは、構造化形式で応答を基底にすることで、言語モデル出力の誤りのリスクを低減し、結果の信頼性を高める。
本稿では,従来の検索拡張生成を用いた最近発表された手法との比較により,構造化GraphRAGの有効性を実証する。
その結果,Structured-GraphRAGはクエリ処理効率を大幅に改善し,応答時間を短縮することがわかった。
ケーススタディはサッカーデータに焦点をあてるが、フレームワークの設計は広く適用可能であり、様々な構造化ドメインにわたるデータ分析と言語モデルアプリケーションの拡張のための強力なツールを提供する。
Extracting meaningful insights from large and complex datasets poses significant challenges, particularly in ensuring the accuracy and relevance of retrieved information. Traditional data retrieval methods such as sequential search and index-based retrieval often fail when handling intricate and interconnected data structures, resulting in incomplete or misleading outputs. To overcome these limitations, we introduce Structured-GraphRAG, a versatile framework designed to enhance information retrieval across structured datasets in natural language queries. Structured-GraphRAG utilizes multiple knowledge graphs, which represent data in a structured format and capture complex relationships between entities, enabling a more nuanced and comprehensive retrieval of information. This graph-based approach reduces the risk of errors in language model outputs by grounding responses in a structured format, thereby enhancing the reliability of results. We demonstrate the effectiveness of Structured-GraphRAG by comparing its performance with that of a recently published method using traditional retrieval-augmented generation. Our findings show that Structured-GraphRAG significantly improves query processing efficiency and reduces response times. While our case study focuses on soccer data, the framework's design is broadly applicable, offering a powerful tool for data analysis and enhancing language model applications across various structured domains. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# 大規模言語モデルを用いたSEC10-Kファイリングの系統解析のためのスケーラブルなデータ駆動フレームワーク
A Scalable Data-Driven Framework for Systematic Analysis of SEC 10-K Filings Using Large Language Models ( http://arxiv.org/abs/2409.17581v1 ) ライセンス: Link先を確認 | Syed Affan Daimi, Asma Iqbal, | (参考訳) NYSEに上場する企業の数は指数関数的に増加しており、多数の企業の業績や戦略の変化を定期的に監視し評価しなければならない市場アナリスト、トレーダー、株主にとって大きな課題となっている。
パフォーマンスを評価し,多くの企業の戦略変化を効率的に検出し,比較する,迅速で費用効率のよい包括的手法の必要性が高まっている。
我々は,大規模言語モデル(LLM)を活用して,SEC 10-Kの申請に基づいて企業の業績を体系的に分析し,評価する,新たなデータ駆動型アプローチを提案する。
これらの申請書は、会社の業績と戦略的な方向性に関する詳細な年次報告書を提供しており、信頼、環境持続可能性、革新、労働管理など、企業の健康の様々な側面を評価するための豊富なデータ源となっている。
また,10-Kファイルの抽出と前処理のための自動処理システムも導入する。
このシステムは、SECが概説しているように、必要なセクションを正確に識別し、分割すると同時に、企業に関する重要な情報を含む重要なテキストコンテンツを分離する。
このキュレートされたデータは、CohereのCommand-R+ LLMに送られ、さまざまなパフォーマンス指標の定量的評価を生成する。
これらの評価はその後処理され、実行可能な洞察を提供するために視覚化される。
提案手法は,データパイプラインの実行と視覚化のためのノーコードソリューションとして,対話型GUI上に実装される。
このアプリケーションは評価結果を示し、企業業績の年次比較を提供する。
The number of companies listed on the NYSE has been growing exponentially, creating a significant challenge for market analysts, traders, and stockholders who must monitor and assess the performance and strategic shifts of a large number of companies regularly. There is an increasing need for a fast, cost-effective, and comprehensive method to evaluate the performance and detect and compare many companies' strategy changes efficiently. We propose a novel data-driven approach that leverages large language models (LLMs) to systematically analyze and rate the performance of companies based on their SEC 10-K filings. These filings, which provide detailed annual reports on a company's financial performance and strategic direction, serve as a rich source of data for evaluating various aspects of corporate health, including confidence, environmental sustainability, innovation, and workforce management. We also introduce an automated system for extracting and preprocessing 10-K filings. This system accurately identifies and segments the required sections as outlined by the SEC, while also isolating key textual content that contains critical information about the company. This curated data is then fed into Cohere's Command-R+ LLM to generate quantitative ratings across various performance metrics. These ratings are subsequently processed and visualized to provide actionable insights. The proposed scheme is then implemented on an interactive GUI as a no-code solution for running the data pipeline and creating the visualizations. The application showcases the rating results and provides year-on-year comparisons of company performance. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# マルチプライバティブ・ロジット調整近似によるニューラル・コラプス対応決定境界調整
Multiplicative Logit Adjustment Approximates Neural-Collapse-Aware Decision Boundary Adjustment ( http://arxiv.org/abs/2409.17582v1 ) ライセンス: Link先を確認 | Naoya Hasegawa, Issei Sato, | (参考訳) 実世界のデータ分布は、しばしば非常に歪んでいる。
これは、訓練分類モデルにおけるこの不均衡に対処するために、長い尾の認識に関する研究が成長するきっかけとなった。
研究手法のうち、乗算ロジット調整(MLA)は単純で効果的な方法である。
しかし、理論的な保証が欠如しており、調整法の最適性に関する懸念が持ち上がる。
以下の2段階理論を用いて, MLAの有効性を理論的に正当化する。
まず,神経崩壊に基づく特徴の拡散を推定し,最適決定境界を調節する理論を考案する。
そして, MLA がこの最適手法を近似することを示した。
さらに、長い尾を持つデータセットの実験を通して、より現実的な条件下でのMLAの実用的有用性を説明する。
MLAのハイパーパラメータのチューニングをガイドする実験的な洞察も提供する。
Real-world data distributions are often highly skewed. This has spurred a growing body of research on long-tailed recognition to address this imbalance in training classification models. Among the methods studied, multiplicative logit adjustment (MLA) stands out as a simple and effective method. However, it lacks theoretical guarantees, which raises concerns about the optimality of its adjustment method. We provide a theoretical justification for the effectiveness of MLA with the following two-step theory. First, we develop a theory that adjusts optimal decision boundaries by estimating feature spread on the basis of neural collapse. Then, we demonstrate that MLA approximates this optimal method. Additionally, through experiments on long-tailed datasets, we illustrate the practical usefulness of MLA under more realistic conditions. We also offer experimental insights to guide the tuning of MLA's hyperparameters. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# 量子クリープ:量子ニューラルネットワークモデルの設計
古典的なコンポーネントを段階的にスワップする
Let the Quantum Creep In: Designing Quantum Neural Network Models by Gradually Swapping Out Classical Components ( http://arxiv.org/abs/2409.17583v1 ) ライセンス: Link先を確認 | Peiyong Wang, Casey. R. Myers, Lloyd C. L. Hollenberg, Udaya Parampalli | (参考訳) 人工知能(AI)はその乗算器効果と複数の分野の幅広い応用により、量子コンピューティングの重要な応用となる可能性がある。
現代のAIシステムはニューラルネットワーク上に構築されることが多いため、量子ニューラルネットワークの設計は、量子コンピューティングをAIに統合する上で重要な課題となっている。
ニューラルネットワークの性能に対する量子成分の影響をよりきめ細やかな特徴化するために,従来のニューラルネットワーク層は,エンドツーエンドの量子モデルを好む量子ニューラルネットワークのほとんどの研究と異なり,同じタイプの入力と出力を持つ量子層に徐々に置き換えられるフレームワークを提案する。
まず、正規化層やアクティベーション関数を持たない単純な3層古典ニューラルネットワークから始め、古典層を対応する量子バージョンに徐々に変更する。
我々は,MNIST,FashionMNIST,CIFAR-10などの画像分類データセットの数値実験を行い,量子部品の体系的導入による性能変化を示す。
このフレームワークを通じて、我々の研究は将来の量子ニューラルネットワークモデルの設計に新たな光を当て、古典的および量子的世界の長所を生かした手法やフレームワークの探索に好都合です。
Artificial Intelligence (AI), with its multiplier effect and wide applications in multiple areas, could potentially be an important application of quantum computing. Since modern AI systems are often built on neural networks, the design of quantum neural networks becomes a key challenge in integrating quantum computing into AI. To provide a more fine-grained characterisation of the impact of quantum components on the performance of neural networks, we propose a framework where classical neural network layers are gradually replaced by quantum layers that have the same type of input and output while keeping the flow of information between layers unchanged, different from most current research in quantum neural network, which favours an end-to-end quantum model. We start with a simple three-layer classical neural network without any normalisation layers or activation functions, and gradually change the classical layers to the corresponding quantum versions. We conduct numerical experiments on image classification datasets such as the MNIST, FashionMNIST and CIFAR-10 datasets to demonstrate the change of performance brought by the systematic introduction of quantum components. Through this framework, our research sheds new light on the design of future quantum neural network models where it could be more favourable to search for methods and frameworks that harness the advantages from both the classical and quantum worlds. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# マルチモーダルバンキングデータセット:イベントを通じてクライアントのニーズを理解する
系譜
Multimodal Banking Dataset: Understanding Client Needs through Event Sequences ( http://arxiv.org/abs/2409.17587v1 ) ライセンス: Link先を確認 | Mollaev Dzhambulat, Alexander Kostin, Postnova Maria, Ivan Karpukhin, Ivan A Kireev, Gleb Gusev, Andrey Savchenko | (参考訳) 金融組織は通常、時間的(シークエンシャル)な構造を持ち、さまざまなソース(モダリティ)から収集されるクライアントに関する膨大なデータを収集する。
プライバシの問題により、イベントシーケンスの大規模なオープンソースマルチモーダルデータセットは存在せず、この分野の研究を著しく制限している。
本稿では,9億5000万の銀行取引,1B測位イベント,技術支援による対話の5M埋め込み,4つの銀行商品の月次総購入といった,150万以上の企業顧客を対象とする,産業規模で利用可能なマルチモーダルバンキングデータセットMBDを提案する。
すべてのエントリは、実際のプロプライエタリな銀行データから適切に匿名化されます。
このデータセットを用いて、キャンペーン(来月の購入予測)とクライアントのマッチングという、2つのビジネスタスクを備えた新しいベンチマークを導入する。
我々は,タスクごとの単一モーダル手法よりも,マルチモーダルベースラインの方が優れていることを示す数値的な結果を提供する。
その結果、提案したデータセットは新たな視点を開き、イベントシーケンスのための事実上重要な大規模マルチモーダルアルゴリズムの開発を促進することができる。
HuggingFace Link: https://huggingface.co/datasets/ai-lab/MBD Github Link: https://github.com/Dzhambo/MBD
Financial organizations collect a huge amount of data about clients that typically has a temporal (sequential) structure and is collected from various sources (modalities). Due to privacy issues, there are no large-scale open-source multimodal datasets of event sequences, which significantly limits the research in this area. In this paper, we present the industrial-scale publicly available multimodal banking dataset, MBD, that contains more than 1.5M corporate clients with several modalities: 950M bank transactions, 1B geo position events, 5M embeddings of dialogues with technical support and monthly aggregated purchases of four bank's products. All entries are properly anonymized from real proprietary bank data. Using this dataset, we introduce a novel benchmark with two business tasks: campaigning (purchase prediction in the next month) and matching of clients. We provide numerical results that demonstrate the superiority of our multi-modal baselines over single-modal techniques for each task. As a result, the proposed dataset can open new perspectives and facilitate the future development of practically important large-scale multimodal algorithms for event sequences. HuggingFace Link: https://huggingface.co/datasets/ai-lab/MBD Github Link: https://github.com/Dzhambo/MBD | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# DualCoTs:Idiomsのセンチメント・レキシコン拡大のための2つのチェーン・オブ・ソート
DualCoTs: Dual Chain-of-Thoughts Prompting for Sentiment Lexicon Expansion of Idioms ( http://arxiv.org/abs/2409.17588v1 ) ライセンス: Link先を確認 | Fuqiang Niu, Minghuan Tan, Bowen Zhang, Min Yang, Ruifeng Xu, | (参考訳) イディオムは日常の言論の領域で感情を伝えるユビキタスな手段であり、現実のテキストにおける感情表現の包括的理解に不可欠なイディオム感情のニュアンスな分析を描いている。
それでも、イディオムの感情分析に特化した既存のコーパスは、テキストの感情分析の研究をかなり制限している。
本稿では,大規模言語モデルの能力を活用して,イディオムに対する感情レキシコンを自動的に拡張する革新的な手法を提案する。
このアプローチの有効性を示すため,複数の既存資源を統合し,中国語と英語のイディオムを包括的に蓄積した情緒的イディオム語彙拡張データセット(EmoIdiomE)を構築した。
そこで我々は,言語学と心理言語学の知見を組み合わせたDual Chain-of-Thoughts (DualCoTs) 法を設計し,大きなモデルを用いてイディオムの感情辞書を自動的に拡張するの有効性を実証した。
実験により、DualCoTsは中国語と英語の両方の感情的語彙拡大に有効であることが示された。
再現性のため、受理時にデータとコードを公開します。
Idioms represent a ubiquitous vehicle for conveying sentiments in the realm of everyday discourse, rendering the nuanced analysis of idiom sentiment crucial for a comprehensive understanding of emotional expression within real-world texts. Nevertheless, the existing corpora dedicated to idiom sentiment analysis considerably limit research in text sentiment analysis. In this paper, we propose an innovative approach to automatically expand the sentiment lexicon for idioms, leveraging the capabilities of large language models through the application of Chain-of-Thought prompting. To demonstrate the effectiveness of this approach, we integrate multiple existing resources and construct an emotional idiom lexicon expansion dataset (called EmoIdiomE), which encompasses a comprehensive repository of Chinese and English idioms. Then we designed the Dual Chain-of-Thoughts (DualCoTs) method, which combines insights from linguistics and psycholinguistics, to demonstrate the effectiveness of using large models to automatically expand the sentiment lexicon for idioms. Experiments show that DualCoTs is effective in idioms sentiment lexicon expansion in both Chinese and English. For reproducibility, we will release the data and code upon acceptance. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# 自己学習指導による高速対人訓練の改善
Improving Fast Adversarial Training via Self-Knowledge Guidance ( http://arxiv.org/abs/2409.17589v1 ) ライセンス: Link先を確認 | Chengze Jiang, Junkai Wang, Minjing Dong, Jie Gui, Xinli Shi, Yuan Cao, Yuan Yan Tang, James Tin-Yau Kwok, | (参考訳) 敵の訓練は敵の攻撃に対する防衛において顕著な進歩を遂げた。
それらの中で、高速対人訓練(FAT)は、少ない計算資源で競争力のある堅牢性を達成する能力に注目が集まっている。
既存のFAT手法では、異なる例の影響を考慮せずに、全てのトレーニングデータを等しく最適化する一様戦略を用いるのが一般的である。
しかし、この不均衡はFATの分野では未解明のままである。
本稿では,FATにおける不均衡問題を包括的に研究し,その性能に関する明らかな階級差を観察する。
この格差は、クリーンとロバストな精度の整合性の観点から具現化することができる。
この分析に基づいて、観測された相違点と相違点を、FATにおける不均衡な最適化に起因し、異なるトレーニングデータを適応的に最適化し、堅牢性を高める動機付けをする。
具体的には、不一致と不一致を考慮に入れます。
まず,クラス間の差を緩和し,各クラスに異なる正規化重みを割り当てる自己知識ガイド型正規化を導入する。
さらに,学習精度に応じてラベル緩和を調整し,誤調整を緩和し,堅牢性を向上させる自己知識誘導ラベル緩和を提案する。
これらの手法を組み合わせることで、訓練中に自然に生ずる知識を活用して、学習効率を損なうことなく対向的堅牢性を向上する自己知識ガイドFAT(SKG-FAT)を定式化する。
4つの標準データセットに対する大規模な実験は、SKG-FATがロバスト性を改善し、競争力のあるクリーンな精度を維持し、最先端の手法よりも優れていることを示した。
Adversarial training has achieved remarkable advancements in defending against adversarial attacks. Among them, fast adversarial training (FAT) is gaining attention for its ability to achieve competitive robustness with fewer computing resources. Existing FAT methods typically employ a uniform strategy that optimizes all training data equally without considering the influence of different examples, which leads to an imbalanced optimization. However, this imbalance remains unexplored in the field of FAT. In this paper, we conduct a comprehensive study of the imbalance issue in FAT and observe an obvious class disparity regarding their performances. This disparity could be embodied from a perspective of alignment between clean and robust accuracy. Based on the analysis, we mainly attribute the observed misalignment and disparity to the imbalanced optimization in FAT, which motivates us to optimize different training data adaptively to enhance robustness. Specifically, we take disparity and misalignment into consideration. First, we introduce self-knowledge guided regularization, which assigns differentiated regularization weights to each class based on its training state, alleviating class disparity. Additionally, we propose self-knowledge guided label relaxation, which adjusts label relaxation according to the training accuracy, alleviating the misalignment and improving robustness. By combining these methods, we formulate the Self-Knowledge Guided FAT (SKG-FAT), leveraging naturally generated knowledge during training to enhance the adversarial robustness without compromising training efficiency. Extensive experiments on four standard datasets demonstrate that the SKG-FAT improves the robustness and preserves competitive clean accuracy, outperforming the state-of-the-art methods. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# ホークスプロセスにおける共役ベイズ2段階変化点検出
Conjugate Bayesian Two-step Change Point Detection for Hawkes Process ( http://arxiv.org/abs/2409.17591v1 ) ライセンス: Link先を確認 | Zeyue Zhang, Xiaoling Lu, Feng Zhou | (参考訳) ベイズ的2段階変化点検出法は,その単純さと直感性から,ホークス法で人気がある。
しかし、点過程の確率と先行との非共役性は、非共役推論法に依存するために既存のベイズ的2段階変化点検出方法のほとんどを必要とする。
これらの手法は解析的表現を欠き、計算効率の低下と時間的変化点検出の妨げとなる。
この問題に対処するために、この研究はデータ拡張を用いて、より正確かつ効率的なホークスプロセスのための共役ベイズ的2段階変化点検出法を提案する。
合成データと実データの両方に対する大規模な実験により,本手法の有効性と有効性を示した。
さらに,種々のハイパーパラメータに関する手法の頑健性を探るため,アブレーション研究を実施している。
私たちのコードはhttps://github.com/Aurora2050/CoBay-CPD.comで公開されています。
The Bayesian two-step change point detection method is popular for the Hawkes process due to its simplicity and intuitiveness. However, the non-conjugacy between the point process likelihood and the prior requires most existing Bayesian two-step change point detection methods to rely on non-conjugate inference methods. These methods lack analytical expressions, leading to low computational efficiency and impeding timely change point detection. To address this issue, this work employs data augmentation to propose a conjugate Bayesian two-step change point detection method for the Hawkes process, which proves to be more accurate and efficient. Extensive experiments on both synthetic and real data demonstrate the superior effectiveness and efficiency of our method compared to baseline methods. Additionally, we conduct ablation studies to explore the robustness of our method concerning various hyperparameters. Our code is publicly available at https://github.com/Aurora2050/CoBay-CPD. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# Deep Manifold Part 1: Anatomy of Neural Network Manifold
Deep Manifold Part 1: Anatomy of Neural Network Manifold ( http://arxiv.org/abs/2409.17592v1 ) ライセンス: Link先を確認 | Max Y. Ma and Gen-Hua Shi | (参考訳) 数値多様体法の原理に基づいて,ニューラルネットワーク多様体の数学的枠組みを開発した。
1) 前方と逆数を組み合わせた数値計算
2) ほぼ無限の自由度を持つ。
3) 深度による指数学習能力
4) 自己進行性境界条件を有すること。
5) 隠れボトルネックをトレーニングする。
また、ニューラルネットワーク学習空間と深い多様体空間という2つの概念を定義し、ニューラルネットワーク固有の経路と固定点という2つの概念を紹介します。
基本的な質問は3つです。
トレーニング完了の定義は何ですか; 2)。
深層学習収束点(神経ネットワーク固定点)はどこにあるのか。
負の時間を与えるトレーニングデータのトークンタイムスタンプが、逆問題においてどれほど重要か。
Based on the numerical manifold method principle, we developed a mathematical framework of a neural network manifold: Deep Manifold and discovered that neural networks: 1) is numerical computation combining forward and inverse; 2) have near infinite degrees of freedom; 3) exponential learning capacity with depth; 4) have self-progressing boundary conditions; 5) has training hidden bottleneck. We also define two concepts: neural network learning space and deep manifold space and introduce two concepts: neural network intrinsic pathway and fixed point. We raise three fundamental questions: 1). What is the training completion definition; 2). where is the deep learning convergence point (neural network fixed point); 3). How important is token timestamp in training data given negative time is critical in inverse problem. | 翻訳日:2024-09-28 22:46:14 公開日:2024-09-26 |
# AsIf:産業用自動化装置のアセットインタフェース解析
AsIf: Asset Interface Analysis of Industrial Automation Devices ( http://arxiv.org/abs/2409.17593v1 ) ライセンス: Link先を確認 | Thomas Rosenstatter, Christian Schäfer, Olaf Saßnick, Stefan Huber, | (参考訳) 産業用4.0と産業用インターネット(Industrial Internet of Things)が発展し続けており、産業用制御システムは通信標準やプロトコルを含むITソリューションをますます採用している。
これらのシステムがより分散化され相互接続されるようになると、セキュリティ対策の強化に対する重要なニーズが生じる。
脅威モデリングは伝統的に、ドメインとセキュリティの専門家を含む構造化ブレインストーミングセッションで行われます。
しかしながら、このようなセッションは、体系的なアプローチが欠如しているため、しばしば資産とインターフェースの徹底的な識別を提供しない。
これは、脅威モデリングが貧弱な結果、緩和戦略が不十分で、最後にはセキュリティアーキテクチャに欠陥があるため、大きな問題である。
本稿では,特に物理的脅威に着目した産業システムにおける資産分析手法を提案する。
ISO/OSI参照モデルにヒントを得て、アセットインターフェースの識別と分類を支援するための体系的なアプローチが導入された。
これにより、資産の豊富なシステムモデルが実現し、インターフェースツリーとして視覚的に表される包括的概要を提供し、その後の脅威モデリングステップの基礎を築きます。
提案手法を実証するため,PLC(Programmable logic controller)に適用した。
これを支持するため、12人のセキュリティ専門家からなる研究が実施された。
さらに、この研究は、脅威モデリングに関する専門家の一般的な視点とワークフローに関する貴重な洞察を提供する。
As Industry 4.0 and the Industrial Internet of Things continue to advance, industrial control systems are increasingly adopting IT solutions, including communication standards and protocols. As these systems become more decentralized and interconnected, a critical need for enhanced security measures arises. Threat modeling is traditionally performed in structured brainstorming sessions involving domain and security experts. Such sessions, however, often fail to provide an exhaustive identification of assets and interfaces due to the lack of a systematic approach. This is a major issue, as it leads to poor threat modeling, resulting in insufficient mitigation strategies and, lastly, a flawed security architecture. We propose a method for the analysis of assets in industrial systems, with special focus on physical threats. Inspired by the ISO/OSI reference model, a systematic approach is introduced to help identify and classify asset interfaces. This results in an enriched system model of the asset, offering a comprehensive overview visually represented as an interface tree, thereby laying the foundation for subsequent threat modeling steps. To demonstrate the proposed method, the results of its application to a programmable logic controller (PLC) are presented. In support of this, a study involving a group of 12 security experts was conducted. Additionally, the study offers valuable insights into the experts' general perspectives and workflows on threat modeling. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# マジックステート栽培:CNOTゲートほど安価にTステートを成長させる
Magic state cultivation: growing T states as cheap as CNOT gates ( http://arxiv.org/abs/2409.17595v1 ) ライセンス: Link先を確認 | Craig Gidney, Noah Shutty, Cody Jones, | (参考訳) 我々は、Knill 1996、Jones 2016 Chamberland 2020、Gidney 2023+2024、Bombin 2024、そして平野2024のアイデアを洗練し、優れた|T\rangle$州を効率的に準備する。
1つの状態のサイズと信頼性が徐々に増大するので、我々は建設を「魔法の国家栽培」と呼んでいる。
培養は表面コードパッチ内に収まり、格子手術のCNOTゲートとほぼ同じ数の物理ゲートを使用する。
本研究では, 状態ベクトルシミュレーション, 安定化器シミュレーション, エラー列挙, モンテカルロサンプリングを併用して, 栽培の不完全性(注入から距離15でのアイドリングまで)を推定する。
以前の研究と比較すると、養殖は、回路ノイズを均一に非偏極化する10^{-3}$の条件下において、論理誤差率を$2 \cdot 10^{-9}$に抑えるために、桁違いに少ないキュービットラウンドを使用する。
回路ノイズを5$ 10^{-4}$にすることで、達成可能な論理誤差率を4$ 10^{-11}$に改善する。
物理的騒音の改善に対する栽培効率と強い反応は、実際にはそれ以上のマジックステート蒸留は必要ないことを示唆している。
We refine ideas from Knill 1996, Jones 2016, Chamberland 2020, Gidney 2023+2024, Bombin 2024, and Hirano 2024 to efficiently prepare good $|T\rangle$ states. We call our construction "magic state cultivation" because it gradually grows the size and reliability of one state. Cultivation fits inside a surface code patch and uses roughly the same number of physical gates as a lattice surgery CNOT gate of equivalent reliability. We estimate the infidelity of cultivation (from injection to idling at distance 15) using a mix of state vector simulation, stabilizer simulation, error enumeration, and Monte Carlo sampling. Compared to prior work, cultivation uses an order of magnitude fewer qubit-rounds to reach logical error rates as low as $2 \cdot 10^{-9}$ when subjected to $10^{-3}$ uniform depolarizing circuit noise. Halving the circuit noise to $5 \cdot 10^{-4}$ improves the achievable logical error rate to $4 \cdot 10^{-11}$. Cultivation's efficiency and strong response to improvements in physical noise suggest that further magic state distillation may never be needed in practice. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# ライブビデオストリーミングにおける主観的・客観的品質評価に関する研究
Subjective and Objective Quality-of-Experience Evaluation Study for Live Video Streaming ( http://arxiv.org/abs/2409.17596v1 ) ライセンス: Link先を確認 | Zehao Zhu, Wei Sun, Jun Jia, Wei Wu, Sibin Deng, Kai Li, Ying Chen, Xiongkuo Min, Jia Wang, Guangtao Zhai, | (参考訳) 近年、ライブビデオストリーミングは様々なソーシャルメディアプラットフォームで広く普及している。
エンドユーザの満足度と全体的なエクスペリエンスを反映したQoE(Quality of Experience)は,メディアサービスプロバイダが大規模ライブ圧縮と送信戦略を最適化し,知覚的に最適なレート歪みトレードオフを実現する上で重要な役割を担っている。
ビデオオンデマンド(VoD)のための多くのQoEメトリクスが提案されているが、ライブビデオストリーミングのためのQoEメトリクスの開発には大きな課題がある。
このギャップを埋めるために、ライブビデオストリーミングのための主観的および客観的QoE評価を包括的に研究する。
主観的なQoE調査では,ライブストリーミングQoEデータセットであるTaoLive QoEを紹介した。実際のライブ放送から収集した42ドルのソースビデオと,圧縮やストール,さらにはフレームスキップや可変フレームレートなどのライブストリーミング特有の歪みなど,さまざまなストリーミング歪みによって劣化した155ドルの対応する歪みビデオで構成されている。
その後、人間による研究により、TaoLive QoEデータセットの主観的なQoEスコアを導出した。
目的的なQoE調査では、既存のQoEモデルを、TaoLive QoEデータセットと、VoDシナリオ用の公開可能なQoEデータセットでベンチマークし、現在のモデルでは、特にライブコンテンツにおいて、ビデオQoEの正確な評価に苦慮していることを強調した。
そこで本研究では,複数スケールのセマンティック特徴と光フローに基づく動作特徴を統合したエンドツーエンドQoE評価モデルTao-QoEを提案する。
In recent years, live video streaming has gained widespread popularity across various social media platforms. Quality of experience (QoE), which reflects end-users' satisfaction and overall experience, plays a critical role for media service providers to optimize large-scale live compression and transmission strategies to achieve perceptually optimal rate-distortion trade-off. Although many QoE metrics for video-on-demand (VoD) have been proposed, there remain significant challenges in developing QoE metrics for live video streaming. To bridge this gap, we conduct a comprehensive study of subjective and objective QoE evaluations for live video streaming. For the subjective QoE study, we introduce the first live video streaming QoE dataset, TaoLive QoE, which consists of $42$ source videos collected from real live broadcasts and $1,155$ corresponding distorted ones degraded due to a variety of streaming distortions, including conventional streaming distortions such as compression, stalling, as well as live streaming-specific distortions like frame skipping, variable frame rate, etc. Subsequently, a human study was conducted to derive subjective QoE scores of videos in the TaoLive QoE dataset. For the objective QoE study, we benchmark existing QoE models on the TaoLive QoE dataset as well as publicly available QoE datasets for VoD scenarios, highlighting that current models struggle to accurately assess video QoE, particularly for live content. Hence, we propose an end-to-end QoE evaluation model, Tao-QoE, which integrates multi-scale semantic features and optical flow-based motion features to predicting a retrospective QoE score, eliminating reliance on statistical quality of service (QoS) features. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# 統一次元:軽量画像超解法への線形適応的アプローチ
Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution ( http://arxiv.org/abs/2409.17597v1 ) ライセンス: Link先を確認 | Zhenyu Hu, Wanjie Sun, | (参考訳) ウィンドウベースのトランスフォーマーは、局所自己注意(SA)による適応モデリング能力により、超分解能タスクにおいて優れた性能を示した。
しかし、畳み込みニューラルネットワークよりも計算複雑性と推論レイテンシが高い。
本稿では,変換器の適応性は適応的な空間アグリゲーションと高度な構造設計から導かれるものであるのに対して,計算コストと局所的なSAに伴うメモリレイアウト変換から高いレイテンシが得られたことを最初に確認する。
このアグリゲーションアプローチをシミュレートするために、線形複雑度を持つ長距離動的モデリングを可能にする効果的な畳み込みに基づく線形焦点分離型アテンション(FSA)を提案する。
さらに,超軽量情報交換モジュール (IEM) と組み合わせて,Token Mixer による情報収集を促進できる効果的なデュアルブランチ構造を導入する。
最後に,この構造に関して,高次元チャネル情報を保持する自己ゲート機構を組み込むことにより,既存の空間ゲートベースフィードフォワードニューラルネットワークを改良し,より複雑な関係をモデル化する。
これらの進歩により、線形適応ミキサーネットワーク(LAMNet)と呼ばれる畳み込みベースのトランスフォーマーフレームワークを構築した。
LAMNetは、畳み込みニューラルネットワークの計算効率を維持しつつ、既存のSAベースのTransformer法よりも優れた性能を実現し、推論時間の \(3\times\) スピードアップを達成できることを示した。
コードは、https://github.com/zononhzy/LAMNet.comで公開される。
Window-based transformers have demonstrated outstanding performance in super-resolution tasks due to their adaptive modeling capabilities through local self-attention (SA). However, they exhibit higher computational complexity and inference latency than convolutional neural networks. In this paper, we first identify that the adaptability of the Transformers is derived from their adaptive spatial aggregation and advanced structural design, while their high latency results from the computational costs and memory layout transformations associated with the local SA. To simulate this aggregation approach, we propose an effective convolution-based linear focal separable attention (FSA), allowing for long-range dynamic modeling with linear complexity. Additionally, we introduce an effective dual-branch structure combined with an ultra-lightweight information exchange module (IEM) to enhance the aggregation of information by the Token Mixer. Finally, with respect to the structure, we modify the existing spatial-gate-based feedforward neural networks by incorporating a self-gate mechanism to preserve high-dimensional channel information, enabling the modeling of more complex relationships. With these advancements, we construct a convolution-based Transformer framework named the linear adaptive mixer network (LAMNet). Extensive experiments demonstrate that LAMNet achieves better performance than existing SA-based Transformer methods while maintaining the computational efficiency of convolutional neural networks, which can achieve a \(3\times\) speedup of inference time. The code will be publicly available at: https://github.com/zononhzy/LAMNet. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# TA-Cleaner:マルチモーダルコントラスト学習のためのきめ細かいテキストアライメントバックドアディフェンス戦略
TA-Cleaner: A Fine-grained Text Alignment Backdoor Defense Strategy for Multimodal Contrastive Learning ( http://arxiv.org/abs/2409.17601v1 ) ライセンス: Link先を確認 | Yuan Xun, Siyuan Liang, Xiaojun Jia, Xinwei Liu, Xiaochun Cao, | (参考訳) CLIPのようなマルチモーダル・コントラスト学習のための事前訓練済みの大規模モデルは、業界ではデータポゾンによるバックドア攻撃の影響を受けやすいと広く認識されている。
これは下流モデルのトレーニングに重大なリスクをもたらす。
このような潜在的な脅威に対応するため、ファインタニングは、強化されたデータで大規模なモデルを再訓練するよりも、よりシンプルで効率的な防御選択を提供する。
教師付き学習領域では、微調整防衛戦略は優れた防御性能を達成することができる。
しかし、教師なし・半教師なしの領域では、CLIPがいくつかの複雑な攻撃技術に直面している場合、既存の微調整防衛戦略であるCleanCLIPは防御性能にいくつかの制限がある。
テキスト拡張の同義語置換は、テキスト特徴空間を強化するには不十分である。
この弱点を補うために、バックドアトリガの特徴的接続を遮断するために、細粒度の \textbf{T}ext \textbf{A}lignment \textbf{C}leaner (TA-Cleaner) を提案する。
クリーンなCLIPの各エポックにおいて、正および負のサブテキスト生成のためのサンプルをランダムに選択し、そのサブテキストを画像にアライメントして、テキストの自己監督を強化する。
6つの攻撃アルゴリズムに対するTA-Cleanerの有効性を評価し,ImageNet1K上で包括的なゼロショット分類試験を行う。
実験により, TA-Cleanerはファインタニングによる防御技術において, 最先端の防御性を達成できることが確認された。
新規攻撃技術BadCLIPに直面しても, TA-CleanerはTop-1とTop-10のASRをそれぞれ52.02\%, 63.88\%減らしてクリーンCLIPより優れていた。
Pre-trained large models for multimodal contrastive learning, such as CLIP, have been widely recognized in the industry as highly susceptible to data-poisoned backdoor attacks. This poses significant risks to downstream model training. In response to such potential threats, finetuning offers a simpler and more efficient defense choice compared to retraining large models with augmented data. In the supervised learning domain, fine-tuning defense strategies can achieve excellent defense performance. However, in the unsupervised and semi-supervised domain, we find that when CLIP faces some complex attack techniques, the existing fine-tuning defense strategy, CleanCLIP, has some limitations on defense performance. The synonym substitution of its text-augmentation is insufficient to enhance the text feature space. To compensate for this weakness, we improve it by proposing a fine-grained \textbf{T}ext \textbf{A}lignment \textbf{C}leaner (TA-Cleaner) to cut off feature connections of backdoor triggers. We randomly select a few samples for positive and negative subtext generation at each epoch of CleanCLIP, and align the subtexts to the images to strengthen the text self-supervision. We evaluate the effectiveness of our TA-Cleaner against six attack algorithms and conduct comprehensive zero-shot classification tests on ImageNet1K. Our experimental results demonstrate that TA-Cleaner achieves state-of-the-art defensiveness among finetuning-based defense techniques. Even when faced with the novel attack technique BadCLIP, our TA-Cleaner outperforms CleanCLIP by reducing the ASR of Top-1 and Top-10 by 52.02\% and 63.88\%, respectively. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# Open Digital Rights Enforcement Framework (ODRE): 記述から強制可能なポリシーへ
Open Digital Rights Enforcement Framework (ODRE): from descriptive to enforceable policies ( http://arxiv.org/abs/2409.17602v1 ) ライセンス: Link先を確認 | Andrea Cimmino, Juan Cano-Benito, Raúl García-Castro, | (参考訳) 中央集権的なプラットフォームから、Data Spacesのような分散化されたエコシステムに至るまで、データの共有は最重要課題となっている。
そのため、これらの領域ではデータ利用ポリシーの定義が重要となり、効果的なポリシー適用機構の必要性が強調されている。
Open Digital Rights Language (ODRL)は、データ利用ポリシーを記述するために設計されたW3C標準オントロジーである。
本稿では,ODRLに執行能力を提供することを目標とする,オープンデジタル著作権執行(ODRE)フレームワークを紹介する。
ODREフレームワークは、ODRLの記述オントロジー用語を動的データハンドリングや関数評価などの振る舞い仕様を可能にする他の言語と統合する、ODRLポリシーを表現する新しいアプローチを提案する。
このフレームワークには,ODRLポリシの実施アルゴリズムと,PythonとJavaの2つのオープンソース実装が含まれている。
ODREフレームワークは、特定のドメインシナリオに対するODRLの将来の拡張をサポートするように設計されている。
さらに、ODRE、ODRL、および現在の課題の現在の制限が報告されている。
最後に、実装の実施能力、性能、拡張性の特徴を示すために、いくつかの実験を肯定的な結果で実施した。
From centralised platforms to decentralised ecosystems, like Data Spaces, sharing data has become a paramount challenge. For this reason, the definition of data usage policies has become crucial in these domains, highlighting the necessity of effective policy enforcement mechanisms. The Open Digital Rights Language (ODRL) is a W3C standard ontology designed to describe data usage policies, however, it lacks built-in enforcement capabilities, limiting its practical application. This paper introduces the Open Digital Rights Enforcement (ODRE) framework, whose goal is to provide ODRL with enforcement capabilities. The ODRE framework proposes a novel approach to express ODRL policies that integrates the descriptive ontology terms of ODRL with other languages that allow behaviour specification, such as dynamic data handling or function evaluation. The framework includes an enforcement algorithm for ODRL policies and two open-source implementations in Python and Java. The ODRE framework is also designed to support future extensions of ODRL to specific domain scenarios. In addition, current limitations of ODRE, ODRL, and current challenges are reported. Finally, to demonstrate the enforcement capabilities of the implementations, their performance, and their extensibility features, several experiments have been carried out with positive results. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# Deep CLAS:Deep Contextual Listen, Attend, Spell
Deep CLAS: Deep Contextual Listen, Attend and Spell ( http://arxiv.org/abs/2409.17603v1 ) ライセンス: Link先を確認 | Shifu Xiong, Mengzhi Wang, Genshun Wan, Hang Chen, Jianqing Gao, Lirong Dai, | (参考訳) CLAS(Contextual-LAS)は,まれな単語の自動音声認識(ASR)の改善に有効であることが示されている。
これは、文脈情報の不十分な使用につながる明示的な文脈制約を伴わずに、フレーズレベルの文脈モデリングと注意に基づく関連性スコアに頼っている。
本研究では,文脈情報をよりよく利用するための深層CLASを提案する。
本稿では,コンテキスト情報に着目したバイアス損失強制モデルを提案する。
バイアスアテンションのクエリも強化され、バイアスアテンションスコアの精度が向上する。
文脈情報を微粒化するために,句レベルのエンコーディングを文字レベルのエンコーディングに置き換え,コンストラクタによるコンストラクタによるエンコードを行う。
さらに、バイアスアテンションスコアを直接使用して、モデルの出力確率分布を補正する。
AISHELL-1とAISHELL-NERを用いた実験。
AISHELL-1では、CLASベースラインと比較して65.78%の相対的リコールと53.49%の相対的なF1スコア増加が得られる。
Contextual-LAS (CLAS) has been shown effective in improving Automatic Speech Recognition (ASR) of rare words. It relies on phrase-level contextual modeling and attention-based relevance scoring without explicit contextual constraint which lead to insufficient use of contextual information. In this work, we propose deep CLAS to use contextual information better. We introduce bias loss forcing model to focus on contextual information. The query of bias attention is also enriched to improve the accuracy of the bias attention score. To get fine-grained contextual information, we replace phrase-level encoding with character-level encoding and encode contextual information with conformer rather than LSTM. Moreover, we directly use the bias attention score to correct the output probability distribution of the model. Experiments using the public AISHELL-1 and AISHELL-NER. On AISHELL-1, compared to CLAS baselines, deep CLAS obtains a 65.78% relative recall and a 53.49% relative F1-score increase in the named entity recognition scene. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# RmGPT:回転機械生成事前訓練モデル
RmGPT: Rotating Machinery Generative Pretrained Model ( http://arxiv.org/abs/2409.17604v1 ) ライセンス: Link先を確認 | Yilin Wang, Yifei Yu, Kong Sun, Peixuan Lei, Yuxuan Zhang, Enrico Zio, Aiguo Xia, Yuanxiang Li, | (参考訳) 産業では、回転機械の信頼性は生産効率と安全性に不可欠である。
現在のPHM(Prognostics and Health Management)の手法はタスク固有のモデルに依存しており、様々な信号特性、障害モード、運用条件を持つ多様なデータセットを扱う上で大きな課題に直面している。
生成前訓練モデルの進歩に触発されて,診断・予後タスクの統一モデルであるRmGPTを提案する。
RmGPTは、Signal Tokens、Prompt Tokens、Time-Frequency Task Tokens、Fault Tokensを組み込んだ新しいトークンベースのフレームワークを導入し、統一されたモデルアーキテクチャ内で異種データを処理する。
我々は,自己教師付き学習を頑健な特徴抽出に活用し,タスク固有の適応のための効率的なプロンプト学習とともに,次の信号トークン予測事前学習戦略を導入する。
広範囲な実験により、RmGPTは最先端のアルゴリズムを著しく上回り、診断タスクではほぼ完璧な精度、予後タスクでは例外的に低い誤差を達成している。
特にRmGPTは、数ショットの学習シナリオに優れ、16クラスのワンショット実験で92%の精度を実現し、適応性と堅牢性を強調している。
この研究は、回転機械のための強力なPHM基盤モデルとしてRmGPTを確立し、PHMソリューションのスケーラビリティと一般化性を向上させる。
In industry, the reliability of rotating machinery is critical for production efficiency and safety. Current methods of Prognostics and Health Management (PHM) often rely on task-specific models, which face significant challenges in handling diverse datasets with varying signal characteristics, fault modes and operating conditions. Inspired by advancements in generative pretrained models, we propose RmGPT, a unified model for diagnosis and prognosis tasks. RmGPT introduces a novel token-based framework, incorporating Signal Tokens, Prompt Tokens, Time-Frequency Task Tokens and Fault Tokens to handle heterogeneous data within a unified model architecture. We leverage self-supervised learning for robust feature extraction and introduce a next signal token prediction pretraining strategy, alongside efficient prompt learning for task-specific adaptation. Extensive experiments demonstrate that RmGPT significantly outperforms state-of-the-art algorithms, achieving near-perfect accuracy in diagnosis tasks and exceptionally low errors in prognosis tasks. Notably, RmGPT excels in few-shot learning scenarios, achieving 92% accuracy in 16-class one-shot experiments, highlighting its adaptability and robustness. This work establishes RmGPT as a powerful PHM foundation model for rotating machinery, advancing the scalability and generalizability of PHM solutions. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# 良いデータ - 模倣学習の必要性
Good Data Is All Imitation Learning Needs ( http://arxiv.org/abs/2409.17605v1 ) ライセンス: Link先を確認 | Amir Samadi, Konstantinos Koufos, Kurt Debattista, and Mehrdad Dianati | (参考訳) 本稿では,従来の教師学生モデル,模倣学習,行動クローンの限界を自律・自動運転システム(ADS)の文脈で論じる。
このようなモデルの堅牢性を高めるため,エンド・ツー・エンドADSのための新しいデータ拡張手法として,CFE(Counterfactual Explanations)を導入する。
CFEは、最小限の入力修正を通じて意思決定境界付近でトレーニングサンプルを生成することで、特に安全クリティカルなシナリオにおいて、専門家のドライバー戦略をより包括的な表現に導く。
このアプローチは、歩行者を駆逐するなど、まれで困難な運転イベントを扱うモデルの能力を改善する上で有効であり、最終的にはADSにとってより安全で信頼性の高い意思決定につながる。
CARLAシミュレータによる実験により,CF-Driverは現在の最先端手法よりも優れており,高い駆動スコアと低い屈折率が得られることが示された。
具体的には、CF-Driverの駆動スコアは84.2で、前回のベストモデルを上回る15.02ポイントである。
これらの結果は,エンド・ツー・エンド ADS トレーニングにおける CFE の活用の有効性を浮き彫りにした。
さらなる研究を促進するため、CF-Driverコードは公開されている。
In this paper, we address the limitations of traditional teacher-student models, imitation learning, and behaviour cloning in the context of Autonomous/Automated Driving Systems (ADS), where these methods often struggle with incomplete coverage of real-world scenarios. To enhance the robustness of such models, we introduce the use of Counterfactual Explanations (CFEs) as a novel data augmentation technique for end-to-end ADS. CFEs, by generating training samples near decision boundaries through minimal input modifications, lead to a more comprehensive representation of expert driver strategies, particularly in safety-critical scenarios. This approach can therefore help improve the model's ability to handle rare and challenging driving events, such as anticipating darting out pedestrians, ultimately leading to safer and more trustworthy decision-making for ADS. Our experiments in the CARLA simulator demonstrate that CF-Driver outperforms the current state-of-the-art method, achieving a higher driving score and lower infraction rates. Specifically, CF-Driver attains a driving score of 84.2, surpassing the previous best model by 15.02 percentage points. These results highlight the effectiveness of incorporating CFEs in training end-to-end ADS. To foster further research, the CF-Driver code is made publicly available. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# ディリクレに基づくオープンセットアノテーションの選択
Dirichlet-Based Coarse-to-Fine Example Selection For Open-Set Annotation ( http://arxiv.org/abs/2409.17607v1 ) ライセンス: Link先を確認 | Ye-Wen Wang, Chen-Chen Zong, Ming-Kun Xie, Sheng-Jun Huang, | (参考訳) アクティブラーニング(AL)は、ラベルのないデータから最も価値のある例を選択することで大きな成功を収めた。
しかし、これらは通常、オープンセットアノテーション(OSA)として研究されるオープンセットノイズが関与する実際のシナリオで劣化する。
本稿では,ソフトマックスに基づく翻訳不変性から生じる信頼できない予測の劣化に起因し,ディリクレに基づく大まかな事例選択(DCFS)戦略を提案する。
本手法では,エビデンスに基づくデータと分布の不確かさを同時に考慮し,翻訳不変性を破り,未知のクラスを識別する。
さらに、2つの分類器ヘッドから生成されたモデル差分により、ハードな既知のクラス例を同定し、未知クラスと既知のクラスに対してそれぞれモデルの差分率を増幅し緩和する。
最後に、不確実性と不確実性を組み合わせて、2段階戦略を形成し、既知のクラスから最も情報に富んだ例を選択する。
様々なオープンネス比データセットに関する大規模な実験は、DCFSが最先端の性能を達成することを示す。
Active learning (AL) has achieved great success by selecting the most valuable examples from unlabeled data. However, they usually deteriorate in real scenarios where open-set noise gets involved, which is studied as open-set annotation (OSA). In this paper, we owe the deterioration to the unreliable predictions arising from softmax-based translation invariance and propose a Dirichlet-based Coarse-to-Fine Example Selection (DCFS) strategy accordingly. Our method introduces simplex-based evidential deep learning (EDL) to break translation invariance and distinguish known and unknown classes by considering evidence-based data and distribution uncertainty simultaneously. Furthermore, hard known-class examples are identified by model discrepancy generated from two classifier heads, where we amplify and alleviate the model discrepancy respectively for unknown and known classes. Finally, we combine the discrepancy with uncertainties to form a two-stage strategy, selecting the most informative examples from known classes. Extensive experiments on various openness ratio datasets demonstrate that DCFS achieves state-of-art performance. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# 映像異常検出のための出現ブラア駆動オートエンコーダと動作誘導メモリモジュール
Appearance Blur-driven AutoEncoder and Motion-guided Memory Module for Video Anomaly Detection ( http://arxiv.org/abs/2409.17608v1 ) ライセンス: Link先を確認 | Jiahao Lyu, Minghua Zhao, Jing Hu, Xuewen Huang, Shuangli Du, Cheng Shi, Zhiyong Lv, | (参考訳) ビデオ異常検出(VAD)は、しばしば通常のサンプルの分布を学習し、重要な偏差を測定することによって異常を検出するが、望ましくない一般化はいくつかの異常を再構築し、偏差を抑制する。
一方、ほとんどのVADは、新しいターゲットドメインに対するデータセット間の検証には対応できません。
これらの問題に対処するため、ゼロショットによるクロスデータセット検証を実現するために、モーションガイドメモリモジュールを用いた新しいVAD法を提案する。
まず、生画像にガウスのぼかしを加え、ネットワークへの入力として機能するグローバル擬似アノマリーを構築する。
そこで本研究では, 正常試料の擬似異常を抑えるため, マルチスケール残留チャネルアテンションを提案する。
次に、試験相の原情報から動作特徴を検索するために使用されるトレーニング相の動作特徴を記録して記憶項目を得る。
最後に,本手法は注意を通してぼやけた実際の異常を無視し,正常な動作と異常な動作との正常性ギャップを増大させるため,動作記憶項目に依存する。
3つのベンチマークデータセットに対する大規模な実験により,提案手法の有効性が示された。
クロスドメイン手法と比較して,本手法はテスト中の適応を伴わない競争性能を実現する。
Video anomaly detection (VAD) often learns the distribution of normal samples and detects the anomaly through measuring significant deviations, but the undesired generalization may reconstruct a few anomalies thus suppressing the deviations. Meanwhile, most VADs cannot cope with cross-dataset validation for new target domains, and few-shot methods must laboriously rely on model-tuning from the target domain to complete domain adaptation. To address these problems, we propose a novel VAD method with a motion-guided memory module to achieve cross-dataset validation with zero-shot. First, we add Gaussian blur to the raw appearance images, thereby constructing the global pseudo-anomaly, which serves as the input to the network. Then, we propose multi-scale residual channel attention to deblur the pseudo-anomaly in normal samples. Next, memory items are obtained by recording the motion features in the training phase, which are used to retrieve the motion features from the raw information in the testing phase. Lastly, our method can ignore the blurred real anomaly through attention and rely on motion memory items to increase the normality gap between normal and abnormal motion. Extensive experiments on three benchmark datasets demonstrate the effectiveness of the proposed method. Compared with cross-domain methods, our method achieves competitive performance without adaptation during testing. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# ZALM3:マルチターンマルチモーダル医療対話におけるインコンテキスト情報による視覚言語アライメントのゼロショット向上
ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue ( http://arxiv.org/abs/2409.17610v1 ) ライセンス: Link先を確認 | Zhangpu Li, Changhong Zou, Suxue Ma, Zhicheng Yang, Chen Du, Youbao Tang, Zhenjie Cao, Ning Zhang, Jui-Hsin Lai, Ruei-Sung Lin, Yuan Ni, Xingzhi Sun, Jing Xiao, Kai Zhang, Mei Han, | (参考訳) 近年の大型言語モデル(LLM)の隆盛は、医療分野におけるビジョン言語モデル(VLM)の普及を加速させている。
オンライン医療相談のシナリオでは、医師は患者が複数のラウンドで提供したテキストや画像に反応して健康状態を診断し、マルチターンマルチモーダル医療対話フォーマットを形成する。
従来の医療用視覚質問応答 (Med-VQA) において, 専門機器が取得した高品質な画像とは違って, 症例内の画像は患者の携帯電話で撮影される。
これらの画像は、過剰な背景要素や病変領域がかなりオフセンタであるなどの問題があり、モデルトレーニングフェーズにおける視覚言語アライメントの低下につながる。
本稿では,マルチターンマルチモーダル医療対話における視覚言語アライメント向上のためのゼロショット戦略であるZALM3を提案する。
そこでZALM3では,画像前のテキスト会話が画像中の関心領域(RoIs)を推測できるので,先行コンテキストからキーワードを要約するLLMと,RoIsを抽出するビジュアルグラウンドモデルを用いる。
更新された画像は、不要な背景ノイズを排除し、より効果的な視覚言語アライメントを提供する。
提案手法をよりよく評価するために,マルチターン・ユニモーダル・マルチモーダル医療対話のための主観評価尺度を設計し,詳細な性能比較を行う。
本研究は,3つの異なる臨床部門を対象に,統計的に有意なZALM3の有効性を示した。
The rocketing prosperity of large language models (LLMs) in recent years has boosted the prevalence of vision-language models (VLMs) in the medical sector. In our online medical consultation scenario, a doctor responds to the texts and images provided by a patient in multiple rounds to diagnose her/his health condition, forming a multi-turn multimodal medical dialogue format. Unlike high-quality images captured by professional equipment in traditional medical visual question answering (Med-VQA), the images in our case are taken by patients' mobile phones. These images have poor quality control, with issues such as excessive background elements and the lesion area being significantly off-center, leading to degradation of vision-language alignment in the model training phase. In this paper, we propose ZALM3, a Zero-shot strategy to improve vision-language ALignment in Multi-turn Multimodal Medical dialogue. Since we observe that the preceding text conversations before an image can infer the regions of interest (RoIs) in the image, ZALM3 employs an LLM to summarize the keywords from the preceding context and a visual grounding model to extract the RoIs. The updated images eliminate unnecessary background noise and provide more effective vision-language alignment. To better evaluate our proposed method, we design a new subjective assessment metric for multi-turn unimodal/multimodal medical dialogue to provide a fine-grained performance comparison. Our experiments across three different clinical departments remarkably demonstrate the efficacy of ZALM3 with statistical significance. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# 多様性駆動型合成: データセット蒸留の強化
Directed Weight Adjustment
Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment ( http://arxiv.org/abs/2409.17612v1 ) ライセンス: Link先を確認 | Jiawei Du, Xin Zhang, Juncheng Hu, Wenxin Huang, Joey Tianyi Zhou | (参考訳) データ関連費用の急激な増加は、最も有益な特徴を維持しながらデータセットを凝縮する研究を動機付けている。
そのため、近年はデータセットの蒸留が盛んになっている。
このパラダイムは、ニューラルネットワークをトレーニングする際の元のデータセットを置き換えるのに十分な、合成データセットを生成する。
これらの合成データセットの冗長性を避けるためには、各要素が固有の特徴を持ち、合成段階において他の要素と異なるままであることが重要である。
本稿では, 合成データセットの多様性に関する理論的, 実証的な分析を行う。
多様性の向上は並列化可能であるが孤立した合成アプローチを改善することができると我々は主張する。
具体的には,動的かつ指向的な重み調整技術を用いて合成過程を変調し,各合成インスタンスの代表性と多様性を最大化する手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
CIFAR, Tiny-ImageNet, ImageNet-1Kなどの多種多様なデータセットを対象とした大規模な実験を行い, 計算コストを最小に抑えた多種多様な合成データセットの創出の有効性を明らかにした。
The sharp increase in data-related expenses has motivated research into condensing datasets while retaining the most informative features. Dataset distillation has thus recently come to the fore. This paradigm generates synthetic dataset that are representative enough to replace the original dataset in training a neural network. To avoid redundancy in these synthetic datasets, it is crucial that each element contains unique features and remains diverse from others during the synthesis stage. In this paper, we provide a thorough theoretical and empirical analysis of diversity within synthesized datasets. We argue that enhancing diversity can improve the parallelizable yet isolated synthesizing approach. Specifically, we introduce a novel method that employs dynamic and directed weight adjustment techniques to modulate the synthesis process, thereby maximizing the representativeness and diversity of each synthetic instance. Our method ensures that each batch of synthetic data mirrors the characteristics of a large, varying subset of the original dataset. Extensive experiments across multiple datasets, including CIFAR, Tiny-ImageNet, and ImageNet-1K, demonstrate the superior performance of our method, highlighting its effectiveness in producing diverse and representative synthetic datasets with minimal computational expense. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# デジタル農業展開のカーボンフットプリントの推定:パラメトリックボトムアップモデルアプローチ
Estimating The Carbon Footprint Of Digital Agriculture Deployment: A Parametric Bottom-Up Modelling Approach ( http://arxiv.org/abs/2409.17617v1 ) ライセンス: Link先を確認 | Pierre La Rocca, Gaël Guennebaud, Aurélie Bugeau, Anne-Laure Ligozat, | (参考訳) デジタル化は農業の持続可能性を高めるレバーとして現れる。
しかし、デジタル農業の持続可能性に関する既存の研究は、デジタル機器を大規模に展開する際の環境効果を無視したままである。
本稿では,デジタル農業シナリオの炭素フットプリントを推定するためのボトムアップ手法を提案する。
これは2つのユースケースに適用され、デジタル農業が異質な炭素フットプリントを持つデバイスの多様性を包含し、より複雑なデバイスがより高いフットプリントを生み出すことが示される。
本研究は,デジタル農業の展開をモデル化する上で,機器の多元性や農地の大きさの領域分布を考慮することの必要性を強調することにより,デジタル技術が農業にもたらす第1次効果のさらなる探求の必要性を強調した。
Digitalization appears as a lever to enhance agriculture sustainability. However, existing works on digital agriculture's own sustainability remain scarce, disregarding the environmental effects of deploying digital devices on a large-scale. We propose a bottom-up method to estimate the carbon footprint of digital agriculture scenarios considering deployment of devices over a diversity of farm sizes. It is applied to two use-cases and demonstrates that digital agriculture encompasses a diversity of devices with heterogeneous carbon footprints and that more complex devices yield higher footprints not always compensated by better performances or scaling gains. By emphasizing the necessity of considering the multiplicity of devices, and the territorial distribution of farm sizes when modelling digital agriculture deployments, this study highlights the need for further exploration of the first-order effects of digital technologies in agriculture. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# 超伝導格子プロセッサにおけるゼロ温度自然対称性破壊の数値シミュレーション
Digital simulation of zero-temperature spontaneous symmetry breaking in a superconducting lattice processor ( http://arxiv.org/abs/2409.17620v1 ) ライセンス: Link先を確認 | Chang-Kang Hu, Guixu Xie, Kasper Poulsen, Yuxuan Zhou, Ji Chu, Chilong Liu, Ruiyang Zhou, Haolan Yuan, Yuecheng Shen, Song Liu, Nikolaj T. Zinner, Dian Tan, Alan C. Santos, Dapeng Yu, | (参考訳) 量子シミュレータは、古典的コンピュータの大規模量子システムに対処するための限られた資源や、自然の基本的な法則によって課される制約など、従来の方法ではアクセスできない量子現象を研究するのに理想的なプラットフォームである。
ここでは,3世代ケイリー木状超伝導格子における自発対称性破壊(SSB)による反強磁性(AFM)と強磁性(FM)相形成の数値シミュレーションを行った。
我々は,システムダイナミクスを模倣するディジタル量子アニールアルゴリズムを開発し,接続相関関数によるSSB誘起相転移のシグネチャの出現を観察する。
古典的AFMから量子FMへの相転移のシグネチャは、最も近い隣り合う相互作用系しか持たないゼロ温度アディベート進化中の系で起こり、最も短い相互作用範囲が可能であることを実証する。
両部共役レニーエントロピーの性質を絡み合いの証人として活用することにより、絡み合った量子FMとAFM相の形成を観察する。
我々の結果は、凝縮物質物理学とデジタル量子アニールの新展開への展望を開いている。
Quantum simulators are ideal platforms to investigate quantum phenomena that are inaccessible through conventional means, such as the limited resources of classical computers to address large quantum systems or due to constraints imposed by fundamental laws of nature. Here, through a digitized adiabatic evolution, we report an experimental simulation of antiferromagnetic (AFM) and ferromagnetic (FM) phase formation induced by spontaneous symmetry breaking (SSB) in a three-generation Cayley tree-like superconducting lattice. We develop a digital quantum annealing algorithm to mimic the system dynamics, and observe the emergence of signatures of SSB-induced phase transition through a connected correlation function. We demonstrate that the signature of phase transition from classical AFM to quantum FM happens in systems undergoing zero-temperature adiabatic evolution with only nearest-neighbor interacting systems, the shortest range of interaction possible. By harnessing properties of the bipartite Renyi entropy as an entanglement witness, we observe the formation of entangled quantum FM and AFM phases. Our results open perspectives for new advances in condensed matter physics and digitized quantum annealing. | 翻訳日:2024-09-28 22:36:10 公開日:2024-09-26 |
# ニューラルP$3$M:幾何学のための長距離相互作用モデリングエンハンサー
GNN
Neural P$^3$M: A Long-Range Interaction Modeling Enhancer for Geometric GNNs ( http://arxiv.org/abs/2409.17622v1 ) ライセンス: Link先を確認 | Yusong Wang, Chaoran Cheng, Shaoning Li, Yuxuan Ren, Bin Shao, Ge Liu, Pheng-Ann Heng, Nanning Zheng | (参考訳) 幾何学グラフニューラルネットワーク(GNN)は、分子幾何学をモデル化するための強力なツールとして登場した。
しかし、それらは大きな分子系における長距離相互作用を効果的に捉えるのに限界に遭遇する。
この課題に対処するために、我々は、原子とメッシュポイントを組み込んだり、伝統的な数学的操作をトレーニング可能な方法で再現することによって、それらの能力の範囲を広げるために、幾何的GNNの汎用エンハンサーであるNeural P$3$Mを導入する。
ニューラルP$3$Mは、幅広い分子系にわたる柔軟性を示し、エネルギーと力の予測において顕著な精度を示し、MD22データセットのようなベンチマークでより優れている。
また、さまざまなアーキテクチャを統合しながら、OE62データセットで平均22%の改善も達成している。
Geometric graph neural networks (GNNs) have emerged as powerful tools for modeling molecular geometry. However, they encounter limitations in effectively capturing long-range interactions in large molecular systems. To address this challenge, we introduce Neural P$^3$M, a versatile enhancer of geometric GNNs to expand the scope of their capabilities by incorporating mesh points alongside atoms and reimaging traditional mathematical operations in a trainable manner. Neural P$^3$M exhibits flexibility across a wide range of molecular systems and demonstrates remarkable accuracy in predicting energies and forces, outperforming on benchmarks such as the MD22 dataset. It also achieves an average improvement of 22% on the OE62 dataset while integrating with various architectures. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# エッジ微分プライバシーを持つフルダイナミックグラフアルゴリズム
Fully Dynamic Graph Algorithms with Edge Differential Privacy ( http://arxiv.org/abs/2409.17623v1 ) ライセンス: Link先を確認 | Sofya Raskhodnikova, Teresa Anna Steiner, | (参考訳) 完全動的更新による連続リリースの難易度設定におけるグラフ解析のための差分プライベートアルゴリズムについて検討し,エッジの挿入と削除が時間とともに行われ,アルゴリズムは各ステップで解を更新する必要がある。
従来の研究は、挿入のみや削除のみを処理できる多くのグラフ問題に対して微分プライベートなアルゴリズム(部分動的アルゴリズムと呼ばれる)を示し、完全な動的設定に対していくつかの硬度結果を得た。
後者の設定における唯一のアルゴリズムは、Fichtenberger, Henzinger, Ost (ESA 21) のエッジカウントと、Fichtenberger, Henzinger, Upadhyay (ICML 23) のグラフカットの値の解放である。
我々は、他のいくつかの基本グラフ統計量(三角形数、連結成分数、最大マッチングのサイズ、度数ヒストグラムなど)に対して、最初の微分プライベートで完全に動的なグラフアルゴリズムを提供し、その誤差を分析し、この設定における全てのアルゴリズムの誤差に強い下界を示す。
完全動的グラフアルゴリズムにおけるエッジ差分プライバシーの2つの変種(事象レベルとアイテムレベル)について検討する。
いくつかの基本グラフ問題に対して、事象レベルとアイテムレベルの完全動的アルゴリズムの誤差について、上下境界を与える。
アイテムレベル(二つの概念のより厳密な部分)でプライベートな完全な動的アルゴリズムは以前には知られていなかった。
アイテムレベルのプライバシの場合、いくつかの問題に対して、アルゴリズムは低いバウンドにマッチします。
We study differentially private algorithms for analyzing graphs in the challenging setting of continual release with fully dynamic updates, where edges are inserted and deleted over time, and the algorithm is required to update the solution at every time step. Previous work has presented differentially private algorithms for many graph problems that can handle insertions only or deletions only (called partially dynamic algorithms) and obtained some hardness results for the fully dynamic setting. The only algorithms in the latter setting were for the edge count, given by Fichtenberger, Henzinger, and Ost (ESA 21), and for releasing the values of all graph cuts, given by Fichtenberger, Henzinger, and Upadhyay (ICML 23). We provide the first differentially private and fully dynamic graph algorithms for several other fundamental graph statistics (including the triangle count, the number of connected components, the size of the maximum matching, and the degree histogram), analyze their error and show strong lower bounds on the error for all algorithms in this setting. We study two variants of edge differential privacy for fully dynamic graph algorithms: event-level and item-level. We give upper and lower bounds on the error of both event-level and item-level fully dynamic algorithms for several fundamental graph problems. No fully dynamic algorithms that are private at the item-level (the more stringent of the two notions) were known before. In the case of item-level privacy, for several problems, our algorithms match our lower bounds. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# 留意機構の選択におけるベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニ
Benign or Not-Benign Overfitting in Token Selection of Attention Mechanism ( http://arxiv.org/abs/2409.17625v1 ) ライセンス: Link先を確認 | Keitaro Sakamoto, Issei Sato, | (参考訳) 現代の過パラメータニューラルネットワークは、高い一般化性能を維持しながら、トレーニングデータを完璧に適合するようにトレーニングすることができる。
この「良性過剰適合」現象は近年の理論的研究の急増の中で研究されてきたが、これらの研究のほとんどは線形モデルや二層ニューラルネットワークに限られている。
本研究では,アテンションアーキテクチャのトークン選択機構における良性過剰適合の解析を行い,トランスフォーマーモデルの成功を特徴付ける。
まず、良質な過剰適合解の存在を示し、注意アーキテクチャにおけるそのメカニズムを説明します。
次に、モデルがそのような解に収束するかどうかを議論し、注意アーキテクチャに特有の困難を提起する。
次に,訓練中の注意確率の挙動に基づいて,異なるシナリオを条件づけることにより,良性過適合事例と良性過適合症例を提示する。
私たちの知る限りでは、注意機構に対する良心過剰適合を特徴づける最初の研究である。
Modern over-parameterized neural networks can be trained to fit the training data perfectly while still maintaining a high generalization performance. This "benign overfitting" phenomenon has been studied in a surge of recent theoretical work; however, most of these studies have been limited to linear models or two-layer neural networks. In this work, we analyze benign overfitting in the token selection mechanism of the attention architecture, which characterizes the success of transformer models. We first show the existence of a benign overfitting solution and explain its mechanism in the attention architecture. Next, we discuss whether the model converges to such a solution, raising the difficulties specific to the attention architecture. We then present benign overfitting cases and not-benign overfitting cases by conditioning different scenarios based on the behavior of attention probabilities during training. To the best of our knowledge, this is the first study to characterize benign overfitting for the attention mechanism. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# Convolutional Signal Propagation: ハイパーグラフのためのシンプルなスケーラブルアルゴリズム
Convolutional Signal Propagation: A Simple Scalable Algorithm for Hypergraphs ( http://arxiv.org/abs/2409.17628v1 ) ライセンス: Link先を確認 | Pavel Procházka, Marek Dědič, Lukáš Bajer, | (参考訳) 過去10年間、グラフ、特にグラフニューラルネットワーク(GNN)で学ぶための多くの方法が出現してきた。
しかしながら、これらの手法は2つのエンティティタイプ間の相互作用を表す二部グラフ(ハイパーグラフと同等)のようなより複雑な構造には直接適用されないことが多い(例えば、ユーザーが映画を好む)。
本稿では,2部グラフ(ハイパーグラフ)をネイティブに操作し,ほんの数行のコードで実装可能な,非パラメトリックなシンプルでスケーラブルな手法である畳み込み信号伝搬(CSP)を提案する。
CSPの定義後,ラベル伝搬,ナイーブベイズ,ハイパーグラフ畳み込みネットワークなど,確立された手法との関係を実証する。
我々は,複数の領域からの実世界のデータセットに対する参照手法に対してCSPを評価し,検索と分類タスクに焦点をあてた。
この結果から, CSPは計算複雑性を低く保ちながら, 競争性能が向上し, ハイパーグラフノードの分類と検索のベースラインとして理想的な選択肢であることが示唆された。
さらに、ハイパーグラフの操作にも拘わらず、CSPは自然言語処理のようなハイパーグラフに関連のないタスクで良い結果が得られる。
Last decade has seen the emergence of numerous methods for learning on graphs, particularly Graph Neural Networks (GNNs). These methods, however, are often not directly applicable to more complex structures like bipartite graphs (equivalent to hypergraphs), which represent interactions among two entity types (e.g. a user liking a movie). This paper proposes Convolutional Signal Propagation (CSP), a non-parametric simple and scalable method that natively operates on bipartite graphs (hypergraphs) and can be implemented with just a few lines of code. After defining CSP, we demonstrate its relationship with well-established methods like label propagation, Naive Bayes, and Hypergraph Convolutional Networks. We evaluate CSP against several reference methods on real-world datasets from multiple domains, focusing on retrieval and classification tasks. Our results show that CSP offers competitive performance while maintaining low computational complexity, making it an ideal first choice as a baseline for hypergraph node classification and retrieval. Moreover, despite operating on hypergraphs, CSP achieves good results in tasks typically not associated with hypergraphs, such as natural language processing. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# 相互作用認識型グラフアテンション機構による手動物体の再構成
Hand-object reconstruction via interaction-aware graph attention mechanism ( http://arxiv.org/abs/2409.17629v1 ) ライセンス: Link先を確認 | Taeyun Woo, Tae-Kyun Kim, Jinah Park, | (参考訳) 高度な視覚コンピューティングの必要性が高まっているため、手と物体の両方のポーズを推定することが重要な研究領域となっている。
主な課題は、接触や身体的可視性など、手と物体の相互作用の理解と再構築である。
既存のアプローチでは、しばしば手とオブジェクトメッシュの空間情報を組み込むグラフニューラルネットワークを採用している。
しかし、これらのアプローチは、手書きグラフとオブジェクトグラフの間のエッジを変更することなくグラフの可能性を完全に活用していない。
本稿では,手動物体の相互作用を考慮に入れた相互作用認識型グラフアテンション機構を組み込んだグラフベース精錬法を提案する。
エッジを用いて、個々のグラフ内および異なるグラフ間の密接な相関ノード間の接続を確立する。
提案手法の有効性を示す実験を行った。
Estimating the poses of both a hand and an object has become an important area of research due to the growing need for advanced vision computing. The primary challenge involves understanding and reconstructing how hands and objects interact, such as contact and physical plausibility. Existing approaches often adopt a graph neural network to incorporate spatial information of hand and object meshes. However, these approaches have not fully exploited the potential of graphs without modification of edges within and between hand- and object-graphs. We propose a graph-based refinement method that incorporates an interaction-aware graph-attention mechanism to account for hand-object interactions. Using edges, we establish connections among closely correlated nodes, both within individual graphs and across different graphs. Experiments demonstrate the effectiveness of our proposed method with notable improvements in the realm of physical plausibility. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# 正規化フローを用いたモデルフリー確率過程モデリングと最適化
Model-Free Stochastic Process Modeling and Optimization using Normalizing Flows ( http://arxiv.org/abs/2409.17632v1 ) ライセンス: Link先を確認 | Eike Cramer, | (参考訳) 実世界の化学プロセスは、しばしば非自明な相関と状態依存のゆらぎを持つ確率力学を示す。
しかし、ほとんどのプロセスモデルでは、決定論的予測に定常雑音項を加えるだけで、不正確な予測につながる可能性がある。
本研究では, 離散時間モデル (DTM) として条件正規化フローを用いて, 化学過程の確率力学を学習することを提案する。
正規化フローは、事前の状態と制御入力が与えられたシステムの確率密度関数(PDF)の明示的な表現を学習する。
結果のモデルは自然に確率的および確率的集合点追跡目標と確率的制約を定式化することができる。
連続反応器および原子炉カスケードへの応用では、正規化流は長期水平線上で安定なシミュレーションを行い、高品質な結果が開ループ制御のための確率的および確率的MPC定式化をもたらす。
さらに、確率制約付き最適化により、確率的反応を伴う原子炉カスケードの信頼性の高い起動制御が見つかる。
結論として、条件正規化フローは非線形確率力学をモデル化するための優れた選択である。
Real-world chemical processes often exhibit stochastic dynamics with non-trivial correlations and state-dependent fluctuations. However, most process models simply add stationary noise terms to a deterministic prediction, which can lead to inaccurate predictions. This work proposes using conditional normalizing flows as discrete-time models (DTMs) to learn the stochastic dynamics of chemical processes. Normalizing flows learn an explicit expression of the system states' probability density function (PDF) given prior states and control inputs. The resulting model naturally allows for formulating stochastic and probabilistic setpoint-tracking objectives and chance constraints. In applications to a continuous reactor and a reactor cascade, the normalizing flow yields stable simulations over long time horizons and high-quality results in stochastic and probabilistic MPC formulation for open-loop control. Furthermore, a chance-constrained optimization finds reliable startup controls for the reactor cascade with stochastic reactions. In conclusion, the conditional normalizing flow presents an excellent choice for modeling nonlinear stochastic dynamics. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# P4Q: ビジュアル言語モデルにおける量子化のためのプロンプトを学ぶ
P4Q: Learning to Prompt for Quantization in Visual-language Models ( http://arxiv.org/abs/2409.17634v1 ) ライセンス: Link先を確認 | Huixin Sun, Runqi Wang, Yanjing Li, Xianbin Cao, Xiaolong Jiang, Yao Hu, Baochang Zhang, | (参考訳) 大規模な事前学習型ビジョンランゲージモデル(VLM)は、様々な視覚的およびマルチモーダルなタスクで注目されているが、下流のアプリケーションプラットフォームへのVLMの展開は、トレーニングサンプルとコンピューティングリソースの禁止要件のため、依然として困難である。
VLMの微調整と量子化は、緊急に必要なサンプルと計算コストを大幅に削減することができる。
QAT(Quantization-Aware Training)は大規模VLMを効果的に定量化できるが、低ビットのPTQ(Post-Training Quantization)は顕著なパフォーマンス低下に悩まされている。
そこで我々は,PTQモデルの認識性能を高めるために,コントラッシブ損失監視を活用する軽量アーキテクチャを設計し,微調整と量子化のバランスをとる手法を提案する。
本手法は,低ビット量化による画像特徴とテキスト特徴とのギャップを,テキスト表現を再編成する学習可能なプロンプトと,画像特徴とテキスト特徴の分布認識のための低ビットアダプタに基づいて効果的に低減することができる。
また,コサイン類似度予測に基づく蒸留損失を導入し,全精度教師を用いて定量化モデルを蒸留する。
実験の結果,P4Q法は先行技術よりも優れており,完全精度に匹敵する結果も得られた。
例えば、私たちの8ビットP4Qは理論的にCLIP-ViT/B-32を4$\times$で圧縮し、66.94\%のTop-1精度を実現し、ImageNetデータセットに無視できる追加パラメータを2.24\%で学習可能なプロンプト微調整完全精度モデルより優れています。
Large-scale pre-trained Vision-Language Models (VLMs) have gained prominence in various visual and multimodal tasks, yet the deployment of VLMs on downstream application platforms remains challenging due to their prohibitive requirements of training samples and computing resources. Fine-tuning and quantization of VLMs can substantially reduce the sample and computation costs, which are in urgent need. There are two prevailing paradigms in quantization, Quantization-Aware Training (QAT) can effectively quantize large-scale VLMs but incur a huge training cost, while low-bit Post-Training Quantization (PTQ) suffers from a notable performance drop. We propose a method that balances fine-tuning and quantization named ``Prompt for Quantization'' (P4Q), in which we design a lightweight architecture to leverage contrastive loss supervision to enhance the recognition performance of a PTQ model. Our method can effectively reduce the gap between image features and text features caused by low-bit quantization, based on learnable prompts to reorganize textual representations and a low-bit adapter to realign the distributions of image and text features. We also introduce a distillation loss based on cosine similarity predictions to distill the quantized model using a full-precision teacher. Extensive experimental results demonstrate that our P4Q method outperforms prior arts, even achieving comparable results to its full-precision counterparts. For instance, our 8-bit P4Q can theoretically compress the CLIP-ViT/B-32 by 4 $\times$ while achieving 66.94\% Top-1 accuracy, outperforming the learnable prompt fine-tuned full-precision model by 2.24\% with negligible additional parameters on the ImageNet dataset. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# FlowMAC:低ビットレート音声符号化のための条件付きフローマッチング
FlowMAC: Conditional Flow Matching for Audio Coding at Low Bit Rates ( http://arxiv.org/abs/2409.17635v1 ) ライセンス: Link先を確認 | Nicola Pia and Martin Strauss and Markus Multrus and Bernd Edler | (参考訳) 本稿では、条件付きフローマッチング(CFM)に基づいて、低ビットレートで高品質な汎用音声圧縮のための新しいニューラルオーディオコーデックであるFlowMACを紹介する。
FlowMACはメルスペクトログラムエンコーダ、量子化器、デコーダを共同で学習する。
推論時に、デコーダはODEソルバを介して連続正規化フローを統合し、高品質のメルスペクトログラムを生成する。
CFMベースのアプローチが一般的なオーディオコーディングに適用されたのはこれが初めてで、スケーラブルでシンプルでメモリ効率のよいトレーニングを可能にする。
主観評価の結果,3kbpsのFlowMACは,最先端のGANベースとDDPMベースのニューラルオーディオコーデックの2倍の画質を実現していることがわかった。
さらに、FlowMACは変更可能な推論パイプラインを提供しており、複雑さと品質をトレードオフすることができる。
これにより、高い知覚品質を維持しながら、CPU上のリアルタイムコーディングが可能になる。
This paper introduces FlowMAC, a novel neural audio codec for high-quality general audio compression at low bit rates based on conditional flow matching (CFM). FlowMAC jointly learns a mel spectrogram encoder, quantizer and decoder. At inference time the decoder integrates a continuous normalizing flow via an ODE solver to generate a high-quality mel spectrogram. This is the first time that a CFM-based approach is applied to general audio coding, enabling a scalable, simple and memory efficient training. Our subjective evaluations show that FlowMAC at 3 kbps achieves similar quality as state-of-the-art GAN-based and DDPM-based neural audio codecs at double the bit rate. Moreover, FlowMAC offers a tunable inference pipeline, which permits to trade off complexity and quality. This enables real-time coding on CPU, while maintaining high perceptual quality. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# ソーシャルメディアにおける誤情報共有の介入戦略--文献分析による分析
Intervention strategies for misinformation sharing on social media: A bibliometric analysis ( http://arxiv.org/abs/2409.17637v1 ) ライセンス: Link先を確認 | Juanita Zainudin, Nazlena Mohamad Ali, Alan F. Smeaton, Mohamad Taha Ijab, | (参考訳) ソーシャルメディアチャンネル間で共有される広く分散された誤報は、社会の幸福の多くの側面に重大な脅威をもたらすプレスング問題である。
不正確な共有情報は混乱を引き起こし、精神的健康に悪影響を及ぼし、誤報による意思決定につながる。
そのため、誤報の拡散を抑えるために積極的に対応していくことが重要である。
これにより、学者はソーシャルメディア上での誤情報共有に対する様々な介入戦略を検討するようになった。
本研究では、ソーシャルメディア上での誤情報共有に対処するための介入戦略のタイプ分析を行い、認識ベース、自動化ベース、情報ベース、ハイブリッドベースの4つの重要なクラスタを特定した。
文献選択プロセスは、PRISMA法を利用して、透明性と再現性を維持しつつ、関連する文献の体系的かつ包括的な分析を確実にした。
2013-2023年に出版された合計139の論文が分析された。
一方, タイポロジー開発のための性能解析と科学マッピング技術を用いて, バイオロメトリ分析を行った。
フィールドのパターンと進化を明らかにするために, 類型学の比較分析を行った。
これは理論と実用の両方に価値ある洞察を与える。
この研究は、学術研究や出版への学術的な貢献が研究のギャップに対処し、この分野の知識を拡大するのに役立つと結論付けている。
ソーシャルメディア上の誤情報共有のための介入戦略の進化を理解することは、この永続的な問題に対するより効果的で持続可能なソリューションの開発に寄与する将来の研究を支援することができる。
Widely distributed misinformation shared across social media channels is a pressing issue that poses a significant threat to many aspects of society's well-being. Inaccurate shared information causes confusion, can adversely affect mental health, and can lead to mis-informed decision-making. Therefore, it is important to implement proactive measures to intervene and curb the spread of misinformation where possible. This has prompted scholars to investigate a variety of intervention strategies for misinformation sharing on social media. This study explores the typology of intervention strategies for addressing misinformation sharing on social media, identifying 4 important clusters - cognition-based, automated-based, information-based, and hybrid-based. The literature selection process utilized the PRISMA method to ensure a systematic and comprehensive analysis of relevant literature while maintaining transparency and reproducibility. A total of 139 articles published from 2013-2023 were then analyzed. Meanwhile, bibliometric analyses were conducted using performance analysis and science mapping techniques for the typology development. A comparative analysis of the typology was conducted to reveal patterns and evolution in the field. This provides valuable insights for both theory and practical applications. Overall, the study concludes that scholarly contributions to scientific research and publication help to address research gaps and expand knowledge in this field. Understanding the evolution of intervention strategies for misinformation sharing on social media can support future research that contributes to the development of more effective and sustainable solutions to this persistent problem. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# T3: ターゲットタスクのためのアシスタントタスクを反復的に訓練する新しいゼロショットトランスファー学習フレームワーク
T3: A Novel Zero-shot Transfer Learning Framework Iteratively Training on an Assistant Task for a Target Task ( http://arxiv.org/abs/2409.17640v1 ) ライセンス: Link先を確認 | Xindi Tong, Yujin Zhu, Shijian Fan, Liang Xu, | (参考訳) GPTやLLaMAファミリーのような大規模言語モデル(LLM)では、オープンソースのトレーニングデータセットが不十分であり、文脈の詳細処理の要求が高いため、長いテキストの要約は、徐々に大量の情報を効率的に処理するために欠かせない。
この問題に対処するために、ターゲットタスクのアシスタントタスクにおいて、ベースラインLLMを反復的にトレーニングする、新しいゼロショット転送学習フレームワークT3を設計する。
実際には、T3は、質問応答をアシスタントタスクとして活用して長文要約タスクに対処し、BBCの要約であるNarraSum、FairytaleQA、NLQuADデータセットにその効果を検証し、ROUGEの14%近くの改善、BLEUの35%の改善、Factscoreの16%の改善を3つのベースラインLCMと比較し、さらにアシスタントターゲットタスクの組み合わせの可能性を示した。
Long text summarization, gradually being essential for efficiently processing large volumes of information, stays challenging for Large Language Models (LLMs) such as GPT and LLaMA families because of the insufficient open-sourced training datasets and the high requirement of contextual details dealing. To address the issue, we design a novel zero-shot transfer learning framework, abbreviated as T3, to iteratively training a baseline LLM on an assistant task for the target task, where the former should own richer data resources and share structural or semantic similarity with the latter. In practice, T3 is approached to deal with the long text summarization task by utilizing question answering as the assistant task, and further validated its effectiveness on the BBC summary, NarraSum, FairytaleQA, and NLQuAD datasets, with up to nearly 14% improvement in ROUGE, 35% improvement in BLEU, and 16% improvement in Factscore compared to three baseline LLMs, demonstrating its potential for more assistant-target task combinations. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# AIがデュアルフォーカスで委任:プライバシと戦略的自己開示を保証する
AI Delegates with a Dual Focus: Ensuring Privacy and Strategic Self-Disclosure ( http://arxiv.org/abs/2409.17642v1 ) ライセンス: Link先を確認 | Xi Chen, Zhiyang Zhang, Fangkai Yang, Xiaoting Qin, Chao Du, Xi Cheng, Hangxin Liu, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, | (参考訳) 大規模言語モデル(LLM)ベースのAIデリゲートは、ユーザに代わって行動するためにますます利用され、会話インターフェースを通じて幅広いタスクを支援している。
その利点にもかかわらず、特に社会的相互作用を含むシナリオにおいて、プライバシー漏洩の潜在的なリスクについて懸念が生じる。
既存の研究は、機密性の高いユーザー情報へのAIデリゲートへのアクセスを制限することでプライバシ保護に重点を置いているが、多くの社会的シナリオでは、望ましい結果を達成するためにプライベートな詳細を開示し、プライバシ保護と開示のバランスを取る必要がある。
この課題に対処するために、さまざまな社会的関係やタスクシナリオにわたるAIデリゲートに対するユーザの嗜好を調査するためのパイロット研究を行い、プライバシを重視した自己開示を可能にする新しいAIデリゲートシステムを提案する。
我々のユーザー調査は、提案されたAIデリゲートがプライバシーを戦略的に保護し、多様なダイナミックなソーシャルインタラクションにおけるその利用の先駆者であることを実証している。
Large language model (LLM)-based AI delegates are increasingly utilized to act on behalf of users, assisting them with a wide range of tasks through conversational interfaces. Despite their advantages, concerns arise regarding the potential risk of privacy leaks, particularly in scenarios involving social interactions. While existing research has focused on protecting privacy by limiting the access of AI delegates to sensitive user information, many social scenarios require disclosing private details to achieve desired outcomes, necessitating a balance between privacy protection and disclosure. To address this challenge, we conduct a pilot study to investigate user preferences for AI delegates across various social relations and task scenarios, and then propose a novel AI delegate system that enables privacy-conscious self-disclosure. Our user study demonstrates that the proposed AI delegate strategically protects privacy, pioneering its use in diverse and dynamic social interactions. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# 効率の良いフェアネス性能パレートフロント計算
Efficient Fairness-Performance Pareto Front Computation ( http://arxiv.org/abs/2409.17643v1 ) ライセンス: Link先を確認 | Mark Kozdoba, Binyamin Perets and Shie Mannor | (参考訳) 表現の公平さと表現から派生した分類器のパフォーマンスの間には、よく知られた固有のトレードオフがある。
現代のほとんどの表現学習手法における最適化アルゴリズムの複雑さのため、与えられた方法では、得られたフェアネス・パフォーマンス曲線が最適であるかどうか、すなわち、基礎となるデータ分布のこれらの量に対して真のパレートフロントに近いかどうかを判断するのは簡単ではないかもしれない。
本稿では、複雑な表現モデルの訓練を必要としない最適パレートフロントを計算するための新しい手法を提案する。
最適公正表現はいくつかの有用な構造的特性を有しており、これらの性質はパレートフロントの計算をコンパクトな離散問題に還元することができることを示す。
また,このようなコンパクトな近似問題を,棚外凹凸プログラミング法により効率的に解けることを示す。
提案手法は,表現モデルに依存しないため,表現学習アルゴリズムを比較するためのベンチマークとして利用することができる。
実世界のベンチマークデータセットに対するアプローチを実験的に評価した。
There is a well known intrinsic trade-off between the fairness of a representation and the performance of classifiers derived from the representation. Due to the complexity of optimisation algorithms in most modern representation learning approaches, for a given method it may be non-trivial to decide whether the obtained fairness-performance curve of the method is optimal, i.e., whether it is close to the true Pareto front for these quantities for the underlying data distribution. In this paper we propose a new method to compute the optimal Pareto front, which does not require the training of complex representation models. We show that optimal fair representations possess several useful structural properties, and that these properties enable a reduction of the computation of the Pareto Front to a compact discrete problem. We then also show that these compact approximating problems can be efficiently solved via off-the shelf concave-convex programming methods. Since our approach is independent of the specific model of representations, it may be used as the benchmark to which representation learning algorithms may be compared. We experimentally evaluate the approach on a number of real world benchmark datasets. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# MECD:複数イベントの因果関係の発見をビデオ推論で解き放つ
MECD: Unlocking Multi-Event Causal Discovery in Video Reasoning ( http://arxiv.org/abs/2409.17647v1 ) ライセンス: Link先を確認 | Tieyuan Chen, Huabin Liu, Tianyao He, Yihang Chen, Chaofan Gan, Xiao Ma, Cheng Zhong, Yang Zhang, Yingxue Wang, Hui Lin, Weiyao Lin, | (参考訳) ビデオ因果推論は、因果的観点からの映像コンテンツの高レベルな理解の実現を目的としている。
しかし、現在のビデオ推論タスクはスコープに限られており、主に質問応答パラダイムで実行され、単一のイベントと単純な因果関係のみを含む短いビデオに焦点を当てている。
このギャップを埋めるために、新しいタスクとデータセット、Multi-Event Causal Discovery (MECD)を導入します。
時系列的に長いビデオに分散したイベント間の因果関係を明らかにすることを目的としている。
イベントの視覚的セグメントとテキスト的記述が与えられたため、MECDはこれらのイベント間の因果関係を識別し、なぜ、どのように最終的な結果イベントが発生したかを説明する包括的な構造化されたイベントレベルのビデオ因果図を導出する必要がある。
MECDに対処するために,効率的なマスクベースのイベント予測モデルを用いて,前提イベントがマスクされている場合とマスクされていない場合の予測結果イベントを比較し,因果関係を推定する新しいフレームワークを考案した。
さらに,前庭調整や対物推論などの因果推論技術を統合し,因果関係の解明や因果関係の解明など,MECDの課題に対処する。
GPT-4o と VideoLLaVA をそれぞれ5.7% と4.1% で比較した。
Video causal reasoning aims to achieve a high-level understanding of video content from a causal perspective. However, current video reasoning tasks are limited in scope, primarily executed in a question-answering paradigm and focusing on short videos containing only a single event and simple causal relationships, lacking comprehensive and structured causality analysis for videos with multiple events. To fill this gap, we introduce a new task and dataset, Multi-Event Causal Discovery (MECD). It aims to uncover the causal relationships between events distributed chronologically across long videos. Given visual segments and textual descriptions of events, MECD requires identifying the causal associations between these events to derive a comprehensive, structured event-level video causal diagram explaining why and how the final result event occurred. To address MECD, we devise a novel framework inspired by the Granger Causality method, using an efficient mask-based event prediction model to perform an Event Granger Test, which estimates causality by comparing the predicted result event when premise events are masked versus unmasked. Furthermore, we integrate causal inference techniques such as front-door adjustment and counterfactual inference to address challenges in MECD like causality confounding and illusory causality. Experiments validate the effectiveness of our framework in providing causal relationships in multi-event videos, outperforming GPT-4o and VideoLLaVA by 5.7% and 4.1%, respectively. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# 資源制約のある環境に対する効果的な内部質問応答
Efficient In-Domain Question Answering for Resource-Constrained Environments ( http://arxiv.org/abs/2409.17648v1 ) ライセンス: Link先を確認 | Isaac Chung, Phat Vo, Arman Kizilkale, Aaron Reite, | (参考訳) Retrieval Augmented Generation (RAG) は、質問応答(QA)タスクの精度と関連性を高めるために、外部知識を事前訓練された大規模言語モデル(LLM)に統合する一般的な方法である。
しかし、実世界のQAアプリケーションに最適で堅牢なRAGソリューションを開発する上で、迅速なエンジニアリングと資源効率は依然として重大なボトルネックとなっている。
近年の研究では、これらの問題に対処するために微調整を用いることが成功しており、特に、より小型の7Bモデルに適用されたRetrieval Augmented Fine Tuning(RAFT)は、GPT-3.5のようなはるかに大きなモデルを持つRAGセットアップよりも優れた性能を示している。
RAFTとLow-Rank Adaptation (LoRA)のようなパラメータ効率のよい微調整(PEFT)技術の組み合わせにより、より効率的な解が期待できるが、まだ探索されていない領域である。
本研究では,RAFTとLoRAを組み合わせることで,微調整とストレージの要求を低減し,RAG性能を同等に保ちつつ,推論時間を短縮する。
これにより、より計算効率のよいRAFT(CRAFT)が実現し、インターネットアクセスが制限され、ハードウェアリソースが制限されるリソース制約のある環境での知識集約型QAタスクに特に有用である。
Retrieval Augmented Generation (RAG) is a common method for integrating external knowledge into pretrained Large Language Models (LLMs) to enhance accuracy and relevancy in question answering (QA) tasks. However, prompt engineering and resource efficiency remain significant bottlenecks in developing optimal and robust RAG solutions for real-world QA applications. Recent studies have shown success in using fine tuning to address these problems; in particular, Retrieval Augmented Fine Tuning (RAFT) applied to smaller 7B models has demonstrated superior performance compared to RAG setups with much larger models such as GPT-3.5. The combination of RAFT with parameter-efficient fine tuning (PEFT) techniques, such as Low-Rank Adaptation (LoRA), promises an even more efficient solution, yet remains an unexplored area. In this work, we combine RAFT with LoRA to reduce fine tuning and storage requirements and gain faster inference times while maintaining comparable RAG performance. This results in a more compute-efficient RAFT, or CRAFT, which is particularly useful for knowledge-intensive QA tasks in resource-constrained environments where internet access may be restricted and hardware resources limited. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# コピー検出パターンの確率的性能保証
Provable Performance Guarantees of Copy Detection Patterns ( http://arxiv.org/abs/2409.17649v1 ) ライセンス: Link先を確認 | Joakim Tutt, Slava Voloshynovskiy, | (参考訳) コピー検出パターン(CDP)は、現代のセキュリティアプリケーションにおいて重要な要素であり、食品、医薬品、化粧品などの業界を守る上で重要な役割を担っている。
CDPの現在の性能評価は、ハミング距離やピアソン相関のような単純な指標を用いた経験的な設定に大きく依存している。
これらの手法は、歪みに対する感度、劣化、印刷と画像の静止統計に対する限界のために、しばしば不十分である。
さらに、機械学習ベースのアプローチは、分布バイアスに悩まされ、見当たらない偽造サンプルに一般化できない。
新型コロナウイルス(COVID-19)感染拡大に伴う偽造ワクチン問題など、偽造防止におけるCDPの重要性を考えると、様々な基準で実施可能なパフォーマンス保証が緊急に必要となる。
本稿では,CDP認証技術の分析,最適化,今後の開発のための最適基準を導出する理論的枠組みを確立することを目的とする。
Copy Detection Patterns (CDPs) are crucial elements in modern security applications, playing a vital role in safeguarding industries such as food, pharmaceuticals, and cosmetics. Current performance evaluations of CDPs predominantly rely on empirical setups using simplistic metrics like Hamming distances or Pearson correlation. These methods are often inadequate due to their sensitivity to distortions, degradation, and their limitations to stationary statistics of printing and imaging. Additionally, machine learning-based approaches suffer from distribution biases and fail to generalize to unseen counterfeit samples. Given the critical importance of CDPs in preventing counterfeiting, including the counterfeit vaccines issue highlighted during the COVID-19 pandemic, there is an urgent need for provable performance guarantees across various criteria. This paper aims to establish a theoretical framework to derive optimal criteria for the analysis, optimization, and future development of CDP authentication technologies, ensuring their reliability and effectiveness in diverse security scenarios. | 翻訳日:2024-09-28 21:53:57 公開日:2024-09-26 |
# オンコロジーにおけるデジタル双極子生態系
Digital Twin Ecosystem for Oncology Clinical Operations ( http://arxiv.org/abs/2409.17650v1 ) ライセンス: Link先を確認 | Himanshu Pandey, Akhil Amod, Shivang, Kshitij Jaggi, Ruchi Garg, Abheet Jain, Vinayak Tantia, | (参考訳) 人工知能(AI)とLarge Language Models(LLM)は、医療、特に臨床応用に革命をもたらす大きな可能性を秘めている。
同時に、複雑なシステムをモデル化しシミュレートするDigital Twin技術は、患者ケアの強化に力を入れている。
しかし、臨床実験の進歩にもかかわらず、AIとデジタル双生児による臨床手術の合理化の可能性はほとんど未解決のままである。
本稿では,腫瘍学における臨床手術の高度化をめざした,新たなデジタルツインフレームワークを提案する。
本稿では,医療ニーズ双生児,ケアナビゲータ双生児,臨床履歴双生児など複数の専門的デジタル双生児を統合することにより,ワークフローの効率を高め,各患者固有のデータに基づいてケアをパーソナライズすることを提案する。
さらに、複数のデータソースを合成し、NCCN(National Comprehensive Cancer Network)ガイドラインと整合させることで、これらのデジタル双生児が正確かつ適切な臨床レコメンデーションを提供するための、継続的な進化を続ける知識基盤である動的癌ケアパスを作成する。
Artificial Intelligence (AI) and Large Language Models (LLMs) hold significant promise in revolutionizing healthcare, especially in clinical applications. Simultaneously, Digital Twin technology, which models and simulates complex systems, has gained traction in enhancing patient care. However, despite the advances in experimental clinical settings, the potential of AI and digital twins to streamline clinical operations remains largely untapped. This paper introduces a novel digital twin framework specifically designed to enhance oncology clinical operations. We propose the integration of multiple specialized digital twins, such as the Medical Necessity Twin, Care Navigator Twin, and Clinical History Twin, to enhance workflow efficiency and personalize care for each patient based on their unique data. Furthermore, by synthesizing multiple data sources and aligning them with the National Comprehensive Cancer Network (NCCN) guidelines, we create a dynamic Cancer Care Path, a continuously evolving knowledge base that enables these digital twins to provide precise, tailored clinical recommendations. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# 原子グラフ、部分ブール代数および量子文脈性
Atom graph, partial Boolean algebra and quantum contextuality ( http://arxiv.org/abs/2409.17651v1 ) ライセンス: Link先を確認 | Songyi Liu, Yongjun Wang, Baoshan Wang, Jian Yan, Heng Zhou, | (参考訳) 部分ブール代数は量子論理を量子文脈性の重要な道具として基礎づける。
我々は、量子系に対する部分ブール代数のグラフ構造を明らかにするために、それを証明するために「textit{atom graphs}」という概念を提案する。
i) 量子系に対する部分ブール代数は、それらの原子グラフによって決定される。
(ii) 原子グラフ上の状態は部分ブール代数に一意に拡張することができ、
3) 各排他グラフは原子グラフの誘導グラフである。
(i)および
(ii) 量子系は原子グラフによって一意に決定されることを示す。
量子実験のモデルとしてのグラフの理性を証明するものです
三)部分ブール代数と排他性グラフの接続を確立し、より正確に排他性実験を表現する方法を導入する。
また、グラフに基づくKochen-Specker定理の一般かつパラメトリックな記述も提示し、KS文脈性に対する非文脈的不等式の種類を与える。
Partial Boolean algebra underlies the quantum logic as an important tool for quantum contextuality. We propose the notion \textit{atom graphs} to reveal the graph structure of partial Boolean algebra for quantum systems by proving that (i) the partial Boolean algebras for quantum systems are determined by their atom graphs; (ii) the states on atom graphs can be extended uniquely to the partial Boolean algebras, and (iii) each exclusivity graph is an induced graph of an atom graph. (i) and (ii) show that the quantum systems are uniquely determined by their atom graphs. which proves the reasonability of graphs as the models of quantum experiments. (iii) establishes a connection between partial Boolean algebra and exclusivity graphs, and introduces a method to express the exclusivity experiments more precisely. We also present a general and parametric description for Kochen-Specker theorem based on graphs, which gives a type of non-contextuality inequality for KS contextuality. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# FactorSim: 因子表現による生成シミュレーション
FactorSim: Generative Simulation via Factorized Representation ( http://arxiv.org/abs/2409.17652v1 ) ライセンス: Link先を確認 | Fan-Yun Sun, S. I. Harini, Angela Yi, Yihan Zhou, Alex Zook, Jonathan Tremblay, Logan Cross, Jiajun Wu, Nick Haber, | (参考訳) ユーザ入力やタスクドキュメンテーションから、自然言語入力からゲームプレイやロボット工学のインテリジェントエージェントを訓練するためのシミュレーションを生成することは、依然としてオープンな課題である。
既存のアプローチでは、報酬関数やタスクハイパーパラメータの生成など、この課題の一部に焦点を当てている。
従来の作業とは異なり、エージェントの訓練に使用できる言語入力からコード中の完全なシミュレーションを生成するFACTORSIMを導入している。
符号化されたシミュレーションに特有の構造的モジュラリティをエクスプロイトし、生成の各ステップにおけるコンテキスト依存性を低減するための、部分的に観測可能なマルコフ決定プロセス表現を提案する。
評価のために、我々は、強化学習環境におけるゼロショット転送を容易にするため、生成したシミュレーションコードの精度と有効性を評価できる生成シミュレーションベンチマークを導入する。
その結果、FACTORSIMは、即時アライメント(例えば、精度)、ゼロショット転送能力、人的評価に関するシミュレーションを生成する上で、既存の手法よりも優れていることを示す。
また,ロボットタスクの生成にも有効であることを示す。
Generating simulations to train intelligent agents in game-playing and robotics from natural language input, from user input or task documentation, remains an open-ended challenge. Existing approaches focus on parts of this challenge, such as generating reward functions or task hyperparameters. Unlike previous work, we introduce FACTORSIM that generates full simulations in code from language input that can be used to train agents. Exploiting the structural modularity specific to coded simulations, we propose to use a factored partially observable Markov decision process representation that allows us to reduce context dependence during each step of the generation. For evaluation, we introduce a generative simulation benchmark that assesses the generated simulation code's accuracy and effectiveness in facilitating zero-shot transfers in reinforcement learning settings. We show that FACTORSIM outperforms existing methods in generating simulations regarding prompt alignment (e.g., accuracy), zero-shot transfer abilities, and human evaluation. We also demonstrate its effectiveness in generating robotic tasks. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# AssistantX: 協調的人為的環境におけるLLMを利用したプロアクティブアシスタント
AssistantX: An LLM-Powered Proactive Assistant in Collaborative Human-Populated Environment ( http://arxiv.org/abs/2409.17655v1 ) ライセンス: Link先を確認 | Nan Sun, Bo Mao, Yongchang Li, Lumeng Ma, Di Guo, Huaping Liu, | (参考訳) 人口の多い環境におけるインテリジェントアシスタントの需要の増加は、自律ロボットシステムにおいて重要な研究の動機となっている。
しかし、従来のサービスロボットと仮想アシスタントは、特に人間のコラボレーションが必要な場合に、動的推論とインタラクションの能力に限界があるため、現実のタスク実行に苦労する。
近年の大規模言語モデルの発展により、これらのシステムを改善するための新たな道が開かれ、より洗練された推論と自然な相互作用が実現された。
本稿では,LLMを利用した能動型アシスタントであるAssistantXについて紹介する。
従来のサービスロボットとは異なり、AssistantXは、高度な推論機能と包括的なコラボレーション意識を提供する新しいマルチエージェントアーキテクチャPPDR4Xを利用している。
仮想操作と物理的インタラクションのギャップを効果的に埋めることによって、AssistantXは、複雑な現実世界のシナリオを管理する上で、堅牢なパフォーマンスを示す。
評価では、アーキテクチャの有効性を強調し、AssistantXが明確な指示に応答し、メモリから積極的に補足情報を検索し、積極的にチームメンバの協力を求め、タスクの完了を確実にすることを示す。
詳細とビデオはhttps://assistantx-agent.github.io/AssistantX/で見ることができる。
The increasing demand for intelligent assistants in human-populated environments has motivated significant research in autonomous robotic systems. Traditional service robots and virtual assistants, however, struggle with real-world task execution due to their limited capacity for dynamic reasoning and interaction, particularly when human collaboration is required. Recent developments in Large Language Models have opened new avenues for improving these systems, enabling more sophisticated reasoning and natural interaction capabilities. In this paper, we introduce AssistantX, an LLM-powered proactive assistant designed to operate autonomously in a physical office environment. Unlike conventional service robots, AssistantX leverages a novel multi-agent architecture, PPDR4X, which provides advanced inference capabilities and comprehensive collaboration awareness. By effectively bridging the gap between virtual operations and physical interactions, AssistantX demonstrates robust performance in managing complex real-world scenarios. Our evaluation highlights the architecture's effectiveness, showing that AssistantX can respond to clear instructions, actively retrieve supplementary information from memory, and proactively seek collaboration from team members to ensure successful task completion. More details and videos can be found at https://assistantx-agent.github.io/AssistantX/. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# 音響事象検出の自己教師付き学習のためのプロトタイプベースマスケプド音響モデル
Prototype based Masked Audio Model for Self-Supervised Learning of Sound Event Detection ( http://arxiv.org/abs/2409.17656v1 ) ライセンス: Link先を確認 | Pengfei Cai, Yan Song, Nan Jiang, Qing Gu, Ian McLoughlin, | (参考訳) 音響事象検出(SED)における重要な課題は、高アノテーションコストによるラベル付きデータの有効利用が制限されていることを考えると、ラベルなしデータの有効利用である。
半教師付きアルゴリズムはラベルのないデータから学習するためにラベル付きデータに依存し、その性能は前者の品質とサイズに制約される。
本稿では,SEDにおける自己教師付き表現学習のためのプロトタイプベースMasked Audio Model~(PMAM)アルゴリズムを提案する。
具体的には,ガウス混合モデル(GMM)に基づく原型分布モデルを用いて,意味的に豊かなフレームレベルの擬似ラベルを構築する。
これらの擬似ラベルは、広く使われているInfoNCE損失の代わりにバイナリクロスエントロピー損失を用いるトランスフォーマーベースのマスク付きオーディオモデルの学習を監督し、異なるプロトタイプから独立した損失貢献を提供する。
少量のラベル付きデータによる微調整の最終段階は、非常に高性能なSEDモデルをもたらす。
DESEDタスクを用いた類似性試験では、PSDS1スコアが62.5\%に達し、現在の最先端モデルを超え、提案手法の優位性を示す。
A significant challenge in sound event detection (SED) is the effective utilization of unlabeled data, given the limited availability of labeled data due to high annotation costs. Semi-supervised algorithms rely on labeled data to learn from unlabeled data, and the performance is constrained by the quality and size of the former. In this paper, we introduce the Prototype based Masked Audio Model~(PMAM) algorithm for self-supervised representation learning in SED, to better exploit unlabeled data. Specifically, semantically rich frame-level pseudo labels are constructed from a Gaussian mixture model (GMM) based prototypical distribution modeling. These pseudo labels supervise the learning of a Transformer-based masked audio model, in which binary cross-entropy loss is employed instead of the widely used InfoNCE loss, to provide independent loss contributions from different prototypes, which is important in real scenarios in which multiple labels may apply to unsupervised data frames. A final stage of fine-tuning with just a small amount of labeled data yields a very high performing SED model. On like-for-like tests using the DESED task, our method achieves a PSDS1 score of 62.5\%, surpassing current state-of-the-art models and demonstrating the superiority of the proposed technique. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# 階層型エンドツーエンド自動運転:BEV知覚と深層強化学習の統合
Hierarchical End-to-End Autonomous Driving: Integrating BEV Perception with Deep Reinforcement Learning ( http://arxiv.org/abs/2409.17659v1 ) ライセンス: Link先を確認 | Siyi Lu, Lei He, Shengbo Eben Li, Yugong Luo, Jianqiang Wang, Keqiang Li, | (参考訳) エンドツーエンドの自動運転は、従来のモジュールパイプラインに代わる合理化された代替手段を提供し、認識、予測、計画を単一のフレームワークに統合する。
深層強化学習(Dep Reinforcement Learning, DRL)は近年, この領域で注目を集めている。
本稿では,DRL特徴抽出ネットワークを認識フェーズに直接マッピングすることで,このギャップを埋める。
本研究では,Bird's-Eye-View(BEV)表現を活用することで,マルチセンサ入力を利用したDRLベースのエンドツーエンド駆動フレームワークを提案し,環境の統一的な3次元理解を構築する。
このBEVベースのシステムは、重要な環境特徴をDRLのための高レベルの抽象状態に抽出し、翻訳し、より情報的な制御を容易にする。
大規模実験により,本手法は解釈可能性を高めるだけでなく,自律走行制御タスクにおける最先端手法よりも優れ,衝突速度を20%低減することが示された。
End-to-end autonomous driving offers a streamlined alternative to the traditional modular pipeline, integrating perception, prediction, and planning within a single framework. While Deep Reinforcement Learning (DRL) has recently gained traction in this domain, existing approaches often overlook the critical connection between feature extraction of DRL and perception. In this paper, we bridge this gap by mapping the DRL feature extraction network directly to the perception phase, enabling clearer interpretation through semantic segmentation. By leveraging Bird's-Eye-View (BEV) representations, we propose a novel DRL-based end-to-end driving framework that utilizes multi-sensor inputs to construct a unified three-dimensional understanding of the environment. This BEV-based system extracts and translates critical environmental features into high-level abstract states for DRL, facilitating more informed control. Extensive experimental evaluations demonstrate that our approach not only enhances interpretability but also significantly outperforms state-of-the-art methods in autonomous driving control tasks, reducing the collision rate by 20%. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# 機能近赤外分光法によるファジィによる人間のインタラクション予測
A Fuzzy-based Approach to Predict Human Interaction by Functional Near-Infrared Spectroscopy ( http://arxiv.org/abs/2409.17661v1 ) ライセンス: Link先を確認 | Xiaowei Jiang, Liang Ou, Yanan Chen, Na Ao, Yu-Cheng Chang, Thomas Do, Chin-Teng Lin, | (参考訳) 本稿では、心理学研究におけるニューラルモデルの解釈性と有効性を高めるための新しい計算手法である、ファジィベースの注意層(ファジィ注意層)機構を提案する。
提案したファジィ注意層機構は、トランスフォーマーエンコーダモデル内のニューラルネットワーク層として統合され、機能的近赤外分光(fNIRS)によって捉えられるような、神経信号による複雑な心理学現象の分析を容易にする。
ファジィロジックを活用することで、ファジィ注意層は神経活動の解釈可能なパターンを学習し識別することができる。
この能力は、Transformerを使用する際の重要な課題に対処する: 特定の脳の活動が特定の予測に最も寄与するかどうかを決定する透明性の欠如。
筆者らは, 握手を伴う社会的相互作用に関わる被験者のfNIRSデータから, ファジィ注意層は神経活動の解釈可能なパターンを学習するだけでなく, モデル性能も向上することを示した。
さらに、学習パターンは、対人的な触覚と感情的な交流の神経的関連について深い洞察を与える。
このモデルの適用は、人間の社会的行動の微妙な複雑さを解読する有望な可能性を示し、社会的神経科学や心理学的AIの分野に大きく貢献する。
The paper introduces a Fuzzy-based Attention (Fuzzy Attention Layer) mechanism, a novel computational approach to enhance the interpretability and efficacy of neural models in psychological research. The proposed Fuzzy Attention Layer mechanism is integrated as a neural network layer within the Transformer Encoder model to facilitate the analysis of complex psychological phenomena through neural signals, such as those captured by functional Near-Infrared Spectroscopy (fNIRS). By leveraging fuzzy logic, the Fuzzy Attention Layer is capable of learning and identifying interpretable patterns of neural activity. This capability addresses a significant challenge when using Transformer: the lack of transparency in determining which specific brain activities most contribute to particular predictions. Our experimental results demonstrated on fNIRS data from subjects engaged in social interactions involving handholding reveal that the Fuzzy Attention Layer not only learns interpretable patterns of neural activity but also enhances model performance. Additionally, the learned patterns provide deeper insights into the neural correlates of interpersonal touch and emotional exchange. The application of our model shows promising potential in deciphering the subtle complexities of human social behaviors, thereby contributing significantly to the fields of social neuroscience and psychological AI. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# 説明ボトルネックモデル
Explanation Bottleneck Models ( http://arxiv.org/abs/2409.17663v1 ) ライセンス: Link先を確認 | Shin'ya Yamaguchi and Kosuke Nishida | (参考訳) 最近の概念に基づく解釈可能なモデルは、事前に定義された概念集合によって意味のある説明を提供することに成功している。
しかし、事前定義された概念への依存は、説明のための概念の数が限られているため、アプリケーションを制限する。
本稿では、説明ボトルネックモデル(XBM)と呼ばれる、解釈可能な新しいディープニューラルネットワークを提案する。
XBMは、事前に定義された概念を持たない入力からテキスト説明を生成し、事前学習された視覚言語エンコーダ・デコーダモデルを利用して、生成された説明に基づいて最終タスク予測を生成する。
目標タスク性能と説明品質を両立させるため,凍結事前学習復号器の蒸留による説明復号器の正規化を行い,目標タスク損失からXBMを訓練する。
我々の実験は、最先端の概念ボトルネックモデルとの比較を含むもので、XBMが事前に定義された概念セットを使わずに、正確で流動的な自然言語の説明を提供することを確認した。
コードはhttps://github.com/yshinya6/xbm/.comから入手できる。
Recent concept-based interpretable models have succeeded in providing meaningful explanations by pre-defined concept sets. However, the dependency on the pre-defined concepts restricts the application because of the limited number of concepts for explanations. This paper proposes a novel interpretable deep neural network called explanation bottleneck models (XBMs). XBMs generate a text explanation from the input without pre-defined concepts and then predict a final task prediction based on the generated explanation by leveraging pre-trained vision-language encoder-decoder models. To achieve both the target task performance and the explanation quality, we train XBMs through the target task loss with the regularization penalizing the explanation decoder via the distillation from the frozen pre-trained decoder. Our experiments, including a comparison to state-of-the-art concept bottleneck models, confirm that XBMs provide accurate and fluent natural language explanations without pre-defined concept sets. Code will be available at https://github.com/yshinya6/xbm/. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# TLSNotary Protocolの概要
A Comprehensive Review of TLSNotary Protocol ( http://arxiv.org/abs/2409.17670v1 ) ライセンス: Link先を確認 | Maciej Kalka, Marek Kirejczyk, | (参考訳) Transport Layer Security (TLS) プロトコルは、インターネット上の通信をセキュアにするための暗号化プロトコルである。
TLSプロトコルはセキュアな通信の基盤となり、Webブラウジングセッションのセキュア化に最もよく使われている。
本研究では,TLSのセキュリティ特性を最大限に活用しつつ,TLSセッションからデータの証明をクライアントが得ることを目的としたTLSNotaryプロトコルについて検討する。
サーバ側の調整や許可なしにこのような証明を実現するため、標準TLSプロトコルを拡張するために、セキュアなマルチパーティ計算(MPC)と知識証明を併用するパワーが使用される。
まず,TLSNotaryプロトコルの理解に必要な暗号プリミティブを導入し,標準TLSプロトコルを経由する。
最後に、TLSNotaryプロトコルの詳細について述べる。
Transport Layer Security (TLS) protocol is a cryptographic protocol designed to secure communication over the internet. The TLS protocol has become a fundamental in secure communication, most commonly used for securing web browsing sessions. In this work, we investigate the TLSNotary protocol, which aim to enable the Client to obtain proof of provenance for data from TLS session, while getting as much as possible from the TLS security properties. To achieve such proofs without any Server-side adjustments or permissions, the power of secure multi-party computation (MPC) together with zero knowledge proofs is used to extend the standard TLS Protocol. To make the compliacted landscape of MPC as comprehensible as possible we first introduce the cryptographic primitives required to understand the TLSNotary protocol and go through standard TLS protocol. Finally, we look at the TLSNotary protocol in detail. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# 人間のメッシュ推定と体形確保のための人体計測の活用
Leveraging Anthropometric Measurements to Improve Human Mesh Estimation and Ensure Consistent Body Shapes ( http://arxiv.org/abs/2409.17671v1 ) ライセンス: Link先を確認 | Katja Ludwig, Julian Lorenz, Daniel Kienzle, Tuan Bui, Rainer Lienhart, | (参考訳) 人の基本的な体型は、単一のビデオ内では変化しない。
しかしながら、ほとんどのSOTAヒューマンメッシュ推定(HME)モデルは、ビデオフレームごとにわずかに異なるボディ形状を出力し、同一人物に対して一貫性のないボディ形状をもたらす。
対照的に、私たちは何世紀にもわたって、既に人間から取得されているテーラーのような人為的計測を活用しています。
我々は、このような人体計測を人間のメッシュモデルの体形パラメータに変換するA2Bと呼ばれるモデルを作成する。
さらに,細粒度SOTA 3次元ポーズ推定(HPE)モデルは,推定キーポイントの精度に関して,HMEモデルより優れていることがわかった。
このような3次元HPEモデルの結果に対して逆キネマティクス(IK)を適用してA2Bのボディ形状を合成すると、ASPsetやFit3Dのような挑戦的なデータセットに対して優れた一貫性のある人間のメッシュが得られ、SOTA HMEモデルと比較してMPJPEを30mm以上下げることができることを示す。
さらに、HMEモデルからA2Bモデルへの置き換えにより、HMEモデルの性能が向上するだけでなく、一貫した形状が生まれる。
The basic body shape of a person does not change within a single video. However, most SOTA human mesh estimation (HME) models output a slightly different body shape for each video frame, which results in inconsistent body shapes for the same person. In contrast, we leverage anthropometric measurements like tailors are already obtaining from humans for centuries. We create a model called A2B that converts such anthropometric measurements to body shape parameters of human mesh models. Moreover, we find that finetuned SOTA 3D human pose estimation (HPE) models outperform HME models regarding the precision of the estimated keypoints. We show that applying inverse kinematics (IK) to the results of such a 3D HPE model and combining the resulting body pose with the A2B body shape leads to superior and consistent human meshes for challenging datasets like ASPset or fit3D, where we can lower the MPJPE by over 30 mm compared to SOTA HME models. Further, replacing HME models estimates of the body shape parameters with A2B model results not only increases the performance of these HME models, but also leads to consistent body shapes. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# 直接品質最適化を用いたニューラルマシン翻訳のための言語間ヒューマンパラメータアライメント
Cross-lingual Human-Preference Alignment for Neural Machine Translation with Direct Quality Optimization ( http://arxiv.org/abs/2409.17673v1 ) ライセンス: Link先を確認 | Kaden Uhlig, Joern Wuebker, Raphael Reinauer, John DeNero, | (参考訳) Reinforcement Learning from Human Feedback (RLHF) や Direct Preference Optimization (DPO) のような派生手法は、特定のタスクに対する一般的な基礎的なモデルを再利用するために使用されるタスクアライメントアルゴリズムである。
ニューラルネットワーク翻訳(NMT)へのタスクアライメントの適用は,NMTにおける既存のタスクデータミスマッチに対処し,タスクアライメントがそれらのサブセットにのみ適用される場合でも,多言語モデルのすべての言語で改善されることを示す。
そこで我々は,人間の嗜好のプロキシとして事前学習された翻訳品質推定モデルを活用するDPOの変形であるダイレクト品質最適化(DQO)を導入し,自動測定と人的評価の両方による改善を検証する。
Reinforcement Learning from Human Feedback (RLHF) and derivative techniques like Direct Preference Optimization (DPO) are task-alignment algorithms used to repurpose general, foundational models for specific tasks. We show that applying task-alignment to neural machine translation (NMT) addresses an existing task--data mismatch in NMT, leading to improvements across all languages of a multilingual model, even when task-alignment is only applied to a subset of those languages. We do so by introducing Direct Quality Optimization (DQO), a variant of DPO leveraging a pre-trained translation quality estimation model as a proxy for human preferences, and verify the improvements with both automatic metrics and human evaluation. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# 音声ジェスチャー映像生成のための遅延表現における偏差の自己教師付き学習
Self-Supervised Learning of Deviation in Latent Representation for Co-speech Gesture Video Generation ( http://arxiv.org/abs/2409.17674v1 ) ライセンス: Link先を確認 | Huan Yang, Jiahui Chen, Chaofan Ding, Runhua Shi, Siyu Xiong, Qingqi Hong, Xiaoqi Mo, Xinhan Di, | (参考訳) ジェスチャーは共同音声コミュニケーションの強化に重要である。
最近の研究は、主に点レベルの動き変換や、データ駆動型アプローチによる完全に教師された動きの表現に焦点を当てているが、我々は、遅延した動き特徴を取り入れた拡散モデルを用いて、自己教師付き表現と画素レベルの動きの偏差に着目して、協調音声におけるジェスチャーの表現について検討している。
提案手法は,現実的なジェスチャービデオを生成する上で重要な手ジェスチャー生成を容易にするために,遅延表現における自己監督的偏差を利用する。
その結果,FGD,DIV,FVDは2.7~4.5%,PSNRは8.1%,SSIMは2.5%に改善した。
Gestures are pivotal in enhancing co-speech communication. While recent works have mostly focused on point-level motion transformation or fully supervised motion representations through data-driven approaches, we explore the representation of gestures in co-speech, with a focus on self-supervised representation and pixel-level motion deviation, utilizing a diffusion model which incorporates latent motion features. Our approach leverages self-supervised deviation in latent representation to facilitate hand gestures generation, which are crucial for generating realistic gesture videos. Results of our first experiment demonstrate that our method enhances the quality of generated videos, with an improvement from 2.7 to 4.5% for FGD, DIV, and FVD, and 8.1% for PSNR, 2.5% for SSIM over the current state-of-the-art methods. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# EM-Net: 3次元医用画像セグメンテーションのためのMambaを用いた効率的なチャネルと周波数学習
EM-Net: Efficient Channel and Frequency Learning with Mamba for 3D Medical Image Segmentation ( http://arxiv.org/abs/2409.17675v1 ) ライセンス: Link先を確認 | Ao Chang, Jiajun Zeng, Ruobing Huang, Dong Ni, | (参考訳) 畳み込みニューラルネットワークは、主に3次元の医用画像セグメンテーションを導いてきたが、小さな受容野によって制限される可能性がある。
トランスフォーマーモデルは自己注意を通してグローバルな関係を捉えるのに優れるが、高解像度の計算コストによって挑戦される。
近年、状態空間モデルであるMambaがシーケンシャルモデリングの効果的なアプローチとして登場している。
本研究は,その成功に触発されて,EM-Netと呼ばれる新しいマンバ型3次元医用画像分割モデルを提案する。
チャネルの統合と選択によって、領域間の注意的な相互作用を効率的にキャプチャするだけでなく、周波数領域を利用して様々なスケールで特徴の学習を調和させ、トレーニング速度を加速させる。
提案手法は,SOTAモデルのパラメータサイズをほぼ半分にし,訓練速度を2倍に向上させながら,より高精度なセグメンテーション精度を示すことを示す。
Convolutional neural networks have primarily led 3D medical image segmentation but may be limited by small receptive fields. Transformer models excel in capturing global relationships through self-attention but are challenged by high computational costs at high resolutions. Recently, Mamba, a state space model, has emerged as an effective approach for sequential modeling. Inspired by its success, we introduce a novel Mamba-based 3D medical image segmentation model called EM-Net. It not only efficiently captures attentive interaction between regions by integrating and selecting channels, but also effectively utilizes frequency domain to harmonize the learning of features across varying scales, while accelerating training speed. Comprehensive experiments on two challenging multi-organ datasets with other state-of-the-art (SOTA) algorithms show that our method exhibits better segmentation accuracy while requiring nearly half the parameter size of SOTA models and 2x faster training speed. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# 変圧器の最適記憶容量
Optimal Memorization Capacity of Transformers ( http://arxiv.org/abs/2409.17677v1 ) ライセンス: Link先を確認 | Tokio Kajitsuka, Issei Sato, | (参考訳) 近年、機械学習の分野では、トランスフォーマーの記憶能力に注目が集まっているが、その効率性はまだよく分かっていない。
そこで,Transformerは$\tilde{O}(\sqrt{N})$パラメータでラベルを記憶できることを示す。
このことは、Transformerがパラメータ共有の利点により入力長$n$からほとんど影響を受けずに、効率的にメモリ化を行うことができることを示している。
また、シーケンス・ツー・シーケンス設定における記憶能力を分析し、$\tilde{O}(\sqrt{nN})$パラメータが十分であるだけでなく、少なくともハードマックスを持つ変換器には必要であることを示す。
これらの結果から,自己認識機構は入力シーケンスを効率的に識別できるが,各トークンにラベルを関連付けると,フィードフォワードネットワークがボトルネックとなることが示唆された。
Recent research in the field of machine learning has increasingly focused on the memorization capacity of Transformers, but how efficient they are is not yet well understood. We demonstrate that Transformers can memorize labels with $\tilde{O}(\sqrt{N})$ parameters in a next-token prediction setting for $N$ input sequences of length $n$, which is proved to be optimal up to logarithmic factors. This indicates that Transformers can efficiently perform memorization with little influence from the input length $n$ owing to the benefit of parameter sharing. We also analyze the memorization capacity in the sequence-to-sequence setting, and find that $\tilde{O}(\sqrt{nN})$ parameters are not only sufficient, but also necessary at least for Transformers with hardmax. These results suggest that while self-attention mechanisms can efficiently identify input sequences, the feed-forward network becomes a bottleneck when associating a label to each token. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# イベントベースステレオ深さ推定:サーベイ
Event-based Stereo Depth Estimation: A Survey ( http://arxiv.org/abs/2409.17680v1 ) ライセンス: Link先を確認 | Suman Ghosh, Guillermo Gallego, | (参考訳) ステレオプシスは、生物が私たちの3D世界をナビゲートする深度を知覚する主要な方法であるため、ロボット工学において広くアピールされている。
イベントカメラは、非常に時間分解能が高く、ダイナミックレンジが高いため、高速な動きや広い照明条件下でのマシン認識を可能にする、ピクセルごとの明るさ変化を非同期に検出する、新しいバイオインスパイアされたセンサーである。
高度の時間精度もステレオマッチングの恩恵を受けており、イベントカメラが登場して以来の一般的な研究領域として不透明度(深度)が評価されている。
過去30年間で、低レイテンシ、低消費電力回路設計からコンピュータビジョンコミュニティが推進する現在のディープラーニング(DL)アプローチに至るまで、この分野は急速に発展してきた。
書誌学は、非常に学際的な性質から、非専門家のためには広大なものであり、ナビゲートが困難である。
過去の調査では、このトピックの異なる側面、アプリケーションのコンテキスト、あるいは特定の種類の技術のみに焦点を当ててきたが、ステレオデータセットを見落としている。
本調査は,同時局所化とマッピング(SLAM)に適した即時的ステレオ法と長期的手法の両方を,理論的および経験的比較とともに包括的に概説する。
DLメソッドとステレオデータセットを広範囲にレビューし、フィールドを前進させる新しいベンチマークを作成するための実用的な提案を提供するのはこれが初めてである。
イベントベースのステレオ深度推定で直面する主な利点と課題についても論じる。
大幅な進歩にもかかわらず、イベントベースのコンピューティングの基盤である正確性だけでなく効率性においても、最適なパフォーマンスを達成する上での課題は残る。
いくつかのギャップを特定し,今後の研究方向性を提案する。
この調査は、新参者にとってアクセスしやすい入り口として、またコミュニティの味付け研究者のための実践的なガイドとして、この分野の今後の研究に刺激を与えてくれることを願っている。
Stereopsis has widespread appeal in robotics as it is the predominant way by which living beings perceive depth to navigate our 3D world. Event cameras are novel bio-inspired sensors that detect per-pixel brightness changes asynchronously, with very high temporal resolution and high dynamic range, enabling machine perception in high-speed motion and broad illumination conditions. The high temporal precision also benefits stereo matching, making disparity (depth) estimation a popular research area for event cameras ever since its inception. Over the last 30 years, the field has evolved rapidly, from low-latency, low-power circuit design to current deep learning (DL) approaches driven by the computer vision community. The bibliography is vast and difficult to navigate for non-experts due its highly interdisciplinary nature. Past surveys have addressed distinct aspects of this topic, in the context of applications, or focusing only on a specific class of techniques, but have overlooked stereo datasets. This survey provides a comprehensive overview, covering both instantaneous stereo and long-term methods suitable for simultaneous localization and mapping (SLAM), along with theoretical and empirical comparisons. It is the first to extensively review DL methods as well as stereo datasets, even providing practical suggestions for creating new benchmarks to advance the field. The main advantages and challenges faced by event-based stereo depth estimation are also discussed. Despite significant progress, challenges remain in achieving optimal performance in not only accuracy but also efficiency, a cornerstone of event-based computing. We identify several gaps and propose future research directions. We hope this survey inspires future research in this area, by serving as an accessible entry point for newcomers, as well as a practical guide for seasoned researchers in the community. | 翻訳日:2024-09-28 20:56:11 公開日:2024-09-26 |
# 軌道予測によるMEC対応車体ネットワークの計算前負荷
Computation Pre-Offloading for MEC-Enabled Vehicular Networks via Trajectory Prediction ( http://arxiv.org/abs/2409.17681v1 ) ライセンス: Link先を確認 | Ting Zhang, Bo Yang, Zhiwen Yu, Xuelin Cao, George C. Alexandropoulos, Yan Zhang, Chau Yuen, | (参考訳) タスクオフロードは、車載無線ネットワークを効率的にオーケストレーションする上で最重要であり、現在のネットワーク状況や計算資源に関する情報の入手が必要である。
しかし、車両の移動性やタスクオフロードをほぼリアルタイムで行うための限られた計算資源のため、そのようなスキームは高いレイテンシを必要とするため、さらに実現不可能となる。
そこで本論文では,車両の過去の軌跡を解析して将来の座標を予測し,あらかじめ計算資源を割り当てることのできるトラジェクトリ予測に基づく事前負荷決定(TPPD)アルゴリズムを提案する。
まず,Long Short-Term Memory (LSTM) ネットワークモデルを用いて各車両の運動軌跡を予測する。
そこで,タスク要求と予測軌跡に基づいてDouble Deep Q-Network (DDQN) を用いた動的リソース割当アルゴリズムを考案した。
シミュレーションの結果,提案手法の有効性を検証し,従来のリアルタイムタスクオフロード方式と比較して,TPPDアルゴリズムは資源利用の向上とともにタスク処理の遅延を大幅に低減することを示した。
Task offloading is of paramount importance to efficiently orchestrate vehicular wireless networks, necessitating the availability of information regarding the current network status and computational resources. However, due to the mobility of the vehicles and the limited computational resources for performing task offloading in near-real-time, such schemes may require high latency, thus, become even infeasible. To address this issue, in this paper, we present a Trajectory Prediction-based Pre-offloading Decision (TPPD) algorithm for analyzing the historical trajectories of vehicles to predict their future coordinates, thereby allowing for computational resource allocation in advance. We first utilize the Long Short-Term Memory (LSTM) network model to predict each vehicle's movement trajectory. Then, based on the task requirements and the predicted trajectories, we devise a dynamic resource allocation algorithm using a Double Deep Q-Network (DDQN) that enables the edge server to minimize task processing delay, while ensuring effective utilization of the available computational resources. Our simulation results verify the effectiveness of the proposed approach, showcasing that, as compared with traditional real-time task offloading strategies, the proposed TPPD algorithm significantly reduces task processing delay while improving resource utilization. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# Dark Miner: テキスト・画像拡散モデルにおける安全でない生成に対する防御
Dark Miner: Defend against unsafe generation for text-to-image diffusion models ( http://arxiv.org/abs/2409.17682v1 ) ライセンス: Link先を確認 | Zheling Meng, Bo Peng, Xiaochuan Jin, Yue Jiang, Jing Dong, Wei Wang, Tieniu Tan, | (参考訳) テキスト・ツー・イメージ拡散モデルは、暴力的、性的、衝撃的な画像などの大規模なトレーニングデータによって、安全でない概念の消去を必要とするため、安全でない生成で実証されている。
既存のほとんどのメソッドは、安全でない記述を含むテキストに条件付けされた生成確率を変更することに重点を置いている。
しかし、訓練段階の未確認テキスト、特に敵攻撃のプロンプトに対して、安全な生成を保証できない。
本稿では、消去タスクを再解析し、既存の手法では、安全でない生成の総確率の最小化を保証できないことを指摘する。
この問題に対処するため、我々はダークマイナーを提案する。
採掘、検証、回避を含む3段階のプロセスが繰り返される。
安全でない概念の最大生成確率を持つ埋め込みを欲しがりにマイニングし、安全でない概念をより効果的に削減する。
実験では、2つの不適切な概念、2つの対象、2つのスタイルでその性能を評価する。
従来の6つの最先端手法と比較して,本手法は,モデル固有の生成能力を保ちながら,特に4つの最先端攻撃の場合に,消去と防御性が向上する。
私たちのコードはGitHubで公開されます。
Text-to-image diffusion models have been demonstrated with unsafe generation due to unfiltered large-scale training data, such as violent, sexual, and shocking images, necessitating the erasure of unsafe concepts. Most existing methods focus on modifying the generation probabilities conditioned on the texts containing unsafe descriptions. However, they fail to guarantee safe generation for unseen texts in the training phase, especially for the prompts from adversarial attacks. In this paper, we re-analyze the erasure task and point out that existing methods cannot guarantee the minimization of the total probabilities of unsafe generation. To tackle this problem, we propose Dark Miner. It entails a recurring three-stage process that comprises mining, verifying, and circumventing. It greedily mines embeddings with maximum generation probabilities of unsafe concepts and reduces unsafe generation more effectively. In the experiments, we evaluate its performance on two inappropriate concepts, two objects, and two styles. Compared with 6 previous state-of-the-art methods, our method achieves better erasure and defense results in most cases, especially under 4 state-of-the-art attacks, while preserving the model's native generation capability. Our code will be available on GitHub. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# ChatGPTを用いた薬用処方文におけるゼロショットと少数ショットのエンティティ認識とテキスト拡張
Zero- and Few-shot Named Entity Recognition and Text Expansion in Medication Prescriptions using ChatGPT ( http://arxiv.org/abs/2409.17683v1 ) ライセンス: Link先を確認 | Natthanaphop Isaradech, Andrea Riedel, Wachiranun Sirikul, Markus Kreuzthaler, Stefan Schulz, | (参考訳) 導入: 処方薬は、しばしば無料のテキストで、二つの言語、地元のブランド名、幅広い慣用的なフォーマットと略語が混在している。
大規模言語モデル(LLM)は、入力プロンプトに応答してテキストを生成する有望な能力を示している。
われわれはChatGPT 3.5を用いて、排出サマリーにおける医薬品のステートメントを自動構築および拡張し、人や機械の解釈を容易にする。
メソッド:NER(named-entity Recognition)とEX(Text Expansion)は、異なるプロンプト戦略を持つゼロショットおよび少数ショット設定で使用される。
100の薬品が手動で注記され、治療された。
NER性能は厳密かつ部分的マッチングを用いて測定した。
課題EXでは、2人の専門家が、原文と拡張文の意味的等価性を評価することによって、結果を解釈した。
モデル性能は、精度、リコール、F1スコアで測定された。
結果: NERでは,最高成績のプロンプトがテストセットの平均F1スコア0.94に達した。
EXでは、いくつかのプロンプトは他のプロンプトよりも優れたパフォーマンスを示し、平均F1スコアは0.87である。
結論: この研究は, ChatGPT を用いたフリーテキスト医薬品文における NER および EX タスクの良好な性能を示すものである。
ゼロショットベースラインと比較して、数発のアプローチでは、システムは幻覚を防ぎ、安全関連医薬品データを処理する際には受け入れられない。
Introduction: Medication prescriptions are often in free text and include a mix of two languages, local brand names, and a wide range of idiosyncratic formats and abbreviations. Large language models (LLMs) have shown promising ability to generate text in response to input prompts. We use ChatGPT 3.5 to automatically structure and expand medication statements in discharge summaries and thus make them easier to interpret for people and machines. Methods: Named-entity Recognition (NER) and Text Expansion (EX) are used in a zero- and few-shot setting with different prompt strategies. 100 medication statements were manually annotated and curated. NER performance was measured by using strict and partial matching. For the task EX, two experts interpreted the results by assessing semantic equivalence between original and expanded statements. The model performance was measured by precision, recall, and F1 score. Results: For NER, the best-performing prompt reached an average F1 score of 0.94 in the test set. For EX, the few-shot prompt showed superior performance among other prompts, with an average F1 score of 0.87. Conclusion: Our study demonstrates good performance for NER and EX tasks in free-text medication statements using ChatGPT. Compared to a zero-shot baseline, a few-shot approach prevented the system from hallucinating, which would be unacceptable when processing safety-relevant medication data. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# 合成表データにおける論理的・機能的依存関係の保存
Preserving logical and functional dependencies in synthetic tabular data ( http://arxiv.org/abs/2409.17684v1 ) ライセンス: Link先を確認 | Chaithra Umesh, Kristian Schultz, Manjunath Mahendra, Saparshi Bej, Olaf Wolkenhauer | (参考訳) 属性間の依存性は、表データの一般的な側面である。
しかし、既存の表型データ生成アルゴリズムがこれらの依存関係を保持しつつ合成データを生成するかどうかはまだ検討されていない。
本稿では,既存の機能的依存関係の概念に加えて,属性間の論理的依存関係の概念を紹介する。
さらに、表データの属性間の論理的依存関係を定量化する尺度を提供する。
この尺度を利用することで、最先端の合成データ生成アルゴリズムを比較し、それらの能力をテストして、公開されているいくつかのデータセットに対する論理的および機能的依存関係を保存する。
現在利用可能な合成表データ生成アルゴリズムは、合成データセットを生成する際に、機能的依存関係を完全に保存していないことを実証する。
さらに,表形式の合成データ生成モデルによっては,属性間の論理的依存関係を保存できることも示した。
本研究は,タスク固有の合成表データ生成モデルを開発するための研究ニーズと機会を明らかにするものである。
Dependencies among attributes are a common aspect of tabular data. However, whether existing tabular data generation algorithms preserve these dependencies while generating synthetic data is yet to be explored. In addition to the existing notion of functional dependencies, we introduce the notion of logical dependencies among the attributes in this article. Moreover, we provide a measure to quantify logical dependencies among attributes in tabular data. Utilizing this measure, we compare several state-of-the-art synthetic data generation algorithms and test their capability to preserve logical and functional dependencies on several publicly available datasets. We demonstrate that currently available synthetic tabular data generation algorithms do not fully preserve functional dependencies when they generate synthetic datasets. In addition, we also showed that some tabular synthetic data generation models can preserve inter-attribute logical dependencies. Our review and comparison of the state-of-the-art reveal research needs and opportunities to develop task-specific synthetic tabular data generation models. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# 小規模クラスタ化潜在空間における人工データポイント生成
医療データセット
Artificial Data Point Generation in Clustered Latent Space for Small Medical Datasets ( http://arxiv.org/abs/2409.17685v1 ) ライセンス: Link先を確認 | Yasaman Haghbin, Hadi Moradi, Reshad Hosseini | (参考訳) 機械学習のトレンドの1つは、機械学習モデルのパフォーマンスがトレーニングデータセットの量に依存するため、データ生成技術の使用である。
しかし、多くの医学応用において、資源制約のため大規模なデータセットの収集は困難であり、過度に適合し、一般化が不十分になる。
本稿では, クラスタ化潜在空間における人工データポイント生成(AGCL)を提案する。
AGCLフレームワークには、特徴抽出、K平均クラスタリング、クラス分離メトリックに基づくクラスタ評価、異なるクラス表現を持つクラスタからの合成データポイントの生成が含まれる。
この方法はパーキンソン病検診に応用され、表情データを利用して、複数の機械学習分類器で評価された。
実験の結果,AGCLはベースライン,GN,kNNMTDに比べて分類精度が有意に向上した。
AGCLは83.33%の総合的なテスト精度と90.90%のクロスバリデーション精度を達成し、小さなデータセットを増強する効果を確認した。
One of the growing trends in machine learning is the use of data generation techniques, since the performance of machine learning models is dependent on the quantity of the training dataset. However, in many medical applications, collecting large datasets is challenging due to resource constraints, which leads to overfitting and poor generalization. This paper introduces a novel method, Artificial Data Point Generation in Clustered Latent Space (AGCL), designed to enhance classification performance on small medical datasets through synthetic data generation. The AGCL framework involves feature extraction, K-means clustering, cluster evaluation based on a class separation metric, and the generation of synthetic data points from clusters with distinct class representations. This method was applied to Parkinson's disease screening, utilizing facial expression data, and evaluated across multiple machine learning classifiers. Experimental results demonstrate that AGCL significantly improves classification accuracy compared to baseline, GN and kNNMTD. AGCL achieved the highest overall test accuracy of 83.33% and cross-validation accuracy of 90.90% in majority voting over different emotions, confirming its effectiveness in augmenting small datasets. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# MoGenTS:時空間関節モデリングに基づく運動生成
MoGenTS: Motion Generation based on Spatial-Temporal Joint Modeling ( http://arxiv.org/abs/2409.17686v1 ) ライセンス: Link先を確認 | Weihao Yuan, Weichao Shen, Yisheng He, Yuan Dong, Xiaodong Gu, Zilong Dong, Liefeng Bo, Qixing Huang, | (参考訳) 離散量子化による運動生成は連続回帰よりも多くの利点があるが、避けられない近似誤差を犠牲にしている。
従来の方法は通常、全身のポーズを1つのコードに定量化するが、これは1つのベクトル内で全ての関節を符号化することが困難であるだけでなく、異なるジョイント間の空間的関係も失われる。
異なることに、この研究では個々の関節を1つのベクトルに定量化する。
一 単一の関節に付随する複雑さが全ポーズより著しく低いため、量子化過程を単純化すること。
二 関節の空間的関係と時間的動きのパターンを両立させる空間的時間的構造を維持すること。
iii) 2次元画像に広く使われている様々な2次元操作の応用を可能にする2次元トークンマップを得る。
2次元運動量子化を基盤として,2次元共同VQVAE,時空間2次元マスキング技術,空間時空間2次元アテンションが提案され,2次元トークン間の空間時空間信号を利用する空間時空間モデリングフレームワークを構築した。
実験の結果,HumanML3DではFIDが26.6\%,KIT-MLでは29.9\%が減少した。
Motion generation from discrete quantization offers many advantages over continuous regression, but at the cost of inevitable approximation errors. Previous methods usually quantize the entire body pose into one code, which not only faces the difficulty in encoding all joints within one vector but also loses the spatial relationship between different joints. Differently, in this work we quantize each individual joint into one vector, which i) simplifies the quantization process as the complexity associated with a single joint is markedly lower than that of the entire pose; ii) maintains a spatial-temporal structure that preserves both the spatial relationships among joints and the temporal movement patterns; iii) yields a 2D token map, which enables the application of various 2D operations widely used in 2D images. Grounded in the 2D motion quantization, we build a spatial-temporal modeling framework, where 2D joint VQVAE, temporal-spatial 2D masking technique, and spatial-temporal 2D attention are proposed to take advantage of spatial-temporal signals among the 2D tokens. Extensive experiments demonstrate that our method significantly outperforms previous methods across different datasets, with a $26.6\%$ decrease of FID on HumanML3D and a $29.9\%$ decrease on KIT-ML. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# ニューラル・セット・ディバージェンスを用いた一般費用によるグラフ編集距離
Graph Edit Distance with General Costs Using Neural Set Divergence ( http://arxiv.org/abs/2409.17687v1 ) ライセンス: Link先を確認 | Eeshaan Jain, Indradyumna Roy, Saswat Meher, Soumen Chakrabarti, Abir De | (参考訳) グラフ編集距離(GED)は、2つのグラフ間の(dis-)類似性を測定する。
しかし、GEDの正確な計算はNP-Hardであり、近年、GED推定のためのニューラルメソッドの設計を動機付けている。
しかし、彼らは異なるコストで編集操作を明示的に説明していない。
そこで我々は,4つの編集操作(viz., edge deletion, edge addition, node deletion, node addition)で指定された一般的なコストで動作可能な,ニューラルGED推定器である GraphEDXを提案する。
まず、これらの4つのコストを組み込んだ2次代入問題(QAP)としてGEDを提示する。
次に、各グラフをノードとエッジの埋め込みの集合として表現し、それらを用いてニューラルネットワークの発散サロゲートの族を設計する。
各操作に対応するQAP用語をそれぞれのサロゲートに置き換える。
そのようなニューラルネットワークの発散を計算するには、2つのグラフのノードとエッジを整列する必要がある。
我々はGumbel-Sinkhorn置換生成器を用いてこれらのアライメントを学習し、ノードとエッジのアライメントが互いに一致していることを保証する。
さらに、これらのアライメントは、ノードペア間のエッジの存在と欠如の両方を認識している。
さまざまな編集コスト設定の下で、いくつかのデータセットの実験では、 GraphEDXが予測エラーの点において、最先端のメソッドやヒューリスティックを一貫して上回っていることが示されている。
Graph Edit Distance (GED) measures the (dis-)similarity between two given graphs, in terms of the minimum-cost edit sequence that transforms one graph to the other. However, the exact computation of GED is NP-Hard, which has recently motivated the design of neural methods for GED estimation. However, they do not explicitly account for edit operations with different costs. In response, we propose GRAPHEDX, a neural GED estimator that can work with general costs specified for the four edit operations, viz., edge deletion, edge addition, node deletion and node addition. We first present GED as a quadratic assignment problem (QAP) that incorporates these four costs. Then, we represent each graph as a set of node and edge embeddings and use them to design a family of neural set divergence surrogates. We replace the QAP terms corresponding to each operation with their surrogates. Computing such neural set divergence require aligning nodes and edges of the two graphs. We learn these alignments using a Gumbel-Sinkhorn permutation generator, additionally ensuring that the node and edge alignments are consistent with each other. Moreover, these alignments are cognizant of both the presence and absence of edges between node-pairs. Experiments on several datasets, under a variety of edit cost settings, show that GRAPHEDX consistently outperforms state-of-the-art methods and heuristics in terms of prediction error. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# 局所的順序付けによる密閉証人
Entanglement witnesses with local partial ordering ( http://arxiv.org/abs/2409.17689v1 ) ライセンス: Link先を確認 | Joshua Carlo A. Casapao, Eric A. Galapon, | (参考訳) 本稿では,各目撃者が2つの製品観測値の差分として定式化される,絡み合いの目撃者の類型について検討する。
これらの可観測子は、すべての期待値について定義された部分順序規則に従う正の半有限局所作用素に分解可能である。
これらの絡み合いの証人を構築するためのフレームワークを、いくつかの例とともに提供します。
また、線形および非線形に改善する方法についても論じる。
We investigate a class of entanglement witnesses where each witness is formulated as a difference of two product observables. These observables are decomposable into positive semidefinite local operators that obey a partial ordering rule defined over all their possible expectation values. We provide a framework to construct these entanglement witnesses along with some examples. We also discuss methods to improve them both linearly and nonlinearly. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# スピンのナノスケールイメージングのための先端上のパルス磁場勾配
Pulsed magnetic field gradient on a tip for nanoscale imaging of spins ( http://arxiv.org/abs/2409.17690v1 ) ライセンス: Link先を確認 | Leora Schein-Lubomirsky, Yarden Mazor, Rainer Stöhr, Andrej Denisenko, Amit Finkler, | (参考訳) ナノスケール磁気共鳴イメージング(nanoMRI)は単一分子レベルでの構造を得ることを目的としている。
ナノMRI勾配の効果技術のほとんどは、小さな永久磁石を使用する。
ここでは,ナノスケールで高勾配の局所的かつ制御可能な磁場を提供するために,先端にスイッチング可能な磁場勾配を示す。
我々は、勾配場をナノスケール磁気共鳴センサ、ダイヤモンド中の窒素空孔(NV)中心に組み込み、高分解能磁気共鳴画像を提供する。
この装置は、石英の先端に沿って堆積された金属のマイクロワイヤで、先端に沿って電流が流れ、頂点周辺の磁場を誘導する。
このフィールドは、ワイヤに沿って電流を制御することで測定を通して操作することができる。
1$\mathrm{\mu}\text{T/nm}$を200$\mathrm{\mu}\text{T}$より弱いフィールドで達成した。
このような勾配は、単一のNVセンサーを用いて1nmの分解能を持つ電子スピンマッピングを促進し、電子のナノスケールイメージングを可能にする。
電流をオン/オフし、デバイスを高精度に位置決めする能力は、限られたエミッタコントラストやサンプル準備の柔軟性といった制限を克服する。
さらに, センサへの金属先端の近接は, ラビパワーを空間的依存的に変化させ, 拡張された(3ドル)およびラビパワーの低減を図った。
先端によって誘導されるこの空間勾配は、同じマイクロ波パワーが異なるスピン操作特性をもたらす近くのスピン種に選択的パルスを与える機会を与える。
Nanoscale magnetic resonance imaging (nanoMRI) aims at obtaining structure at the single molecule level. Most of the techniques for effecting a nanoMRI gradient use small permanent magnets. Here, we present a switchable magnetic field gradient on a tip, which is designed to provide a local and controllable magnetic field with a high gradient on the nanometer scale. We incorporate the gradient field with a nanoscale magnetic resonance sensor, a single nitrogen-vacancy (NV) center in diamond, to provide high-resolution magnetic resonance imaging. The device is a metal microwire deposited along a quartz tip, with the current flowing along the tip inducing a magnetic field around its apex. This field can be manipulated throughout a measurement by controlling the current along the wire. We achieved gradients as high as 1 $\mathrm{\mu}\text{T/nm}$ at fields weaker than 200 $\mathrm{\mu}\text{T}$. Such a gradient can facilitate electron spin mapping with 1 nm resolution using single NV sensors, allowing for nanoscale imaging of electrons. The ability to switch the current on and off and to position the device with high precision overcomes limitations such as limited emitter contrast and the flexibility in sample preparation. Moreover, we show that proximity of the metallic tip to the sensor modifies the Rabi power in a spatially dependent manner, providing regions with enhanced ($\times$3.5) and decreased Rabi power. This spatial gradient, induced by the tip, offers the opportunity for selective pulses on nearby spin species where the same microwave power will result in different spin manipulation characteristics. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# プライビデント情報のない効率的なバイアス除去
Efficient Bias Mitigation Without Privileged Information ( http://arxiv.org/abs/2409.17691v1 ) ライセンス: Link先を確認 | Mateo Espinosa Zarlenga, Swami Sankaranarayanan, Jerone T. A. Andrews, Zohreh Shams, Mateja Jamnik, Alice Xiang | (参考訳) 経験的リスク最小化によってトレーニングされたディープニューラルネットワークは、特にグループとタスクラベルが急激な相関関係にある場合(例えば、"grassy background"や"cows"など)、グループ間で大きなパフォーマンス格差を示すことが多い。
この問題に対処しようとする既存のバイアス緩和手法は、しばしばトレーニングや検証のためにグループラベルに依存するか、広範囲のハイパーパラメーター探索を必要とする。
このようなデータや計算要求は、特にデータセットがグループアノテートするには大きすぎる場合、計算資源は限られており、モデルは既に複雑なパイプラインを通して訓練されている。
本稿では、ヘルパーモデルのトレーニング履歴全体を活用してスプリアスサンプルを特定し、ロバストモデルのトレーニングが可能なグループバランス付きトレーニングセットを生成する、シンプルなハイパーパラメータフリーフレームワークである、バイアス軽減のためのターゲット拡張(TAB)を提案する。
我々は,TABがグループ情報やモデル選択を使わずに最悪のグループ性能を向上し,全体の精度を維持しつつ,既存の手法よりも優れていることを示す。
Deep neural networks trained via empirical risk minimisation often exhibit significant performance disparities across groups, particularly when group and task labels are spuriously correlated (e.g., "grassy background" and "cows"). Existing bias mitigation methods that aim to address this issue often either rely on group labels for training or validation, or require an extensive hyperparameter search. Such data and computational requirements hinder the practical deployment of these methods, especially when datasets are too large to be group-annotated, computational resources are limited, and models are trained through already complex pipelines. In this paper, we propose Targeted Augmentations for Bias Mitigation (TAB), a simple hyperparameter-free framework that leverages the entire training history of a helper model to identify spurious samples, and generate a group-balanced training set from which a robust model can be trained. We show that TAB improves worst-group performance without any group information or model selection, outperforming existing methods while maintaining overall accuracy. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# MIO:マルチモーダルトークンの基礎モデル
MIO: A Foundation Model on Multimodal Tokens ( http://arxiv.org/abs/2409.17692v1 ) ライセンス: Link先を確認 | Zekun Wang, King Zhu, Chunpu Xu, Wangchunshu Zhou, Jiaheng Liu, Yibo Zhang, Jiashuo Wang, Ning Shi, Siyu Li, Yizhi Li, Haoran Que, Zhaoxiang Zhang, Yuanxing Zhang, Ge Zhang, Ke Xu, Jie Fu, Wenhao Huang | (参考訳) 本稿では,マルチモーダルトークン上に構築された新しい基礎モデルであるMIOを紹介し,音声,テキスト,画像,動画をエンドツーエンドで自動回帰的に理解し,生成する。
大規模言語モデル(LLM)とマルチモーダル・大規模言語モデル(MM-LLM)の出現は、汎用能力を通じて人工知能の進歩を促進するが、それでも真にあらゆる理解と生成を欠いている。
近年,GPT-4o のリリースにより,複雑な実世界のタスクに対して,任意の LLM の驚くべきポテンシャルが示され,画像,音声,テキスト間の一方向入力と出力が可能になった。
しかし、それはクローズドソースであり、マルチモーダルなインターリーブシーケンスの生成をサポートしていない。
因果マルチモーダルモデリングを用いて,4つのモードにまたがる離散トークンを混合したMIOを提案する。
MIOは,(1)アライメント・プレトレーニング,(2)インターリーブド・プレトレーニング,(3)スピーチ・エンハンスド・プレトレーニング,(4)テキスト・ビジュアル・音声タスクの総合的な微調整を行う。
実験の結果,MIOは従来の2つのモードベースライン,任意のモデルベースライン,さらにはモダリティ固有のベースラインと比較して,競争力があり,性能が優れていることが示唆された。
さらに、MIOは、インターリーブドビデオテキスト生成、チェーンオブビジュアル推論、ビジュアルガイドライン生成、インストラクショナル画像編集など、あらゆる機能に固有の高度な機能を示している。
In this paper, we introduce MIO, a novel foundation model built on multimodal tokens, capable of understanding and generating speech, text, images, and videos in an end-to-end, autoregressive manner. While the emergence of large language models (LLMs) and multimodal large language models (MM-LLMs) propels advancements in artificial general intelligence through their versatile capabilities, they still lack true any-to-any understanding and generation. Recently, the release of GPT-4o has showcased the remarkable potential of any-to-any LLMs for complex real-world tasks, enabling omnidirectional input and output across images, speech, and text. However, it is closed-source and does not support the generation of multimodal interleaved sequences. To address this gap, we present MIO, which is trained on a mixture of discrete tokens across four modalities using causal multimodal modeling. MIO undergoes a four-stage training process: (1) alignment pre-training, (2) interleaved pre-training, (3) speech-enhanced pre-training, and (4) comprehensive supervised fine-tuning on diverse textual, visual, and speech tasks. Our experimental results indicate that MIO exhibits competitive, and in some cases superior, performance compared to previous dual-modal baselines, any-to-any model baselines, and even modality-specific baselines. Moreover, MIO demonstrates advanced capabilities inherent to its any-to-any feature, such as interleaved video-text generation, chain-of-visual-thought reasoning, visual guideline generation, instructional image editing, etc. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# 空間埋め込みは低エントロピーおよび不均一スペクトルダイナミクスを持つ特異なモジュラリティを促進する
Spatial embedding promotes a specific form of modularity with low entropy and heterogeneous spectral dynamics ( http://arxiv.org/abs/2409.17693v1 ) ライセンス: Link先を確認 | Cornelia Sheeran, Andrew S. Ham, Duncan E. Astle, Jascha Achterberg, Danyal Akarca, | (参考訳) 生物学的制約がどのように神経計算を形成するかを理解することは、計算神経科学の中心的な目標である。
空間的に埋め込まれたリカレントニューラルネットワークは、学習よりもネットワークの構造と機能を組み合わせた組織をどのように形成するかを研究するための有望な道を提供する。
これまでの研究では、このような空間的に埋め込まれたシステムは、学習中に構造と機能を単一の人工モデルに組み合わせることができることが示されていた。
しかし、構造的制約が到達可能な構成の範囲をどのように制限するかは、正確には分かっていない。
本研究では,これらの制約を,速度とスパイクニューラルネットワークの両面にわたって,ニューラルウェイトと固有スペクトルのエントロピー測定によって研究することが可能であることを示す。
空間埋め込みは、ベースラインモデルとは対照的に、既知の空間的および通信的制約がそれらに作用するので、接続性は容易に解釈できる、非常に特異な低エントロピーモジュラリティのネットワークにつながる。
重要なことに、これらのネットワークは体系的に変調されたスペクトル力学を実証し、それらの構造に課される制約を克服するために関数の不均一性をどのように活用するかを明らかにした。
この研究は、ニューラルネットワークにおける制約付き学習の理解を深め、コーディングスキームやタスクを越えて、同時に構造的および機能的目的に対するソリューションをタンデムで達成する必要がある。
Understanding how biological constraints shape neural computation is a central goal of computational neuroscience. Spatially embedded recurrent neural networks provide a promising avenue to study how modelled constraints shape the combined structural and functional organisation of networks over learning. Prior work has shown that spatially embedded systems like this can combine structure and function into single artificial models during learning. But it remains unclear precisely how, in general, structural constraints bound the range of attainable configurations. In this work, we show that it is possible to study these restrictions through entropic measures of the neural weights and eigenspectrum, across both rate and spiking neural networks. Spatial embedding, in contrast to baseline models, leads to networks with a highly specific low entropy modularity where connectivity is readily interpretable given the known spatial and communication constraints acting on them. Crucially, these networks also demonstrate systematically modulated spectral dynamics, revealing how they exploit heterogeneity in their function to overcome the constraints imposed on their structure. This work deepens our understanding of constrained learning in neural networks, across coding schemes and tasks, where solutions to simultaneous structural and functional objectives must be accomplished in tandem. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# デザイン学生の課題とフィードバック提供におけるGPT-4の適用:探索的研究
The application of GPT-4 in grading design university students' assignment and providing feedback: An exploratory study ( http://arxiv.org/abs/2409.17698v1 ) ライセンス: Link先を確認 | Qian Huang, Thijs Willems, King Wang Poon, | (参考訳) 本研究は,GPT-4がデザイン大学生の課題を効果的に評価し,有用なフィードバックを提供することができるかどうかを検討することを目的とする。
デザイン教育では、課題には1つの正しい答えはなく、しばしばオープンな設計問題の解決に関わる。
設計プロジェクトの主観的な性質は、工学的背景やアーキテクチャ的背景からのインストラクターなど、異なるレーダ間でグレードが異なるため、グレードの問題につながることが多い。
本研究は、より信頼性の高い成果を達成し、デザイン学生に建設的なフィードバックを提供するかどうかをテストするために、カスタムGPTの開発において反復的な研究手法を採用する。
まず、何回かの反復を通して、GPTと人間のラッカーの相互信頼度は、教育者が一般的に受け入れるレベルに達しました。
このことは、GPTに正確なプロンプトを提供し、Custom GPTを構築するために継続的に反復することにより、学生の設計課題を効果的に評価し、人間のレーダに対する信頼性の高い補完として機能させることができることを示している。
第2に、GPTスコアの異なる時間での信頼性は0.65から0.78である。
このことは、適切な指示によって、Custom GPTは、学生の学習の前提条件である一貫性のある結果を与えることを示している。
整合性と整合性は教育評価の信頼性を確保するための2つの主要なルールであるので,これら2つのルールに準拠したカスタムGPTを開発できるかどうかを検討した。
我々は、Custom GPTが学生に有用なフィードバックを提供することができるかどうかを検証し、Custom GPTを補完的なレーダとして機能させるために、教育者がどのように開発し、反復するかを反映して、論文を締めくくった。
This study aims to investigate whether GPT-4 can effectively grade assignments for design university students and provide useful feedback. In design education, assignments do not have a single correct answer and often involve solving an open-ended design problem. This subjective nature of design projects often leads to grading problems,as grades can vary between different raters,for instance instructor from engineering background or architecture background. This study employs an iterative research approach in developing a Custom GPT with the aim of achieving more reliable results and testing whether it can provide design students with constructive feedback. The findings include: First,through several rounds of iterations the inter-reliability between GPT and human raters reached a level that is generally accepted by educators. This indicates that by providing accurate prompts to GPT,and continuously iterating to build a Custom GPT, it can be used to effectively grade students' design assignments, serving as a reliable complement to human raters. Second, the intra-reliability of GPT's scoring at different times is between 0.65 and 0.78. This indicates that, with adequate instructions, a Custom GPT gives consistent results which is a precondition for grading students. As consistency and comparability are the two main rules to ensure the reliability of educational assessment, this study has looked at whether a Custom GPT can be developed that adheres to these two rules. We finish the paper by testing whether Custom GPT can provide students with useful feedback and reflecting on how educators can develop and iterate a Custom GPT to serve as a complementary rater. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# MoJE:脱獄専門家の混成、口頭弁別員を警護に
プロンプトアタック
MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks ( http://arxiv.org/abs/2409.17699v1 ) ライセンス: Link先を確認 | Giandomenico Cornacchia, Giulio Zizzo, Kieran Fraser, Muhammad Zaid Hamed, Ambrish Rawat, Mark Purcell | (参考訳) 多様なアプリケーションにおけるLarge Language Models(LLMs)の普及は、潜在的ジェイルブレイク攻撃を防ぐための堅牢なセキュリティ対策の必要性を浮き彫りにしている。
これらの攻撃は、LSM内の脆弱性、データ完全性やユーザのプライバシを危険にさらす。
ガードレールはこのような脅威に対して重要な防御機構として機能するが、既存のモデルは検出精度と計算効率の両方の観点から、しばしば不足する。
本稿では,LLMに対するジェイルブレイク攻撃防止の重要性を論じ,これらのモデルを保護する上での入力ガードレールの役割を強調した。
現状のガードレールの限界を超えるよう設計された新しいガードレールアーキテクチャであるMoJE(Mixture of Jailbreak Expert)を紹介する。
単純な言語統計手法を用いることで、MoJEはモデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
厳格な実験を通じて、MoJEは良心的なプロンプトを損なうことなく90%の攻撃を検知できる優れた性能を示し、脱獄攻撃に対するLLMの安全性を高めた。
The proliferation of Large Language Models (LLMs) in diverse applications underscores the pressing need for robust security measures to thwart potential jailbreak attacks. These attacks exploit vulnerabilities within LLMs, endanger data integrity and user privacy. Guardrails serve as crucial protective mechanisms against such threats, but existing models often fall short in terms of both detection accuracy, and computational efficiency. This paper advocates for the significance of jailbreak attack prevention on LLMs, and emphasises the role of input guardrails in safeguarding these models. We introduce MoJE (Mixture of Jailbreak Expert), a novel guardrail architecture designed to surpass current limitations in existing state-of-the-art guardrails. By employing simple linguistic statistical techniques, MoJE excels in detecting jailbreak attacks while maintaining minimal computational overhead during model inference. Through rigorous experimentation, MoJE demonstrates superior performance capable of detecting 90% of the attacks without compromising benign prompts, enhancing LLMs security against jailbreak attacks. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# ライフロングロボット体験の階層的表現を用いたエピソード記憶言語化
Episodic Memory Verbalization using Hierarchical Representations of Life-Long Robot Experience ( http://arxiv.org/abs/2409.17702v1 ) ライセンス: Link先を確認 | Leonard Bärmann, Chad DeChant, Joana Plewnia, Fabian Peller-Konrad, Daniel Bauer, Tamim Asfour, Alex Waibel, | (参考訳) ロボット体験の言語化、すなわち、ロボットの過去に関する要約と質問応答は、人間とロボットの相互作用を改善する重要な能力である。
以前の研究では、規則に基づくシステムや微調整された深層モデルを用いて、エピソードデータの短い(数分間の)ストリームを言語化し、一般化と転送可能性を制限する。
我々の研究では、この課題にゼロまたは少数の例で取り組むために、大規模な事前学習モデルを適用し、特に寿命の長い経験を口頭で表現することに重点を置いています。
この目的のために,木のようなデータ構造をエピソードメモリ(EM)から導出し,より低いレベルが生の知覚と固有受容データを示し,より高いレベルが自然言語の概念にイベントを抽象化する。
このような階層的な表現がエクスペリエンスストリームから構築されていることを前提として,ユーザのクエリを対話的に検索するエージェントとして,大規模な言語モデルを適用して,ツリーノードを動的に拡張(初期崩壊)して関連情報を検索する。
このアプローチは、数ヶ月のロボットエクスペリエンスデータにスケーリングしても、計算コストを低くする。
本研究では,その柔軟性とスケーラビリティを実証し,家庭内ロボットデータ,人間中心ビデオ,実世界のロボット記録のシミュレーション評価を行った。
Verbalization of robot experience, i.e., summarization of and question answering about a robot's past, is a crucial ability for improving human-robot interaction. Previous works applied rule-based systems or fine-tuned deep models to verbalize short (several-minute-long) streams of episodic data, limiting generalization and transferability. In our work, we apply large pretrained models to tackle this task with zero or few examples, and specifically focus on verbalizing life-long experiences. For this, we derive a tree-like data structure from episodic memory (EM), with lower levels representing raw perception and proprioception data, and higher levels abstracting events to natural language concepts. Given such a hierarchical representation built from the experience stream, we apply a large language model as an agent to interactively search the EM given a user's query, dynamically expanding (initially collapsed) tree nodes to find the relevant information. The approach keeps computational costs low even when scaling to months of robot experience data. We evaluate our method on simulated household robot data, human egocentric videos, and real-world robot recordings, demonstrating its flexibility and scalability. | 翻訳日:2024-09-28 20:46:02 公開日:2024-09-26 |
# PGN:RNNの新継機は時系列予測に有効
PGN: The RNN's New Successor is Effective for Long-Range Time Series Forecasting ( http://arxiv.org/abs/2409.17703v1 ) ライセンス: Link先を確認 | Yuxin Jia, Youfang Lin, Jing Yu, Shuo Wang, Tianhao Liu, Huaiyu Wan, | (参考訳) RNNの繰り返し構造のため、長い情報伝達経路は、長期依存、勾配爆発/消滅問題、非効率な逐次実行において制限となる。
そこで本研究では,RNN の新たな後継者として Parallel Gated Network (PGN) という新しいパラダイムを提案する。
PGNは、設計された履歴情報抽出(HIE)レイヤを通じて、以前のタイムステップからの情報を直接キャプチャし、ゲート機構を利用して現在のタイムステップ情報を選択し、融合する。
これにより、情報伝搬パスを$\mathcal{O}(1)$に減らし、RNNの制限を効果的に解決する。
長時間連続予測タスクにおけるPGNの性能を高めるために,Temporal PGN (TPGN) と呼ばれる新しい時間モデリングフレームワークを提案する。
TPGNは時系列のセマンティック情報を包括的にキャプチャするために2つのブランチを組み込んでいる。
ある枝はPGNを使用して、その局所特性を保ちながら長期の周期パターンをキャプチャする。
他のブランチはパッチを使用して短期情報をキャプチャし、シリーズのグローバルな表現を集約する。
TPGNは$\mathcal{O}(\sqrt{L})$の理論的複雑さを達成し、演算の効率性を確保する。
5つのベンチマークデータセットによる実験結果から,TPGNのSOTA(State-of-the-art)性能と高効率性を実証し,長距離時系列予測におけるRNNの新たな後継者としてのPGNの有効性を確認した。
コードは、このリポジトリで利用可能である。
Due to the recurrent structure of RNN, the long information propagation path poses limitations in capturing long-term dependencies, gradient explosion/vanishing issues, and inefficient sequential execution. Based on this, we propose a novel paradigm called Parallel Gated Network (PGN) as the new successor to RNN. PGN directly captures information from previous time steps through the designed Historical Information Extraction (HIE) layer and leverages gated mechanisms to select and fuse it with the current time step information. This reduces the information propagation path to $\mathcal{O}(1)$, effectively addressing the limitations of RNN. To enhance PGN's performance in long-range time series forecasting tasks, we propose a novel temporal modeling framework called Temporal PGN (TPGN). TPGN incorporates two branches to comprehensively capture the semantic information of time series. One branch utilizes PGN to capture long-term periodic patterns while preserving their local characteristics. The other branch employs patches to capture short-term information and aggregate the global representation of the series. TPGN achieves a theoretical complexity of $\mathcal{O}(\sqrt{L})$, ensuring efficiency in its operations. Experimental results on five benchmark datasets demonstrate the state-of-the-art (SOTA) performance and high efficiency of TPGN, further confirming the effectiveness of PGN as the new successor to RNN in long-range time series forecasting. The code is available in this repository: \url{https://github.com/Water2sea/TPGN}. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# $\ell_1$正規化回帰における転送学習:ハイパーパラメータ
シャープ漸近解析に基づく選択戦略
Transfer Learning in $\ell_1$ Regularized Regression: Hyperparameter Selection Strategy based on Sharp Asymptotic Analysis ( http://arxiv.org/abs/2409.17704v1 ) ライセンス: Link先を確認 | Koki Okajima and Tomoyuki Obuchi | (参考訳) 転送学習技術は、複数の関連するデータセットからの情報を活用し、ターゲットデータセットに対する予測品質を向上させることを目的としている。
このような手法は高次元スパース回帰の文脈で採用されており、いくつかのラッソベースのアルゴリズムが発明されている。
これらのアルゴリズムは統計学者に、関連するデータセットから情報伝達の度合いと種類を制御するハイパーパラメータを選択することを要求する。
しかし、これらのハイパーパラメータの選択戦略と、これらの選択がアルゴリズムの性能に与える影響は、ほとんど解明されていない。
そこで本研究では, レプリカ法を用いて漸近解析を行い, 高次元環境下でのアルゴリズムの徹底的, 精密な研究を行う。
微調整段階に転送される2種類の情報のうちの1つを無視することは、一般化性能にはほとんど影響を与えず、ハイパーパラメータ選択への取り組みを著しく削減できることを示している。
また,IMDbデータセット上の実世界の応用を実証的に支援した。
Transfer learning techniques aim to leverage information from multiple related datasets to enhance prediction quality against a target dataset. Such methods have been adopted in the context of high-dimensional sparse regression, and some Lasso-based algorithms have been invented: Trans-Lasso and Pretraining Lasso are such examples. These algorithms require the statistician to select hyperparameters that control the extent and type of information transfer from related datasets. However, selection strategies for these hyperparameters, as well as the impact of these choices on the algorithm's performance, have been largely unexplored. To address this, we conduct a thorough, precise study of the algorithm in a high-dimensional setting via an asymptotic analysis using the replica method. Our approach reveals a surprisingly simple behavior of the algorithm: Ignoring one of the two types of information transferred to the fine-tuning stage has little effect on generalization performance, implying that efforts for hyperparameter selection can be significantly reduced. Our theoretical findings are also empirically supported by real-world applications on the IMDb dataset. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# 誘電体ウェッジのカシミール・ポーダ相互作用のための表面散乱膨張
Surface Scattering Expansion for the Casimir-Polder Interaction of a Dielectric Wedge ( http://arxiv.org/abs/2409.17710v1 ) ライセンス: Link先を確認 | Thorsten Emig, | (参考訳) 誘電体くさびの電磁散乱振幅は閉形では知られていない。
これにより、分極可能な粒子と誘電体ウェッジの間のカシミール・ポルダー相互作用の計算が困難になる。
この幾何学は、エッジが揺らぎによって引き起こされる相互作用に与える影響のプロトタイプであり、そのため、この問題に新しい方法を採用することが重要である。
最近開発された多重散乱展開(T. Emig and G. Bimonte, Phys. Lett. 130, 200401 (2023))を用いて、この展開の基底自由数値評価を行い、広い誘電率のウェッジに対するCP電位の正確な推定値を得る。
顕著な発見は、円滑なエッジを持つ誘電体くさびのCP電位が、完全な導体で作られた鋭いくさびの電位と密接に関連していることである。
後者のポテンシャルは正確に知られており、この関係は実際は特に有用である。
The electromagnetic scattering amplitude of a dielectric wedge is not known in closed form. This makes the computation of the Casimir-Polder (CP) interaction between a polarizable particle and a dielectric wedge challenging. This geometry is a prototype for the effect of edges on fluctuation-induced interactions, and hence it is important to employ new methods for this problem. Using a recently developed multiple scattering expansion [T. Emig and G. Bimonte, Phys. Rev. Lett. 130, 200401 (2023)], here we implement a basis-free numerical evaluation of this expansion to obtain precise estimates of the CP potential for a wedge over a wide range of dielectric constants. A remarkable finding is that the CP potential for a dielectric wedge with a smoothed edge is closely related to the potential of a sharp wedge made of a perfect electric conductor. The latter potential is known exactly, making this relation particularly useful in practice. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# ニュースレコメンデーションのための効率的なポイントワイズ学習
Efficient Pointwise-Pairwise Learning-to-Rank for News Recommendation ( http://arxiv.org/abs/2409.17711v1 ) ライセンス: Link先を確認 | Nithish Kannen, Yao Ma, Gerrit J. J. van den Burg, Jean Baptiste Faddoul, | (参考訳) ニュースレコメンデーションは、各ユーザのインタラクション履歴と好みに基づいてパーソナライズを行う、困難なタスクである。
最近の研究は、事前学習された言語モデル(PLM)の力を利用して、ニュース項目を直接ランク付けする手法を用いて、ポイントワイド、ペアワイド、リストワイドの3つのカテゴリに分類している。
ポイントワイズ手法は線形推論の複雑さを提供するが、それらの手法はタスクのランク付けに有効である項目間の重要な比較情報を捕捉することができない。
逆に、ペアワイズアプローチとリストワイズアプローチは、これらの比較を組み込むのに優れているが、実用的な制限に悩まされている:ペアワイズアプローチは計算的に高価か理論的な保証が欠如しており、リストワイズ手法は実際は不十分であることが多い。
本稿では,PLMに基づくニュースレコメンデーションのための新しいフレームワークを提案する。
本稿では,本フレームワークの厳密な理論的解析を行い,提案手法が性能向上を保証できる条件を確立する。
MINDおよびAdressaニュースレコメンデーションデータセットにおいて,本手法が最先端の手法より優れていることを示す。
News recommendation is a challenging task that involves personalization based on the interaction history and preferences of each user. Recent works have leveraged the power of pretrained language models (PLMs) to directly rank news items by using inference approaches that predominately fall into three categories: pointwise, pairwise, and listwise learning-to-rank. While pointwise methods offer linear inference complexity, they fail to capture crucial comparative information between items that is more effective for ranking tasks. Conversely, pairwise and listwise approaches excel at incorporating these comparisons but suffer from practical limitations: pairwise approaches are either computationally expensive or lack theoretical guarantees, and listwise methods often perform poorly in practice. In this paper, we propose a novel framework for PLM-based news recommendation that integrates both pointwise relevance prediction and pairwise comparisons in a scalable manner. We present a rigorous theoretical analysis of our framework, establishing conditions under which our approach guarantees improved performance. Extensive experiments show that our approach outperforms the state-of-the-art methods on the MIND and Adressa news recommendation datasets. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# QuForge: クイディットシミュレーションのためのライブラリ
QuForge: A Library for Qudits Simulation ( http://arxiv.org/abs/2409.17716v1 ) ライセンス: Link先を確認 | Tiago de Souza Farias, Lucas Friedrich, Jonas Maziero | (参考訳) 量子ビットを複数のレベルに拡張した量子コンピューティングは、量子ビットベースの量子コンピューティングほど成熟していない研究分野である。
しかし、quditは、分離されたコンポーネントが少ない情報を表現することによって、qubitsよりもいくつかの利点を提供することができる。
本稿では、量子回路を量子ビットでシミュレートするように設計されたPythonベースのライブラリQuForgeについて述べる。
このライブラリは、任意の選択されたキュディ次元に合わせた量子アルゴリズムを実装するために必要な量子ゲートを提供する。
異なるフレームワーク上に構築されたQuForgeは、GPUやTPUなどの加速デバイス上での実行をサポートし、シミュレーションを大幅に高速化する。
スパース操作もサポートしており、他のライブラリと比べてメモリ消費が減少する。
さらに、量子回路を微分可能なグラフとして構築することにより、QuForgeは量子機械学習アルゴリズムの実装を促進し、量子コンピューティング研究の能力と柔軟性を向上させる。
Quantum computing with qudits, an extension of qubits to multiple levels, is a research field less mature than qubit-based quantum computing. However, qudits can offer some advantages over qubits, by representing information with fewer separated components. In this article, we present QuForge, a Python-based library designed to simulate quantum circuits with qudits. This library provides the necessary quantum gates for implementing quantum algorithms, tailored to any chosen qudit dimension. Built on top of differentiable frameworks, QuForge supports execution on accelerating devices such as GPUs and TPUs, significantly speeding up simulations. It also supports sparse operations, leading to a reduction in memory consumption compared to other libraries. Additionally, by constructing quantum circuits as differentiable graphs, QuForge facilitates the implementation of quantum machine learning algorithms, enhancing the capabilities and flexibility of quantum computing research. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# Behaviour4All: In-the-Wild Facial Behaviour Analysis Toolkit
Behaviour4All: in-the-wild Facial Behaviour Analysis Toolkit ( http://arxiv.org/abs/2409.17717v1 ) ライセンス: Link先を確認 | Dimitrios Kollias, Chunchang Shao, Odysseus Kaloidas, Ioannis Patras, | (参考訳) 本稿では,顔の局所化,Valence-Arousal Estimation,Basic Expression Recognition,Action Unit Detectionを1つのフレームワークに統合し,顔の動作分析のための包括的オープンソースツールキットであるBehaviment4Allを紹介する。
CPU専用バージョンとGPUアクセラレーションバージョンの両方で利用可能であるBehavior4Allは、さまざまな人口グループから500万以上の画像で構成された、12の大規模、アプリ内データセットを活用している。
分散マッチングとラベルのコアノテーションを利用して、重複しないアノテーションでタスクに対処する新しいフレームワークを導入し、それらの関連性に関する事前の知識を符号化する。
この種の最大の研究で、Behavior4Allは、すべてのデータベースやタスクの公平性だけでなく、全体的なパフォーマンスにおいて最先端とツールキットの両方を上回ります。
また、目に見えないデータベースや複合表現認識に優れた一般化性を示す。
最後に、Behavior4Allは他のツールキットよりもはるかに高速です。
In this paper, we introduce Behavior4All, a comprehensive, open-source toolkit for in-the-wild facial behavior analysis, integrating Face Localization, Valence-Arousal Estimation, Basic Expression Recognition and Action Unit Detection, all within a single framework. Available in both CPU-only and GPU-accelerated versions, Behavior4All leverages 12 large-scale, in-the-wild datasets consisting of over 5 million images from diverse demographic groups. It introduces a novel framework that leverages distribution matching and label co-annotation to address tasks with non-overlapping annotations, encoding prior knowledge of their relatedness. In the largest study of its kind, Behavior4All outperforms both state-of-the-art and toolkits in overall performance as well as fairness across all databases and tasks. It also demonstrates superior generalizability on unseen databases and on compound expression recognition. Finally, Behavior4All is way times faster than other toolkits. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# ピック・アンド・プレイス課題におけるシーン理解:初期シーンと最終シーンの変換の分析
Scene Understanding in Pick-and-Place Tasks: Analyzing Transformations Between Initial and Final Scenes ( http://arxiv.org/abs/2409.17720v1 ) ライセンス: Link先を確認 | Seraj Ghasemi, Hamed Hosseini, MohammadHossein Koosheshi, Mehdi Tale Masouleh, Ahmad Kalhor, | (参考訳) ロボットは日々の作業において人間と協力することが多くなっているため、環境を理解することができるロボットシステムへの一歩を踏み出すことが重要である。
この研究は、シーンからの初期画像と最終画像が与えられたタスクを検知し、配置するためのシーン理解に焦点を当てている。
この目的のために、オブジェクト検出のためのデータセットが収集され、タスク検出が選択および配置される。
その後、YOLOv5ネットワークがトレーニングされ、最初のシーンと最後のシーンのオブジェクトを検出する。
検出されたオブジェクトとそのバウンディングボックスから、初期シーンを最終シーンに変換するタスクのピックと配置を検出する2つの方法が提案されている。
2つのシーンにおける物体の動きを追跡する幾何学的手法を提案し,シーン内を移動した境界箱の交点に基づいて作業を行う。
対照的に、CNNベースの手法では、畳み込みニューラルネットワークを用いて、交差した境界ボックスを持つオブジェクトを5つのクラスに分類し、関連するオブジェクト間の空間的関係を示す。
実行されたピック・アンド・プレイス・タスクは、両方のシーンで実験を分析することから導かれる。
その結果、VGG16バックボーンを用いたCNN法は、特定のシナリオで約12ポイント、全体の成功率は84.3%という幾何学的手法よりも優れていた。
With robots increasingly collaborating with humans in everyday tasks, it is important to take steps toward robotic systems capable of understanding the environment. This work focuses on scene understanding to detect pick and place tasks given initial and final images from the scene. To this end, a dataset is collected for object detection and pick and place task detection. A YOLOv5 network is subsequently trained to detect the objects in the initial and final scenes. Given the detected objects and their bounding boxes, two methods are proposed to detect the pick and place tasks which transform the initial scene into the final scene. A geometric method is proposed which tracks objects' movements in the two scenes and works based on the intersection of the bounding boxes which moved within scenes. Contrarily, the CNN-based method utilizes a Convolutional Neural Network to classify objects with intersected bounding boxes into 5 classes, showing the spatial relationship between the involved objects. The performed pick and place tasks are then derived from analyzing the experiments with both scenes. Results show that the CNN-based method, using a VGG16 backbone, outscores the geometric method by roughly 12 percentage points in certain scenarios, with an overall success rate of 84.3%. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# VVTEAM:揮発性メムリスタのコンパクトな挙動モデル
VVTEAM: A Compact Behavioral Model for Volatile Memristors ( http://arxiv.org/abs/2409.17723v1 ) ライセンス: Link先を確認 | Tanay Patni, Rishona Daniels, Shahar Kvatinsky, | (参考訳) 揮発性メムリスタは近年、ニューロンの漏れ機能を模倣し、消費電力と面積の点でコンデンサベースの回路よりも有利である、ニューロモルフィック回路の有望なデバイスとして人気を集めている。
さらに、揮発性メムリスタはセレクタデバイスや物理的不閉機能などのハードウェアセキュリティ回路に有用である。
回路の設計とシミュレーションを容易にするため、コンパクトな動作モデルが不可欠である。
本稿では,VTEAM非揮発性メムリスタモデルに触発されてMATLABで開発された,コンパクトで汎用的で柔軟な揮発性メムリスタの挙動モデルであるV-VTEAMを提案する。
モデルの有効性を, イオンドリフト/拡散ベースAg/SiOx/C/W揮発性メムリスタに適合させ, 相対根平均誤差が4.5%に達することを実証した。
Volatile memristors have recently gained popularity as promising devices for neuromorphic circuits, capable of mimicking the leaky function of neurons and offering advantages over capacitor-based circuits in terms of power dissipation and area. Additionally, volatile memristors are useful as selector devices and for hardware security circuits such as physical unclonable functions. To facilitate the design and simulation of circuits, a compact behavioral model is essential. This paper proposes V-VTEAM, a compact, simple, general, and flexible behavioral model for volatile memristors, inspired by the VTEAM nonvolatile memristor model and developed in MATLAB. The validity of the model is demonstrated by fitting it to an ion drift/diffusion-based Ag/SiOx/C/W volatile memristor, achieving a relative root mean error square of 4.5%. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# 構造に基づくタンパク質表現を用いた解釈型機械学習の最近の進歩
Recent advances in interpretable machine learning using structure-based protein representations ( http://arxiv.org/abs/2409.17726v1 ) ライセンス: Link先を確認 | Luiz Felipe Vecchietti, Minji Lee, Begench Hangeldiyev, Hyunkyu Jung, Hahnbeom Park, Tae-Kyun Kim, Meeyoung Cha, Ho Min Kim, | (参考訳) 機械学習(ML)の最近の進歩は、構造生物学の分野を変えつつある。
例えば、タンパク質構造予測のための画期的なニューラルネットワークであるAlphaFoldは、研究者によって広く採用されている。
予測された構造の色付けに使用される信頼性スコアなど、使いやすさの高いインターフェースとニューラルネットワークアーキテクチャによる解釈可能な結果が、AlphaFoldを非ML専門家にもアクセス可能にする。
本稿では,タンパク質3D構造を低分解能から高分解能に表現する様々な手法を提案するとともに,タンパク質構造予測やタンパク質機能,タンパク質-タンパク質相互作用などのタスクを解釈可能なML法がいかに支援できるかを示す。
この調査はまた、MLに基づく推論を解釈可能性と知識発見を高める構造に基づくタンパク質表現に解釈し視覚化することの重要性を強調した。
このような解釈可能なアプローチの開発は、薬物開発やタンパク質設計を含む分野をさらに加速することを約束する。
Recent advancements in machine learning (ML) are transforming the field of structural biology. For example, AlphaFold, a groundbreaking neural network for protein structure prediction, has been widely adopted by researchers. The availability of easy-to-use interfaces and interpretable outcomes from the neural network architecture, such as the confidence scores used to color the predicted structures, have made AlphaFold accessible even to non-ML experts. In this paper, we present various methods for representing protein 3D structures from low- to high-resolution, and show how interpretable ML methods can support tasks such as predicting protein structures, protein function, and protein-protein interactions. This survey also emphasizes the significance of interpreting and visualizing ML-based inference for structure-based protein representations that enhance interpretability and knowledge discovery. Developing such interpretable approaches promises to further accelerate fields including drug development and protein design. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# Robotic-CLIP: ロボット応用のためのアクションデータのための微調整CLIP
Robotic-CLIP: Fine-tuning CLIP on Action Data for Robotic Applications ( http://arxiv.org/abs/2409.17727v1 ) ライセンス: Link先を確認 | Nghia Nguyen, Minh Nhat Vu, Tung D. Ta, Baoru Huang, Thieu Vo, Ngan Le, Anh Nguyen, | (参考訳) 視覚言語モデルは、様々なロボットアプリケーションにおいて有意義な特徴を抽出する上で重要な役割を果たしてきた。
これらのうち、コントラスト言語-画像事前学習(CLIP)は、視覚と自然言語の理解の両方を必要とするロボット作業で広く使われている。
しかし、CLIPはテキストプロンプトと組み合わせた静的イメージのみに基づいて訓練されており、動的アクションを含むロボットタスクにはまだ完全に適応していない。
本稿では,ロボット認識能力を高めるロボットCLIPを提案する。
まず、大規模なアクションデータを収集、ラベル付けし、コントラスト学習を用いて309,433のアクションデータ(約740万フレーム)のCLIPを微調整することで、ロボットCLIPを構築します。
アクションデータを活用することで、ロボティックCLIPは、ロボットコンテキストにおけるアクションを理解する能力を獲得しながら、CLIPの強力なイメージパフォーマンスを継承する。
集中的な実験により、私たちのRobotic-CLIPは様々な言語駆動ロボットタスクで他のCLIPベースのモデルよりも優れています。
さらに,実世界の把握アプリケーションにおけるRobotic-CLIPの有効性を実証した。
Vision language models have played a key role in extracting meaningful features for various robotic applications. Among these, Contrastive Language-Image Pretraining (CLIP) is widely used in robotic tasks that require both vision and natural language understanding. However, CLIP was trained solely on static images paired with text prompts and has not yet been fully adapted for robotic tasks involving dynamic actions. In this paper, we introduce Robotic-CLIP to enhance robotic perception capabilities. We first gather and label large-scale action data, and then build our Robotic-CLIP by fine-tuning CLIP on 309,433 videos (~7.4 million frames) of action data using contrastive learning. By leveraging action data, Robotic-CLIP inherits CLIP's strong image performance while gaining the ability to understand actions in robotic contexts. Intensive experiments show that our Robotic-CLIP outperforms other CLIP-based models across various language-driven robotic tasks. Additionally, we demonstrate the practical effectiveness of Robotic-CLIP in real-world grasping applications. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# AlterMoma:カメラ-LiDAR融合モデルのための代替モダリティマスキングによる核融合冗長処理
AlterMOMA: Fusion Redundancy Pruning for Camera-LiDAR Fusion Models with Alternative Modality Masking ( http://arxiv.org/abs/2409.17728v1 ) ライセンス: Link先を確認 | Shiqi Sun, Yantao Lu, Ning Liu, Bo Jiang, JinChao Chen, Ying Zhang, | (参考訳) カメラ-LiDAR融合モデルは自律走行における認識性能を著しく向上させる。
融合機構は各モードの強度を活用し、弱点を最小限に抑える。
さらに、実際には、カメラ-LiDAR融合モデルは、訓練済みのバックボーンを効率的なトレーニングに利用している。
しかし, 単一モードカメラとLiDARバックボーンをカメラ-LiDAR融合モデルに直接ロードすると, 融合機構の性質から, 類似した特徴冗長性が生じるという議論がある。
残念ながら、既存のプルーニング法はシングルモーダルモデルに対して明示的に開発されており、カメラとLiDARの融合モデルにおいてこれらの特定の冗長パラメータを効果的に識別することは困難である。
本稿では,カメラ-LiDAR融合モデル上での課題に対処するため,各モードに代替マスキングを適用し,冗長パラメータを識別する,新規なモダリティマスキング・プルーニング・フレームワーク(AlterMOMA)を提案する。
特に、1つのモダリティパラメータがマスクされた(非活性化)とき、マスクされたバックボーンからの特徴がないことは、他のモダリティバックボーンの以前の冗長な特徴を再活性化するためにモデルを補完する。
したがって、これらの冗長な特徴と関連する冗長なパラメータは、再活性化プロセスを通じて識別することができる。
提案した重要度評価関数であるAlterEva(AlterEva)によって冗長なパラメータを抽出し,特定のパラメータが活性化・非活性化された場合の損失変化の観測に基づく。
さまざまなタスク、ベースラインモデル、プルーニングアルゴリズムを含むnuSceneとKITTIデータセットに関する大規模な実験では、AlterMOMAが既存のプルーニングメソッドより優れ、最先端のパフォーマンスを実現していることが示された。
Camera-LiDAR fusion models significantly enhance perception performance in autonomous driving. The fusion mechanism leverages the strengths of each modality while minimizing their weaknesses. Moreover, in practice, camera-LiDAR fusion models utilize pre-trained backbones for efficient training. However, we argue that directly loading single-modal pre-trained camera and LiDAR backbones into camera-LiDAR fusion models introduces similar feature redundancy across modalities due to the nature of the fusion mechanism. Unfortunately, existing pruning methods are developed explicitly for single-modal models, and thus, they struggle to effectively identify these specific redundant parameters in camera-LiDAR fusion models. In this paper, to address the issue above on camera-LiDAR fusion models, we propose a novelty pruning framework Alternative Modality Masking Pruning (AlterMOMA), which employs alternative masking on each modality and identifies the redundant parameters. Specifically, when one modality parameters are masked (deactivated), the absence of features from the masked backbone compels the model to reactivate previous redundant features of the other modality backbone. Therefore, these redundant features and relevant redundant parameters can be identified via the reactivation process. The redundant parameters can be pruned by our proposed importance score evaluation function, Alternative Evaluation (AlterEva), which is based on the observation of the loss changes when certain modality parameters are activated and deactivated. Extensive experiments on the nuScene and KITTI datasets encompassing diverse tasks, baseline models, and pruning algorithms showcase that AlterMOMA outperforms existing pruning methods, attaining state-of-the-art performance. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# 高ダイナミックLiDARマッピングとオドメトリーのためのニューラルインプシティ表現
Neural Implicit Representation for Highly Dynamic LiDAR Mapping and Odometry ( http://arxiv.org/abs/2409.17729v1 ) ライセンス: Link先を確認 | Qi Zhang, He Wang, Ru Li, Wenbin Li, | (参考訳) SLAMの最近の進歩は、LiDARベースの技術の堅牢性を強調している。
同時に、Neural Radiance Fields (NeRF) はSLAMシステムで実証された3次元シーン再構成の新たな可能性を導入した。
このうち、NeRF-LOAMは、NeRFベースのSLAMアプリケーションで顕著な性能を示している。
しかし、その強みにもかかわらず、これらのシステムは、その固有の静的仮定のため、動的屋外環境においてしばしば困難に直面する。
このような制約に対処するため,高ダイナミックな屋外シーンの再現性を向上するための新しい手法を提案する。
NeRF-LOAMに基づいて、提案手法は2つの主成分から構成される。
まず、シーンを静的な背景と動的フォアグラウンドに分けます。
このセグメンテーションは、マッピングプロセスから動的要素を識別および排除することにより、静的背景のみを正確に表現した高密度な3Dマップの作成を可能にする。
第2のコンポーネントは、マルチレゾリューション表現をサポートするためにOctree構造を拡張している。
この拡張は再構築品質を向上するだけでなく、最初のモジュールによって識別される動的オブジェクトの除去にも役立っている。
さらに、フーリエ特徴符号化はサンプリングされた点に適用され、高周波情報をキャプチャし、より完全な再構成結果をもたらす。
各種データセットの評価から,本手法は現在の最先端手法と比較して,より競争力のある結果が得られることが示された。
Recent advancements in Simultaneous Localization and Mapping (SLAM) have increasingly highlighted the robustness of LiDAR-based techniques. At the same time, Neural Radiance Fields (NeRF) have introduced new possibilities for 3D scene reconstruction, exemplified by SLAM systems. Among these, NeRF-LOAM has shown notable performance in NeRF-based SLAM applications. However, despite its strengths, these systems often encounter difficulties in dynamic outdoor environments due to their inherent static assumptions. To address these limitations, this paper proposes a novel method designed to improve reconstruction in highly dynamic outdoor scenes. Based on NeRF-LOAM, the proposed approach consists of two primary components. First, we separate the scene into static background and dynamic foreground. By identifying and excluding dynamic elements from the mapping process, this segmentation enables the creation of a dense 3D map that accurately represents the static background only. The second component extends the octree structure to support multi-resolution representation. This extension not only enhances reconstruction quality but also aids in the removal of dynamic objects identified by the first module. Additionally, Fourier feature encoding is applied to the sampled points, capturing high-frequency information and leading to more complete reconstruction results. Evaluations on various datasets demonstrate that our method achieves more competitive results compared to current state-of-the-art approaches. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# トップKシークエンシャルレコメンデーションのための自己回帰生成戦略
Autoregressive Generation Strategies for Top-K Sequential Recommendations ( http://arxiv.org/abs/2409.17730v1 ) ライセンス: Link先を確認 | Anna Volodkevich, Danil Gusak, Anton Klenitskiy, Alexey Vasilev, | (参考訳) 現代のシーケンシャルレコメンデータシステムの目標は、しばしば次のイテム予測の観点で定式化される。
本稿では,Top-Kシーケンシャルレコメンデーションタスクにおける生成トランスフォーマーモデルの適用性について検討する。
本研究は,Top-Kシーケンシャルレコメンデーションタスクの性能を評価するために,グレディデコーディング,ビームサーチ,温度サンプリングなどの一般的な自己回帰生成戦略について検討する。
さらに、温度サンプリングとその後のアグリゲーションを含むマルチシーケンス生成に基づく、新しいRRAとRAの生成戦略を提案する。
多様なデータセットの実験は、一般的に使用されている戦略の適用性に関する貴重な洞察を与え、広く使用されているTop-K予測アプローチや単一シーケンスの自動回帰生成戦略と比較して、より長い時間的地平線におけるパフォーマンスを改善するアプローチを提案する。
The goal of modern sequential recommender systems is often formulated in terms of next-item prediction. In this paper, we explore the applicability of generative transformer-based models for the Top-K sequential recommendation task, where the goal is to predict items a user is likely to interact with in the "near future". We explore commonly used autoregressive generation strategies, including greedy decoding, beam search, and temperature sampling, to evaluate their performance for the Top-K sequential recommendation task. In addition, we propose novel Reciprocal Rank Aggregation (RRA) and Relevance Aggregation (RA) generation strategies based on multi-sequence generation with temperature sampling and subsequent aggregation. Experiments on diverse datasets give valuable insights regarding commonly used strategies' applicability and show that suggested approaches improve performance on longer time horizons compared to widely-used Top-K prediction approach and single-sequence autoregressive generation strategies. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# SQUIDを用いた超低磁場・零磁場における核磁気特性のキャラクタリゼーション
Characterization of Nuclear Magnetism at Ultralow and Zero Field using SQUIDs ( http://arxiv.org/abs/2409.17733v1 ) ライセンス: Link先を確認 | John Z. Myers, Kai Buckenmaier, Andrey N. Pravdivtsev, Markus Plaumann, Rainer Körber, | (参考訳) 核磁気は、MRI(MRI)の医学などの領域を基盤にしている。
核の過分極化は、これらの技術から決定できる情報の量と質を高める。
しかしながら、これらの超偏極化手法のいくつかは、核磁気の振る舞いに関する実証データが欠如している低-超低磁場 (ULF) (nTs-mTs) の使用に依存している。
超伝導量子干渉装置(SQUID)のブロードバンド特性と超感度場感度は、ファラデーコイルやフラックスゲートのような他の磁力計がそうでないフィールドで核磁気を観測することができる。
そこで我々は[1-$^{13}$C]ピルビン酸を過分極化する過分極反応器を設計した。
その後,超低騒音,ULF MRI装置の設置により,充填されたリアクターをシミュレーションすることで,設定のフィールド感度を特徴付けることができた。
シミュレーションの結果から,超分極装置は0.4%の$^{13}$C分極となり,地上での予測熱平衡信号(約50$\mu$T)に対して約100 000 000 000の信号が増強されることがわかった。
これにより、7.44$\pm$0.91 pTの$^{13}$Cの信号が得られ、超低ノイズ設定により、システム摂動なしで初めて核磁気を直接検出できる可能性が開ける。
Nuclear magnetism underpins areas such as medicine in magnetic resonance imaging (MRI). Hyperpolarization of nuclei enhances the quantity and quality of information that can be determined from these techniques by increasing their signal to noise ratios by orders of magnitude. However, some of these hyperpolarization techniques rely on the use of low to ultralow magnetic fields (ULF) (nTs-mTs), where empirical data on how nuclear magnetism behaves is lacking. The broadband character and ultrasensitive field sensitivity of superconducting quantum interference devices (SQUID) allow for probing nuclear magnetism at these fields, where other magnetometers, such as Faraday coils and flux gates do not. To this end, we designed a hyperpolarization reactor to hyperpolarize [1-$^{13}$C]pyruvate with the technique, signal amplification by reversible exchange in shield enables alignment transfer to heteronuclei (SABRE-SHEATH). Afterwards, we were able to characterize the field sensitivity of our setup by simulating the filled reactor in relation to its placement in our ultralow noise, ULF MRI setup. Using the results of the simulations, we determined that our hyperpolarization setup results in a $^{13}$C polarization of 0.4%, a signal enhancement of ~100 000 000 versus the predicted thermal equilibrium signal at earth field (~50 $\mu$T). This results in a $^{13}$C signal of 7.44$\pm$0.91 pT, which with our ultralow noise setup, opens the possibility for the first direct detection of nuclear magnetism without system perturbation. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# 多体量子貯留層計算におけるコヒーレンスの役割
Role of coherence in many-body Quantum Reservoir Computing ( http://arxiv.org/abs/2409.17734v1 ) ライセンス: Link先を確認 | Ana Palacios, Rodrigo Martínez-Peña, Miguel C. Soriano, Gian Luca Giorgi, Roberta Zambrini, | (参考訳) 量子貯水池コンピューティング(QRC)は、量子入力の固有の処理や、状態探索のための広大なヒルベルト空間など、古典的な貯水池コンピューティングよりも潜在的に有利である。
しかし、複雑な量子系と多体量子系に基づく貯水池の性能と古典的でない状態の特徴との関係は確立されていない。
逆場イジングモデルに基づくQRCの広範囲な解析を通して、情報処理能力によって測定される時間的タスクの性能向上に、量子コヒーレンスや相関などの異なる量子効果がどのように寄与するかを示す。
さらに, 有限測定資源と騒音が異なる状態における貯水池の力学に与える影響を定量的に評価し, 減衰強度と騒音強度を増加させるために量子効果を利用する限られた能力を定量化する。
以上の結果から,貯水池性能とコヒーレンスとのモノトニックな関係が明らかとなり,エルゴード系における量子効果の重要性が示唆された。
Quantum Reservoir Computing (QRC) offers potential advantages over classical reservoir computing, including inherent processing of quantum inputs and a vast Hilbert space for state exploration. Yet, the relation between the performance of reservoirs based on complex and many-body quantum systems and non-classical state features is not established. Through an extensive analysis of QRC based on a transverse-field Ising model we show how different quantum effects, such as quantum coherence and correlations, contribute to improving the performance in temporal tasks, as measured by the Information Processing Capacity. Additionally, we critically assess the impact of finite measurement resources and noise on the reservoir's dynamics in different regimes, quantifying the limited ability to exploit quantum effects for increasing damping and noise strengths. Our results reveal a monotonic relationship between reservoir performance and coherence, along with the importance of quantum effects in the ergodic regime. | 翻訳日:2024-09-28 20:20:41 公開日:2024-09-26 |
# 純状態絡み合いとフォン・ノイマン代数
Pure state entanglement and von Neumann algebras ( http://arxiv.org/abs/2409.17739v1 ) ライセンス: Link先を確認 | Lauritz van Luijk, Alexander Stottmeister, Reinhard F. Werner, Henrik Wilming, | (参考訳) 我々は、フォン・ノイマン代数の交換で表される二部量子系に対する局所演算の理論と古典的通信(LOCC)を開発する。
我々の中心的な結果は、任意の因子へのニールセンの定理の拡張である。
行列代数の場合と同様に、二部類純状態の LOCC 順序付けはそれらの制限の偏極化に関係している。
私たちの定理は、ハグ双対性における可換因子によってモデル化された二部系において、ということを示唆している。
a)全ての状態が無限に一発の絡み合いを持つこと。
b)III型因子は、2つの純状態間の任意の精度のLOCC遷移によって特徴づけられ、
c) 後者はIII型$_{1}$因子の古典的な通信なしでも保持する。
半有限因子の場合、エンタングルメントモノトンの通常の構成は、偏化理論によって引き継がれる。
付録では、半有限フォン・ノイマン代数と$\sigma$-finite測度空間上の偏化の自己完備な処理を提供する。
We develop the theory of local operations and classical communication (LOCC) for bipartite quantum systems represented by commuting von Neumann algebras. Our central result is the extension of Nielsen's Theorem to arbitrary factors. As in the matrix algebra case, the LOCC ordering of bipartite pure states is connected to the majorization of their restrictions. Our theorem implies that, in a bipartite system modeled by commuting factors in Haag duality, a) all states have infinite one-shot entanglement if and only if the local factors are not of type I, b) type III factors are characterized by LOCC transitions of arbitrary precision between any two pure states, and c) the latter holds even without classical communication for type III$_{1}$ factors. In the case of semifinite factors, the usual construction of entanglement monotones carries over using majorization theory. In the appendix, we provide a self-contained treatment of majorization on semifinite von Neumann algebras and $\sigma$-finite measure spaces. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# AnyLogo: ジェミニ状態を有する共生型主観駆動拡散システム
AnyLogo: Symbiotic Subject-Driven Diffusion System with Gemini Status ( http://arxiv.org/abs/2409.17740v1 ) ライセンス: Link先を確認 | Jinghao Zhang, Wen Qian, Hao Luo, Fan Wang, Feng Zhao, | (参考訳) 拡散モデルは、高スループットの日産生産を促進するために魅力的な進歩を遂げた。
それでも、魅力的なカスタマイズされた要件は、真正性に対するインスタンスレベルの微調整に悩まされている。
以前のゼロショットのカスタマイズ作業は、複雑なモデル構成や主題固有の構成を通じて詳細な低レベルシグネチャに対処しながら、アイデンティティ特徴の凝縮によるセマンティックな構成を実現し、システム全体の統計的コヒーレンスを著しく破壊し、様々なシナリオに適用性を制限する。
そこで本研究では, 共生拡散システム上に構築したゼロショット領域カスタマイズ器である \textbf{AnyLogo} について述べる。
バニラ画像生成としてストリーム化され、厳密なシグネチャ抽出と創造的コンテンツ生成が有望に互換性があり、単一のデノナイジングモデルで体系的にリサイクル可能であることを認識した。
外部構成の代わりに、デノナイジングモデルのgemini状態は、連続的なシグネチャ装飾を伴う強化された被写体伝達効率とアンタングル化されたセマンティック・シグネチャ空間を促進する。
また, このスパースリサイクルのパラダイムを採用して, 信号刺激の多様化を目的とした圧縮送信クォータによる重複リスクを防止する。
ロゴレベルのベンチマークによる大規模な実験は,本手法の有効性と実用性を示すものである。
Diffusion models have made compelling progress on facilitating high-throughput daily production. Nevertheless, the appealing customized requirements are remain suffered from instance-level finetuning for authentic fidelity. Prior zero-shot customization works achieve the semantic consistence through the condensed injection of identity features, while addressing detailed low-level signatures through complex model configurations and subject-specific fabrications, which significantly break the statistical coherence within the overall system and limit the applicability across various scenarios. To facilitate the generic signature concentration with rectified efficiency, we present \textbf{AnyLogo}, a zero-shot region customizer with remarkable detail consistency, building upon the symbiotic diffusion system with eliminated cumbersome designs. Streamlined as vanilla image generation, we discern that the rigorous signature extraction and creative content generation are promisingly compatible and can be systematically recycled within a single denoising model. In place of the external configurations, the gemini status of the denoising model promote the reinforced subject transmission efficiency and disentangled semantic-signature space with continuous signature decoration. Moreover, the sparse recycling paradigm is adopted to prevent the duplicated risk with compressed transmission quota for diversified signature stimulation. Extensive experiments on constructed logo-level benchmarks demonstrate the effectiveness and practicability of our methods. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# マルコフ雑音下における情報伝達
Information transmission under Markovian noise ( http://arxiv.org/abs/2409.17743v1 ) ライセンス: Link先を確認 | Satvik Singh, Nilanjana Datta, | (参考訳) マルコフ力学に基づく開量子系を考えると、後者は離散時間量子マルコフ半群$\{\Phi^n\}_{n \in {\mathbb{N}}}$でモデル化され、量子チャネル$\Phi$と$n \in {\mathbb{N}}$が離散時間パラメータである。
有限時間$n\in \mathbb{N}$と$\epsilon \in [0,1)$の場合、一発$\epsilon$-error情報伝送容量は$\Phi^n$であり、チャネル$\Phi$の周辺空間の構造は$\epsilon \in [0,1)$である。
私たちは$の送信を考えます
(i)$ classic information(unssisted and entanglement-assisted settings)$
(ii)$量子情報と$
(iii)私的古典情報
We consider an open quantum system undergoing Markovian dynamics, the latter being modelled by a discrete-time quantum Markov semigroup $\{\Phi^n\}_{n \in {\mathbb{N}}}$, resulting from the action of sequential uses of a quantum channel $\Phi$, with $n \in {\mathbb{N}}$ being the discrete time parameter. We find upper and lower bounds on the one-shot $\epsilon$-error information transmission capacities of $\Phi^n$ for a finite time $n\in \mathbb{N}$ and $\epsilon \in [0,1)$ in terms of the structure of the peripheral space of the channel $\Phi$. We consider transmission of $(i)$ classical information (both in the unassisted and entanglement-assisted settings); $(ii)$ quantum information and $(iii)$ private classical information. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# 量子アニーリングのプライバシ : 暗号解析におけるスピン反転変換の攻撃
Privacy for Quantum Annealing. Attack on Spin Reversal Transformations in the case of cryptanalysis ( http://arxiv.org/abs/2409.17744v1 ) ライセンス: Link先を確認 | Mateusz Leśniak, Michał Wroński, | (参考訳) 本稿では、スピン反転変換(SRT)の適用が、量子アニール法を用いて解決した問題におけるプライバシー向上の十分な方法として一般に知られているが、すべての問題に対してプライバシーを保証するものではないことを実証する。
本稿では,SRTを用いて得られたIsing問題から元の問題を復元する方法を,Ising形式が$E_0$ストリーム暗号に対する代数的攻撃を表すときに示す。
SRTで変換された問題から元の問題を検索する方法を説明するために、小さな例が用いられる。
さらに,本手法は大規模問題においても効率的であることを示す。
This paper demonstrates that applying spin reversal transformations (SRT), commonly known as a sufficient method for privacy enhancing in problems solved using quantum annealing, does not guarantee privacy for all possible problems. We show how to recover the original problem from the Ising problem obtained using SRT when the resulting problem in Ising form represents the algebraic attack on the $E_0$ stream cipher. A small example is used to illustrate how to retrieve the original problem from the one transformed by SRT. Moreover, it is shown that our method is efficient even for full-scale problems. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# Few-shot Pairwise Rank Prompting: A Effective Non-Parametric Retrieval
モデル
Few-shot Pairwise Rank Prompting: An Effective Non-Parametric Retrieval Model ( http://arxiv.org/abs/2409.17745v1 ) ライセンス: Link先を確認 | Nilanjan Sinhababu, Andrew Parry, Debasis Ganguly, Debasis Samanta, Pabitra Mitra | (参考訳) 教師付きランキングモデルは、効果的であることの利点にもかかわらず、通常複雑な処理(通常、タスク固有の事前トレーニングと微調整の複数の段階)を伴います。
これによって研究者たちは,ゼロショットで動作可能な大規模言語モデル(LLM)を活用した,シンプルなパイプラインの探索を動機付けている。
しかし、ゼロショット推論では、クエリのペアとその関連ドキュメントのトレーニングセットは使用しないため、そのパフォーマンスは、そのようなペアでトレーニングされる教師付きモデルよりも大幅に低下する。
トレーニングサンプルが一般的にゼロショットのパフォーマンスを改善するという既存の知見に触発されて、私たちの研究では、これがランキングモデルにも当てはまるかどうか調査している。
より具体的には、クエリとドキュメントのペアが与えられた場合、トレーニングセットから類似したクエリの好みの例を増やすことで、好み予測タスクが改善される。
提案手法は,インドメイン (TREC DL) とアウトドメイン (BEIR サブセット) の検索ベンチマークにおいて,ゼロショットベースラインに対する一貫した改善を示す。
また,複雑なトレーニングパイプラインを必要とせず,教師付きモデルに近い性能を実現する。
A supervised ranking model, despite its advantage of being effective, usually involves complex processing - typically multiple stages of task-specific pre-training and fine-tuning. This has motivated researchers to explore simpler pipelines leveraging large language models (LLMs) that are capable of working in a zero-shot manner. However, since zero-shot inference does not make use of a training set of pairs of queries and their relevant documents, its performance is mostly worse than that of supervised models, which are trained on such example pairs. Motivated by the existing findings that training examples generally improve zero-shot performance, in our work, we explore if this also applies to ranking models. More specifically, given a query and a pair of documents, the preference prediction task is improved by augmenting examples of preferences for similar queries from a training set. Our proposed pairwise few-shot ranker demonstrates consistent improvements over the zero-shot baseline on both in-domain (TREC DL) and out-domain (BEIR subset) retrieval benchmarks. Our method also achieves a close performance to that of a supervised model without requiring any complex training pipeline. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# デュアル翻訳学習を用いた低音源言語のためのテキスト画像生成
Text Image Generation for Low-Resource Languages with Dual Translation Learning ( http://arxiv.org/abs/2409.17747v1 ) ライセンス: Link先を確認 | Chihiro Noguchi, Shun Fukuda, Shoichiro Mihara, Masao Yamanaka, | (参考訳) 低リソース言語におけるシーンテキスト認識は、実世界のシーンから派生したトレーニングデータセットが限られているため、しばしば課題に直面している。
本研究では,高リソース言語からの実際のテキスト画像のスタイルをエミュレートすることで,低リソース言語でテキスト画像を生成する手法を提案する。
本手法では,二項状態である ``synthetic'' と ``real' を条件とした拡散モデルを用いる。
このモデルのトレーニングには、バイナリ状態に基づいて、プレーンテキストイメージを合成または実際のテキストイメージに変換する、二重翻訳タスクが含まれる。
このアプローチは2つのドメインを効果的に区別するだけでなく、ターゲット言語におけるキャラクタの明示的な認識を促進する。
さらに、生成したテキスト画像の精度と多様性を高めるために、フィデリティ・ダイバーシティ・バランシング・ガイダンスとフィデリティ・エンハンス・ガイダンスの2つのガイダンス手法を導入する。
実験の結果,提案するフレームワークによって生成されたテキスト画像は,低リソース言語におけるシーンテキスト認識モデルの性能を大幅に向上させることができることがわかった。
Scene text recognition in low-resource languages frequently faces challenges due to the limited availability of training datasets derived from real-world scenes. This study proposes a novel approach that generates text images in low-resource languages by emulating the style of real text images from high-resource languages. Our approach utilizes a diffusion model that is conditioned on binary states: ``synthetic'' and ``real.'' The training of this model involves dual translation tasks, where it transforms plain text images into either synthetic or real text images, based on the binary states. This approach not only effectively differentiates between the two domains but also facilitates the model's explicit recognition of characters in the target language. Furthermore, to enhance the accuracy and variety of generated text images, we introduce two guidance techniques: Fidelity-Diversity Balancing Guidance and Fidelity Enhancement Guidance. Our experimental results demonstrate that the text images generated by our proposed framework can significantly improve the performance of scene text recognition models for low-resource languages. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# LMのトランスフォーマーは良いASRエンコーダか? : 実証的研究
Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study ( http://arxiv.org/abs/2409.17750v1 ) ライセンス: Link先を確認 | Keyu An, Shiliang Zhang, Zhijie Yan, | (参考訳) 本研究では,事前学習言語モデル (PLM) におけるトランスフォーマの有効性を,自動音声認識 (ASR) のエンコーダとして再利用する際の検討を行った。
我々の仮説は、当初テキストベースのコーパスで訓練されていたにもかかわらず、これらのトランスフォーマーは入力シーケンスから効果的な特徴を抽出する顕著な能力を持っていることを示唆している。
この本質的な能力は、音声データに転送可能であり、それによってASRの音響モデリング能力を増強する。
厳密な経験的分析により,事前学習したLMからのトランスフォーマーを組み込んだ場合,多種多様なASRタスクにおける文字誤り率(CER)と単語誤り率(WER)の顕著な改善が示された。
特に、ASRエンコーダを初期化するための有利な出発点として機能する。
さらに、よく確立されたASRエンコーダに統合されたこれらのトランスフォーマーは、特に深いセマンティック理解が重要となるシナリオにおいて、性能を大幅に向上させることができることを明らかにした。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
In this study, we delve into the efficacy of transformers within pre-trained language models (PLMs) when repurposed as encoders for Automatic Speech Recognition (ASR). Our underlying hypothesis posits that, despite being initially trained on text-based corpora, these transformers possess a remarkable capacity to extract effective features from the input sequence. This inherent capability, we argue, is transferrable to speech data, thereby augmenting the acoustic modeling ability of ASR. Through rigorous empirical analysis, our findings reveal a notable improvement in Character Error Rate (CER) and Word Error Rate (WER) across diverse ASR tasks when transformers from pre-trained LMs are incorporated. Particularly, they serve as an advantageous starting point for initializing ASR encoders. Furthermore, we uncover that these transformers, when integrated into a well-established ASR encoder, can significantly boost performance, especially in scenarios where profound semantic comprehension is pivotal. This underscores the potential of leveraging the semantic prowess embedded within pre-trained transformers to advance ASR systems' capabilities. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# 非中央集権化のためのビザンチン・ロバスト集団
学び
Byzantine-Robust Aggregation for Securing Decentralized Federated Learning ( http://arxiv.org/abs/2409.17754v1 ) ライセンス: Link先を確認 | Diego Cajaraville-Aboy, Ana Fern\'andez-Vilas, Rebeca P. D\'iaz-Redondo, and Manuel Fern\'andez-Veiga | (参考訳) Federated Learning(FL)は、デバイス上でAIモデルをローカルにトレーニングすることで、プライバシの問題に対処する分散機械学習アプローチとして登場した。
分散フェデレートラーニング(DFL)は、中央サーバを排除し、単一障害点の回避を通じてスケーラビリティと堅牢性を向上させることで、FLパラダイムを拡張します。
しかしながら、DFLはセキュリティを最適化する上で大きな課題に直面しており、文献で提案されているほとんどのビザンチン・ロバストアルゴリズムは集中的なシナリオのために設計されている。
本稿では,分散型フェデレート学習環境(WFAgg)の安全性を高めるために,新しいビザンチン・ロバスト集約アルゴリズムを提案する。
この提案は、動的分散トポロジの悪条件と強靭性を同時に処理し、複数のフィルタを用いてビザンツ攻撃を特定し軽減する。
実験により,Byzantine攻撃シナリオの存在下でモデル精度と収束性を維持するためのアルゴリズムの有効性が示され,Byzantine-Robustアグリゲーションスキーム(Multi-KrumやClusteringなど)よりも優れていた。
これらのアルゴリズムは集中化シナリオと分散化シナリオの両方においてIDD画像分類問題に基づいて評価される。
Federated Learning (FL) emerges as a distributed machine learning approach that addresses privacy concerns by training AI models locally on devices. Decentralized Federated Learning (DFL) extends the FL paradigm by eliminating the central server, thereby enhancing scalability and robustness through the avoidance of a single point of failure. However, DFL faces significant challenges in optimizing security, as most Byzantine-robust algorithms proposed in the literature are designed for centralized scenarios. In this paper, we present a novel Byzantine-robust aggregation algorithm to enhance the security of Decentralized Federated Learning environments, coined WFAgg. This proposal handles the adverse conditions and strength robustness of dynamic decentralized topologies at the same time by employing multiple filters to identify and mitigate Byzantine attacks. Experimental results demonstrate the effectiveness of the proposed algorithm in maintaining model accuracy and convergence in the presence of various Byzantine attack scenarios, outperforming state-of-the-art centralized Byzantine-robust aggregation schemes (such as Multi-Krum or Clustering). These algorithms are evaluated on an IID image classification problem in both centralized and decentralized scenarios. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# SECURE:生涯ロボット学習のための無意識下でのセマンティック・アウェア・エンボディード・会話
SECURE: Semantics-aware Embodied Conversation under Unawareness for Lifelong Robot Learning ( http://arxiv.org/abs/2409.17755v1 ) ライセンス: Link先を確認 | Rimvydas Rubavicius, Peter David Fagan, Alex Lascarides, Subramanian Ramamoorthy, | (参考訳) 本稿では、ロボットが指示されたタスクを解く上で鍵となる概念を知らない状況下で、剛体環境を操作できるようにする。
本稿では,このような問題を解決するための対話型タスク学習フレームワークSECUREを提案する。
対話を通じてロボットは発見し、予期せぬ可能性を活用することを学習する。
SECUREを用いて、ロボットはミスをしたときのユーザの補正フィードバックから学習するだけでなく、指示されたタスクを解決するための新しい概念に関する有用な証拠を明らかにするための戦略的対話決定も行う。
これらの能力により、ロボットは、新たに獲得した知識を用いて、その後のタスクに一般化することができる。
学習と推論プロセスにおける文と談話の両方のセマンティクスの論理的結果を利用する意味認識型ロボットは、そのような能力に欠けるロボットよりも、無意識下での再構成を効果的に解決することを学ぶ。
This paper addresses a challenging interactive task learning scenario we call rearrangement under unawareness: to manipulate a rigid-body environment in a context where the robot is unaware of a concept that's key to solving the instructed task. We propose SECURE, an interactive task learning framework designed to solve such problems by fixing a deficient domain model using embodied conversation. Through dialogue, the robot discovers and then learns to exploit unforeseen possibilities. Using SECURE, the robot not only learns from the user's corrective feedback when it makes a mistake, but it also learns to make strategic dialogue decisions for revealing useful evidence about novel concepts for solving the instructed task. Together, these abilities allow the robot to generalise to subsequent tasks using newly acquired knowledge. We demonstrate that a robot that is semantics-aware -- that is, it exploits the logical consequences of both sentence and discourse semantics in the learning and inference process -- learns to solve rearrangement under unawareness more effectively than a robot that lacks such capabilities. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# 拡張木説明のための階層的意味を反復生成モデルに統合する
Integrating Hierarchical Semantic into Iterative Generation Model for Entailment Tree Explanation ( http://arxiv.org/abs/2409.17757v1 ) ライセンス: Link先を確認 | Qin Wang, Jianzhou Feng, Yiming Xu, | (参考訳) 説明可能な質問応答(QA)には、証拠から答えへの推論の行を直感的で論理的に表示することが重要である。
エンテーメントツリーは、大規模言語モデルにおける自己説明の原則とは異なる、構造的に線を表現している。
既存の手法では、木構造内の階層と内部の文の意味的関連を考えることはめったにない。
本研究では,HiSCG (Controller-Generator) の枠組みの下で文の階層的意味論を統合するアーキテクチャを提案する。
HiSCGは仮説と事実の階層的なマッピングを設計し、木の構造に関わる事実を識別し、単一ステップの包含を最適化する。
我々の知る限りでは、我々は、同じ層と隣接する層の間の文の階層的意味論に初めて気づき、改善をもたらす。
提案手法はEntailmentBankデータセットの3つの設定で同等のパフォーマンスを実現する。
ドメイン外の2つのデータセットの一般化結果も,本手法の有効性を示す。
Manifestly and logically displaying the line of reasoning from evidence to answer is significant to explainable question answering (QA). The entailment tree exhibits the lines structurally, which is different from the self-explanation principle in large-scale language models. Existing methods rarely consider the semantic association of sentences between and within hierarchies within the tree structure, which is prone to apparent mistakes in combinations. In this work, we propose an architecture of integrating the Hierarchical Semantics of sentences under the framework of Controller-Generator (HiSCG) to explain answers. The HiSCG designs a hierarchical mapping between hypotheses and facts, discriminates the facts involved in tree constructions, and optimizes single-step entailments. To the best of our knowledge, We are the first to notice hierarchical semantics of sentences between the same layer and adjacent layers to yield improvements. The proposed method achieves comparable performance on all three settings of the EntailmentBank dataset. The generalization results on two out-of-domain datasets also demonstrate the effectiveness of our method. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# LGFN:局所畳み込み変調とグローバルアテンション特徴抽出を用いた軽量光フィールド画像超解像
LGFN: Lightweight Light Field Image Super-Resolution using Local Convolution Modulation and Global Attention Feature Extraction ( http://arxiv.org/abs/2409.17759v1 ) ライセンス: Link先を確認 | Zhongxin Yu, Liang Chen, Zhiyun Zeng, Kunping Yang, Shaofei Luo, Shaorui Chen, Cheng Zhong, | (参考訳) 光場(LF)は同じシーンで異なる光線の強度と方向をキャプチャすることで、3Dシーンキューを広い用途(すなわち、撮影後再焦点と深度センシング)を持つ4DLF画像に符号化することができる。
LF画像超解像(SR)は、LFカメラセンサの性能に制限された画像解像度を改善することを目的としている。
既存の手法は有望な結果を得たが、これらのモデルの実用的応用は十分軽量ではないため限られている。
本稿では,LGFNという軽量なモデルを提案する。このモデルでは,異なるビューの局所的特徴とグローバル的特徴と,LF画像SRのための異なるチャネルの特徴を統合している。
具体的には、異なるサブアパーチャ画像における同じ画素位置の近傍領域が類似した構造関係を示すため、特徴変調により局所的特徴をよりよく抽出する軽量なCNNベースの特徴抽出モジュール(DGCE)を設計する。
一方、LF画像の境界を超える位置が大きな差異を示すため、分解可能な大カーネル畳み込みを用いた効率的な空間アテンションモジュール(ESAM)を提案し、拡張された受容場と効率的なチャネルアテンションモジュール(ECAM)を得る。
既存のLF画像SRモデルに比べて大きなパラメータを持つモデルでは、パラメータが0.45M、FLOPが19.33Gであり、競合効果が得られた。
NTIRE2024光場超解像チャレンジのトラック2の2位とトラック1の7位にランク付けした。
Capturing different intensity and directions of light rays at the same scene Light field (LF) can encode the 3D scene cues into a 4D LF image which has a wide range of applications (i.e. post-capture refocusing and depth sensing). LF image super-resolution (SR) aims to improve the image resolution limited by the performance of LF camera sensor. Although existing methods have achieved promising results the practical application of these models is limited because they are not lightweight enough. In this paper we propose a lightweight model named LGFN which integrates the local and global features of different views and the features of different channels for LF image SR. Specifically owing to neighboring regions of the same pixel position in different sub-aperture images exhibit similar structural relationships we design a lightweight CNN-based feature extraction module (namely DGCE) to extract local features better through feature modulation. Meanwhile as the position beyond the boundaries in the LF image presents a large disparity we propose an efficient spatial attention module (namely ESAM) which uses decomposable large-kernel convolution to obtain an enlarged receptive field and an efficient channel attention module (namely ECAM). Compared with the existing LF image SR models with large parameter our model has a parameter of 0.45M and a FLOPs of 19.33G which has achieved a competitive effect. Extensive experiments with ablation studies demonstrate the effectiveness of our proposed method which ranked the second place in the Track 2 Fidelity & Efficiency of NTIRE2024 Light Field Super Resolution Challenge and the seventh place in the Track 1 Fidelity. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# 信頼区間が判明。現実の医療の準備は整ったか?
イメージングAI?
Confidence intervals uncovered: Are we ready for real-world medical imaging AI? ( http://arxiv.org/abs/2409.17763v1 ) ライセンス: Link先を確認 | Evangelia Christodoulou, Annika Reinke, Rola Houhou, Piotr Kalinowski, Selen Erkan, Carole H. Sudre, Ninon Burgos, Sofi\`ene Boutaj, Sophie Loizillon, Ma\"elys Solal, Nicola Rieke, Veronika Cheplygina, Michela Antonelli, Leon D. Mayer, Minu D. Tizabi, M. Jorge Cardoso, Amber Simpson, Paul F. J\"ager, Annette Kopp-Schneider, Ga\"el Varoquaux, Olivier Colliot, Lena Maier-Hein | (参考訳) 医療画像は、医療のAIトランスフォーメーションを先導している。
パフォーマンスレポートは、どの方法が臨床に翻訳されるべきかを決定するための鍵である。
多くの場合、幅広い結論は単に平均的なパフォーマンス値から導き出される。
本稿では,この一般的なプラクティスは,性能の変動を無視するので,しばしば誤解を招く単純化である,と論じる。
私たちの貢献は3倍です。
1)2023年に発行されたすべてのMICCAIセグメンテーション論文(n = 221)を分析した結果,50 %以上の論文が性能のばらつきを全く評価していないことが明らかとなった。
また,モデル性能に対する信頼区間(CI)を報告した論文は1紙 (0.5\%) のみであった。
2) 報告ボトルネックに対処するため, セグメンテーション論文における標準偏差 (SD) は, 平均Dice類似度係数 (DSC) の2次多項式関数で近似できることを示した。
56件のMICCAI課題の外部検証データに基づいて,本手法のCIを精度良く再構築できることを実証した。
(3) 最終的にMICCAI 2023セグメンテーション論文の平均DSC付近で95%のCIを再構築した。
中央値CI幅は0.03で,第1位と第2位の間の中央値性能ギャップの3倍であった。
論文の60\%以上において,第2ランク法の平均性能は第1ランク法のCI内であった。
結論として,現在の出版物は,どのモデルが臨床実践に翻訳できるかを裏付ける十分な証拠を提供していない。
Medical imaging is spearheading the AI transformation of healthcare. Performance reporting is key to determine which methods should be translated into clinical practice. Frequently, broad conclusions are simply derived from mean performance values. In this paper, we argue that this common practice is often a misleading simplification as it ignores performance variability. Our contribution is threefold. (1) Analyzing all MICCAI segmentation papers (n = 221) published in 2023, we first observe that more than 50\% of papers do not assess performance variability at all. Moreover, only one (0.5\%) paper reported confidence intervals (CIs) for model performance. (2) To address the reporting bottleneck, we show that the unreported standard deviation (SD) in segmentation papers can be approximated by a second-order polynomial function of the mean Dice similarity coefficient (DSC). Based on external validation data from 56 previous MICCAI challenges, we demonstrate that this approximation can accurately reconstruct the CI of a method using information provided in publications. (3) Finally, we reconstructed 95\% CIs around the mean DSC of MICCAI 2023 segmentation papers. The median CI width was 0.03 which is three times larger than the median performance gap between the first and second ranked method. For more than 60\% of papers, the mean performance of the second-ranked method was within the CI of the first-ranked method. We conclude that current publications typically do not provide sufficient evidence to support which models could potentially be translated into clinical practice. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# 攻撃下のフェデレーション学習:画像のバッチに対するグラディエント・インバージョンの改善
Federated Learning under Attack: Improving Gradient Inversion for Batch of Images ( http://arxiv.org/abs/2409.17767v1 ) ライセンス: Link先を確認 | Luiz Leite, Yuri Santo, Bruno L. Dalmazo, André Riker, | (参考訳) フェデレートラーニング(FL)は、ユーザのデータのプライバシを保存する機械学習アプローチとして登場した。
FLを適用すると、クライアントはローカルデータセットで機械学習モデルをトレーニングし、中央サーバはクライアントから得られた学習パラメータを集約し、ユーザのデータを共有せずにグローバル機械学習モデルをトレーニングする。
しかし、この最先端技術はFLシステムに対する攻撃を促進するいくつかのアプローチを示している。
例えば、逆勾配攻撃や漏洩勾配攻撃は高精度で、FLのトレーニングフェーズで使用されるローカルデータセットを見つけることができる。
本稿では,画像のバッチに存在する空間的相関を考慮し,逆勾配攻撃を改善する手法として,DLG-FB(Deep Leakage from Gradients with Feedback Blending)を提案する。
評価の結果,攻撃成功率の19.18%と48,82%,攻撃画像当たりの反復回数がそれぞれ改善された。
Federated Learning (FL) has emerged as a machine learning approach able to preserve the privacy of user's data. Applying FL, clients train machine learning models on a local dataset and a central server aggregates the learned parameters coming from the clients, training a global machine learning model without sharing user's data. However, the state-of-the-art shows several approaches to promote attacks on FL systems. For instance, inverting or leaking gradient attacks can find, with high precision, the local dataset used during the training phase of the FL. This paper presents an approach, called Deep Leakage from Gradients with Feedback Blending (DLG-FB), which is able to improve the inverting gradient attack, considering the spatial correlation that typically exists in batches of images. The performed evaluation shows an improvement of 19.18% and 48,82% in terms of attack success rate and the number of iterations per attacked image, respectively. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# NLP説明における反感の忠実さと通知
Faithfulness and the Notion of Adversarial Sensitivity in NLP Explanations ( http://arxiv.org/abs/2409.17774v1 ) ライセンス: Link先を確認 | Supriya Manna, Niladri Sett, | (参考訳) 忠実さは、説明可能なAIの信頼性を評価する上で、間違いなく最も重要な指標である。
NLPでは、現在の忠実度評価の手法は相違点と偏見を伴い、しばしばモデルの真の推論を捉えない。
本稿では, モデルが敵攻撃を受ける際の説明者の反応に着目し, 忠実度評価への新たなアプローチとして, 対人感について紹介する。
本手法は, 逆入力変化に対する感度を捉えることによって, 説明者の忠実さを考慮に入れている。
この研究は、既存の評価手法における重大な制限に対処し、さらに、重要で未調査のパラダイムから忠実さを定量化する。
Faithfulness is arguably the most critical metric to assess the reliability of explainable AI. In NLP, current methods for faithfulness evaluation are fraught with discrepancies and biases, often failing to capture the true reasoning of models. We introduce Adversarial Sensitivity as a novel approach to faithfulness evaluation, focusing on the explainer's response when the model is under adversarial attack. Our method accounts for the faithfulness of explainers by capturing sensitivity to adversarial input changes. This work addresses significant limitations in existing evaluation techniques, and furthermore, quantifies faithfulness from a crucial yet underexplored paradigm. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# UNICORN: 病理組織学における多段階データ統合のための深層学習モデル
UNICORN: A Deep Learning Model for Integrating Multi-Stain Data in Histopathology ( http://arxiv.org/abs/2409.17775v1 ) ライセンス: Link先を確認 | Valentin Koch, Sabine Bauer, Valerio Luppberger, Michael Joner, Heribert Schunkert, Julia A. Schnabel, Moritz von Scheidt, Carsten Marr, | (参考訳) 背景: 深層学習による多点組織像の統合は, デジタル病理学において重要な課題となっている。
現在のマルチモーダルアプローチは、データの不均一性と欠落データに悩まされている。
本研究の目的は、学習中に欠落したデータと推論を処理できるマルチステイン統合のための新しいトランスフォーマーモデルを開発することにより、これらの制限を克服することである。
方法: 動脈硬化重症度予測のための多段階組織学を処理可能なマルチモーダルトランスフォーマーであるUNICORN(Universal modality Integration Network for CORonary ClassificatioN)を提案する。
このアーキテクチャは、2段階のエンドツーエンドのトレーニング可能なモデルと、トランスフォーマーの自己保持ブロックを利用する特殊なモジュールから構成される。
最初の段階ではドメイン固有のエキスパートモジュールを使用して、各モダリティから特徴を抽出する。
その後の段階で、アグリゲーションエキスパートモジュールは、異なるデータモダリティ間の相互作用を学習することでこれらの特徴を統合する。
結果: ミュンヘン心血管部バイオバンク (MISSION) の動脈硬化性病変のマルチクラスデータセットを用いて, 冠状動脈の7つの未特定部位について, 170名以上の死亡者から4000名以上の全スライド画像 (WSI) を用いて, それぞれ4つの病理組織学的プロトコルに従って染色した。
UNICORNは0.67の分類精度を達成し、他の最先端モデルを上回った。
このモデルは、染色と暗黙的に疾患進行をモデル化する組織表現型を効果的に同定する。
結論: 提案したマルチモーダルトランスフォーマーモデルは,データ不均一性や欠落モードを含む,医療データ分析における重要な課題に対処する。
動脈硬化進展の予測における説明可能性とモデルの有効性は、医学研究における幅広い応用の可能性を示している。
Background: The integration of multi-stain histopathology images through deep learning poses a significant challenge in digital histopathology. Current multi-modal approaches struggle with data heterogeneity and missing data. This study aims to overcome these limitations by developing a novel transformer model for multi-stain integration that can handle missing data during training as well as inference. Methods: We propose UNICORN (UNiversal modality Integration Network for CORonary classificatioN) a multi-modal transformer capable of processing multi-stain histopathology for atherosclerosis severity class prediction. The architecture comprises a two-stage, end-to-end trainable model with specialized modules utilizing transformer self-attention blocks. The initial stage employs domain-specific expert modules to extract features from each modality. In the subsequent stage, an aggregation expert module integrates these features by learning the interactions between the different data modalities. Results: Evaluation was performed using a multi-class dataset of atherosclerotic lesions from the Munich Cardiovascular Studies Biobank (MISSION), using over 4,000 paired multi-stain whole slide images (WSIs) from 170 deceased individuals on 7 prespecified segments of the coronary tree, each stained according to four histopathological protocols. UNICORN achieved a classification accuracy of 0.67, outperforming other state-of-the-art models. The model effectively identifies relevant tissue phenotypes across stainings and implicitly models disease progression. Conclusion: Our proposed multi-modal transformer model addresses key challenges in medical data analysis, including data heterogeneity and missing modalities. Explainability and the model's effectiveness in predicting atherosclerosis progression underscores its potential for broader applications in medical research. | 翻訳日:2024-09-28 19:53:49 公開日:2024-09-26 |
# マルチモーダル分類のためのマルチモーダル混合コントラスト学習による共有関係の調和
Harnessing Shared Relations via Multimodal Mixup Contrastive Learning for Multimodal Classification ( http://arxiv.org/abs/2409.17777v1 ) ライセンス: Link先を確認 | Raja Kumar, Raghav Singhal, Pranamya Kulkarni, Deval Mehta, Kshitij Jadhav, | (参考訳) 深いマルチモーダル学習は、対照的な学習を活用して、モダリティをまたいだ明示的な1対1の関係を捉えることで、顕著な成功を収めた。
しかし、実世界のデータは単純な対関係を超えて共有関係を示すことが多い。
マルチモーダルデータに固有のニュアンス付き共有関係を抽出するマルチモーダル混合コントラスト学習手法であるM3CoLを提案する。
我々の重要な貢献はミックスアップに基づくコントラッシブ・ロスであり、あるモダリティから混合サンプルを他のモダリティから対応するサンプルと整列させ、それら間の共有関係を捉えることによって、ロバストな表現を学ぶ。
マルチモーダル分類タスクでは,Mixupに基づくコントラスト損失を補足して,統合モジュールと単調予測モジュールを統合してトレーニング中の補助的監視を行うフレームワークを導入する。
多様なデータセット(N24News、ROSMAP、BRCA、Food-101)の広範な実験を通じて、M3CoLが共有マルチモーダル関係を効果的に捉え、ドメイン間の一般化を実証する。
N24News、ROSMAP、BRCAでは最先端の手法より優れており、Food-101では同等のパフォーマンスを達成している。
我々の研究は、堅牢なマルチモーダル学習のための共有関係の学習の重要性を強調し、将来の研究に有望な道を開く。
Deep multimodal learning has shown remarkable success by leveraging contrastive learning to capture explicit one-to-one relations across modalities. However, real-world data often exhibits shared relations beyond simple pairwise associations. We propose M3CoL, a Multimodal Mixup Contrastive Learning approach to capture nuanced shared relations inherent in multimodal data. Our key contribution is a Mixup-based contrastive loss that learns robust representations by aligning mixed samples from one modality with their corresponding samples from other modalities thereby capturing shared relations between them. For multimodal classification tasks, we introduce a framework that integrates a fusion module with unimodal prediction modules for auxiliary supervision during training, complemented by our proposed Mixup-based contrastive loss. Through extensive experiments on diverse datasets (N24News, ROSMAP, BRCA, and Food-101), we demonstrate that M3CoL effectively captures shared multimodal relations and generalizes across domains. It outperforms state-of-the-art methods on N24News, ROSMAP, and BRCA, while achieving comparable performance on Food-101. Our work highlights the significance of learning shared relations for robust multimodal learning, opening up promising avenues for future research. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# 領域シフトSDEを用いた画像超解像の拡散前処理
Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs ( http://arxiv.org/abs/2409.17778v1 ) ライセンス: Link先を確認 | Qinpeng Cui, Yixuan Liu, Xinyi Zhang, Qiqi Bao, Zhongdao Wang, Qingmin Liao, Li Wang, Tian Lu, Emad Barsoum, | (参考訳) 拡散に基づく画像超解像(SR)モデルは、その強力な画像復元能力によって大きな関心を集めている。
しかし、一般的な拡散モデルは効率と性能の最適なバランスをとるのに苦労することが多い。
通常、彼らは既存の広範囲の事前訓練されたモデルの可能性を利用し、生成能力を制限するか、ランダムノイズから始まる数十の前方通過を必要とし、推論効率を損なう。
本稿では,ドメインシフト拡散モデルであるDoSSRについて,低分解能(LR)画像による拡散過程の開始による効率の向上を図りながら,事前学習した拡散モデルの生成力を生かしたモデルを提案する。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
この積分は拡散前の使用を改善するだけでなく、推論効率も向上させる。
さらに、離散シフト過程をDoS-SDEと呼ばれる連続的な定式化に遷移させることにより、本手法を推し進める。
この進歩により、サンプリング効率をさらに高める高速でカスタマイズされた解法が導かれる。
実験の結果,提案手法は,合成および実世界のデータセット上での最先端性能を実現するが,サンプリングステップは5段階に留まることがわかった。
従来の拡散法と比較して,本手法は5~7倍の高速化を実現し,高い効率性を示した。
コード:https://github.com/QinpengCui/DoSSR。
Diffusion-based image super-resolution (SR) models have attracted substantial interest due to their powerful image restoration capabilities. However, prevailing diffusion models often struggle to strike an optimal balance between efficiency and performance. Typically, they either neglect to exploit the potential of existing extensive pretrained models, limiting their generative capacity, or they necessitate a dozens of forward passes starting from random noises, compromising inference efficiency. In this paper, we present DoSSR, a Domain Shift diffusion-based SR model that capitalizes on the generative powers of pretrained diffusion models while significantly enhancing efficiency by initiating the diffusion process with low-resolution (LR) images. At the core of our approach is a domain shift equation that integrates seamlessly with existing diffusion models. This integration not only improves the use of diffusion prior but also boosts inference efficiency. Moreover, we advance our method by transitioning the discrete shift process to a continuous formulation, termed as DoS-SDEs. This advancement leads to the fast and customized solvers that further enhance sampling efficiency. Empirical results demonstrate that our proposed method achieves state-of-the-art performance on synthetic and real-world datasets, while notably requiring only 5 sampling steps. Compared to previous diffusion prior based methods, our approach achieves a remarkable speedup of 5-7 times, demonstrating its superior efficiency. Code: https://github.com/QinpengCui/DoSSR. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# コンボリューショナル・コンボリューショナル・コンボリューショナル・コンボリューショナル・コンボリューショナル・コンボリューショナル・コンボリューショナル・コンボリューショナル・コンボリューショナル・コンボリューショナル・コンボリューショナル・コン
Gated Recurrent Deep Learning Model
Predicting the Stay Length of Patients in Hospitals using Convolutional Gated Recurrent Deep Learning Model ( http://arxiv.org/abs/2409.17786v1 ) ライセンス: Link先を確認 | Mehdi Neshat, Michael Phipps, Chris A. Browne, Nicole T. Vargas, Seyedali Mirjalili | (参考訳) 病院滞在期間(LoS)の予測は、公衆衛生戦略を形成する上で重要な要素である。
このデータは、政府がヘルスケアデリバリーを強化するためのトレンド、パターン、道筋を識別するための基盤となる。
本研究では,多層畳み込み(CNN)深層学習,GRU(Gated Recurrent Units),Denseニューラルネットワークを組み合わせた高機能なハイブリッドディープラーニングモデルを提案する。
本研究は,CCS診断コード,APR DRGコード,重症度測定値,入院期間などの医療属性に加えて,介護施設の地理的指標,患者民族,人種,年齢を含む人口統計指標などの変数を精査する。
CNN-GRU-DNNではLSTM, BiLSTM, GRU, Convolutional Neural Networks (CNNs) をそれぞれ19%, 18.2%, 18.6%, 7%, それぞれ上回っている。
正確なLoS予測は、病院の資源配分を最適化し、長期滞在に伴う経費を削減するだけでなく、病院の滞在管理における新たな戦略の道を開いた。
この道は、医療研究とイノベーションの進歩を触媒する約束があり、精度駆動型医療の新たな時代を刺激している。
Predicting hospital length of stay (LoS) stands as a critical factor in shaping public health strategies. This data serves as a cornerstone for governments to discern trends, patterns, and avenues for enhancing healthcare delivery. In this study, we introduce a robust hybrid deep learning model, a combination of Multi-layer Convolutional (CNNs) deep learning, Gated Recurrent Units (GRU), and Dense neural networks, that outperforms 11 conventional and state-of-the-art Machine Learning (ML) and Deep Learning (DL) methodologies in accurately forecasting inpatient hospital stay duration. Our investigation delves into the implementation of this hybrid model, scrutinising variables like geographic indicators tied to caregiving institutions, demographic markers encompassing patient ethnicity, race, and age, as well as medical attributes such as the CCS diagnosis code, APR DRG code, illness severity metrics, and hospital stay duration. Statistical evaluations reveal the pinnacle LoS accuracy achieved by our proposed model (CNN-GRU-DNN), which averages at 89% across a 10-fold cross-validation test, surpassing LSTM, BiLSTM, GRU, and Convolutional Neural Networks (CNNs) by 19%, 18.2%, 18.6%, and 7%, respectively. Accurate LoS predictions not only empower hospitals to optimise resource allocation and curb expenses associated with prolonged stays but also pave the way for novel strategies in hospital stay management. This avenue holds promise for catalysing advancements in healthcare research and innovation, inspiring a new era of precision-driven healthcare practices. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# トランスフォーマーと畳み込みアーキテクチャの並列予測による眼科バイオマーカー検出
Ophthalmic Biomarker Detection with Parallel Prediction of Transformer and Convolutional Architecture ( http://arxiv.org/abs/2409.17788v1 ) ライセンス: Link先を確認 | Md. Touhidul Islam, Md. Abtahi Majeed Chowdhury, Mahmudul Hasan, Asif Quadir, Lutfa Aktar, | (参考訳) 眼科疾患は重要な世界的な健康問題であり、高度な正確な診断ツールが必要である。
光コヒーレンス・トモグラフィー(OCT)画像は、網膜の高分解能断面像を提供しており、眼科における重要な画像モダリティとなっている。
従来、医師は診断画像から様々な疾患やバイオマーカーを手動で検出してきた。
近年、深層学習技術は、迅速かつ正確な診断を可能にする医療診断タスクに広く用いられている。
本稿では,CNNとVision Transformerのアンサンブルを用いた眼科バイオマーカー検出手法を提案する。
CNNは画像の局所的なコンテキストにおける特徴抽出に適しているが、トランスフォーマーは画像のグローバルなコンテキストから特徴を抽出できることで知られている。
両方のテクニックのアンサンブルを使用することで、両方の世界のベストを活用できます。
本手法はOCT画像から6つのバイオマーカーを検出するためにOLIVESデータセット上に実装され,データセット上でのマクロ平均F1スコアの大幅な改善を示す。
Ophthalmic diseases represent a significant global health issue, necessitating the use of advanced precise diagnostic tools. Optical Coherence Tomography (OCT) imagery which offers high-resolution cross-sectional images of the retina has become a pivotal imaging modality in ophthalmology. Traditionally physicians have manually detected various diseases and biomarkers from such diagnostic imagery. In recent times, deep learning techniques have been extensively used for medical diagnostic tasks enabling fast and precise diagnosis. This paper presents a novel approach for ophthalmic biomarker detection using an ensemble of Convolutional Neural Network (CNN) and Vision Transformer. While CNNs are good for feature extraction within the local context of the image, transformers are known for their ability to extract features from the global context of the image. Using an ensemble of both techniques allows us to harness the best of both worlds. Our method has been implemented on the OLIVES dataset to detect 6 major biomarkers from the OCT images and shows significant improvement of the macro averaged F1 score on the dataset. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# CASPFormer: 変形可能なBEV画像からの軌道予測
注意
CASPFormer: Trajectory Prediction from BEV Images with Deformable Attention ( http://arxiv.org/abs/2409.17790v1 ) ライセンス: Link先を確認 | Harsh Yadav, Maximilian Schaefer, Kun Zhao, and Tobias Meisen | (参考訳) 運動予測は、自律運転(AD)と前進運転支援システム(ADAS)にとって重要な側面である。
現在の最先端の動作予測手法は、エゴ車両の周囲の状況を把握するために高定義(HD)マップに依存している。
HDマップは、リアルタイムに作成および更新するのに費用がかかるため、そのようなシステムは現実世界のデプロイメントにおいてスケーラビリティを欠いている。
この問題を解決するために,ラスタライズされたバードアイビュー(BEV)画像からマルチモーダル動作予測を行うContext Aware Scene Prediction Transformer (CASPFormer)を提案する。
我々のシステムは、BEV画像を生成することができる上流認識モジュールと統合することができる。
さらに、CASPFormerは、後処理なしで直接ベクトル化されたトラジェクトリをデコードする。
トラジェクトリは、計算効率が良く、BEV画像の重要な空間的位置に集中できるネットワークを提供するため、変形可能な注意を用いて繰り返し復号される。
さらに、学習可能なモードクエリを組み込んだ複数のシーン一貫性トラジェクトリを生成するためのモード崩壊の問題にも対処する。
我々は、nuScenesデータセット上でモデルを評価し、複数のメトリクスにまたがって最先端に到達していることを示す。
Motion prediction is an important aspect for Autonomous Driving (AD) and Advance Driver Assistance Systems (ADAS). Current state-of-the-art motion prediction methods rely on High Definition (HD) maps for capturing the surrounding context of the ego vehicle. Such systems lack scalability in real-world deployment as HD maps are expensive to produce and update in real-time. To overcome this issue, we propose Context Aware Scene Prediction Transformer (CASPFormer), which can perform multi-modal motion prediction from rasterized Bird-Eye-View (BEV) images. Our system can be integrated with any upstream perception module that is capable of generating BEV images. Moreover, CASPFormer directly decodes vectorized trajectories without any postprocessing. Trajectories are decoded recurrently using deformable attention, as it is computationally efficient and provides the network with the ability to focus its attention on the important spatial locations of the BEV images. In addition, we also address the issue of mode collapse for generating multiple scene-consistent trajectories by incorporating learnable mode queries. We evaluate our model on the nuScenes dataset and show that it reaches state-of-the-art across multiple metrics | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# 自己監督型選好最適化: 選好度を意識した言語モデルの実現
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness ( http://arxiv.org/abs/2409.17791v1 ) ライセンス: Link先を確認 | Jian Li, Haojing Huang, Yujia Zhang, Pengfei Xu, Xi Chen, Rui Song, Lida Shi, Jingwen Wang, Hao Xu, | (参考訳) 近年,大規模言語モデル(LLM)の強化学習(RLHF)手法による報酬モデルを置き換えることへの関心が高まっている。
これらのアプローチでは、ペアワイズサンプル(それぞれ好ましくない反応と好ましくない反応に基づいて損失を最小化し、最大化する)に二項のクロスエントロピー機構を用いるのが一般的である。
しかし、このトレーニング戦略では報酬モデルが省略される一方で、異なる反応における様々な選好度を見落としている。
我々は、LLMが人間の嗜好を十分に理解することを妨げる重要な要因である、と仮定する。
この問題に対処するために, 自己監督的選好度損失とアライメント損失とを組み合わせた自己監督的選好度損失を構築するための, 自己監督的選好度最適化(SPO)フレームワークを提案する。
広範囲にわたる実験は、異なるタスクの2つの広く使われているデータセットで実施される。
その結果、SPOは既存の好み最適化手法とシームレスに統合され、その性能を大幅に向上し、最先端の性能を実現することができることを示した。
また、詳細な分析を行い、その効果を検証したSPOに関する総合的な洞察を提供する。
コードはhttps://github.com/lijian16/SPOで公開されている。
Recently, there has been significant interest in replacing the reward model in Reinforcement Learning with Human Feedback (RLHF) methods for Large Language Models (LLMs), such as Direct Preference Optimization (DPO) and its variants. These approaches commonly use a binary cross-entropy mechanism on pairwise samples, i.e., minimizing and maximizing the loss based on preferred or dis-preferred responses, respectively. However, while this training strategy omits the reward model, it also overlooks the varying preference degrees within different responses. We hypothesize that this is a key factor hindering LLMs from sufficiently understanding human preferences. To address this problem, we propose a novel Self-supervised Preference Optimization (SPO) framework, which constructs a self-supervised preference degree loss combined with the alignment loss, thereby helping LLMs improve their ability to understand the degree of preference. Extensive experiments are conducted on two widely used datasets of different tasks. The results demonstrate that SPO can be seamlessly integrated with existing preference optimization methods and significantly boost their performance to achieve state-of-the-art performance. We also conduct detailed analyses to offer comprehensive insights into SPO, which verifies its effectiveness. The code is available at https://github.com/lijian16/SPO. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# Reblurring-Guided Single Image Defocus Deblurring: Misaligned Training Pairsを用いた学習フレームワーク
Reblurring-Guided Single Image Defocus Deblurring: A Learning Framework with Misaligned Training Pairs ( http://arxiv.org/abs/2409.17792v1 ) ライセンス: Link先を確認 | Xinya Shu, Yu Li, Dongwei Ren, Xiaohe Wu, Jin Li, Wangmeng Zuo, | (参考訳) 単一画像のデフォーカスブラーリングでは、適切に整列されたトレーニングペア(またはトレーニングトレーレット)、すなわちデフォーカスのぼやけた画像、オールインフォーカスのシャープな画像(およびデフォーカスのぼやけマップ)を取得することは、デブルリングモデルを開発するための複雑なタスクである。
既存の画像デフォーカス除去法は、通常、特殊な撮像装置によって収集されたトレーニングデータに依存しており、これらのペアや三つ組が完全に整列していることを前提としている。
しかし,実世界のデータ収集に関わる現実的なシナリオでは,トレーニング用三重項の直接取得は不可能であり,必然的に空間的ミスアライメント問題に遭遇する。
本研究では,単一画像デフォーカス・デブロアリングのためのリブロアリング誘導学習フレームワークを導入し,不正なトレーニングペアであっても,デブロアリングネットワークの学習を可能にする。
具体的には、まず、空間的に変化するデフォーカスブラーマップを劣化として利用し、デブロリング性能を向上させるためのベースラインデフォーカスブラーリングネットワークを提案する。
そして,不整合トレーニングペアでベースラインデフォーカスデブロリングネットワークを効果的に学習するために,このリブロアモジュールは,空間的不変な等方的ボケカーネルを再構成することにより,デブロア画像,リブロア画像,入力ボケ画像間の空間的整合性を確保する。
さらに、リブラーモジュールから派生した空間変動ブラーは、トレーニング中にデフォーカスブラーマップを擬似的に監視し、トレーニングペアをトレーニングトリプレットに変換することができる。
さらに,提案手法を裏付けるだけでなく,将来的な研究のベンチマークとして機能する,典型的なミスアライメントを持つ単一画像デフォーカスデブロアリング(SDD)のための新しいデータセットを収集した。
For single image defocus deblurring, acquiring well-aligned training pairs (or training triplets), i.e., a defocus blurry image, an all-in-focus sharp image (and a defocus blur map), is an intricate task for the development of deblurring models. Existing image defocus deblurring methods typically rely on training data collected by specialized imaging equipment, presupposing that these pairs or triplets are perfectly aligned. However, in practical scenarios involving the collection of real-world data, direct acquisition of training triplets is infeasible, and training pairs inevitably encounter spatial misalignment issues. In this work, we introduce a reblurring-guided learning framework for single image defocus deblurring, enabling the learning of a deblurring network even with misaligned training pairs. Specifically, we first propose a baseline defocus deblurring network that utilizes spatially varying defocus blur map as degradation prior to enhance the deblurring performance. Then, to effectively learn the baseline defocus deblurring network with misaligned training pairs, our reblurring module ensures spatial consistency between the deblurred image, the reblurred image and the input blurry image by reconstructing spatially variant isotropic blur kernels. Moreover, the spatially variant blur derived from the reblurring module can serve as pseudo supervision for defocus blur map during training, interestingly transforming training pairs into training triplets. Additionally, we have collected a new dataset specifically for single image defocus deblurring (SDD) with typical misalignments, which not only substantiates our proposed method but also serves as a benchmark for future research. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# リッチ機能木ベース分類器:新しいアプローチ
誘導体と幾何学的特徴
Enriched Functional Tree-Based Classifiers: A Novel Approach Leveraging Derivatives and Geometric Features ( http://arxiv.org/abs/2409.17804v1 ) ライセンス: Link先を確認 | Fabrizio Maturo, Annamaria Porreca | (参考訳) この研究の位置づけは、スカラー・オン・ファンクショナル分類文学(スカラー・オン・ファンクショナル分類文学)に属する。
本研究では,高次元時系列の分類手法として,関数型データ分析(FDA)と木に基づくアンサンブル技術を統合した教師付き分類手法を提案する。
The proposed framework, Enriched Functional Tree-Based Classifiers (EFTCs) は、微分と幾何学的特徴を活用し、アンサンブル法に固有の多様性の恩恵を受け、予測性能をさらに向上し、分散を低減する。
機能分類木(FCT)、機能的K-NN(FKNN)、機能的ランダムフォレスト(FRF)、機能的XGBoost(FXGB)、機能的光GBM(FLGBM)の濃縮について検討されてきたが、本研究から適切な考察が得られた。
7つの実世界のデータセットと6つのシミュレーションシナリオに関する広範な実験的評価を通じて、この提案は従来のアプローチよりも魅力的な改善を示し、複雑な高次元学習問題におけるFDAの適用に関する新たな洞察を提供する。
The positioning of this research falls within the scalar-on-function classification literature, a field of significant interest across various domains, particularly in statistics, mathematics, and computer science. This study introduces an advanced methodology for supervised classification by integrating Functional Data Analysis (FDA) with tree-based ensemble techniques for classifying high-dimensional time series. The proposed framework, Enriched Functional Tree-Based Classifiers (EFTCs), leverages derivative and geometric features, benefiting from the diversity inherent in ensemble methods to further enhance predictive performance and reduce variance. While our approach has been tested on the enrichment of Functional Classification Trees (FCTs), Functional K-NN (FKNN), Functional Random Forest (FRF), Functional XGBoost (FXGB), and Functional LightGBM (FLGBM), it could be extended to other tree-based and non-tree-based classifiers, with appropriate considerations emerging from this investigation. Through extensive experimental evaluations on seven real-world datasets and six simulated scenarios, this proposal demonstrates fascinating improvements over traditional approaches, providing new insights into the application of FDA in complex, high-dimensional learning problems. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# 視覚言語モデル適応のためのカスケードプロンプト学習
Cascade Prompt Learning for Vision-Language Model Adaptation ( http://arxiv.org/abs/2409.17805v1 ) ライセンス: Link先を確認 | Ge Wu, Xin Zhang, Zheng Li, Zhaowei Chen, Jiajun Liang, Jian Yang, Xiang Li, | (参考訳) プロンプト学習は、下流タスクに適用した場合にCLIPのようなビジョン言語モデル(VLM)の性能を高める効果的なアプローチとして浮上した。
しかし、現在の学習可能なプロンプトトークンは、主にタスクに適応する単一フェーズ(すなわち、プロンプトに適応する)に使われ、簡単に過度なリスクをもたらす。
本研究では,新しいCascade Prompt Learning CasPLフレームワークを提案する。
特に、CasPLは、学習可能なプロンプトの2つの異なるフェーズからなる新しい学習パラダイムである。第1のブースティングプロンプトは、広範囲な未ラベルのドメインイメージを使用して予測ロジットを整列させることで、上級のCLIP教師モデルからドメイン一般知識を抽出する。
次に、第2適応プロンプトを凍った第1セットでカスケードして下流のタスクを微調整する。
このように、CasPLはドメインジェネラルとタスク固有の表現の両方を明示的に異なるプロンプトの段階的なグループに効果的にキャプチャできるため、ターゲットドメインにおける過度な問題を軽減する可能性がある。
CasPLがプラグイン・アンド・プレイモジュールとして機能し、既存のプロンプト学習アプローチにシームレスに統合できることは注目に値する。
CasPLは性能と推論速度のバランスを著しく改善し、特にリソース制約のある環境でより小さなVLMモデルをデプロイするのに有益である。
従来の最先端のPromptSRCと比較して、CasPLはベースクラスが1.85%、新しいクラスが3.44%、調和平均が11以上の画像分類データセットが2.72%である。
コードはhttps://github.com/megvii-research/CasPLで公開されている。
Prompt learning has surfaced as an effective approach to enhance the performance of Vision-Language Models (VLMs) like CLIP when applied to downstream tasks. However, current learnable prompt tokens are primarily used for the single phase of adapting to tasks (i.e., adapting prompt), easily leading to overfitting risks. In this work, we propose a novel Cascade Prompt Learning CasPL framework to enable prompt learning to serve both generic and specific expertise (i.e., boosting and adapting prompt) simultaneously. Specifically, CasPL is a new learning paradigm comprising two distinct phases of learnable prompts: the first boosting prompt is crafted to extract domain-general knowledge from a senior larger CLIP teacher model by aligning their predicted logits using extensive unlabeled domain images. The second adapting prompt is then cascaded with the frozen first set to fine-tune the downstream tasks, following the approaches employed in prior research. In this manner, CasPL can effectively capture both domain-general and task-specific representations into explicitly different gradual groups of prompts, thus potentially alleviating overfitting issues in the target domain. It's worth noting that CasPL serves as a plug-and-play module that can seamlessly integrate into any existing prompt learning approach. CasPL achieves a significantly better balance between performance and inference speed, which is especially beneficial for deploying smaller VLM models in resource-constrained environments. Compared to the previous state-of-the-art method PromptSRC, CasPL shows an average improvement of 1.85% for base classes, 3.44% for novel classes, and 2.72% for the harmonic mean over 11 image classification datasets. Code is publicly available at: https://github.com/megvii-research/CasPL. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# タスクスペシャリストによる継続的な学習
Continual learning with task specialist ( http://arxiv.org/abs/2409.17806v1 ) ライセンス: Link先を確認 | Indu Solomon, Aye Phyu Phyu Aung, Uttam Kumar, Senthilnath Jayavelu, | (参考訳) 継続的学習(CL)は、タイムリーに更新されたデータセットでディープラーニングシナリオに適応する。
しかし、既存のCLモデルは、過去の学習を新しい知識が置き換える、破滅的な忘れの問題に悩まされている。
本稿では,タスクスペシャリストによる連続学習(Continuous Learning with Task Specialists, CLTS)を提案する。
モデルはタスクスペシャリスト(T S)とタスク予測器(T P )と、事前訓練された安定拡散(SD)モジュールで構成される。
ここでは、新しいタスクシーケンスを扱うための新しいスペシャリストを紹介し、各T Sには3つのブロックがある。
一 低次元潜在空間におけるタスク分布を学習するための変分オートエンコーダ(VAE)
二 データクラスタリングを行うためのK平均ブロック
三 言語画像事前学習(BLIP)モデルを用いて、入力データから少量のキャプションを生成すること。
これらのキャプションは、タスクサンプルの生成のための事前訓練された安定拡散モデル(SD)への入力として供給される。
提案したモデルは、リプレイ用のタスクサンプルを格納せず、代わりに、SDから生成されたサンプルを使用してT Pモジュールをトレーニングする。
3つの実世界のデータセットで実施された4つのSOTAモデルとの比較研究により、提案モデルが選択されたベースラインすべてより優れていることが示された。
Continual learning (CL) adapt the deep learning scenarios with timely updated datasets. However, existing CL models suffer from the catastrophic forgetting issue, where new knowledge replaces past learning. In this paper, we propose Continual Learning with Task Specialists (CLTS) to address the issues of catastrophic forgetting and limited labelled data in real-world datasets by performing class incremental learning of the incoming stream of data. The model consists of Task Specialists (T S) and Task Predictor (T P ) with pre-trained Stable Diffusion (SD) module. Here, we introduce a new specialist to handle a new task sequence and each T S has three blocks; i) a variational autoencoder (V AE) to learn the task distribution in a low dimensional latent space, ii) a K-Means block to perform data clustering and iii) Bootstrapping Language-Image Pre-training (BLIP ) model to generate a small batch of captions from the input data. These captions are fed as input to the pre-trained stable diffusion model (SD) for the generation of task samples. The proposed model does not store any task samples for replay, instead uses generated samples from SD to train the T P module. A comparison study with four SOTA models conducted on three real-world datasets shows that the proposed model outperforms all the selected baselines | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# 分子動力学軌道の生成モデリング
Generative Modeling of Molecular Dynamics Trajectories ( http://arxiv.org/abs/2409.17808v1 ) ライセンス: Link先を確認 | Bowen Jing, Hannes Stärk, Tommi Jaakkola, Bonnie Berger, | (参考訳) 分子動力学(MD)は顕微鏡現象を研究するための強力な手法であるが、その計算コストは深層学習に基づく代理モデルの開発に大きな関心を惹き付けている。
データからMDの柔軟なマルチタスクサロゲートモデルを学ぶためのパラダイムとして,分子軌道の生成モデルを提案する。
軌道の適切に選択されたフレームを条件付けすることにより、このような生成モデルは、前方シミュレーション、遷移経路サンプリング、軌道上アップサンプリングといった様々なタスクに適応できることを示す。
代わりに、分子系の一部に条件付けを行い、残りを塗布することにより、動的条件付き分子設計への第一歩を実証する。
テトラペプチドシミュレーションにおけるこれらの機能の全セットを検証するとともに,本モデルがタンパク質モノマーの適切なアンサンブルを生成可能であることを示す。
私たちの研究は、ジェネレーティブモデリングがMDデータから、既存のメソッドやMD自体に簡単に対処できない様々なダウンストリームタスクへの価値を解放する方法を示しています。
コードはhttps://github.com/bjing2016/mdgen.comで入手できる。
Molecular dynamics (MD) is a powerful technique for studying microscopic phenomena, but its computational cost has driven significant interest in the development of deep learning-based surrogate models. We introduce generative modeling of molecular trajectories as a paradigm for learning flexible multi-task surrogate models of MD from data. By conditioning on appropriately chosen frames of the trajectory, we show such generative models can be adapted to diverse tasks such as forward simulation, transition path sampling, and trajectory upsampling. By alternatively conditioning on part of the molecular system and inpainting the rest, we also demonstrate the first steps towards dynamics-conditioned molecular design. We validate the full set of these capabilities on tetrapeptide simulations and show that our model can produce reasonable ensembles of protein monomers. Altogether, our work illustrates how generative modeling can unlock value from MD data towards diverse downstream tasks that are not straightforward to address with existing methods or even MD itself. Code is available at https://github.com/bjing2016/mdgen. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# 公共交通需要に対するE-scooter効果--チリ・サンティアゴを事例として
E-scooter effects on public transport demand: a case study in Santiago, Chile ( http://arxiv.org/abs/2409.17814v1 ) ライセンス: Link先を確認 | Daniela Opitz, Eduardo Graells-Garrido, Jacqueline Arriagada, Matilde Rivas, Natalia Meza, | (参考訳) 都市が持続可能なモビリティソリューションを採用するにつれて、電動スクーター(eスクーター)は公共交通機関の課題と機会を提供する。
この研究は、ラテンアメリカで初めて、チリのサンティアゴにおける公共交通需要に対するe-scooterの影響を調査し、旅行の「世代」と旅行の「誘引」の2つのシナリオに焦点を当てた。
公共交通機関のスマートカードとe-scooter GPSのデータに負二項回帰モデルを適用した。
この手法には、都市域のクラスタリングと差分法アプローチが含まれていた。
中央地域では、公共交通機関の旅行が21.38%減少し、バスの旅行が76.39%増加した。
中間地域では地下鉄が70.05%増加し、周辺地域ではバスが84.64%増加した。
これらの結果から,e-scooterは公共交通機関の利用率を低下させるが,アクセス頻度の低い地域での利用率を高めることが示唆された。
As cities adopt sustainable mobility solutions, electric scooters (e-scooters) offer both challenges and opportunities for public transportation systems. This study, the first in Latin America, examines the effects of e-scooters on public transport demand in Santiago, Chile, focusing on two scenarios: "generation" of trips (trips starting in study zones) and "attraction" of trips (trips ending in study zones). A negative binomial regression model was applied to data from public transport smart cards and e-scooter GPS. The methodology included urban area clustering and a differences-in-differences approach. The findings reveal significant regional differences: in the Central Region, public transport trips decreased by 21.38% in the generation scenario, while bus trips increased by 76.39%. In the Intermediate Region, metro trips increased by 70.05%, and in the Peripheral Region, bus trips increased by 84.64%. These results suggest that e-scooters reduce public transport usage in highly accessible areas but increase it in less accessible regions. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# DREAMS:医療・医療応用のためのモデルカードレポートによるディープラーニングモデルをトレーニングするためのピソンフレームワーク
DREAMS: A python framework to train deep learning models with model card reporting for medical and health applications ( http://arxiv.org/abs/2409.17815v1 ) ライセンス: Link先を確認 | Rabindra Khadka, Pedro G Lind, Anis Yazidi, Asma Belhadi, | (参考訳) 脳波データ(EEG)は、研究者や臨床医がリアルタイムで脳活動を観察するための非侵襲的な方法を提供する。
深層学習技術と脳波データの統合により、意味のあるパターンを識別する能力が大幅に向上し、臨床と研究の両方の目的において貴重な洞察が得られた。
しかし、これまでのほとんどのフレームワークは、EEGデータ分析のために設計されており、事前処理やディープラーニングの手法に重点を置いており、臨床医と開発者の両方のコミュニティで利用している。
さらに、倫理的考慮、バイアス、不確実性、脳波データ分析のためのAIモデルに固有の制限といった重要な問題は、しばしば見過ごされ、これらの技術の責任を負う実装に課題が生じる。
本稿では,脳波データ処理,モデルトレーニング,レポート生成に適した総合的なディープラーニングフレームワークを提案する。
AI開発者によってさらに適応され、開発されるように構築されているが、モデルカードを通じて、開発者と臨床医の両方が使用する結果と具体的な情報を報告することができる。
このようにして、このフレームワークが、将来、脳波データ分析と診断のための透明で説明可能なAIモデルを作成するために必要なツールを、臨床研究者や開発者に提供する方法について論じる。
Electroencephalography (EEG) data provides a non-invasive method for researchers and clinicians to observe brain activity in real time. The integration of deep learning techniques with EEG data has significantly improved the ability to identify meaningful patterns, leading to valuable insights for both clinical and research purposes. However, most of the frameworks so far, designed for EEG data analysis, are either too focused on pre-processing or in deep learning methods per, making their use for both clinician and developer communities problematic. Moreover, critical issues such as ethical considerations, biases, uncertainties, and the limitations inherent in AI models for EEG data analysis are frequently overlooked, posing challenges to the responsible implementation of these technologies. In this paper, we introduce a comprehensive deep learning framework tailored for EEG data processing, model training and report generation. While constructed in way to be adapted and developed further by AI developers, it enables to report, through model cards, the outcome and specific information of use for both developers and clinicians. In this way, we discuss how this framework can, in the future, provide clinical researchers and developers with the tools needed to create transparent and accountable AI models for EEG data analysis and diagnosis. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# 統合価値誘導による推論時言語モデルアライメント
Inference-Time Language Model Alignment via Integrated Value Guidance ( http://arxiv.org/abs/2409.17819v1 ) ライセンス: Link先を確認 | Zhixuan Liu, Zhanhui Zhou, Yuanfu Wang, Chao Yang, Yu Qiao, | (参考訳) 大規模言語モデルは通常、人間の好みに合わせて微調整されるが、大規模モデルのチューニングは計算集約的で複雑である。
Integrated Value Guidance}$ (IVG)は、暗黙的および明示的な値関数を用いて、トークンとチャンクレベルでの言語モデルのデコーディングをガイドし、推論時に大言語モデルを純粋に整合させる手法である。
このアプローチは、直接微調整の複雑さを回避し、従来の手法より優れている。
経験的に、様々なタスクにおけるIVGの汎用性を実証する。
制御された感情生成と要約タスクでは, $\texttt{gpt2}$-based value function からの推論時間ガイダンスを用いて,大規模モデルのアライメントを大幅に改善する。
さらに、より難しい命令追従ベンチマークAlpacaEval 2.0では、特に調整された値関数とオフザシェルフ値関数の両方が、大モデルの長制御された勝利率を大幅に改善することを示した(例: $19.51\% \rightarrow 26.51\%$ for $\textt{Mistral-7B-Instruct-v0.2}$と $25.58\% \rightarrow 33.75\%$ for $\textt{Mixtral-8x7B-Instruct-v0.1}$)。
Large language models are typically fine-tuned to align with human preferences, but tuning large models is computationally intensive and complex. In this work, we introduce $\textit{Integrated Value Guidance}$ (IVG), a method that uses implicit and explicit value functions to guide language model decoding at token and chunk-level respectively, efficiently aligning large language models purely at inference time. This approach circumvents the complexities of direct fine-tuning and outperforms traditional methods. Empirically, we demonstrate the versatility of IVG across various tasks. In controlled sentiment generation and summarization tasks, our method significantly improves the alignment of large models using inference-time guidance from $\texttt{gpt2}$-based value functions. Moreover, in a more challenging instruction-following benchmark AlpacaEval 2.0, we show that both specifically tuned and off-the-shelf value functions greatly improve the length-controlled win rates of large models against $\texttt{gpt-4-turbo}$ (e.g., $19.51\% \rightarrow 26.51\%$ for $\texttt{Mistral-7B-Instruct-v0.2}$ and $25.58\% \rightarrow 33.75\%$ for $\texttt{Mixtral-8x7B-Instruct-v0.1}$ with Tulu guidance). | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# ケンドールの対物蒸留におけるτ$係数
Kendall's $τ$ Coefficient for Logits Distillation ( http://arxiv.org/abs/2409.17823v1 ) ライセンス: Link先を確認 | Yuchen Guan, Runxi Cheng, Kang Liu, Chun Yuan, | (参考訳) 知識蒸留は通常、学生モデルの出力を教師モデルが提供するソフトラベルと正確に一致させるために、KL(Kullback-Leibler)の発散を用いる。
しかし、KLの発散損失の最適化方向が必ずしもタスク損失と一致しない場合もあり、KLの発散はソフトラベルから発散する誤った予測につながる可能性がある。
この制限は、しばしば学生にとって最適以下の最適化をもたらす。
さらに、温度スケーリング下であっても、KL分散損失関数はロジットの大きい値のチャネルに過度にフォーカスする傾向にあり、より小さい値のチャネルの多さによって提供されるクラス間のリッチな情報を無視している。
この厳しい制約は、軽量な学生にとって難しすぎることを証明し、さらなる知識の蒸留を妨げている。
この問題に対処するために、Kendallの$\tau$係数に基づくRKKD(Rランクケンドール知識蒸留)に基づくプラグアンドプレイランキングの損失を提案する。
RKKDは、学生ロジットのチャネル値の順序を制限し、クラス間の関係情報を提供することによって、より小さなチャンネルに注意を向ける。
最上位のチャネルのランク制約は、最適化中の最適下トラップを回避するのに役立つ。
我々はまた、Kendallの$\tau$係数の異なる微分可能な形式について議論し、提案されたランキング損失関数がKLの発散と一貫した最適化目標を共有することを示した。
CIFAR-100とImageNetデータセットの大規模な実験により、我々のRKKDは、様々な知識蒸留ベースラインの性能を高め、複数の教師と学生のアーキテクチャの組み合わせで広範囲に改善できることが示されている。
Knowledge distillation typically employs the Kullback-Leibler (KL) divergence to constrain the student model's output to match the soft labels provided by the teacher model exactly. However, sometimes the optimization direction of the KL divergence loss is not always aligned with the task loss, where a smaller KL divergence could lead to erroneous predictions that diverge from the soft labels. This limitation often results in suboptimal optimization for the student. Moreover, even under temperature scaling, the KL divergence loss function tends to overly focus on the larger-valued channels in the logits, disregarding the rich inter-class information provided by the multitude of smaller-valued channels. This hard constraint proves too challenging for lightweight students, hindering further knowledge distillation. To address this issue, we propose a plug-and-play ranking loss based on Kendall's $\tau$ coefficient, called Rank-Kendall Knowledge Distillation (RKKD). RKKD balances the attention to smaller-valued channels by constraining the order of channel values in student logits, providing more inter-class relational information. The rank constraint on the top-valued channels helps avoid suboptimal traps during optimization. We also discuss different differentiable forms of Kendall's $\tau$ coefficient and demonstrate that the proposed ranking loss function shares a consistent optimization objective with the KL divergence. Extensive experiments on the CIFAR-100 and ImageNet datasets show that our RKKD can enhance the performance of various knowledge distillation baselines and offer broad improvements across multiple teacher-student architecture combinations. | 翻訳日:2024-09-28 19:42:02 公開日:2024-09-26 |
# 物理配向シュレーディンガー橋
Physics-aligned Schrödinger bridge ( http://arxiv.org/abs/2409.17825v1 ) ライセンス: Link先を確認 | Zeyu Li, Hongkun Dou, Shen Fang, Wang Han, Yue Deng, Lijun Yang, | (参考訳) スパース測定による物理場の再構築は、科学研究と工学の応用の両方において重要である。
従来の手法は、データから特徴を抽出する効果により、ディープラーニングモデルによって補われている。
しかし、複雑な物理系上の低い精度を除いて、これらのモデルは、方程式や境界条件などの基本的な物理的制約に従わないことが多い。
この制限を克服するために,物理対応型Schr\"{o}dinger Bridge (PalSB) と呼ばれる新しいデータ駆動型フィールド再構築フレームワークを導入する。
このフレームワークは、物理的制約に合わせるように特別に調整された拡散Schr\"{o}dingerブリッジ機構を利用する。
PalSBアプローチには、局所的な再構成マッピングとグローバルな物理原理の両方に対処するために設計された2段階のトレーニングプロセスが組み込まれている。
さらに, 物理的境界条件への付着を確保するために, 境界対応サンプリング手法を実装した。
我々はPalSBの有効性を,粒子画像速度測定実験からのシリンダーフロー,二次元乱流,反応拡散システムという3つの複雑な非線形システムに応用して示す。
その結果,PalSBは高い精度を達成できるだけでなく,既存の手法と比較して物理的な制約に適合していることがわかった。
このことは、PalSBが複雑な物理的相互作用の高品質な表現を生成する能力を強調し、フィールド再構築技術の進歩の可能性を示している。
The reconstruction of physical fields from sparse measurements is pivotal in both scientific research and engineering applications. Traditional methods are increasingly supplemented by deep learning models due to their efficacy in extracting features from data. However, except for the low accuracy on complex physical systems, these models often fail to comply with essential physical constraints, such as governing equations and boundary conditions. To overcome this limitation, we introduce a novel data-driven field reconstruction framework, termed the Physics-aligned Schr\"{o}dinger Bridge (PalSB). This framework leverages a diffusion Schr\"{o}dinger bridge mechanism that is specifically tailored to align with physical constraints. The PalSB approach incorporates a dual-stage training process designed to address both local reconstruction mapping and global physical principles. Additionally, a boundary-aware sampling technique is implemented to ensure adherence to physical boundary conditions. We demonstrate the effectiveness of PalSB through its application to three complex nonlinear systems: cylinder flow from Particle Image Velocimetry experiments, two-dimensional turbulence, and a reaction-diffusion system. The results reveal that PalSB not only achieves higher accuracy but also exhibits enhanced compliance with physical constraints compared to existing methods. This highlights PalSB's capability to generate high-quality representations of intricate physical interactions, showcasing its potential for advancing field reconstruction techniques. | 翻訳日:2024-09-28 18:44:57 公開日:2024-09-26 |
# BeanCounter: ビジネス指向テキストの低毒性、大規模、オープンデータセット
BeanCounter: A low-toxicity, large-scale, and open dataset of business-oriented text ( http://arxiv.org/abs/2409.17827v1 ) ライセンス: Link先を確認 | Siyan Wang, Bradford Levy, | (参考訳) 言語モデリングにおける最近のブレークスルーの多くは、同じモデルアーキテクチャを大規模データセットに効果的にスケーリングすることによるものだ。
この点において、最近の研究は、トレーニングデータセットのサイズと品質の増加によるパフォーマンスの向上を強調し、大規模なデータセットの新たなソースの必要性を示唆している。
本研究では,企業の開示から抽出された159B以上のトークンからなる公開データセットであるBeanCounterを紹介する。
BeanCounterの0.1%未満がCommon Crawlベースのデータセットに現れており、同様のソースに依存するデータセットよりも桁違いに大きい。
データの出所を考えると、BeanCounterはWebベースのデータセットよりも比較的現実的で毒性が低いという仮説を立てています。
この仮説を探索した結果,BeanCounterでも同様の頻度で発生するが,他のデータセットと比較して有毒な文脈は極めて少ないことが判明した。
BeanCounterの実用性を実証するために,BeanCounter上で継続的にトレーニングされている2つのLCMとベースモデルを比較した。
有害な生成が18~33%減少し、継続的に事前訓練されたモデルに対するファイナンス領域内での性能が向上した。
本研究では,BeanCounterがマルチビリオンパラメータLLMのトレーニングに十分なスケールで,低毒性で高品質なドメイン固有データの新たな情報源であることを示す。
Many of the recent breakthroughs in language modeling have resulted from scaling effectively the same model architecture to larger datasets. In this vein, recent work has highlighted performance gains from increasing training dataset size and quality, suggesting a need for novel sources of large-scale datasets. In this work, we introduce BeanCounter, a public dataset consisting of more than 159B tokens extracted from businesses' disclosures. We show that this data is indeed novel: less than 0.1% of BeanCounter appears in Common Crawl-based datasets and it is an order of magnitude larger than datasets relying on similar sources. Given the data's provenance, we hypothesize that BeanCounter is comparatively more factual and less toxic than web-based datasets. Exploring this hypothesis, we find that many demographic identities occur with similar prevalence in BeanCounter but with significantly less toxic context relative to other datasets. To demonstrate the utility of BeanCounter, we evaluate and compare two LLMs continually pre-trained on BeanCounter with their base models. We find an 18-33% reduction in toxic generation and improved performance within the finance domain for the continually pretrained models. Collectively, our work suggests that BeanCounter is a novel source of low-toxicity and high-quality domain-specific data with sufficient scale to train multi-billion parameter LLMs. | 翻訳日:2024-09-28 18:44:57 公開日:2024-09-26 |
# 教師なし学習に基づくマルチスケール露光融合
Unsupervised Learning Based Multi-Scale Exposure Fusion ( http://arxiv.org/abs/2409.17830v1 ) ライセンス: Link先を確認 | Chaobing Zheng, Shiqian Wu, Zhenggguo Li, | (参考訳) 教師なし学習に基づくマルチスケール露光融合(ULMEF)は、高ダイナミックレンジ(HDR)シーンのために、異なる露光低ダイナミックレンジ(LDR)画像を高品質のLDR画像に融合するのに効率的である。
教師付き学習とは異なり、損失関数はULMEFにおいて重要な役割を果たす。
本稿では,ALMEFに対して新たな損失関数を提案し,同じHDRシーンからのすべての画像と他の異なる露光画像を融合して定義する。
提案した損失関数は、既存の損失関数よりもHDRシーンからより信頼性の高い情報を得るために提案されたULMEFを導出することができる。
これにより、融合画像の品質が大幅に向上する。
提案するULMEFは,マルチスケールアテンションモジュールを含むマルチスケール戦略を採用し,融合画像のシーン深さと局所コントラストを効果的に保存する。
一方、ULMEFは露光補間および露光補間を実現するために用いられる。
広汎な実験により,提案したULMEFアルゴリズムは,最先端の露光融合アルゴリズムよりも優れていた。
Unsupervised learning based multi-scale exposure fusion (ULMEF) is efficient for fusing differently exposed low dynamic range (LDR) images into a higher quality LDR image for a high dynamic range (HDR) scene. Unlike supervised learning, loss functions play a crucial role in the ULMEF. In this paper, novel loss functions are proposed for the ULMEF and they are defined by using all the images to be fused and other differently exposed images from the same HDR scene. The proposed loss functions can guide the proposed ULMEF to learn more reliable information from the HDR scene than existing loss functions which are defined by only using the set of images to be fused. As such, the quality of the fused image is significantly improved. The proposed ULMEF also adopts a multi-scale strategy that includes a multi-scale attention module to effectively preserve the scene depth and local contrast in the fused image. Meanwhile, the proposed ULMEF can be adopted to achieve exposure interpolation and exposure extrapolation. Extensive experiments show that the proposed ULMEF algorithm outperforms state-of-the-art exposure fusion algorithms. | 翻訳日:2024-09-28 18:44:57 公開日:2024-09-26 |
# 12レベル心電図生成の正規微分方程式
Ordinary Differential Equations for Enhanced 12-Lead ECG Generation ( http://arxiv.org/abs/2409.17833v1 ) ライセンス: Link先を確認 | Yakir Yehuda, Kira Radinsky, | (参考訳) 人工知能の分野では、教師付き学習タスクのための現実的なトレーニングデータの生成が大きな課題となっている。
これは心電図(ECG)の合成において特に当てはまる。
このタスクの主な複雑さは、異なるECGリード間の複雑な生物学的および生理的相互作用を正確にモデル化することに由来する。
数学的プロセスシミュレータはこれらのダイナミクスに光を当てているが、この理解を生成モデルに効果的に取り入れることは容易ではない。
本研究では、通常の微分方程式(ODE)を用いて12個の心電図データを生成することの忠実度を高める革新的な手法を提案する。
このアプローチは、心力学を直接生成モデルの最適化プロセスに反映するODEのシステムを統合することで、実世界の変動性とリード間の依存関係を忠実に反映する生物学的に妥当なECGトレーニングデータを生成することができる。
人工心電図データを用いて心電図解析を行い, 心電図データに心電図を組み込むことにより, 心電図データに基づいて心電図を訓練した心電図の精度が有意に向上することが確認された。
In the realm of artificial intelligence, the generation of realistic training data for supervised learning tasks presents a significant challenge. This is particularly true in the synthesis of electrocardiograms (ECGs), where the objective is to develop a synthetic 12-lead ECG model. The primary complexity of this task stems from accurately modeling the intricate biological and physiological interactions among different ECG leads. Although mathematical process simulators have shed light on these dynamics, effectively incorporating this understanding into generative models is not straightforward. In this work, we introduce an innovative method that employs ordinary differential equations (ODEs) to enhance the fidelity of generating 12-lead ECG data. This approach integrates a system of ODEs that represent cardiac dynamics directly into the generative model's optimization process, allowing for the production of biologically plausible ECG training data that authentically reflects real-world variability and inter-lead dependencies. We conducted an empirical analysis of thousands of ECGs and found that incorporating cardiac simulation insights into the data generation process significantly improves the accuracy of heart abnormality classifiers trained on this synthetic 12-lead ECG data. | 翻訳日:2024-09-28 18:44:57 公開日:2024-09-26 |
# PEDRO: Prompt Dependent Representation Modification を用いたパラメータ効率の良いファインチューニング
PEDRO: Parameter-Efficient Fine-tuning with Prompt DEpenDent Representation MOdification ( http://arxiv.org/abs/2409.17834v1 ) ライセンス: Link先を確認 | Tianfang Xie, Tianjing Li, Wei Zhu, Wei Han, Yi Zhao, | (参考訳) かなりのサイズであるため、大きな言語モデル(LLM)は通常、単一バックボーンのマルチテナントフレームワークにデプロイされる。
このセットアップでは、LPMバックボーンの単一のインスタンスは、様々なパラメータ効率の微調整(PEFT)モデルを適用することで、複数のユーザやタスクに対応しなければならない。
LoRAのような多数の効果的なPEFT技術が利用可能であるにもかかわらず、推論時の高効率と下流タスクでの競合性能の両方を達成するPEFTアプローチは依然として必要である。
本研究では,新しいPEFT手法である \underline{P}rompt D\underline{E}pen\underline{D}ent \underline{R}epresentation M\underline{O}dification (PEDRO)を紹介する。
提案手法では,各トランスフォーマー層に軽量なベクトル発生器を組み込むことで,入力プロンプトに付随するベクトルを生成する。
これらのベクトルは、ドット積演算によってLLMが生成した隠された表現を修正し、それによってモデルのセマンティックな出力と生成された内容に影響を与える。
さまざまなタスクにわたる大規模な実験は、次のように示している。
(a) PEDROは、同じ数のチューナブルパラメータを使用する場合、最近のPEFTベンチマークを上回ります。
b) 単一バックボーン型マルチテナント配置モデルでは, PEDROはLoRAに比べて効率が優れ, 工業的可能性も高い。
Due to their substantial sizes, large language models (LLMs) are typically deployed within a single-backbone multi-tenant framework. In this setup, a single instance of an LLM backbone must cater to multiple users or tasks through the application of various parameter-efficient fine-tuning (PEFT) models. Despite the availability of numerous effective PEFT techniques such as LoRA, there remains a need for a PEFT approach that achieves both high efficiency during inference and competitive performance on downstream tasks. In this research, we introduce a new and straightforward PEFT methodology named \underline{P}rompt D\underline{E}pen\underline{D}ent \underline{R}epresentation M\underline{O}dification (PEDRO). The proposed method involves integrating a lightweight vector generator into each Transformer layer, which generates vectors contingent upon the input prompts. These vectors then modify the hidden representations created by the LLM through a dot product operation, thereby influencing the semantic output and generated content of the model. Extensive experimentation across a variety of tasks indicates that: (a) PEDRO surpasses recent PEFT benchmarks when using a similar number of tunable parameters. (b) Under the single-backbone multi-tenant deployment model, PEDRO exhibits superior efficiency compared to LoRA, indicating significant industrial potential. | 翻訳日:2024-09-28 18:44:57 公開日:2024-09-26 |
# 縦場における量子横等方性モデルのループアルゴリズム
Loop Algorithm for Quantum Transverse Ising Model in a Longitudinal Field ( http://arxiv.org/abs/2409.17835v1 ) ライセンス: Link先を確認 | Wei Xu, Xue-Feng Zhang, | (参考訳) 量子横イジングモデルとその拡張は、統計物理学、量子磁気学、量子シミュレーション、数学的物理学など、様々な分野において重要な役割を果たす。
ほとんどの場合、符号問題に苦しむことはないが、対応する量子モンテカルロアルゴリズムは特に大きな長手場において非効率に実行する。
主な障害は、モンテカルロステップ間の自己相関を強く減少させるループ更新方法の欠如である。
そこで我々は,新しいマージアンマージプロセスを用いたループアルゴリズムの開発に成功した。
これは、Rydberg atom chain と Kagome qubit ice をシミュレートするために実装する際の最先端アルゴリズムに対する大きな利点を示す。
この高度なアルゴリズムは、Rydberg原子配列、閉じ込められたイオン、量子材料、量子アニールなどの多くのシステムに適合する。
The quantum transverse Ising model and its extensions play a critical role in various fields, such as statistical physics, quantum magnetism, quantum simulations, and mathematical physics. Although it does not suffer from the sign problem in most cases, the corresponding quantum Monte Carlo algorithm performs inefficiently, especially at a large longitudinal field. The main hindrance is the lack of loop update method which can strongly decrease the auto-correlation between Monte Carlo steps. Here, we successfully develop a loop algorithm with a novel merge-unmerge process. It demonstrates a great advantage over the state-of-the-art algorithm when implementing it to simulate the Rydberg atom chain and Kagome qubit ice. This advanced algorithm suits many systems such as Rydberg atom arrays, trapped ions, quantum materials, and quantum annealers. | 翻訳日:2024-09-28 18:44:57 公開日:2024-09-26 |
# ゼロショットロスレス勾配圧縮機としての言語モデル:
一般ニューラルパラメータ事前モデル
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models ( http://arxiv.org/abs/2409.17836v1 ) ライセンス: Link先を確認 | Hui-Po Wang, Mario Fritz | (参考訳) 様々な分野で統計的事前モデルが広く使われているにもかかわらず、ニューラルネットワーク勾配のそのようなモデルは長い間見過ごされてきた。
固有の課題は、それらの高次元構造と複雑な相互依存から来ており、これは効果的なモデリングを複雑にしている。
本研究では,ゼロショット設定において,大規模言語モデル (LLM) が勾配先行として機能する可能性を実証する。
分散学習における重要な応用であるロスレス勾配圧縮(ロスレス勾配圧縮)を,精度の高い確率モデルに大きく依存して検討する。
そこで本研究では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
本手法は,平易な勾配をテキスト型に変換することで,平易な表現に比べて最大38倍のトークン効率を向上する。
我々は、このデータ変換が、平面勾配の構造とLLMによって一般的に認識されるシンボルとの密接な整合性を維持することを保証する。
実験の結果,LM-GCは従来の最先端のロスレス圧縮手法を超越し,圧縮率を10\%から17.2\%に向上した。
さらに,本手法は,量子化やスパシフィケーションなどの圧縮技術との互換性が期待できることを示す。
これらの結果は,勾配を効果的に扱えるモデルとして,LLMの有意義な可能性を示している。
ソースコードは公開時に公開します。
Despite the widespread use of statistical prior models in various fields, such models for neural network gradients have long been overlooked. The inherent challenge stems from their high-dimensional structures and complex interdependencies, which complicate effective modeling. In this work, we demonstrate the potential of large language models (LLMs) to act as gradient priors in a zero-shot setting. We examine the property by considering lossless gradient compression -- a critical application in distributed learning -- that depends heavily on precise probability modeling. To achieve this, we introduce LM-GC, a novel method that integrates LLMs with arithmetic coding. Our technique converts plain gradients into text-like formats, enhancing token efficiency by up to 38 times compared to their plain representations. We ensure that this data conversion maintains a close alignment with the structure of plain gradients and the symbols commonly recognized by LLMs. Our experiments indicate that LM-GC surpasses existing state-of-the-art lossless compression methods, improving compression rates by 10\% up to 17.2\% across various datasets and architectures. Additionally, our approach shows promising compatibility with lossy compression techniques such as quantization and sparsification. These findings highlight the significant potential of LLMs as a model for effectively handling gradients. We will release the source code upon publication. | 翻訳日:2024-09-28 18:44:57 公開日:2024-09-26 |
# 因果メカニズムシフトを用いたコンバウンディングの検出と測定
Detecting and Measuring Confounding Using Causal Mechanism Shifts ( http://arxiv.org/abs/2409.17840v1 ) ライセンス: Link先を確認 | Abbavaram Gowtham Reddy, Vineeth N Balasubramanian, | (参考訳) 因果推論において,データからの共起効果の検出と測定が重要な課題である。
既存の手法はしばしば因果補充を仮定し、未観測の共起変数の存在を無視する。
因果性は非現実的で実証不可能である。
さらに、既存の手法は、共起変数の識別可能性を保証するために、基礎となる因果生成過程について強いパラメトリック仮定を行う。
因果関係の十分性やパラメトリックな仮定を緩和し、因果関係の発見と非i.d.データによる因果関係の分析の最近の進歩を活用して、因果関係の検出と測定のための包括的アプローチを提案する。
コンバウンディングの様々な定義を考察し、三つの目的を達成するための調整された方法論を導入する。
一 変数の集合の一致を検知し、測定すること。
二 観察された未観測の防犯効果を分離すること、及び
3)異なる変数の集合間の共起バイアスの相対的強度を理解すること。
共起尺度の有用性とそれらの特性を満たす尺度を提案する。
実験結果は理論分析を支持する。
Detecting and measuring confounding effects from data is a key challenge in causal inference. Existing methods frequently assume causal sufficiency, disregarding the presence of unobserved confounding variables. Causal sufficiency is both unrealistic and empirically untestable. Additionally, existing methods make strong parametric assumptions about the underlying causal generative process to guarantee the identifiability of confounding variables. Relaxing the causal sufficiency and parametric assumptions and leveraging recent advancements in causal discovery and confounding analysis with non-i.i.d. data, we propose a comprehensive approach for detecting and measuring confounding. We consider various definitions of confounding and introduce tailored methodologies to achieve three objectives: (i) detecting and measuring confounding among a set of variables, (ii) separating observed and unobserved confounding effects, and (iii) understanding the relative strengths of confounding bias between different sets of variables. We present useful properties of a confounding measure and present measures that satisfy those properties. Empirical results support the theoretical analysis. | 翻訳日:2024-09-28 18:44:57 公開日:2024-09-26 |
# 機械学習とディープラーニングによる異常検出
宇宙機姿勢センサのための多変量時系列
Machine Learning-based vs Deep Learning-based Anomaly Detection in Multivariate Time Series for Spacecraft Attitude Sensors ( http://arxiv.org/abs/2409.17841v1 ) ライセンス: Link先を確認 | R. Gallon, F. Schiemenz, A. Krstova, A. Menicucci, E. Gill | (参考訳) 宇宙船の故障検出・隔離・回復(FDIR)の枠組みでは、従来のしきい値チェックによって課される制限を克服するために、最先端のAIベースの新たなアプローチが出現している。
本研究の目的は、宇宙船の姿勢センサから得られる多変量時系列におけるスタンプ値検出問題に対する2つの異なるアプローチを特徴付けることである。
この分析は2つのアプローチのパフォーマンスの違いを明らかにし、解釈可能性と異なるシナリオへの一般化についてコメントする。
In the framework of Failure Detection, Isolation and Recovery (FDIR) on spacecraft, new AI-based approaches are emerging in the state of the art to overcome the limitations commonly imposed by traditional threshold checking. The present research aims at characterizing two different approaches to the problem of stuck values detection in multivariate time series coming from spacecraft attitude sensors. The analysis reveals the performance differences in the two approaches, while commenting on their interpretability and generalization to different scenarios. | 翻訳日:2024-09-28 18:44:57 公開日:2024-09-26 |
# 2030年以降のソフトウェアセキュリティ分析 - 研究ロードマップ
Software Security Analysis in 2030 and Beyond: A Research Roadmap ( http://arxiv.org/abs/2409.17844v1 ) ライセンス: Link先を確認 | Marcel Böhme, Eric Bodden, Tevfik Bultan, Cristian Cadar, Yang Liu, Giuseppe Scanniello, | (参考訳) 私たちの生活、ビジネス、そして現実の世界経済は、多くの相互接続されたソフトウェアシステムの安全な運用にますます依存するようになり、ソフトウェアエンジニアリング研究コミュニティは前例のない研究課題に直面していますが、同時にエキサイティングな新しい機会にも直面しています。
本稿では,今後のソフトウェアシステムに対するソフトウェアセキュリティ分析のビジョンについて概説する。
生成AIの最近の進歩を考えると、機械が共同で書いたコードのセキュリティを評価し、最大化する新しい方法が必要である。
ソフトウェアシステムがますます異質になるにつれて、深いニューラルネットワークによって関数が自動生成されても動作する実践的なアプローチが必要になります。
ソフトウェアシステムはソフトウェアサプライチェーンに依存しているため、エコシステム全体にスケールするツールが必要です。
将来のシステムにどのような脆弱性が存在し、どのようにそれらを検出するのか?
浅いバグがすべて見つかったら、どうやってシステムに深く隠された脆弱性を見つけるのか?
すべてのセキュリティ欠陥が見つからないと仮定しても、システムを保護するにはどうすればいいのか?
これらの質問に答えるために、ソフトウェアセキュリティの最近の進歩を調査し、オープンな課題と機会について議論し、この分野の長期的な視点で結論付けることで、研究ロードマップを開始します。
As our lives, our businesses, and indeed our world economy become increasingly reliant on the secure operation of many interconnected software systems, the software engineering research community is faced with unprecedented research challenges, but also with exciting new opportunities. In this roadmap paper, we outline our vision of Software Security Analysis for the software systems of the future. Given the recent advances in generative AI, we need new methods to evaluate and maximize the security of code co-written by machines. As our software systems become increasingly heterogeneous, we need practical approaches that work even if some functions are automatically generated, e.g., by deep neural networks. As software systems depend evermore on the software supply chain, we need tools that scale to an entire ecosystem. What kind of vulnerabilities exist in future systems and how do we detect them? When all the shallow bugs are found, how do we discover vulnerabilities hidden deeply in the system? Assuming we cannot find all security flaws, how can we nevertheless protect our system? To answer these questions, we start our research roadmap with a survey of recent advances in software security, then discuss open challenges and opportunities, and conclude with a long-term perspective for the field. | 翻訳日:2024-09-28 18:44:57 公開日:2024-09-26 |
# 視点シフトによる単眼深度推定のための新しいデータセット
A New Dataset for Monocular Depth Estimation Under Viewpoint Shifts ( http://arxiv.org/abs/2409.17851v1 ) ライセンス: Link先を確認 | Aurel Pjetri, Stefano Caprasecca, Leonardo Taccari, Matteo Simoncini, Henrique Piñeiro Monteagudo, Walter Wallace, Douglas Coimbra de Andrade, Francesco Sambo, Andrew David Bagdanov, | (参考訳) 単眼深度推定は、自律運転や他の多くのコンピュータビジョンアプリケーションにとって重要なタスクである。
この分野では大きな進歩があったが、深さ推定モデルに対する視点シフトの影響は、大半が未解明のままである。
本稿では,異なるカメラ位置と方向が単眼深度推定性能に与える影響を定量化するための新しいデータセットと評価手法を提案する。
ホログラフィー推定とオブジェクト検出に基づいて,高価なライダーセンサの必要をなくし,基礎的真理戦略を提案する。
道路シーンの多様なデータセットを複数視点から収集し,現代の深度推定モデルのロバスト性を評価する。
パブリックデータセット上での戦略の有効性を評価した上で、現在のモデルの限界についての貴重な洞察を提供し、現実世界のアプリケーションにおける視点の変化を考慮することの重要性を強調します。
Monocular depth estimation is a critical task for autonomous driving and many other computer vision applications. While significant progress has been made in this field, the effects of viewpoint shifts on depth estimation models remain largely underexplored. This paper introduces a novel dataset and evaluation methodology to quantify the impact of different camera positions and orientations on monocular depth estimation performance. We propose a ground truth strategy based on homography estimation and object detection, eliminating the need for expensive lidar sensors. We collect a diverse dataset of road scenes from multiple viewpoints and use it to assess the robustness of a modern depth estimation model to geometric shifts. After assessing the validity of our strategy on a public dataset, we provide valuable insights into the limitations of current models and highlight the importance of considering viewpoint variations in real-world applications. | 翻訳日:2024-09-28 18:44:56 公開日:2024-09-26 |
# AMARO:タンパク質の重原子移動型ニューラルネットワークの可能性
熱力学
AMARO: All Heavy-Atom Transferable Neural Network Potentials of Protein Thermodynamics ( http://arxiv.org/abs/2409.17852v1 ) ライセンス: Link先を確認 | Antonio Mirarchi, Raul P. Pelaez, Guillem Simeon, Gianni De Fabritiis | (参考訳) 全原子分子シミュレーションはマクロ分子現象に関する詳細な知見を提供するが、その計算コストは複雑な生物学的過程の探索を妨げる。
我々は,O(3)等価なメッセージパッシングニューラルネットワークアーキテクチャであるTensorNetと,水素原子を排除した粗粒度マップを組み合わせた,新しいニューラルネットワークポテンシャル(NNP)であるAdvanced Machine-learning Atomic Representation Omni-force-field(AMARO)を紹介する。
AMAROは、エネルギー用語を使わずに、拡張性と一般化機能を備えた安定なタンパク質力学を実行するための訓練粗大化NNPの実現可能性を実証している。
All-atom molecular simulations offer detailed insights into macromolecular phenomena, but their substantial computational cost hinders the exploration of complex biological processes. We introduce Advanced Machine-learning Atomic Representation Omni-force-field (AMARO), a new neural network potential (NNP) that combines an O(3)-equivariant message-passing neural network architecture, TensorNet, with a coarse-graining map that excludes hydrogen atoms. AMARO demonstrates the feasibility of training coarser NNP, without prior energy terms, to run stable protein dynamics with scalability and generalization capabilities. | 翻訳日:2024-09-28 18:44:56 公開日:2024-09-26 |
# 医学データの要素としての年齢分布の可視化
Visualization of Age Distributions as Elements of Medical Data-Stories ( http://arxiv.org/abs/2409.17854v1 ) ライセンス: Link先を確認 | Sophia Dowlatabadi, Bernhard Preim, Monique Meuschke, | (参考訳) 医学を含む様々な分野において、年齢分布は重要である。
メディアで健康に関する話題が広く報道されているにもかかわらず、健康コミュニケーションを強化する必要性は依然として残っている。
ナラティブ・メディカル・ビジュアライゼーションは情報理解と保持を改善することを約束している。
本研究では, 疾患の年齢分布を示す最も効果的な方法について, 物語的可視化による検討を行った。
既存のビジュアライゼーションを徹底的に分析し,広い範囲でワークショップを開催し,関連文献をレビューした。
そこから、理解、美学、エンゲージメント、記憶可能性に焦点をあてた設計選択を特定した。
具体的には、バーとしてのピクトグラム、積み重ねたピクトグラム、アノテーションの3種類のピクトグラムを試験した。
72名の参加者と3名の専門家による評価の結果,アノテーションは理解と美学に最も有効であることが判明した。
しかし、伝統的なバーチャートはエンゲージメントに好まれ、他のバリエーションは記憶に残るものとなった。
この研究は、これらの洞察に基づく設計勧告のセットを提供する。
In various fields, including medicine, age distributions are crucial. Despite widespread media coverage of health topics, there remains a need to enhance health communication. Narrative medical visualization is promising for improving information comprehension and retention. This study explores the most effective ways to present age distributions of diseases through narrative visualizations. We conducted a thorough analysis of existing visualizations, held workshops with a broad audience, and reviewed relevant literature. From this, we identified design choices focusing on comprehension, aesthetics, engagement, and memorability. We specifically tested three pictogram variants: pictograms as bars, stacked pictograms, and annotations. After evaluating 18 visualizations with 72 participants and three expert reviews, we determined that annotations were most effective for comprehension and aesthetics. However, traditional bar charts were preferred for engagement, and other variants were more memorable. The study provides a set of design recommendations based on these insights. | 翻訳日:2024-09-28 18:44:56 公開日:2024-09-26 |
# 機能学習がニューラルスケーリング法則をどのように改善するか
How Feature Learning Can Improve Neural Scaling Laws ( http://arxiv.org/abs/2409.17858v1 ) ライセンス: Link先を確認 | Blake Bordelon, Alexander Atanasov, Cengiz Pehlevan | (参考訳) 我々は,カーネル限界を超えたニューラルスケーリング法則の解法モデルを開発する。
このモデルの理論的分析は、モデルのサイズ、トレーニング時間、利用可能なデータの総量によるパフォーマンスのスケール方法を示している。
難易度・易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度・難易度の3つのスケーリング体制を同定する。
初期無限幅ニューラルタンジェントカーネル (NTK) で定義される再生カーネルヒルベルト空間 (RKHS) にある、簡単で超容易なターゲット関数の場合、スケーリング指数は特徴学習とカーネル構造モデルの間で変化しない。
最初のNTKのRKHS外として定義されたハードタスクに対しては、機能学習がトレーニング時間と計算時間でスケーリングを改善し、ハードタスクの指数をほぼ2倍にすることで、分析的および経験的に機能学習が可能であることを実証する。
これにより、特徴学習体制におけるパラメータとトレーニング時間をスケールするための異なる計算的最適戦略が導かれる。
我々は,機能学習がハードタスクのスケーリング法則を改善することを支援するが,非線型MLPと円周上のパワーローフーリエスペクトルとCNNの学習視覚タスクを併用した実験により,簡単かつ超容易なタスクには適用できないことを発見した。
We develop a solvable model of neural scaling laws beyond the kernel limit. Theoretical analysis of this model shows how performance scales with model size, training time, and the total amount of available data. We identify three scaling regimes corresponding to varying task difficulties: hard, easy, and super easy tasks. For easy and super-easy target functions, which lie in the reproducing kernel Hilbert space (RKHS) defined by the initial infinite-width Neural Tangent Kernel (NTK), the scaling exponents remain unchanged between feature learning and kernel regime models. For hard tasks, defined as those outside the RKHS of the initial NTK, we demonstrate both analytically and empirically that feature learning can improve scaling with training time and compute, nearly doubling the exponent for hard tasks. This leads to a different compute optimal strategy to scale parameters and training time in the feature learning regime. We support our finding that feature learning improves the scaling law for hard tasks but not for easy and super-easy tasks with experiments of nonlinear MLPs fitting functions with power-law Fourier spectra on the circle and CNNs learning vision tasks. | 翻訳日:2024-09-28 18:44:56 公開日:2024-09-26 |
# 勧告のためのマルチモーダルシングルブランチ埋め込みネットワーク
コールドスタートとミスモードシナリオ
A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios ( http://arxiv.org/abs/2409.17864v1 ) ライセンス: Link先を確認 | Christian Ganh\"or, Marta Moscati, Anna Hausberger, Shah Nawaz, Markus Schedl | (参考訳) ほとんどの推奨システムはコラボレーティブ・フィルタリング(CF)を採用し、過去の集合的相互作用に基づいたレコメンデーションを提供する。
したがって、CFアルゴリズムの性能は、相互作用がほとんど、あるいは全くない場合に低下し、コールドスタートと呼ばれるシナリオが生じる。
この問題に対処するため、これまでの作業は、ユーザやアイテムに関するコラボレーションデータとサイド情報の両方を活用するモデルに依存していた。
マルチモーダル学習と同様に、これらのモデルは共有埋め込み空間における協調的表現とコンテンツ表現を組み合わせることを目的としている。
本研究では,マルチモーダルなレコメンデーションのための,マルチモーダルなシングルブランチ埋め込みネットワーク(SiBraR)を用いた新しいレコメンデーション手法を提案する。
ウェイトシェアリングを活用して、SiBraRは、異なるモダリティ上の同じシングルブランチ埋め込みネットワークを使用して、インタラクションデータとマルチモーダルサイド情報をエンコードする。
これにより、SiBraRはコールドスタートを含むモダリティの欠如のシナリオで有効である。
3つの異なるレコメンデーションドメイン(音楽、映画、eコマース)からの大規模レコメンデーションデータセットの大規模な実験を行い、マルチモーダルコンテンツ情報(オーディオ、テキスト、画像、ラベル、インタラクション)を提供することで、SiBraRはコールドスタートシナリオにおける最先端のコンテンツベースRSとCFを著しく上回り、温かいシナリオで競合することを示す。
我々は,SiBraRの勧告がモダリティの欠如のシナリオにおいて正確であることを示し,モデルが異なるモダリティを共有埋め込み空間の同じ領域にマッピングし,モダリティのギャップを小さくすることができることを示した。
Most recommender systems adopt collaborative filtering (CF) and provide recommendations based on past collective interactions. Therefore, the performance of CF algorithms degrades when few or no interactions are available, a scenario referred to as cold-start. To address this issue, previous work relies on models leveraging both collaborative data and side information on the users or items. Similar to multimodal learning, these models aim at combining collaborative and content representations in a shared embedding space. In this work we propose a novel technique for multimodal recommendation, relying on a multimodal Single-Branch embedding network for Recommendation (SiBraR). Leveraging weight-sharing, SiBraR encodes interaction data as well as multimodal side information using the same single-branch embedding network on different modalities. This makes SiBraR effective in scenarios of missing modality, including cold start. Our extensive experiments on large-scale recommendation datasets from three different recommendation domains (music, movie, and e-commerce) and providing multimodal content information (audio, text, image, labels, and interactions) show that SiBraR significantly outperforms CF as well as state-of-the-art content-based RSs in cold-start scenarios, and is competitive in warm scenarios. We show that SiBraR's recommendations are accurate in missing modality scenarios, and that the model is able to map different modalities to the same region of the shared embedding space, hence reducing the modality gap. | 翻訳日:2024-09-28 18:44:56 公開日:2024-09-26 |
# ノルディック・バルト・フェデレーション・ヘルス・データ・ネットワークを実践した1例
報告
Implementing a Nordic-Baltic Federated Health Data Network: a case report ( http://arxiv.org/abs/2409.17865v1 ) ライセンス: Link先を確認 | Taridzo Chomutare, Aleksandar Babic, Laura-Maria Peltonen, Silja Elunurm, Peter Lundberg, Arne J\"onsson, Emma Eneling, Ciprian-Virgil Gerstenberger, Troels Siggaard, Raivo Kolde, Oskar Jerdhaf, Martin Hansson, Alexandra Makhlysheva, Miroslav Muzny, Erik Ylip\"a\"a, S{\o}ren Brunak and Hercules Dalianis | (参考訳) 背景: 国境を越えた医療データの集中収集と処理は、プライバシーの懸念、データの異質性、法的障壁など、重大な課題を提起する。
これらの課題に対処するため,我々は5か国6つの機関からなるフェデレーション型健康データネットワークを開発するための学際コンソーシアムを結成した。
本報告の目的は,このネットワークの開発経験に関する早期知見を提供することである。
方法: 実験設計と実装科学を組み合わせることで, ネットワークの実装に影響を与える要因を評価する。
結果: 本実験は, 集中型シミュレーションと比較して, 性能劣化のないネットワーク機能を示すものである。
結論: 学際的アプローチの活用は, 協調的なネットワーク構築に伴うチャレンの問題を解決する可能性を秘めている。
Background: Centralized collection and processing of healthcare data across national borders pose significant challenges, including privacy concerns, data heterogeneity and legal barriers. To address some of these challenges, we formed an interdisciplinary consortium to develop a feder-ated health data network, comprised of six institutions across five countries, to facilitate Nordic-Baltic cooperation on secondary use of health data. The objective of this report is to offer early insights into our experiences developing this network. Methods: We used a mixed-method ap-proach, combining both experimental design and implementation science to evaluate the factors affecting the implementation of our network. Results: Technically, our experiments indicate that the network functions without significant performance degradation compared to centralized simu-lation. Conclusion: While use of interdisciplinary approaches holds a potential to solve challeng-es associated with establishing such collaborative networks, our findings turn the spotlight on the uncertain regulatory landscape playing catch up and the significant operational costs. | 翻訳日:2024-09-28 17:47:26 公開日:2024-09-26 |
# 大規模言語モデルの効率的な任意精度向上
GPUテンソルコア
Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores ( http://arxiv.org/abs/2409.17870v1 ) ライセンス: Link先を確認 | Shaobo Ma, Chao Fang, Haikuo Shao, Zhongfeng Wang | (参考訳) 大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
量子化法は計算要求を減らすが、任意の精度の超低ビット量子化はGPUTensor Coreの限られたサポートと非効率的なメモリ管理によって妨げられ、最適以下の加速につながる。
これらの課題に対処するために,任意の精度 LLM に対する包括的加速法を提案する。
その中心となるのは、並列コンピューティングを容易にし、対称量子化をサポートし、データの冗長性を効果的に低減する新しいバイポーラ-INTデータフォーマットである。
これに基づいて、任意の精度行列乗算方式を実装し、ビットレベルで行列を分解・復元し、GPUTensor Coreの利用を最大化しながら柔軟な精度を実現する。
さらに,データレイアウトを最適化した効率的な行列前処理手法を開発した。
最後に、高速共有メモリを戦略的に活用し、カーネル実行速度を大幅に向上し、メモリアクセスレイテンシを最小化するデータリカバリ指向メモリ管理システムを設計する。
実験の結果,NVIDIAのCUTLASSと比較して,行列乗算の最大13倍の高速化が得られた。
LLMに組み込むと、最大6.7\timesの推論加速が達成される。
これらの改良によりLLM推論効率が大幅に向上し、LLMのより広範かつ応答性の高い応用が可能となった。
Large language models (LLMs) have been widely applied but face challenges in efficient inference. While quantization methods reduce computational demands, ultra-low bit quantization with arbitrary precision is hindered by limited GPU Tensor Core support and inefficient memory management, leading to suboptimal acceleration. To address these challenges, we propose a comprehensive acceleration scheme for arbitrary precision LLMs. At its core, we introduce a novel bipolar-INT data format that facilitates parallel computing and supports symmetric quantization, effectively reducing data redundancy. Building on this, we implement an arbitrary precision matrix multiplication scheme that decomposes and recovers matrices at the bit level, enabling flexible precision while maximizing GPU Tensor Core utilization. Furthermore, we develop an efficient matrix preprocessing method that optimizes data layout for subsequent computations. Finally, we design a data recovery-oriented memory management system that strategically utilizes fast shared memory, significantly enhancing kernel execution speed and minimizing memory access latency. Experimental results demonstrate our approach's effectiveness, with up to 13\times speedup in matrix multiplication compared to NVIDIA's CUTLASS. When integrated into LLMs, we achieve up to 6.7\times inference acceleration. These improvements significantly enhance LLM inference efficiency, enabling broader and more responsive applications of LLMs. | 翻訳日:2024-09-28 17:47:26 公開日:2024-09-26 |
# 非線形力学系の応答における因果関係の同定法
A method for identifying causality in the response of nonlinear dynamical systems ( http://arxiv.org/abs/2409.17872v1 ) ライセンス: Link先を確認 | Joseph Massingham, Ole Nielsen, Tore Butlin, | (参考訳) ランダムなブロードバンド励起を受ける非線形力学系の応答を予測することは、構造力学や神経科学など、様々な科学分野において重要である。
データ駆動モデルを構築するには、システム入力と出力の実験的測定が必要であるが、モデル内の不正確さがエラーやノイズのモデル化に起因するかどうかを判断することは困難である。
本稿では,入力出力データの因果成分を高忠実度モデルを必要としない周波数関数として,出力雑音の存在下でのシステム計測から同定する手法を提案する。
利用可能なモデルを用いて算出された出力予測を、出力のノイズ測定と最適に組み合わせてシステムへの入力を予測する。
アルゴリズムのパラメータは2つの出力信号のバランスをとり、因果関係の尺度として非線形コヒーレンス計量を計算するために利用される。
この方法は、幅広い非線形力学系のクラスに適用できる。
完全なベンチマークモデルがない現在、この問題に対する解決策はない。
Predicting the response of nonlinear dynamical systems subject to random, broadband excitation is important across a range of scientific disciplines, such as structural dynamics and neuroscience. Building data-driven models requires experimental measurements of the system input and output, but it can be difficult to determine whether inaccuracies in the model stem from modelling errors or noise. This paper presents a novel method to identify the causal component of the input-output data from measurements of a system in the presence of output noise, as a function of frequency, without needing a high fidelity model. An output prediction, calculated using an available model, is optimally combined with noisy measurements of the output to predict the input to the system. The parameters of the algorithm balance the two output signals and are utilised to calculate a nonlinear coherence metric as a measure of causality. This method is applicable to a broad class of nonlinear dynamical systems. There are currently no solutions to this problem in the absence of a complete benchmark model. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# ReThink:電力インバータにおける電磁干渉の脅威を明らかにする
ReThink: Reveal the Threat of Electromagnetic Interference on Power Inverters ( http://arxiv.org/abs/2409.17873v1 ) ライセンス: Link先を確認 | Fengchen Yang, Zihao Dan, Kaikai Pan, Chen Yan, Xiaoyu Ji, Wenyuan Xu, | (参考訳) 再生可能エネルギー源(RES)のブームにより、電力インバータの数が増加する。
電力インバータは、直流(DC)電力を RES からグリッド上の交流電流(AC)電力に変換する重要な電子装置であり、そのセキュリティは RES の安定した動作や電力グリッドにも影響を及ぼす。
本稿では、太陽光発電インバータの安全性を、安全な電力変換の基礎となる内部センサの側面から分析する。
電磁的整合性(EMC)対策にもかかわらず、埋込電流センサと電圧センサの両方が1GHz以上の電磁波干渉(EMI)に弱いことが判明した。
このような脆弱性は不正な測定と制御アルゴリズムの誤認につながる可能性があり、我々は、慎重にEMI(DoS)を出力し、インバータを物理的に損傷させたり、出力を減衰させたりすることで、PVインバータに3種類の結果をもたらすReThinkを設計する。
5個のオフザシェルフPVインバータ,さらには実世界のマイクログリッド上でも,EMI信号を100~150cm,全電力20Wで送信することで,これらの結果の検証に成功した。
我々の研究は、RESの電力電子機器のセキュリティに対する認識を高めることを目的としている。
最後に、このような脅威に対処するために、ハードウェアおよびソフトウェアベースの対策を提供する。
With the boom of renewable energy sources (RES), the number of power inverters proliferates. Power inverters are the key electronic devices that transform the direct current (DC) power from RES to the alternating current (AC) power on the grids, and their security can affect the stable operation of RES and even power grids. This paper analyzes the security of photovoltaic (PV) inverters from the aspects of internal sensors since they serve as the foundation for safe power conversion. We discover that both the embedded current sensors and voltage sensors are vulnerable to electromagnetic interference (EMI) of 1 GHz or higher, despite electromagnetic compatibility (EMC) countermeasures. Such vulnerabilities can lead to incorrect measurements and deceiving the control algorithms, and we design ReThink that could produce three types of consequences on PV inverters by emitting carefully crafted EMI, i.e., Denial of Service (DoS), damaging inverters physically or damping the power output. We successfully validate these consequences on 5 off-the-shelf PV inverters, and even in a real-world microgrid, by transmitting EMI signals at a distance of 100-150cm and a total power within 20W. Our work aims to raise awareness of the security of power electronic devices of RES, as they represent an emerging Cyber-Physical attack surface to the future RES-dominated grid. Finally, to cope with such threats, we provide hardware and software-based countermeasures. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# DarkSAM: セグメンテーションのセグメンテーションモデル
DarkSAM: Fooling Segment Anything Model to Segment Nothing ( http://arxiv.org/abs/2409.17874v1 ) ライセンス: Link先を確認 | Ziqi Zhou, Yufei Song, Minghui Li, Shengshan Hu, Xianlong Wang, Leo Yu Zhang, Dezhong Yao, Hai Jin, | (参考訳) Segment Anything Model (SAM) は、最近、データやタスクの見当たらない一般化で注目を集めている。
願わくばSAMの脆弱性、特にUAP(Universal adversarial perturbation)に対する脆弱性は、まだ十分に調査されていない。
本稿では,意味的疎結合に基づく空間攻撃とテクスチャ歪みに基づく周波数攻撃を含む,SAMに対する最初のプロンプトフリーなユニバーサルアタックフレームワークであるDarkSAMを提案する。
まずSAMの出力を前景と背景に分割する。
そこで我々は,攻撃対象としてのイメージの意味的青写真を得るために,シャドーターゲット戦略を設計する。
DarkSAMは、空間領域と周波数領域の両方のイメージから重要なオブジェクトの特徴を抽出し、破壊することによってSAMを騙すことに特化している。
空間領域では、画像の前景と背景の両方の意味を乱してSAMを混乱させる。
周波数領域では、画像の高周波成分(テクスチャ情報)を歪ませることで、攻撃効果をさらに向上する。
その結果、単一のUAPで、DarkSAMはSAMが様々なプロンプトを持つ様々な画像にまたがってオブジェクトを分割できないようにしている。
SAMの4つのデータセットとその2つの変種モデルに対する実験結果は、DarkSAMの強力な攻撃能力と転送可能性を示している。
Segment Anything Model (SAM) has recently gained much attention for its outstanding generalization to unseen data and tasks. Despite its promising prospect, the vulnerabilities of SAM, especially to universal adversarial perturbation (UAP) have not been thoroughly investigated yet. In this paper, we propose DarkSAM, the first prompt-free universal attack framework against SAM, including a semantic decoupling-based spatial attack and a texture distortion-based frequency attack. We first divide the output of SAM into foreground and background. Then, we design a shadow target strategy to obtain the semantic blueprint of the image as the attack target. DarkSAM is dedicated to fooling SAM by extracting and destroying crucial object features from images in both spatial and frequency domains. In the spatial domain, we disrupt the semantics of both the foreground and background in the image to confuse SAM. In the frequency domain, we further enhance the attack effectiveness by distorting the high-frequency components (i.e., texture information) of the image. Consequently, with a single UAP, DarkSAM renders SAM incapable of segmenting objects across diverse images with varying prompts. Experimental results on four datasets for SAM and its two variant models demonstrate the powerful attack capability and transferability of DarkSAM. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# 企業が人工知能を"民主化"する理由 - オープンソースソフトウェアの寄付を事例として
Why Companies "Democratise" Artificial Intelligence: The Case of Open Source Software Donations ( http://arxiv.org/abs/2409.17876v1 ) ライセンス: Link先を確認 | Cailean Osborne, | (参考訳) 企業がAI(Democratise)を主張するのは、非営利団体にAIオープンソースソフトウェア(OSS)を寄贈したり、AIモデルをリリースする際にである。
AIが社会と経済に与える影響が増大するにつれて、AI民主化活動の背後にある商業的インセンティブを理解することは、これらの取り組みが商業的な議題を超えて幅広い利益をもたらすことを保証するために不可欠である。
この目的に向けて、本研究では、Linux Foundationへの43のAI OSS寄付に対する商業的インセンティブを調査するために、混合メソッドのアプローチを採用する。
研究と実践の両方に貢献する。
それはAI民主化のための個人的および組織的社会的、経済的、技術的インセンティブの両方の分類に寄与している。
特に、外部のコントリビュータを引きつけ、開発コストを削減し、業界標準に影響を及ぼすといった、下流目標のための構造的イネーブラーとして、OSSプロジェクトのガバナンスとコントロール権(すなわち、ある企業からオープンガバナンスへ)を廃止する役割を強調している。
さらに、OSS寄付は企業内の個々の開発者によって擁護されることが多く、AIの民主化に対するボトムアップインセンティブの重要性を強調している。
分類学は、AIモデルのリリースなど、他のAI民主主義活動に対するインセンティブを明らかにするためのフレームワークとツールキットを提供する。
本稿は、今後の研究方向性に関する議論から締めくくっている。
Companies claim to "democratise" artificial intelligence (AI) when they donate AI open source software (OSS) to non-profit foundations or release AI models, among others, but what does this term mean and why do they do it? As the impact of AI on society and the economy grows, understanding the commercial incentives behind AI democratisation efforts is crucial for ensuring these efforts serve broader interests beyond commercial agendas. Towards this end, this study employs a mixed-methods approach to investigate commercial incentives for 43 AI OSS donations to the Linux Foundation. It makes contributions to both research and practice. It contributes a taxonomy of both individual and organisational social, economic, and technological incentives for AI democratisation. In particular, it highlights the role of democratising the governance and control rights of an OSS project (i.e., from one company to open governance) as a structural enabler for downstream goals, such as attracting external contributors, reducing development costs, and influencing industry standards, among others. Furthermore, OSS donations are often championed by individual developers within companies, highlighting the importance of the bottom-up incentives for AI democratisation. The taxonomy provides a framework and toolkit for discerning incentives for other AI democratisation efforts, such as the release of AI models. The paper concludes with a discussion of future research directions. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# ノイジーポアソン核融合による自己蒸留深部微細化
Self-Distilled Depth Refinement with Noisy Poisson Fusion ( http://arxiv.org/abs/2409.17880v1 ) ライセンス: Link先を確認 | Jiaqi Li, Yiran Wang, Jinghong Zheng, Zihao Huang, Ke Xian, Zhiguo Cao, Jianming Zhang, | (参考訳) 深度補正は、細粒度と細部で高分解能深度を推定し、深度推定モデルの低分解能結果を精査することを目的としている。
一般的な方法は、多くのパッチをマージすることでタイルベースの方法を採用するが、効率が悪く、一貫性がない。
また、前身芸術はファジィな奥行き境界と限定的な一般化性に悩まされている。
これらの制約の根本的な理由を解析し、局所的不整合とエッジ変形雑音を伴うノイズの多いポアソン融合問題として深度補正をモデル化する。
本稿では,奥行き表現とエッジベースガイダンスを主成分とする自己蒸留深度微細化(SDDR)フレームワークを提案する。
入力として雑音深度予測を用いると、SDDRは粗大な自己蒸留により擬似ラベルとして低雑音深度エッジ表現を生成する。
エッジ誘導勾配損失とエッジベース融合損失を用いたエッジベース誘導は、ポアソン核融合と同等の最適化目標となる。
ディープマップが改良されると、ラベルもノイズフリーになる。
提案モデルでは,5つのベンチマークにおいて,精度,エッジ品質,効率,一般化性の大幅な向上を達成できる。
さらに,SDDRが生成するエッジラベルを用いて,他のモデルを直接トレーニングすることで改良がもたらされ,今後の作業において堅牢なリファインメントモデルのトレーニングに役立つ可能性が示唆された。
Depth refinement aims to infer high-resolution depth with fine-grained edges and details, refining low-resolution results of depth estimation models. The prevailing methods adopt tile-based manners by merging numerous patches, which lacks efficiency and produces inconsistency. Besides, prior arts suffer from fuzzy depth boundaries and limited generalizability. Analyzing the fundamental reasons for these limitations, we model depth refinement as a noisy Poisson fusion problem with local inconsistency and edge deformation noises. We propose the Self-distilled Depth Refinement (SDDR) framework to enforce robustness against the noises, which mainly consists of depth edge representation and edge-based guidance. With noisy depth predictions as input, SDDR generates low-noise depth edge representations as pseudo-labels by coarse-to-fine self-distillation. Edge-based guidance with edge-guided gradient loss and edge-based fusion loss serves as the optimization objective equivalent to Poisson fusion. When depth maps are better refined, the labels also become more noise-free. Our model can acquire strong robustness to the noises, achieving significant improvements in accuracy, edge quality, efficiency, and generalizability on five different benchmarks. Moreover, directly training another model with edge labels produced by SDDR brings improvements, suggesting that our method could help with training robust refinement models in future works. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# MLプロジェクトの感性分析:ブリッジング感情インテリジェンスとコード品質
Sentiment Analysis of ML Projects: Bridging Emotional Intelligence and Code Quality ( http://arxiv.org/abs/2409.17885v1 ) ライセンス: Link先を確認 | Md Shoaib Ahmed, Dongyoung Park, Nasir U. Eisty, | (参考訳) 本研究では、機械学習(ML)プロジェクトにおける感情分析(SA)とコード品質の複雑な関係について検討し、開発者の感情力学がソフトウェアプロジェクトの技術的・機能的特性にどのように影響するかを説明する。
本研究は、開発者の感情の重要な役割を認識し、高度な感情分析技術を用いて、コードコメント、コミットメッセージ、著名なMLプロジェクトにおける議論などのテキストインタラクションから感情状態を精査する。
一般的なMLリポジトリの包括的なデータセットを統合することで、この分析は、感情スコアを体系的に定量化するために、ルールベース、機械学習、ハイブリッド感情分析方法論の混合を適用する。
開発者によって表現される感情的価値は、バグ、脆弱性、セキュリティホットスポット、コードの臭い、重複インスタンスなど、コード品質指標のスペクトルと相関する。
この研究から明らかになったことは、開発者の肯定的な感情がバグの減少とコードの臭いの発生率の低下によって表される優れたコード品質指標と強く結びついていることを明確に示している。
この関係は、生産性とコードクラフトマンシップを高めるためにポジティブな感情環境を育むことの重要性を強調している。
逆に分析の結果、ネガティブな感情はコードの問題、特に重複の増加とセキュリティリスクの増大と相関していることが判明した。
This study explores the intricate relationship between sentiment analysis (SA) and code quality within machine learning (ML) projects, illustrating how the emotional dynamics of developers affect the technical and functional attributes of software projects. Recognizing the vital role of developer sentiments, this research employs advanced sentiment analysis techniques to scrutinize affective states from textual interactions such as code comments, commit messages, and issue discussions within high-profile ML projects. By integrating a comprehensive dataset of popular ML repositories, this analysis applies a blend of rule-based, machine learning, and hybrid sentiment analysis methodologies to systematically quantify sentiment scores. The emotional valence expressed by developers is then correlated with a spectrum of code quality indicators, including the prevalence of bugs, vulnerabilities, security hotspots, code smells, and duplication instances. Findings from this study distinctly illustrate that positive sentiments among developers are strongly associated with superior code quality metrics manifested through reduced bugs and lower incidence of code smells. This relationship underscores the importance of fostering positive emotional environments to enhance productivity and code craftsmanship. Conversely, the analysis reveals that negative sentiments correlate with an uptick in code issues, particularly increased duplication and heightened security risks, pointing to the detrimental effects of adverse emotional conditions on project health. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# プライバシ保存型3次元ゲジターゲット検出のための上層体電位に基づくゲジ推定
Upper-Body Pose-based Gaze Estimation for Privacy-Preserving 3D Gaze Target Detection ( http://arxiv.org/abs/2409.17886v1 ) ライセンス: Link先を確認 | Andrea Toaiari, Vittorio Murino, Marco Cristani, Cigdem Beyan, | (参考訳) GTD(Gaze Target Detection)は、特に3次元空間において、外部視点からシーン内をどこに見ているかを決定する。
既存のアプローチは、人の外見を分析することに大きく依存しており、主に視線目標を予測するために顔に焦点を当てている。
本稿では、人の上半身のポーズと利用可能な深度マップを利用して3次元視線方向を抽出し、多段もしくはエンドツーエンドのパイプラインを用いて視線目標を予測することによって、この問題に対処する新しいアプローチを提案する。
正確に予測すると、人体ポーズは、視線方向の良好な近似である頭部ポーズや、腕と手の位置についての貴重な情報を提供することができる。
したがって、3Dで視線推定を行うだけでなく、GTDを同時に行うこともできる。
我々は、顔の画像を必要とすることなく、最も包括的にアクセス可能な3D視線目標検出データセット上で、最先端の成果を示し、様々なアプリケーションコンテキストにおけるプライバシー保護を促進する。
コードはhttps://github.com/intelligolabs/privacy-gtd-3Dで公開されている。
Gaze Target Detection (GTD), i.e., determining where a person is looking within a scene from an external viewpoint, is a challenging task, particularly in 3D space. Existing approaches heavily rely on analyzing the person's appearance, primarily focusing on their face to predict the gaze target. This paper presents a novel approach to tackle this problem by utilizing the person's upper-body pose and available depth maps to extract a 3D gaze direction and employing a multi-stage or an end-to-end pipeline to predict the gazed target. When predicted accurately, the human body pose can provide valuable information about the head pose, which is a good approximation of the gaze direction, as well as the position of the arms and hands, which are linked to the activity the person is performing and the objects they are likely focusing on. Consequently, in addition to performing gaze estimation in 3D, we are also able to perform GTD simultaneously. We demonstrate state-of-the-art results on the most comprehensive publicly accessible 3D gaze target detection dataset without requiring images of the person's face, thus promoting privacy preservation in various application contexts. The code is available at https://github.com/intelligolabs/privacy-gtd-3D. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# 注意機構に基づく並列cnn-gruを用いたマルチソースデータ負荷予測法
A multi-source data power load forecasting method using attention mechanism-based parallel cnn-gru ( http://arxiv.org/abs/2409.17889v1 ) ライセンス: Link先を確認 | Chao Min, Yijia Wang, Bo Zhang, Xin Ma, Junyi Cui, | (参考訳) エネルギー効率の向上と電力供給品質の確保には、正確な電力負荷予測が不可欠である。
電力負荷予測の問題を考えると、歴史的負荷変動のような動的要因だけでなく、特定の期間にわたって一定である気候条件のような静的要因も関係する。
本稿では,動的データと静的データの両方から重要な情報を抽出する並列構造ネットワークを提案する。
まず、複雑性学習理論に基づいて、並列構造を通して統合されたモデルが、個々の基礎学習者と比較して優れた一般化能力を示すことを示した。
さらに,基本学習者間の独立性が高ければ高いほど,並列構造モデルの一般化能力は向上する。
これは、機械学習モデルの構造が本質的に重要な情報を含んでいることを示唆している。
この理論の基礎の上に構築された並列畳み込みニューラルネットワーク(CNN)-ゲートリカレントユニット(GRU)アテンションモデル(PCGA)は、電力負荷予測問題に対処し、動的特徴と静的特徴の影響を効果的に統合することを目的としている。
CNNモジュールは静的データから空間特性をキャプチャし、GRUモジュールは動的時系列データの長期的な依存関係をキャプチャする。
注目層は、並列CNN-GRUによって抽出された空間的時間的特徴から重要な情報に焦点を合わせるように設計されている。
マルチソース情報の抽出・統合における並列構造モデルの利点を実証するため, 一連の実験を行った。
Accurate power load forecasting is crucial for improving energy efficiency and ensuring power supply quality. Considering the power load forecasting problem involves not only dynamic factors like historical load variations but also static factors such as climate conditions that remain constant over specific periods. From the model-agnostic perspective, this paper proposes a parallel structure network to extract important information from both dynamic and static data. Firstly, based on complexity learning theory, it is demonstrated that models integrated through parallel structures exhibit superior generalization abilities compared to individual base learners. Additionally, the higher the independence between base learners, the stronger the generalization ability of the parallel structure model. This suggests that the structure of machine learning models inherently contains significant information. Building on this theoretical foundation, a parallel convolutional neural network (CNN)-gate recurrent unit (GRU) attention model (PCGA) is employed to address the power load forecasting issue, aiming to effectively integrate the influences of dynamic and static features. The CNN module is responsible for capturing spatial characteristics from static data, while the GRU module captures long-term dependencies in dynamic time series data. The attention layer is designed to focus on key information from the spatial-temporal features extracted by the parallel CNN-GRU. To substantiate the advantages of the parallel structure model in extracting and integrating multi-source information, a series of experiments are conducted. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# 位相空間における量子絡み合い
Quantum entanglement in phase space ( http://arxiv.org/abs/2409.17891v1 ) ライセンス: Link先を確認 | Shuheng Liu, Jiajie Guo, Qiongyi He, Matteo Fadel, | (参考訳) 連続変数系の絡み合いの基準は二次的な測定に基づいているが、ここではウィグナー関数の測定による絡み合いの検出について検討する。
これらは、トラップイオンや回路QEDなどのプラットフォームにおいて、ホモダイン測定の実施が困難である場合に定期的に実行される。
我々は、様々な実験的なガウス状態と非ガウス状態に対して厳密であることを示す補完的基準を提供する。
本研究は,連続変数系の絡み合いを検知し,既知基準とウィグナー関数との興味深い接続に光を当てるための新しいアプローチを示す。
While commonly used entanglement criteria for continuous variable systems are based on quadrature measurements, here we study entanglement detection from measurements of the Wigner function. These are routinely performed in platforms such as trapped ions and circuit QED, where homodyne measurements are difficult to be implemented. We provide complementary criteria which we show to be tight for a variety of experimentally relevant Gaussian and non-Gaussian states. Our results show novel approaches to detect entanglement in continuous variable systems and shed light on interesting connections between known criteria and the Wigner function. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# EMMA-500:大規模言語モデルの多言語適応強化
EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models ( http://arxiv.org/abs/2409.17892v1 ) ライセンス: Link先を確認 | Shaoxiong Ji, Zihao Li, Indraneil Paul, Jaakko Paavola, Peiqin Lin, Pinzhen Chen, Dayyán O'Brien, Hengyu Luo, Hinrich Schütze, Jörg Tiedemann, Barry Haddow, | (参考訳) 本研究では,多言語性能の向上を目的とした546言語を対象とした大規模多言語モデルEMMA-500を紹介する。
継続事前トレーニングを容易にするため,さまざまな領域にまたがるキュレートデータセットを集約した多言語データセットであるMALAコーパスをコンパイルする。
このコーパスを活用することで、Llama 2 7Bモデルの広範囲な事前トレーニングを行い、EMMA-500は、多言語タスクの包括的なセットや、この研究で開発されたオープンエンド世代ベンチマークであるPolyWriteを含む、幅広いベンチマークの集合にわたって堅牢なパフォーマンスを示す。
本研究は,大規模言語モデルの言語能力,特に表現不足言語に対する継続事前学習の有効性を強調し,言語間移動,タスクの一般化,言語適応性において有意な向上を示した。
In this work, we introduce EMMA-500, a large-scale multilingual language model continue-trained on texts across 546 languages designed for enhanced multilingual performance, focusing on improving language coverage for low-resource languages. To facilitate continual pre-training, we compile the MaLA corpus, a comprehensive multilingual dataset enriched with curated datasets across diverse domains. Leveraging this corpus, we conduct extensive continual pre-training of the Llama 2 7B model, resulting in EMMA-500, which demonstrates robust performance across a wide collection of benchmarks, including a comprehensive set of multilingual tasks and PolyWrite, an open-ended generation benchmark developed in this study. Our results highlight the effectiveness of continual pre-training in expanding large language models' language capacity, particularly for underrepresented languages, demonstrating significant gains in cross-lingual transfer, task generalization, and language adaptability. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# 大カーネル注意による自己教師付き単眼深度推定
Self-supervised Monocular Depth Estimation with Large Kernel Attention ( http://arxiv.org/abs/2409.17895v1 ) ライセンス: Link先を確認 | Xuezhi Xiang, Yao Wang, Lei Zhang, Denis Ombati, Himaloy Himu, Xiantong Zhen, | (参考訳) ラベル付きトレーニングデータに依存しない自己教師付き単眼深度推定は,有望なアプローチとして浮上している。
ほとんどのメソッドは畳み込みとトランスフォーマーを組み合わせて長距離依存をモデル化し、正確な深さを推定する。
しかし、Transformerは2次元画像の特徴を1次元シーケンスとして扱い、位置符号化は異なる特徴ブロック間の空間情報の損失をやや軽減し、チャネルの特徴を見落とし、深さ推定の性能を制限している。
本稿では,より詳細な情報を得るための自己教師付き単眼深度推定ネットワークを提案する。
具体的には,機能チャネル適応性を維持しつつ,特徴の2次元構造を損なうことなく,長距離依存性をモデル化できるカーネルアテンションに基づくデコーダを提案する。
さらに,深度マップの細部を正確に再現するアップサンプリングモジュールを導入する。
提案手法は,KITTIデータセット上での競合結果を実現する。
Self-supervised monocular depth estimation has emerged as a promising approach since it does not rely on labeled training data. Most methods combine convolution and Transformer to model long-distance dependencies to estimate depth accurately. However, Transformer treats 2D image features as 1D sequences, and positional encoding somewhat mitigates the loss of spatial information between different feature blocks, tending to overlook channel features, which limit the performance of depth estimation. In this paper, we propose a self-supervised monocular depth estimation network to get finer details. Specifically, we propose a decoder based on large kernel attention, which can model long-distance dependencies without compromising the two-dimension structure of features while maintaining feature channel adaptivity. In addition, we introduce a up-sampling module to accurately recover the fine details in the depth map. Our method achieves competitive results on the KITTI dataset. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# 固定翼UAVにおけるモデルフリー対モデルベース強化学習
風環境下における姿勢制御
Model-Free versus Model-Based Reinforcement Learning for Fixed-Wing UAV Attitude Control Under Varying Wind Conditions ( http://arxiv.org/abs/2409.17896v1 ) ライセンス: Link先を確認 | David Olivares, Pierre Fournier, Pavan Vasishta, Julien Marzat | (参考訳) 本稿では、PIDを基準点として、固定翼無人航空機の姿勢制御のためのモデルフリーおよびモデルベース強化学習の性能を評価し、比較する。
この比較は、シミュレートされた環境で様々な飛行力学と風の乱れを扱う能力に焦点を当てている。
本研究の結果から,PIDコントローラと他のモデルフリー強化学習手法の両方において,特に非線形飛行系において,異なる参照困難に対する精度と頑健さの追跡において,時間差モデル予測制御が優れていたことが示唆された。
さらに、エネルギー効率とアクチュエータ摩耗を評価するための重要な指標としてアクティベーション変動を導入し、アクション変動ペナルティとアクションポリシースムーズネスの条件付けの2つの異なるアプローチを検証した。
また,確率的乱流とガストの影響を別々に評価し,その影響を追及し,その限界を観察し,マルコフ決定過程の定式化にその影響を概説する。
This paper evaluates and compares the performance of model-free and model-based reinforcement learning for the attitude control of fixed-wing unmanned aerial vehicles using PID as a reference point. The comparison focuses on their ability to handle varying flight dynamics and wind disturbances in a simulated environment. Our results show that the Temporal Difference Model Predictive Control agent outperforms both the PID controller and other model-free reinforcement learning methods in terms of tracking accuracy and robustness over different reference difficulties, particularly in nonlinear flight regimes. Furthermore, we introduce actuation fluctuation as a key metric to assess energy efficiency and actuator wear, and we test two different approaches from the literature: action variation penalty and conditioning for action policy smoothness. We also evaluate all control methods when subject to stochastic turbulence and gusts separately, so as to measure their effects on tracking performance, observe their limitations and outline their implications on the Markov decision process formalism. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# 自己監督的表現による感情音声と音楽の音響的類似性の再考
Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations ( http://arxiv.org/abs/2409.17899v1 ) ライセンス: Link先を確認 | Yujia Sun, Zeyu Zhao, Korin Richmond, Yuanchao Li, | (参考訳) 音声や音楽からの感情認識は、その音響的重なり合いから類似性を共有しており、これらの領域間での知識の伝達に関心が持たれている。
しかし、音声と音楽の共有された音響的手がかり、特に自己監督学習(SSL)モデルで符号化されたものは、音声と音楽のSSLモデルがクロスドメイン研究にはほとんど適用されていないという事実から、ほとんど探索されていない。
本研究では、感情音声と音楽の音響的類似性を再考し、音声感情認識(SER)と音楽感情認識(MER)のためのSSLモデルの階層的振る舞いの分析から始める。
さらに、2段階の微調整プロセスにおいて複数のアプローチを比較してドメイン間適応を行い、SERとMERの音声を効果的に活用する方法を検討する。
最後に、Frechet音声距離を用いた感情音声と音楽の音響的類似性について検討し、音声と音楽のSSLモデルにおける感情バイアスの問題を明らかにする。
以上の結果から,音声と音楽のSSLモデルは共有音響特性を捉えることができるが,訓練戦略やドメイン固有性により,その行動は異なる感情によって異なることが判明した。
さらに、パラメータ効率の良い微調整は、互いに知識を生かしてSERとMERのパフォーマンスを向上させることができる。
本研究は、感情音声と音楽の音響的類似性に関する新たな知見を提供し、SERとMERシステムを改善するためのクロスドメイン一般化の可能性を明らかにする。
Emotion recognition from speech and music shares similarities due to their acoustic overlap, which has led to interest in transferring knowledge between these domains. However, the shared acoustic cues between speech and music, particularly those encoded by Self-Supervised Learning (SSL) models, remain largely unexplored, given the fact that SSL models for speech and music have rarely been applied in cross-domain research. In this work, we revisit the acoustic similarity between emotion speech and music, starting with an analysis of the layerwise behavior of SSL models for Speech Emotion Recognition (SER) and Music Emotion Recognition (MER). Furthermore, we perform cross-domain adaptation by comparing several approaches in a two-stage fine-tuning process, examining effective ways to utilize music for SER and speech for MER. Lastly, we explore the acoustic similarities between emotional speech and music using Frechet audio distance for individual emotions, uncovering the issue of emotion bias in both speech and music SSL models. Our findings reveal that while speech and music SSL models do capture shared acoustic features, their behaviors can vary depending on different emotions due to their training strategies and domain-specificities. Additionally, parameter-efficient fine-tuning can enhance SER and MER performance by leveraging knowledge from each other. This study provides new insights into the acoustic similarity between emotional speech and music, and highlights the potential for cross-domain generalization to improve SER and MER systems. | 翻訳日:2024-09-28 17:47:25 公開日:2024-09-26 |
# CDC-XPUFの短期設計:信頼性とコストのバランス
IoTデバイスのセキュリティ
Designing Short-Stage CDC-XPUFs: Balancing Reliability, Cost, and Security in IoT Devices ( http://arxiv.org/abs/2409.17902v1 ) ライセンス: Link先を確認 | Gaoxiang Li, Yu Zhuang | (参考訳) IoT(Internet of Things)デバイスの急速な拡張は、堅牢でリソース効率のよいセキュリティソリューションを必要とする。
ハードウェア固有のバリエーションからユニークな暗号鍵を生成するPF(Physically Unclonable Function)は、有望なアプローチを提供する。
しかし、Arbiter PUFs(APUFs)やXOR Arbiter PUFs(XOR-PUFs)のような従来のPUFは、機械学習(ML)や信頼性ベースの攻撃の影響を受けやすい。
本研究では,これらの脆弱性に対処するために,探索されていない変種である Component-Differentially Challenged XOR-PUFs (CDC-XPUFs) について検討した。
本稿では、信頼性を高めるための事前選択戦略を取り入れたCDC-XPUF設計を提案し、ハードウェアオーバーヘッドを低減するための新しい軽量アーキテクチャを提案する。
厳密なテストは、我々の設計がリソース消費を大幅に削減し、ML攻撃に対する強い抵抗を維持し、信頼性を改善し、信頼性ベースの攻撃を効果的に軽減することを示す。
これらの結果から、CDC-XPUFがリソース制約されたIoTシステムに広く展開する上で、安全かつ効率的な候補としての可能性が浮かび上がっている。
The rapid expansion of Internet of Things (IoT) devices demands robust and resource-efficient security solutions. Physically Unclonable Functions (PUFs), which generate unique cryptographic keys from inherent hardware variations, offer a promising approach. However, traditional PUFs like Arbiter PUFs (APUFs) and XOR Arbiter PUFs (XOR-PUFs) are susceptible to machine learning (ML) and reliability-based attacks. In this study, we investigate Component-Differentially Challenged XOR-PUFs (CDC-XPUFs), a less explored variant, to address these vulnerabilities. We propose an optimized CDC-XPUF design that incorporates a pre-selection strategy to enhance reliability and introduces a novel lightweight architecture to reduce hardware overhead. Rigorous testing demonstrates that our design significantly lowers resource consumption, maintains strong resistance to ML attacks, and improves reliability, effectively mitigating reliability-based attacks. These results highlight the potential of CDC-XPUFs as a secure and efficient candidate for widespread deployment in resource-constrained IoT systems. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# 形式的数学評価におけるエッジケースの学習:AMMOREデータセットとチェーン・オブ・ソート・プロンプティングを用いてグラディング精度を向上させる
Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy ( http://arxiv.org/abs/2409.17904v1 ) ライセンス: Link先を確認 | Owen Henkel, Hannah Horne-Robinson, Maria Dyshel, Nabil Ch, Baptiste Moreau-Pernet, Ralph Abood, | (参考訳) 本稿では,アフリカ諸国の学生が使用する学習プラットフォームであるRoriの53,000の数学的オープン応答型質問応答ペアの新しいデータセットであるAMMOREを紹介し,特に難解な学生の回答を学習するために,大規模言語モデル(LLM)を用いた2つの実験を行った。
AMMOREデータセットは、様々な潜在的な分析を可能にし、未調査の現実世界、教育の文脈において、学生の数学習得を研究するための重要なリソースを提供する。
実験1では、ゼロショット、少数ショット、チェーン・オブ・シークレットなどのLCM駆動型アプローチを用いて、ルールベースの分類器が正確に評価できないという回答の1%を格付けする。
これらのエッジケースの92%を正確に評価し、グレードの全体的な精度を98.7%から99.9%に向上させた。
実験2では、特定の授業の生徒の熟達度を推定するベイズ的知識追跡(BKT)モデルに対して、最良性能のLCMベースのアプローチによって生成された成績を合格させることにより、改善されたグレーディング精度の連続的妥当性をよりよく理解することを目的としている。
個々の質問レベルでのモデル精度の比較的緩やかな改善は、学生の熟達度の推定に大きな変化をもたらすことが判明した。
ルールベース分類器が現在学生に使われている場合、解答は修了した学生の6.9%の熟達度を誤分類し、LLMチェーン・オブ・シークレットを用いてこの誤分類率を2.6%に引き下げた。
これらの結果から,LLMはK-12数学教育におけるオープン応答型質問の学習に有用なツールであり,形式的評価におけるオープン応答型質問の広範な採用を促進する可能性が示唆された。
This paper introduces AMMORE, a new dataset of 53,000 math open-response question-answer pairs from Rori, a learning platform used by students in several African countries and conducts two experiments to evaluate the use of large language models (LLM) for grading particularly challenging student answers. The AMMORE dataset enables various potential analyses and provides an important resource for researching student math acquisition in understudied, real-world, educational contexts. In experiment 1 we use a variety of LLM-driven approaches, including zero-shot, few-shot, and chain-of-thought prompting, to grade the 1% of student answers that a rule-based classifier fails to grade accurately. We find that the best-performing approach -- chain-of-thought prompting -- accurately scored 92% of these edge cases, effectively boosting the overall accuracy of the grading from 98.7% to 99.9%. In experiment 2, we aim to better understand the consequential validity of the improved grading accuracy, by passing grades generated by the best-performing LLM-based approach to a Bayesian Knowledge Tracing (BKT) model, which estimated student mastery of specific lessons. We find that relatively modest improvements in model accuracy at the individual question level can lead to significant changes in the estimation of student mastery. Where the rules-based classifier currently used to grade student, answers misclassified the mastery status of 6.9% of students across their completed lessons, using the LLM chain-of-thought approach this misclassification rate was reduced to 2.6% of students. Taken together, these findings suggest that LLMs could be a valuable tool for grading open-response questions in K-12 mathematics education, potentially enabling encouraging wider adoption of open-ended questions in formative assessment. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# Pseudo-code Promptingによる大規模言語モデルによるグラフ推論
Graph Reasoning with Large Language Models via Pseudo-code Prompting ( http://arxiv.org/abs/2409.17906v1 ) ライセンス: Link先を確認 | Konstantinos Skianis, Giannis Nikolentzos, Michalis Vazirgiannis, | (参考訳) 大規模言語モデル(LLM)は近年,自然言語処理分野における様々な推論タスクにおいて顕著な成功を収めている。
LLMの成功は、グラフ関連のタスクでの使用も動機付けている。
LLMがグラフの連結成分数を数えたり、2つのノード間の最短経路距離を計算するといったグラフ問題を解くことができるかどうかを最近の研究で検討している。
LLMは予備的なグラフ推論能力を持っているが、一見単純な問題の解決に苦慮している。
本稿では,グラフ問題の解法において,擬似符号命令によるプロンプトがLLMの性能を向上させるか否かを検討する。
実験により、疑似符号命令を用いることで、LLMの全ての性能が向上することが示された。
グラフ、擬似コードプロンプト、評価コードが公開されている。
Large language models (LLMs) have recently achieved remarkable success in various reasoning tasks in the field of natural language processing. This success of LLMs has also motivated their use in graph-related tasks. Among others, recent work has explored whether LLMs can solve graph problems such as counting the number of connected components of a graph or computing the shortest path distance between two nodes. Although LLMs possess preliminary graph reasoning abilities, they might still struggle to solve some seemingly simple problems. In this paper, we investigate whether prompting via pseudo-code instructions can improve the performance of LLMs in solving graph problems. Our experiments demonstrate that using pseudo-code instructions generally improves the performance of all considered LLMs. The graphs, pseudo-code prompts, and evaluation code are publicly available. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# PhantomLiDAR:LiDARに対するクロスモダリティシグナル注入攻撃
PhantomLiDAR: Cross-modality Signal Injection Attacks against LiDAR ( http://arxiv.org/abs/2409.17907v1 ) ライセンス: Link先を確認 | Zizhi Jin, Qinhong Jiang, Xuancun Lu, Chen Yan, Xiaoyu Ji, Wenyuan Xu, | (参考訳) LiDAR(Light Detection and Ranging)は、精密な3次元空間情報を提供する自律走行のための重要なセンサーである。
以前のLiDARシステムに対する信号攻撃は主にレーザー信号を利用する。
本稿では,LiDAR出力を操作するために,意図的電磁干渉(IEMI)を注入するクロスモダリティ信号注入攻撃の可能性について検討する。
我々の見識では、LiDARの内部モジュール、すなわちレーザー受信回路、監視センサー、ビームステアリングモジュールは、厳密な電磁的互換性(EMC)テストであっても、IEMI攻撃信号とカップリングし、LiDARシステムの故障の原因となる。
上記の攻撃面に基づいて、ポイント干渉、ポイント注入、ポイント除去、さらにはLiDARパワーオフの観点からLiDAR出力を操作するPhantomLiDAR攻撃を提案する。
我々は,5つのCOTS LiDARシステム上でのシミュレーションおよび実世界の実験によりPhantomLiDARの有効性を評価し,実証した。
また,実世界の移動シナリオにおける実現可能性実験も実施する。
我々は、IEMI攻撃に伴うリスクを軽減するために、センサーレベルと車両システムレベルの両方で実施可能な潜在的な防衛対策を提供する。
ビデオデモはhttps://sites.google.com/view/phantomlidar.comで見ることができる。
LiDAR (Light Detection and Ranging) is a pivotal sensor for autonomous driving, offering precise 3D spatial information. Previous signal attacks against LiDAR systems mainly exploit laser signals. In this paper, we investigate the possibility of cross-modality signal injection attacks, i.e., injecting intentional electromagnetic interference (IEMI) to manipulate LiDAR output. Our insight is that the internal modules of a LiDAR, i.e., the laser receiving circuit, the monitoring sensors, and the beam-steering modules, even with strict electromagnetic compatibility (EMC) testing, can still couple with the IEMI attack signals and result in the malfunction of LiDAR systems. Based on the above attack surfaces, we propose the PhantomLiDAR attack, which manipulates LiDAR output in terms of Points Interference, Points Injection, Points Removal, and even LiDAR Power-Off. We evaluate and demonstrate the effectiveness of PhantomLiDAR with both simulated and real-world experiments on five COTS LiDAR systems. We also conduct feasibility experiments in real-world moving scenarios. We provide potential defense measures that can be implemented at both the sensor level and the vehicle system level to mitigate the risks associated with IEMI attacks. Video demonstrations can be viewed at https://sites.google.com/view/phantomlidar. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# LKA-ReID:Vehicle Redentification with Large Kernel Attention
LKA-ReID:Vehicle Re-Identification with Large Kernel Attention ( http://arxiv.org/abs/2409.17908v1 ) ライセンス: Link先を確認 | Xuezhi Xiang, Zhushan Ma, Lei Zhang, Denis Ombati, Himaloy Himu, Xiantong Zhen, | (参考訳) インテリジェント交通システムの急速な発展とスマートシティインフラの普及により、Vine Re-ID技術は重要な研究分野となっている。
車両のRe-IDタスクは、異なる車両間の高い類似性である重要な課題に直面している。
既存の手法では、局所的な特徴を抽出するために、追加の検出またはセグメンテーションモデルを使用している。
しかし、これらの手法は追加のアノテーションに依存するか、計算コストを大幅に高めるかのいずれかである。
車両のRe-IDタスクにおけるクラス間の高い類似性の課題を解決するためには,グローバルおよびローカルな特徴を捕捉するための注意機構の利用が不可欠である。
本稿ではLKA-ReIDを提案する。
特に、LKAは自己注意の利点と畳み込みの利点を利用しており、これにより車両のグローバルおよびローカルな特徴をより包括的に抽出することができる。
また、チャネルアテンションと空間情報を組み合わせたハイブリッドチャネルアテンション(HCA)を導入し、チャネルや特徴領域をよりよくフォーカスできるようにし、背景や乱雑な情報を無視できるようにした。
VeRi-776データセットの実験では、LKA-ReIDの有効性が示され、mAPは86.65%、 Rank-1は98.03%に達した。
With the rapid development of intelligent transportation systems and the popularity of smart city infrastructure, Vehicle Re-ID technology has become an important research field. The vehicle Re-ID task faces an important challenge, which is the high similarity between different vehicles. Existing methods use additional detection or segmentation models to extract differentiated local features. However, these methods either rely on additional annotations or greatly increase the computational cost. Using attention mechanism to capture global and local features is crucial to solve the challenge of high similarity between classes in vehicle Re-ID tasks. In this paper, we propose LKA-ReID with large kernel attention. Specifically, the large kernel attention (LKA) utilizes the advantages of self-attention and also benefits from the advantages of convolution, which can extract the global and local features of the vehicle more comprehensively. We also introduce hybrid channel attention (HCA) combines channel attention with spatial information, so that the model can better focus on channels and feature regions, and ignore background and other disturbing information. Experiments on VeRi-776 dataset demonstrated the effectiveness of LKA-ReID, with mAP reaches 86.65% and Rank-1 reaches 98.03%. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# Atlas-Chat: 低リソースモロッコアラビア方言に大規模言語モデルを適用する
Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect ( http://arxiv.org/abs/2409.17912v1 ) ライセンス: Link先を確認 | Guokan Shang, Hadi Abdine, Yousef Khoubrane, Amr Mohamed, Yassine Abbahaddou, Sofiane Ennadir, Imane Momayiz, Xuguang Ren, Eric Moulines, Preslav Nakov, Michalis Vazirgiannis, Eric Xing, | (参考訳) 我々はAtlas-Chatを紹介した。Atlas-Chatは、方言アラビア語に特化して開発された大規模な言語モデルのコレクションである。
Darijaとしても知られるモロッコのアラビア語に焦点をあて、既存のDarija言語資源を統合し、手動と合成の両方で新しいデータセットを作成し、英語の指示を厳格な品質管理で翻訳することで、私たちの指導データセットを構築します。
データセットを微調整したAtlas-Chat-9Bと2Bモデルは、Darija命令に従い、標準のNLPタスクを実行する優れた能力を示す。
我々のモデルは、DarijaMMLU上での13Bモデルよりも13%パフォーマンス向上を実現し、LLaMa、Jais、AceGPTといった最先端およびアラビア特化LLMよりも優れています。
さらに、最適構成を決定するために、様々な微調整戦略と基本モデル選択を実験的に分析する。
我々の研究は、低リソース言語変種に対する命令チューニングの包括的設計手法を提供しており、現代のLLMによってデータ豊富な言語に好まれることが多い。
We introduce Atlas-Chat, the first-ever collection of large language models specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also known as Darija, we construct our instruction dataset by consolidating existing Darija language resources, creating novel datasets both manually and synthetically, and translating English instructions with stringent quality control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit superior ability in following Darija instructions and performing standard NLP tasks. Notably, our models outperform both state-of-the-art and Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13% performance boost over a larger 13B model on DarijaMMLU, in our newly introduced evaluation suite for Darija covering both discriminative and generative tasks. Furthermore, we perform an experimental analysis of various fine-tuning strategies and base model choices to determine optimal configurations. All our resources are publicly accessible, and we believe our work offers comprehensive design methodologies of instruction-tuning for low-resource language variants, which are often neglected in favor of data-rich languages by contemporary LLMs. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# WaSt-3D: Wasserstein-2 による3次元ガウス上のScene-to-Scene Stylization
WaSt-3D: Wasserstein-2 Distance for Scene-to-Scene Stylization on 3D Gaussians ( http://arxiv.org/abs/2409.17917v1 ) ライセンス: Link先を確認 | Dmytro Kotovenko, Olga Grebenkova, Nikolaos Sarafianos, Avinash Paliwal, Pingchuan Ma, Omid Poursaeed, Sreyas Mohan, Yuchen Fan, Yilei Li, Rakesh Ranjan, Björn Ommer, | (参考訳) スタイル転送技術は2次元画像のスタイラス化のためによく開発されているが、これらの手法の3次元シーンへの拡張はいまだに未解明である。
既存のアプローチは色やテクスチャを伝達する能力を示しているが、しばしばシーンの幾何学を再現するのに苦労する。
本研究では,Gaussian Splatting (GS) の明示的表現を活用し,Earth Mover's Distance (EMD) を用いて,Gaussianのスタイルとコンテンツシーン間の分布を直接一致させる。
エントロピー規則化ワッサーシュタイン-2距離を用いることで、変換が空間的滑らかさを維持することを保証する。
さらに,シーンスタイリング問題を小さなチャンクに分解して効率を向上する。
このパラダイムシフトは、潜在空間損失によって引き起こされる純粋な生成過程から、2つのガウス表現間の分布の明示的なマッチングへとスタイリングを再構築する。
本手法は,3Dスタイルのシーンからコンテンツシーンに忠実に詳細を転送することで,高精細な3Dスタイリングを実現する。
さらに、WaSt-3Dは、最適化ベースの技術にのみ依存するため、トレーニングを必要とせずに、さまざまなコンテンツやスタイルシーンに一貫して結果を提供する。
$\href{https://compvis.github.io/wast3d/}{https://compvis.github.io/wast3d/}$
While style transfer techniques have been well-developed for 2D image stylization, the extension of these methods to 3D scenes remains relatively unexplored. Existing approaches demonstrate proficiency in transferring colors and textures but often struggle with replicating the geometry of the scenes. In our work, we leverage an explicit Gaussian Splatting (GS) representation and directly match the distributions of Gaussians between style and content scenes using the Earth Mover's Distance (EMD). By employing the entropy-regularized Wasserstein-2 distance, we ensure that the transformation maintains spatial smoothness. Additionally, we decompose the scene stylization problem into smaller chunks to enhance efficiency. This paradigm shift reframes stylization from a pure generative process driven by latent space losses to an explicit matching of distributions between two Gaussian representations. Our method achieves high-resolution 3D stylization by faithfully transferring details from 3D style scenes onto the content scene. Furthermore, WaSt-3D consistently delivers results across diverse content and style scenes without necessitating any training, as it relies solely on optimization-based techniques. See our project page for additional results and source code: $\href{https://compvis.github.io/wast3d/}{https://compvis.github.io/wast3d/}$. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# ファインタニング不要なパーソナライズド画像生成のためのマルチコンディション・コンフュージョンの解消
Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation ( http://arxiv.org/abs/2409.17920v1 ) ライセンス: Link先を確認 | Qihan Huang, Siming Fu, Jinlong Liu, Hao Jiang, Yipeng Yu, Jie Song, | (参考訳) パーソナライズされたテキスト・ツー・イメージ生成手法は、幅広い研究の関心を集めている参照画像に基づいてカスタマイズされた画像を生成することができる。
近年,テストタイムの微調整を必要としないパーソナライズされた画像を生成するために,非結合型クロスアテンション機構を用いたファインタニングフリーアプローチを提案する。
しかし、複数の参照画像が提供されると、現在の分離されたクロスアテンション機構がオブジェクトの混乱問題に遭遇し、各参照画像を対応するオブジェクトにマッピングできないため、適用範囲が著しく制限される。
本研究は,オブジェクト混同問題に対処するため,複数の参照画像特徴を対象オブジェクトにマージする重み付きマージ手法を提案する。
次に、この重み付きマージ手法を既存の事前学習モデルに統合し、オープンソースのSA-1Bデータセットから構築した多目的データセット上でモデルをトレーニングし続ける。
オブジェクトの混乱を軽減し,トレーニングコストを削減するため,高品質なトレーニングサンプル選択のための画像品質を推定するためのオブジェクト品質スコアを提案する。
さらに、重み付けされたマージトレーニングフレームワークは、単一のオブジェクトが複数の参照イメージを持つ場合、単一オブジェクト生成に使用できる。
実験により,本手法は多目的パーソナライズされた画像生成のConcept101データセットとDreamBoothデータセットの最先端性を実現し,単一オブジェクトパーソナライズされた画像生成の性能を著しく向上することを確認した。
私たちのコードはhttps://github.com/hqhQAQ/MIP-Adapter.comから入手可能です。
Personalized text-to-image generation methods can generate customized images based on the reference images, which have garnered wide research interest. Recent methods propose a finetuning-free approach with a decoupled cross-attention mechanism to generate personalized images requiring no test-time finetuning. However, when multiple reference images are provided, the current decoupled cross-attention mechanism encounters the object confusion problem and fails to map each reference image to its corresponding object, thereby seriously limiting its scope of application. To address the object confusion problem, in this work we investigate the relevance of different positions of the latent image features to the target object in diffusion model, and accordingly propose a weighted-merge method to merge multiple reference image features into the corresponding objects. Next, we integrate this weighted-merge method into existing pre-trained models and continue to train the model on a multi-object dataset constructed from the open-sourced SA-1B dataset. To mitigate object confusion and reduce training costs, we propose an object quality score to estimate the image quality for the selection of high-quality training samples. Furthermore, our weighted-merge training framework can be employed on single-object generation when a single object has multiple reference images. The experiments verify that our method achieves superior performance to the state-of-the-arts on the Concept101 dataset and DreamBooth dataset of multi-object personalized image generation, and remarkably improves the performance on single-object personalized image generation. Our code is available at https://github.com/hqhQAQ/MIP-Adapter. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# 深部強化学習による簡易都市流れのナビゲーション
Navigation in a simplified Urban Flow through Deep Reinforcement Learning ( http://arxiv.org/abs/2409.17922v1 ) ライセンス: Link先を確認 | Federica Tonti, Jean Rabault, Ricardo Vinuesa, | (参考訳) 都市環境における無人航空機(UAV)の増加は、エネルギー効率と騒音低減の両面で環境への影響を最小限に抑える戦略を必要とする。
これらの懸念を緩和するためには、例えば深層強化学習(DRL)を通じて、予測モデルの開発と飛行計画の最適化のための新しい戦略が必要である。
我々の目標は、都市環境における無人航空機の自律航法を可能にするDRLアルゴリズムを開発し、建物や他のUAVの存在を考慮し、エネルギー消費と騒音の両方を減らすために軌道を最適化することである。
これは、UAVが都市環境と相互作用するエージェントとしてUAVをナビゲートし、訓練する環境を表す流体流シミュレーションを用いて達成される。
本研究では,3次元高忠実度数値シミュレーションから抽出した建物を理想的に表現し,障害物を伴う2次元流れ場に代表される領域を考察する。
提案手法はPPO+LSTM細胞を用いて,乱流中を航行する船舶を出発点から目標地点へ移動し,軌道を最適化するゼルメロ問題(Zermelo's problem)を再現して検証した。
現在の手法では、単純なPPOとTD3アルゴリズムの両方に対して、PPO+LSTMトレーニングポリシーの成功率(SR)が98.7%、クラッシュ率(CR)が0.1%で、PPO(SR = 75.6%、CR=18.6%)とTD3(SR=77.4%、CR=14.5%)の両方を上回っている。
これは、リアルタイム信号を用いた3次元流れ場におけるUAVを誘導するDRL戦略への第一歩であり、航法を飛行時間の観点から効率よくし、車両の損傷を避ける。
The increasing number of unmanned aerial vehicles (UAVs) in urban environments requires a strategy to minimize their environmental impact, both in terms of energy efficiency and noise reduction. In order to reduce these concerns, novel strategies for developing prediction models and optimization of flight planning, for instance through deep reinforcement learning (DRL), are needed. Our goal is to develop DRL algorithms capable of enabling the autonomous navigation of UAVs in urban environments, taking into account the presence of buildings and other UAVs, optimizing the trajectories in order to reduce both energetic consumption and noise. This is achieved using fluid-flow simulations which represent the environment in which UAVs navigate and training the UAV as an agent interacting with an urban environment. In this work, we consider a domain domain represented by a two-dimensional flow field with obstacles, ideally representing buildings, extracted from a three-dimensional high-fidelity numerical simulation. The presented methodology, using PPO+LSTM cells, was validated by reproducing a simple but fundamental problem in navigation, namely the Zermelo's problem, which deals with a vessel navigating in a turbulent flow, travelling from a starting point to a target location, optimizing the trajectory. The current method shows a significant improvement with respect to both a simple PPO and a TD3 algorithm, with a success rate (SR) of the PPO+LSTM trained policy of 98.7%, and a crash rate (CR) of 0.1%, outperforming both PPO (SR = 75.6%, CR=18.6%) and TD3 (SR=77.4% and CR=14.5%). This is the first step towards DRL strategies which will guide UAVs in a three-dimensional flow field using real-time signals, making the navigation efficient in terms of flight time and avoiding damages to the vehicle. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# 入射画像ストレッチとビュー合成のためのニューラル光球
Neural Light Spheres for Implicit Image Stitching and View Synthesis ( http://arxiv.org/abs/2409.17924v1 ) ライセンス: Link先を確認 | Ilya Chugunov, Amogh Joshi, Kiran Murthy, Francois Bleibel, Felix Heide, | (参考訳) パノラマは、撮影が難しく、携帯電話の画面に表示することが難しいため、現代のモバイルカメラアプリケーションでは、パノラマは基本的には必須の機能であり、未使用の機能である。
本研究では,これらの課題に,暗黙的なパノラマ画像縫合と再レンダリングのための球状神経電場モデルを用いて対処する。
テスト時間中に、任意の経路のパノラマビデオキャプチャー(垂直、水平、ランダムウォーク)にフィットするこれらのニューラル光球は、カメラパスと高解像度のシーン再構成を共同で推定し、環境の新しい広い視野の投影を生成する。
我々の単層モデルは高価なボリュームサンプリングを回避し、シーンをコンパクトなビュー依存のレイオフセットとカラーコンポーネントに分解し、1シーンあたり80MBのモデルサイズと1080p解像度でのリアルタイム(50FPS)レンダリングを実現した。
従来の画像縫合法や放射場法に比べて再現性は向上し,シーンモーションや非理想的キャプチャ設定に対する耐性は著しく向上した。
Challenging to capture, and challenging to display on a cellphone screen, the panorama paradoxically remains both a staple and underused feature of modern mobile camera applications. In this work we address both of these challenges with a spherical neural light field model for implicit panoramic image stitching and re-rendering; able to accommodate for depth parallax, view-dependent lighting, and local scene motion and color changes during capture. Fit during test-time to an arbitrary path panoramic video capture -- vertical, horizontal, random-walk -- these neural light spheres jointly estimate the camera path and a high-resolution scene reconstruction to produce novel wide field-of-view projections of the environment. Our single-layer model avoids expensive volumetric sampling, and decomposes the scene into compact view-dependent ray offset and color components, with a total model size of 80 MB per scene, and real-time (50 FPS) rendering at 1080p resolution. We demonstrate improved reconstruction quality over traditional image stitching and radiance field methods, with significantly higher tolerance to scene motion and non-ideal capture settings. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# テキストから画像への知識編集における信頼性評価:細粒度データセットの活用とイノベーティブな基準
Pioneering Reliable Assessment in Text-to-Image Knowledge Editing: Leveraging a Fine-Grained Dataset and an Innovative Criterion ( http://arxiv.org/abs/2409.17928v1 ) ライセンス: Link先を確認 | Hengrui Gu, Kaixiong Zhou, Yili Wang, Ruobing Wang, Xin Wang, | (参考訳) 事前学習中、テキスト・トゥ・イメージ(T2I)拡散モデルは、事実知識をパラメータにエンコードする。
これらのパラメータ化された事実は、現実的な画像生成を可能にするが、時間とともに時代遅れになり、それによって世界の現在の状態を誤って表現する。
知識編集技術は、対象とする方法でモデル知識を更新することを目的としている。
しかし、データセットの編集が不十分なことと、信頼性の低い評価基準によって引き起こされる2つの課題に直面し、T2I知識編集の開発は、効果的に注入された知識を一般化するのに困難に直面した。
本稿では,T2I知識編集フレームワークを3つのフェーズに網羅して設計する。まず,パラフレーズと多目的テストを含むデータセットをキュレートし,知識一般化のより詳細な評価を可能にする。
次に,新しい基準である「textbf{adaptive CLIP threshold}」を提案する。
最後に、T2I知識編集のための単純かつ効果的なアプローチである \textbf{MPE} を紹介する。
パラメータをチューニングする代わりに、MPEは条件付きテキストプロンプトの古い部分を正確に認識し、編集し、最新の知識に適合させる。
MPEの簡単な実装(コンテキスト内学習に基づく)では、以前のモデルエディタよりも全体的なパフォーマンスが向上している。
これらの取り組みにより,T2I知識編集手法の忠実な評価がさらに促進されることを願っている。
During pre-training, the Text-to-Image (T2I) diffusion models encode factual knowledge into their parameters. These parameterized facts enable realistic image generation, but they may become obsolete over time, thereby misrepresenting the current state of the world. Knowledge editing techniques aim to update model knowledge in a targeted way. However, facing the dual challenges posed by inadequate editing datasets and unreliable evaluation criterion, the development of T2I knowledge editing encounter difficulties in effectively generalizing injected knowledge. In this work, we design a T2I knowledge editing framework by comprehensively spanning on three phases: First, we curate a dataset \textbf{CAKE}, comprising paraphrase and multi-object test, to enable more fine-grained assessment on knowledge generalization. Second, we propose a novel criterion, \textbf{adaptive CLIP threshold}, to effectively filter out false successful images under the current criterion and achieve reliable editing evaluation. Finally, we introduce \textbf{MPE}, a simple but effective approach for T2I knowledge editing. Instead of tuning parameters, MPE precisely recognizes and edits the outdated part of the conditioning text-prompt to accommodate the up-to-date knowledge. A straightforward implementation of MPE (Based on in-context learning) exhibits better overall performance than previous model editors. We hope these efforts can further promote faithful evaluation of T2I knowledge editing methods. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# ラウデータセット - ドイツ語テキスト分類におけるジェンダーフェア言語の影響を探る
The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification ( http://arxiv.org/abs/2409.17929v1 ) ライセンス: Link先を確認 | Andreas Waldis, Joel Birrer, Anne Lauscher, Iryna Gurevych, | (参考訳) ジェンダーフェア言語(ドイツ語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language)は、ドイツの言語である。
それにもかかわらず、言語モデル(LM)を用いた分類におけるこの言語シフトの影響を評価するためのリソースが著しく不足している。
このギャップに対処するため,ドイツのテキスト分類において,姿勢検出や毒性分類などの7つのタスクをカバーする高品質な修正を特徴とする最初のデータセットであるLouを提示する。
Lou上での16個の単言語および多言語LMの評価は、性同一性言語がラベルを反転させ、確実性を低減し、注意パターンを変化させることによって予測に重大な影響を及ぼすことを示している。
しかし、オリジナルとリフォームされたインスタンスのLMランキングは大きな違いがないため、既存の評価は依然として有効である。
ドイツ語のテキスト分類に対する最初の知見は得られなかったが,多言語および英語のLMで一貫したパターンが観察されたことから,他の言語にも適用できる可能性が示唆された。
Gender-fair language, an evolving German linguistic variation, fosters inclusion by addressing all genders or using neutral forms. Nevertheless, there is a significant lack of resources to assess the impact of this linguistic shift on classification using language models (LMs), which are probably not trained on such variations. To address this gap, we present Lou, the first dataset featuring high-quality reformulations for German text classification covering seven tasks, like stance detection and toxicity classification. Evaluating 16 mono- and multi-lingual LMs on Lou shows that gender-fair language substantially impacts predictions by flipping labels, reducing certainty, and altering attention patterns. However, existing evaluations remain valid, as LM rankings of original and reformulated instances do not significantly differ. While we offer initial insights on the effect on German text classification, the findings likely apply to other languages, as consistent patterns were observed in multi-lingual and English LMs. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# 光量子プロセッサにおける符号付き反断熱量子最適化
Codesigned counterdiabatic quantum optimization on a photonic quantum processor ( http://arxiv.org/abs/2409.17930v1 ) ライセンス: Link先を確認 | Xiao-Wen Shang, Xuan Chen, Narendra N. Hegade, Ze-Feng Lan, Xuan-Kun Li, Hao Tang, Yu-Quan Peng, Enrique Solano, Xian-Min Jin, | (参考訳) Codesignは、ハードウェアとソフトウェアスタックの情報相互作用を参照するコンピュータアーキテクチャの不可欠な部分であり、コンピュータハードウェアにおけるアルゴリズムマッピングと実行を促進することができる。
これは、量子アルゴリズムと量子プロセッサの両方を、実験的な実装で有利にするために形成する必要がある、うるさい中間スケールの量子の時代に当てはまる。
最先端の量子断熱最適化アルゴリズムは、ハードウェアのノイズに応じて回路深さを増大させることで、最適化性能の劣化が必ずしも軽減されるとは限らないため、スケールアップの課題に直面している。
反断続項は収束を加速するために導入することができるが、反断続項に対応するユニタリ演算子を1および2量子ゲートに分解することは、デジタル回路深さにさらなる負担を与える可能性がある。
本研究では,このアルゴリズムをフォトニック量子プロセッサに実装するための符号付きアプローチを用いて,逆ダイアバティックプロトコルに焦点を当てる。
調整可能なマッハ・ツェンダー干渉計メッシュは、局所的および大域的操作のための豊富なプログラム可能なパラメータを提供し、任意のユニタリ進化を行うことができる。
そこで我々は,従来のディジタル化を使わずに,プロセッサ上の反断熱量子最適化に関連するユニタリ演算を直接実装する。
さらに、高次多体相互作用項に対処して、最適化された対断的手法を開発し、実装する。
さらに、最終成功確率と収束速度を比較することにより、因子化の場合のパフォーマンスをベンチマークする。
結論として,フォトニックプラットフォーム上での量子コンピューティングにおける反断熱量子力学の符号付きマッピングの利点を実験的に実証した。
Codesign, an integral part of computer architecture referring to the information interaction in hardware-software stack, is able to boost the algorithm mapping and execution in the computer hardware. This well applies to the noisy intermediate-scale quantum era, where quantum algorithms and quantum processors both need to be shaped to allow for advantages in experimental implementations. The state-of-the-art quantum adiabatic optimization algorithm faces challenges for scaling up, where the deteriorating optimization performance is not necessarily alleviated by increasing the circuit depth given the noise in the hardware. The counterdiabatic term can be introduced to accelerate the convergence, but decomposing the unitary operator corresponding to the counterdiabatic terms into one and two-qubit gates may add additional burden to the digital circuit depth. In this work, we focus on the counterdiabatic protocol with a codesigned approach to implement this algorithm on a photonic quantum processor. The tunable Mach-Zehnder interferometer mesh provides rich programmable parameters for local and global manipulation, making it able to perform arbitrary unitary evolutions. Accordingly, we directly implement the unitary operation associated to the counterdiabatic quantum optimization on our processor without prior digitization. Furthermore, we develop and implement an optimized counterdiabatic method by tackling the higher-order many-body interaction terms. Moreover, we benchmark the performance in the case of factorization, by comparing the final success probability and the convergence speed. In conclusion, we experimentally demonstrate the advantages of a codesigned mapping of counterdiabatic quantum dynamics for quantum computing on photonic platforms. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# 知的エネルギー管理 : 生活予測と生活予測
ディープラーニングとインターネットを組み合わせた充電自動化システム
もの
Intelligent Energy Management: Remaining Useful Life Prediction and Charging Automation System Comprised of Deep Learning and the Internet of Things ( http://arxiv.org/abs/2409.17931v1 ) ライセンス: Link先を確認 | Biplov Paneru, Bishwash Paneru, DP Sharma Mainali | (参考訳) 電池の持続寿命 (Remaining Useful Life, RUL) は、電池の余寿命と充電の必要性を知るための重要なパラメータである。
この研究プロジェクトの目標は、バッテリーRULデータセットのための機械学習ベースのモデルを開発することである。
車両のRULを分類するために異なるMLモデルが開発され、IoT(Internet of Things)の概念は充電システムの自動化と整合性の管理のためにシミュレートされる。
プロットされたグラフは、Blynk IoTプラットフォームを使用して、さまざまな車両パラメータ間の関係を描いている。
その結果, マルチ層パーセプトロン (MLP), Gated Recurrent Unit (GRU) およびハイブリッドモデルは, RULを99%精度で3つのクラスに分類できることがわかった。
データは、人工知能(AI)ベースの充電をシミュレートするTkinter GUIを使用して供給され、ピサールバックエンドを使用してデータをEsp-32マイクロコントローラに入力することで、モデルの予測で電荷放電を可能にする。
また、IoTシステムでは、充電は切断され、監視され、自動化のために分析される。
その結果, GRUモデルでは, MLPモデルでは99%の精度が得られ, GRUモデルでは同様の精度が得られ, 充電と省エネ機構の自動化に使用されるモデルにより, 最終的にリレーベーストリガが予測できることがわかった。
例として,Blynkプラットフォームをベースとした監視・自動化現象を示すことで,パラメータの監視とシステム自動化の革新的な方法をさらに提示する。
Remaining Useful Life (RUL) of battery is an important parameter to know the battery's remaining life and need for recharge. The goal of this research project is to develop machine learning-based models for the battery RUL dataset. Different ML models are developed to classify the RUL of the vehicle, and the IoT (Internet of Things) concept is simulated for automating the charging system and managing any faults aligning. The graphs plotted depict the relationship between various vehicle parameters using the Blynk IoT platform. Results show that the catboost, Multi-Layer Perceptron (MLP), Gated Recurrent Unit (GRU), and hybrid model developed could classify RUL into three classes with 99% more accuracy. The data is fed using the tkinter GUI for simulating artificial intelligence (AI)-based charging, and with a pyserial backend, data can be entered into the Esp-32 microcontroller for making charge discharge possible with the model's predictions. Also, with an IoT system, the charging can be disconnected, monitored, and analyzed for automation. The results show that an accuracy of 99% can be obtained on models MLP, catboost model and similar accuracy on GRU model can be obtained, and finally relay-based triggering can be made by prediction through the model used for automating the charging and energy-saving mechanism. By showcasing an exemplary Blynk platform-based monitoring and automation phenomenon, we further present innovative ways of monitoring parameters and automating the system. | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-26 |
# サンプル圧縮の解法 : 実値損失に対する新しい一般化境界
Sample compression unleashed : New generalization bounds for real valued losses ( http://arxiv.org/abs/2409.17932v1 ) ライセンス: Link先を確認 | Mathieu Bazinet, Valentina Zantedeschi, Pascal Germain, | (参考訳) サンプル圧縮理論は、トレーニングデータセットのサブセットと、一般的にバイナリシーケンスとして定義される(ショート)メッセージ文字列を使用して、完全に定義可能な予測子に対して、一般化保証を提供する。
従来の研究はゼロ・ワン損失に対する一般化境界を提供しており、特にディープラーニングのアプローチに適用する場合は制限的であった。
本稿では,実数値損失を抑える新しいサンプル圧縮境界を導出するための一般的な枠組みを提案する。
我々は,任意の機械学習予測器のトレーニング手法を変換し,サンプル圧縮予測器を出力するPick-To-Learn(P2L)メタアルゴリズムを用いて学習したモデル,例えばニューラルネットワーク,決定林などのモデルに基づいて,境界の厳密性とそれらの汎用性を実証的に示す。
既存の P2L 境界とは対照的に、我々は矛盾しない場合において有効である。
The sample compression theory provides generalization guarantees for predictors that can be fully defined using a subset of the training dataset and a (short) message string, generally defined as a binary sequence. Previous works provided generalization bounds for the zero-one loss, which is restrictive, notably when applied to deep learning approaches. In this paper, we present a general framework for deriving new sample compression bounds that hold for real-valued losses. We empirically demonstrate the tightness of the bounds and their versatility by evaluating them on different types of models, e.g., neural networks and decision forests, trained with the Pick-To-Learn (P2L) meta-algorithm, which transforms the training method of any machine-learning predictor to yield sample-compressed predictors. In contrast to existing P2L bounds, ours are valid in the non-consistent case. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# 異なる磁気誘導測定領域における高周波2光子原子磁気センサの性能
Performance of a radio-frequency two-photon atomic magnetometer in different magnetic induction measurement geometries ( http://arxiv.org/abs/2409.17935v1 ) ライセンス: Link先を確認 | L. M. Rushton, L. M. Ellis, J. D. Zipfel, P. Bevington, W. Chalupczak, | (参考訳) 振動する高周波磁場と興味のある物体との誘導結合をモニタリングする計測は、非破壊試験のための多目的プラットフォームを作り出す。
3〜kHz以下の超低周波測定の利点は、この周波数域におけるピックアップコイルや他の磁場センサの動作に関する基礎的および技術的困難により、しばしば上回っている。
rf原子磁気センサにおける2光子相互作用に基づくインダクティブ測定は、その動作周波数が上昇するにつれて、これらの問題に対処する。
ここで報告された発展は、2光子過程の基本的および応用的な側面を磁気誘導測定に組み入れている。
本稿では、rf場と原子間の非線形相互作用から、2光子過程の全てのスペクトル成分を同定する。
また、誘導測定に欠かせない2光子位相情報の検索方法も示す。
さらに、センサの一次磁場に対する感度の悪さにより、高コントラスト測定が可能な自己補償構成を導入し、単一のrfコイルで2つのrf磁場を発生させることにより、この構成を簡易化することを含む。
Measurements monitoring the inductive coupling between oscillating radio-frequency magnetic fields and objects of interest create versatile platforms for non-destructive testing. The benefits of ultra low frequency measurements, i.e., below 3~kHz, are sometimes outweighed by the fundamental and technical difficulties related to operating pick-up coils or other field sensors in this frequency range. Inductive measurements with the detection based on a two-photon interaction in rf atomic magnetometers address some of these issues, as the sensor gains an uplift in its operational frequency. The developments reported here integrate the fundamental and applied aspects of the two-photon process in magnetic induction measurements. In this paper, all spectral components of the two-photon process are identified, which result from the non-linear interactions between the rf fields and atoms. A method for the retrieval of the two-photon phase information, which is critical for inductive measurements, is also demonstrated. Furthermore, a self-compensation configuration is introduced, whereby high contrast measurements of defects can be obtained due to the sensor's insensitivity to the primary field, including using simplified instrumentation for this configuration by producing two rf fields with a single rf coil. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# アクティブ推論によるエッジデバイス上の適応ストリーム処理
Adaptive Stream Processing on Edge Devices through Active Inference ( http://arxiv.org/abs/2409.17937v1 ) ライセンス: Link先を確認 | Boris Sedlak, Victor Casamayor Pujol, Andrea Morichetta, Praveen Kumar Donta, Schahram Dustdar, | (参考訳) IoTの現在のシナリオは、データボリュームが一定に増加し、一定のストリームで生成されるのを目撃し、それを処理するための新しいアーキテクチャと論理的なソリューションを要求している。
データ処理をコンピューティングスペクトルのエッジに移動することで、ロードの分散性が向上し、原則としてレイテンシが低く、プライバシも向上する。
しかしながら、このような構造を管理するのは複雑で、特にアプリケーションオーナーやインフラストラクチャマネージャが指定するサービスレベルオブジェクト(SLO)と呼ばれる要件を確実にする必要がある場合である。
機械学習(ML)ベースのマネジメントソリューションの提案が豊富にあるにも関わらず、研究者や実践者は、長期的な予測と制御、正確なトラブルシューティングの保証に苦慮している。
そこで我々は,脳が知覚情報を常に予測し,評価し,長期的驚きを減らそうとする,神経科学のコンセプトである,アクティブ推論(AIF)に基づく新しいMLパラダイムを提案する。
AIFをベースとしたエージェントが、複数のデバイス上で動作する3つの自動運転サービスに対して、3つのSLOの実現を継続的に最適化する、異種実ストリーム処理ユースケースで実装し、評価する。
エージェントは因果的知識を使用して、その行動が要求達成とどのように関係しているか、どの構成が好まれるかを徐々に理解した。
このアプローチを通じて、我々のエージェントは、最適解に収束するために最大30回のイテレーションを必要とし、短時間で正確な結果を提供する能力を示す。
さらに,AIFとその因果構造のおかげで,意思決定に対する完全な透明性が保証され,結果の解釈やトラブルシューティングの手間がかからない。
The current scenario of IoT is witnessing a constant increase on the volume of data, which is generated in constant stream, calling for novel architectural and logical solutions for processing it. Moving the data handling towards the edge of the computing spectrum guarantees better distribution of load and, in principle, lower latency and better privacy. However, managing such a structure is complex, especially when requirements, also referred to Service Level Objectives (SLOs), specified by applications' owners and infrastructure managers need to be ensured. Despite the rich number of proposals of Machine Learning (ML) based management solutions, researchers and practitioners yet struggle to guarantee long-term prediction and control, and accurate troubleshooting. Therefore, we present a novel ML paradigm based on Active Inference (AIF) -- a concept from neuroscience that describes how the brain constantly predicts and evaluates sensory information to decrease long-term surprise. We implement it and evaluate it in a heterogeneous real stream processing use case, where an AIF-based agent continuously optimizes the fulfillment of three SLOs for three autonomous driving services running on multiple devices. The agent used causal knowledge to gradually develop an understanding of how its actions are related to requirements fulfillment, and which configurations to favor. Through this approach, our agent requires up to thirty iterations to converge to the optimal solution, showing the capability of offering accurate results in a short amount of time. Furthermore, thanks to AIF and its causal structures, our method guarantees full transparency on the decision making, making the interpretation of the results and the troubleshooting effortless. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# 機械翻訳記録からのアンコレッドテキストの予測
深層学習を用いた翻訳
Predicting Anchored Text from Translation Memories for Machine Translation Using Deep Learning Methods ( http://arxiv.org/abs/2409.17939v1 ) ライセンス: Link先を確認 | Richard Yue, John E. Ortega | (参考訳) 翻訳メモリ(TM)は、コンピュータ支援翻訳(CAT)ツールと呼ばれるプロ向け翻訳ツールのバックボーンである。
CATツールを使用して翻訳を行うために、翻訳者はTMを使用して、所望のセグメントに似た翻訳を収集して(s')翻訳する。
多くのCATツールがセグメントを見つけるファジィマッチングアルゴリズムを提供
(s) s との距離が近い TM において。
2つの似たセグメントを配置した後、CATツールは並列セグメント(s, s)を提示する。
t) ソース言語の1つのセグメントと対象言語の翻訳を含むもの。
さらに、CATツールにはファジィマッチ修復(FMR)技術が含まれており、TMからの並列セグメントを自動的に使用して、オリジナルの修正版を含む新しいTMエントリを作成し、s'の翻訳を念頭に置いている。
ほとんどのFMR技術は、機械翻訳を変更すべき単語を「修復」する方法として使っている。
本稿では,これらの単語の大部分がアンカーされている場合,Word2Vecのような機械学習アプローチに基づく他の手法を用いることができることを示す。
BERTもChatGPTも。
具体的には、CBOW(Continuous bag-of-words, Word2Vec, BERT, GPT-4)パラダイムに従うアンカー付き単語に対して、フランス語から英語への翻訳において、ニューラルマシン翻訳よりも優れた結果が得られることを示す。
Translation memories (TMs) are the backbone for professional translation tools called computer-aided translation (CAT) tools. In order to perform a translation using a CAT tool, a translator uses the TM to gather translations similar to the desired segment to translate (s'). Many CAT tools offer a fuzzy-match algorithm to locate segments (s) in the TM that are close in distance to s'. After locating two similar segments, the CAT tool will present parallel segments (s, t) that contain one segment in the source language along with its translation in the target language. Additionally, CAT tools contain fuzzy-match repair (FMR) techniques that will automatically use the parallel segments from the TM to create new TM entries containing a modified version of the original with the idea in mind that it will be the translation of s'. Most FMR techniques use machine translation as a way of "repairing" those words that have to be modified. In this article, we show that for a large part of those words which are anchored, we can use other techniques that are based on machine learning approaches such as Word2Vec. BERT, and even ChatGPT. Specifically, we show that for anchored words that follow the continuous bag-of-words (CBOW) paradigm, Word2Vec, BERT, and GPT-4 can be used to achieve similar and, for some cases, better results than neural machine translation for translating anchored words from French to English. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# Perturb, Attend, Detect and Localize (PADL):ロバスト・アクティブ・イメージ・ディフェンス
Perturb, Attend, Detect and Localize (PADL): Robust Proactive Image Defense ( http://arxiv.org/abs/2409.17941v1 ) ライセンス: Link先を確認 | Filippo Bartolucci, Iacopo Masi, Giuseppe Lisanti, | (参考訳) 画像操作の検出とローカライゼーションは、ジェネレーティブ・モデル(GM)の花が咲くことを考えると、研究コミュニティからかなりの注目を集めている。
受動的アプローチに従う検出方法は特定のGMに過度に適合し、生成モデルの多様性が増大するため、現実のシナリオでの応用を制限する。
近年、プロアクティブなフレームワークに基づくアプローチは、この制限に対処する可能性を示している。
しかし、これらの方法は2つの主要な制限に悩まされ、潜在的な脆弱性に対する懸念が持ち上がる。
一 作動検知器は、騒音に強くないので、容易に騙すことができる。
二 画像保護の固定摂動に頼っているという事実は、悪意のある攻撃者に対して予測可能なエクスプロイトを与え、リバースエンジニアリングを行い、検出を回避することができる。
この問題を解決するために,クロスアテンションに基づく符号化と復号の対称スキームを用いて,画像固有の摂動を生成できるPADLを提案し,適応攻撃[31]で評価しても,リバースエンジニアリングの可能性を大幅に低減する。
さらに、PADLは、操作された領域をピンポイントで特定することができ、変更されている特定の領域の特定を容易にし、保持された生成モデルにおける先行技術よりも一般化力を持つ。
実際、属性操作 GAN モデル [15] でのみトレーニングされているが、本手法は、StarGANv2, BlendGAN, DiffAE, StableDiffusion, StableDiffusionXL など、さまざまなアーキテクチャ設計の未確認モデルに一般化されている。
さらに,検出精度を向上し,実世界のシナリオをよりよく捉えるために,局所化性能を公平に評価する新たな評価プロトコルを提案する。
Image manipulation detection and localization have received considerable attention from the research community given the blooming of Generative Models (GMs). Detection methods that follow a passive approach may overfit to specific GMs, limiting their application in real-world scenarios, due to the growing diversity of generative models. Recently, approaches based on a proactive framework have shown the possibility of dealing with this limitation. However, these methods suffer from two main limitations, which raises concerns about potential vulnerabilities: i) the manipulation detector is not robust to noise and hence can be easily fooled; ii) the fact that they rely on fixed perturbations for image protection offers a predictable exploit for malicious attackers, enabling them to reverse-engineer and evade detection. To overcome this issue we propose PADL, a new solution able to generate image-specific perturbations using a symmetric scheme of encoding and decoding based on cross-attention, which drastically reduces the possibility of reverse engineering, even when evaluated with adaptive attack [31]. Additionally, PADL is able to pinpoint manipulated areas, facilitating the identification of specific regions that have undergone alterations, and has more generalization power than prior art on held-out generative models. Indeed, although being trained only on an attribute manipulation GAN model [15], our method generalizes to a range of unseen models with diverse architectural designs, such as StarGANv2, BlendGAN, DiffAE, StableDiffusion and StableDiffusionXL. Additionally, we introduce a novel evaluation protocol, which offers a fair evaluation of localisation performance in function of detection accuracy and better captures real-world scenarios. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# 翻訳技術ターミノロジー--翻訳ワークフロー
機械翻訳の頭字語
On Translating Technical Terminology: A Translation Workflow for Machine-Translated Acronyms ( http://arxiv.org/abs/2409.17943v1 ) ライセンス: Link先を確認 | Richard Yue, John E. Ortega, Kenneth Ward Church | (参考訳) プロの翻訳者が文書をそのソース言語(SL)からターゲット言語(TL)に翻訳する典型的なワークフローは、自然言語処理(NLP)における多くの言語モデルが何をするかに常に焦点を絞っているわけではない。
BLEU や COMET のような測定のための一般的な指標を用いて、英語やフランス語のような高リソース言語が人間のパリティ付近で達成されることが報告されているが、重要なステップとして、技術的用語、特に頭字語への翻訳が欠落していることが判明した。
Google Translateのような最先端の機械翻訳システムは、頭字語を扱うときに誤用されることがある。
本稿では、まず、一般消費のための新しい頭字語コーパスを提供するSL-TL(FR-EN)翻訳ワークフローの追加ステップを提案し、次に、Google TranslateやOpusMTと比較して10%近く増加する検索ベースのしきい値アルゴリズムを実験する。
The typical workflow for a professional translator to translate a document from its source language (SL) to a target language (TL) is not always focused on what many language models in natural language processing (NLP) do - predict the next word in a series of words. While high-resource languages like English and French are reported to achieve near human parity using common metrics for measurement such as BLEU and COMET, we find that an important step is being missed: the translation of technical terms, specifically acronyms. Some state-of-the art machine translation systems like Google Translate which are publicly available can be erroneous when dealing with acronyms - as much as 50% in our findings. This article addresses acronym disambiguation for MT systems by proposing an additional step to the SL-TL (FR-EN) translation workflow where we first offer a new acronym corpus for public consumption and then experiment with a search-based thresholding algorithm that achieves nearly 10% increase when compared to Google Translate and OpusMT. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# コントラスト的知識蒸留によるLDMの弱相関バックドアアタック
Weak-To-Strong Backdoor Attacks for LLMs with Contrastive Knowledge Distillation ( http://arxiv.org/abs/2409.17946v1 ) ライセンス: Link先を確認 | Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan, | (参考訳) 例外的な能力のために広く適用されているにもかかわらず、Large Language Models (LLM)はバックドア攻撃に弱いことが証明されている。
これらの攻撃は、トレーニングサンプルやフルパラメータの微調整によってLLMに標的の脆弱性をもたらす。
しかし、このようなバックドア攻撃は、特にLLMのサイズが大きくなるにつれて、かなりの計算資源を必要とするため、制限されている。
さらに、パラメータ効率の良い微調整(PEFT)は代替手段を提供するが、制限されたパラメータの更新は、トリガーとターゲットラベルのアライメントを妨げる可能性がある。
本研究では,PEFTによるバックドア攻撃が,実現可能な性能を達成する上での課題に直面する可能性があることを確認する。
これらの問題に対処し,PEFTによるバックドアアタックの有効性を向上させるために,コントラスト的知識蒸留(W2SAttack)に基づくバックドアアタックアルゴリズムを提案する。
具体的には、教師モデルとして機能するために、フルパラメータ細調整による小規模言語モデルに毒を盛る。
教師モデルは,PEFTを用いた対照的な知識蒸留を通じて,バックドアを大規模学生モデルに隠蔽的に転送する。
理論的解析によると、W2SAttackはバックドア攻撃の有効性を高める可能性がある。
我々は,W2SAttackが4つの言語モデル,4つのバックドアアタックアルゴリズム,および2つの異なる教師モデルのアーキテクチャの分類タスクにおいて優れていることを示す。
実験の結果,PEFTを標的としたバックドア攻撃では100%に近い成功率を示した。
Despite being widely applied due to their exceptional capabilities, Large Language Models (LLMs) have been proven to be vulnerable to backdoor attacks. These attacks introduce targeted vulnerabilities into LLMs by poisoning training samples and full-parameter fine-tuning. However, this kind of backdoor attack is limited since they require significant computational resources, especially as the size of LLMs increases. Besides, parameter-efficient fine-tuning (PEFT) offers an alternative but the restricted parameter updating may impede the alignment of triggers with target labels. In this study, we first verify that backdoor attacks with PEFT may encounter challenges in achieving feasible performance. To address these issues and improve the effectiveness of backdoor attacks with PEFT, we propose a novel backdoor attack algorithm from weak to strong based on contrastive knowledge distillation (W2SAttack). Specifically, we poison small-scale language models through full-parameter fine-tuning to serve as the teacher model. The teacher model then covertly transfers the backdoor to the large-scale student model through contrastive knowledge distillation, which employs PEFT. Theoretical analysis reveals that W2SAttack has the potential to augment the effectiveness of backdoor attacks. We demonstrate the superior performance of W2SAttack on classification tasks across four language models, four backdoor attack algorithms, and two different architectures of teacher models. Experimental results indicate success rates close to 100% for backdoor attacks targeting PEFT. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# 高効率集積フォトニックチップを用いた原子スケール光子偏光制御
Atomic-scale on-demand photon polarization manipulation with high-efficiency for integrated photonic chips ( http://arxiv.org/abs/2409.17947v1 ) ライセンス: Link先を確認 | Yunning Lu, Zeyang Liao, Xue-hua Wang, | (参考訳) 集積量子フォトニック回路における偏光符号化の欠如を克服するために,光電子導波路に単一量子エミッタを統合することにより,単一光子の任意の偏光操作を実現する手法を提案する。
本手法では、3レベルエミッタの遷移経路を2つの直交偏光退化モードと調整可能な結合強度を同時に結合するように設計し、3レベルエミッタの遷移経路を外部コヒーレント場により駆動する。
提案した分極変換器は,任意の入力分極の任意の分極変換,調整可能な作業周波数,高変換効率の優れた消散性能,原子規模など,いくつかの利点がある。
我々の研究は、集積量子フォトニック回路に適用可能な光子の偏光符号化を可能にする効果的なソリューションを提供し、量子フォトニックチップを向上する。
In order to overcome the challenge of lacking polarization encoding in integrated quantum photonic circuits, we propose a scheme to realize arbitrary polarization manipulation of a single photon by integrating a single quantum emitter in a photonic waveguide. In our scheme, one transition path of the three-level emitter is designed to simultaneously couples with two orthogonal polarization degenerate modes in the waveguide with adjustable coupling strengths, and the other transition path of the three-level emitter is driven by an external coherent field. The proposed polarization converter has several advantages, including arbitrary polarization conversion for any input polarization, tunable working frequency, excellent anti-dissipation ability with high conversion efficiency, and atomic-scale size. Our work provides an effective solution to enable the polarization encoding of photons which can be applied in the integrated quantum photonic circuits, and will boost quantum photonic chip. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# 自己教師型骨格に基づく行動認識のための空間的階層と時間的注意指導型クロスマスキング
Spatial Hierarchy and Temporal Attention Guided Cross Masking for Self-supervised Skeleton-based Action Recognition ( http://arxiv.org/abs/2409.17951v1 ) ライセンス: Link先を確認 | Xinpeng Yin, Wenming Cao, | (参考訳) 自己教師型骨格に基づく行動認識において、マスク再構成パラダイムは効果的なマスキングによるモデル改良と堅牢性の向上に関心を寄せている。
しかし、以前の作品は、主に単一のマスキング基準に依存しており、結果として特定の特徴を過度に適合させ、他の効果的な情報を見越すモデルとなった。
本稿では,空間的,時間的両面からスケルトン配列にマスキングを適用した階層構造と注意誘導型クロスマスキングフレームワーク(HA-CM)を提案する。
具体的には、空間グラフにおいて、双曲空間を用いて関節の区別を維持し、高次元骨格の階層構造を効果的に維持し、関節階層をマスキング基準として利用する。
本研究では,高次元空間における距離の収束と大域的視点の欠如に対処するため,従来の距離指標をマスキングのための大域的注意に置き換える。
さらに、クロスマスキングフレームワークに基づくクロスコントラスト損失を損失関数に組み込んで、モデルによるインスタンスレベルの特徴の学習を強化する。
HA-CMは、NTU-60、NTU-120、PKU-MMDの3つの大規模データセットに対して効率性と普遍性を示す。
HA-CMのソースコードはhttps://github.com/YinxPeng/HA-CM-main.comで公開されています。
In self-supervised skeleton-based action recognition, the mask reconstruction paradigm is gaining interest in enhancing model refinement and robustness through effective masking. However, previous works primarily relied on a single masking criterion, resulting in the model overfitting specific features and overlooking other effective information. In this paper, we introduce a hierarchy and attention guided cross-masking framework (HA-CM) that applies masking to skeleton sequences from both spatial and temporal perspectives. Specifically, in spatial graphs, we utilize hyperbolic space to maintain joint distinctions and effectively preserve the hierarchical structure of high-dimensional skeletons, employing joint hierarchy as the masking criterion. In temporal flows, we substitute traditional distance metrics with the global attention of joints for masking, addressing the convergence of distances in high-dimensional space and the lack of a global perspective. Additionally, we incorporate cross-contrast loss based on the cross-masking framework into the loss function to enhance the model's learning of instance-level features. HA-CM shows efficiency and universality on three public large-scale datasets, NTU-60, NTU-120, and PKU-MMD. The source code of our HA-CM is available at https://github.com/YinxPeng/HA-CM-main. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# 参加型デザイン : 今後の実践に対する体系的レビューと洞察
Participatory design: A systematic review and insights for future practice ( http://arxiv.org/abs/2409.17952v1 ) ライセンス: Link先を確認 | Peter Wacnik, Shanna Daly, Aditi Verma, | (参考訳) 利害関係者の密接な関与(多くの場合エンドユーザ)を利用する、反復的で柔軟なデザインプロセスであるParticipatory Designは、デザインの規律全体で利用が増加している。
参加型デザイン(PD:Participatory Design)に移行する実践者が増えていくにつれ、利害関係者は解離した技術を用いて様々な学位を取得できるようになり、厳格に定義されなくなった。
この曖昧な理解は、PDプロセスについて議論する際には非生産的である。
本研究は、PD実践に携わる人を支援するデザインピアから重要な決定とアプローチを合成する。
本研究では,学界における参加型デザインの活用について,体系的な文献レビューを通じて報告する。
その結果、PD文献の大部分は、最も一般的な設計状況を表す無形システム(88記事中61記事)を用いて、PDの特定のケーススタディ(88記事中53記事)を調査した。
参加者はデザインプロセスの複数の段階(88項目中65項目)に多く参加し、様々な方法で採用され、特定された14の特定の参加技術に関わった。
この体系的なレビューは、今日の実践者が過去の参加型デザインプロセスから学習を合成し、PDの今後の利用を知らせ、改善し、利害関係者やユーザに直接関与することで、不平等なデザインを改善しようとするものである。
Participatory Design -- an iterative, flexible design process that uses the close involvement of stakeholders, most often end users -- is growing in use across design disciplines. As an increasing number of practitioners turn to Participatory Design (PD), it has become less rigidly defined, with stakeholders engaged to varying degrees through the use of disjointed techniques. This ambiguous understanding can be counterproductive when discussing PD processes. Our findings synthesize key decisions and approaches from design peers that can support others in engaging in PD practice. We investigated how scholars report the use of Participatory Design in the field through a systematic literature review. We found that a majority of PD literature examined specific case studies of PD (53 of 88 articles), with the design of intangible systems representing the most common design context (61 of 88 articles). Stakeholders most often participated throughout multiple stages of a design process (65 of 88 articles), recruited in a variety of ways and engaged in several of the 14 specific participatory techniques identified. This systematic review provides today's practitioners synthesized learnings from past Participatory Design processes to inform and improve future use of PD, attempting to remedy inequitable design by engaging directly with stakeholders and users. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# 自由フェルミオン状態に対する最適トレース距離境界:テストとトモグラフィーの改善
Optimal trace-distance bounds for free-fermionic states: Testing and improved tomography ( http://arxiv.org/abs/2409.17953v1 ) ライセンス: Link先を確認 | Lennart Bittel, Antonio Anna Mele, Jens Eisert, Lorenzo Leone, | (参考訳) フェルミオン性ガウス状態(英: fermionic Gaussian state)またはフェルミオン性ガウス状態(英: fermionic Gaussian state)は、物理学においてユビキタスな量子状態の重要なクラスである。
それらは、その相関行列によって一意かつ効率的に記述される。
しかし、実際の実験では、相関行列は有限の精度でしか推定できない。
相関行列の推定における誤差は、状態のトレース距離誤差にどのように影響するのか?
相関行列が誤差$\varepsilon$で知られている場合、トレース距離誤差も$\varepsilon$とスケールする(逆も)。
具体的には、相関行列距離に関して、(純粋および混合両方の)自由フェルミオン状態間の距離境界を提供する。
我々の分析は、一方の状態が遊離フェルミオンでない場合にも拡張される。
重要なことに,我々は前回の結果を利用して,自由フェルミオン状態の物性試験とトモグラフィーの大幅な進歩を導出した。
プロパティテストでは、未知の状態が自由フェルミオン状態に近いかどうかを決定する。
まず、任意の(おそらく混合された)自由フェルミオン状態をテストすることのできるアルゴリズムは、必然的に非効率であることを示した。
そこで我々は,低ランクなフリーフェミオン状態をテストするための効率的なアルゴリズムを提案する。
自由フェルミオン状態トモグラフィーでは, 純状態シナリオにおける試料の複雑さの限界を改良し, 従来の文献よりも大幅に改善し, 混合状態に対する効率的なアルゴリズムを一般化し, ノイズ・ロバスト性について議論する。
Free-fermionic states, also known as fermionic Gaussian states, represent an important class of quantum states ubiquitous in physics. They are uniquely and efficiently described by their correlation matrix. However, in practical experiments, the correlation matrix can only be estimated with finite accuracy. This raises the question: how does the error in estimating the correlation matrix affect the trace-distance error of the state? We show that if the correlation matrix is known with an error $\varepsilon$, the trace-distance error also scales as $\varepsilon$ (and vice versa). Specifically, we provide distance bounds between (both pure and mixed) free-fermionic states in relation to their correlation matrix distance. Our analysis also extends to cases where one state may not be free-fermionic. Importantly, we leverage our preceding results to derive significant advancements in property testing and tomography of free-fermionic states. Property testing involves determining whether an unknown state is close to or far from being a free-fermionic state. We first demonstrate that any algorithm capable of testing arbitrary (possibly mixed) free-fermionic states would inevitably be inefficient. Then, we present an efficient algorithm for testing low-rank free-fermionic states. For free-fermionic state tomography, we provide improved bounds on sample complexity in the pure-state scenario, substantially improving over previous literature, and we generalize the efficient algorithm to mixed states, discussing its noise-robustness. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# 言語モデルの注意を対比した知識学習における啓発的手がかりの強化
Enhancing elusive clues in knowledge learning by contrasting attention of language models ( http://arxiv.org/abs/2409.17954v1 ) ライセンス: Link先を確認 | Jian Gao, Xiao Zhang, Ji Wu, Miao Li, | (参考訳) 因果語モデルは、事前訓練中に一般的なテキストコーパスから膨大な量の知識を取得するが、知識学習の効率性は、特に知識密度や小さなコーパスから学ぶ際には不満足であることが知られている。
この欠陥は、言語モデルによるキャプチャが難しい長距離依存関係や、共起パターンへの過度な適合、トレーニングテキストのヒントの欠如による可能性がある。
これらの課題に対処するため,本論文では,言語モデル自体が発見するテキストの理解的かつ重要な手がかりを向上することにより,言語モデル事前学習時の知識学習を強化する手法を提案する。
より大きな言語モデルは、より小さな言語モデルによって見落とされがちな、目立たないが重要な手がかりにより多くの注意を払っていることがわかった。
したがって、大小言語モデルの注意重みを対比することにより、これらの手がかりを識別することができる。
トレーニングテキスト上でトークンドロップアウトデータ拡張を行うためのガイドとして,識別された手がかりを用いて,小型モデルと大規模モデルの両方のパフォーマンスが実際に記憶されている場合において顕著に向上することを示した。
このことは、多くの言語モデルと低いパフォーマンスの言語モデルの間の振る舞いの対比が、知識学習の重要な手がかりを含んでおり、知識学習効率を真っ向から改善するために「増幅」できることを示している。
Causal language models acquire vast amount of knowledge from general text corpus during pretraining, but the efficiency of knowledge learning is known to be unsatisfactory, especially when learning from knowledge-dense and small-sized corpora. The deficiency can come from long-distance dependencies which are hard to capture by language models, and overfitting to co-occurrence patterns and distracting clues in the training text. To address these issues, the paper proposes a method to enhance knowledge learning during language model pretraining, by enhancing elusive but important clues in text discovered by the language model themselves. We found that larger language models pay more attention to non-obvious but important clues, which are often overlooked by smaller language models. Therefore, we can identify these clues by contrasting the attention weights of large and small language models. We use the identified clues as a guide to perform token-dropout data augmentation on the training text, and observed a significant boost in both small and large models' performance in fact memorization. This shows that the behavior contrast between more and less-performant language models contains important clues for knowledge learning, and it can be ``amplified" for a straight-forward improvement in knowledge learning efficiency. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# 視覚・言語構成性に関する強硬な肯定的真実
The Hard Positive Truth about Vision-Language Compositionality ( http://arxiv.org/abs/2409.17958v1 ) ライセンス: Link先を確認 | Amita Kamath, Cheng-Yu Hsieh, Kai-Wei Chang, Ranjay Krishna, | (参考訳) いくつかのベンチマークでは、最高のビジョン言語モデル(例えば、CLIP)は構成性を欠いていると結論付けています。
画像が与えられた場合、これらのベンチマークはモデルが関連するキャプションを合成障害の集合の中で識別する能力を探索する。
これに対し、最近の提案の急増はCLIPをハードネガティブとして微調整することで改善していることを示している。
なぜなら、既存のベンチマークでは、微調整された視覚言語モデルがハードポジティクスに不変であるかどうかを調査していないからです。
112,382のハードネガティブとハードポジティブで評価データセットをキュレートすることで、ハードポジティブを含むとCLIPのパフォーマンスが12.9%低下し、人間は99%の努力でパフォーマンスが向上することがわかった。
強い陰性で微調整されたCLIPはさらに減少し、38.7%に達する。
この結果から, 強陰性字幕と強陰性字幕を併用した1,775,259個の画像テキスト・トレーニングセットが得られた。
両方でトレーニングすることで、既存のベンチマークの改善と、ハードポジティクスのパフォーマンスの向上を両立させ、構成性の向上を図っている。
本研究は,CLIPの「肯定的」概念間の意味的関係の理解を徹底的に検証し,改善するための今後の研究の必要性を示唆するものである。
Several benchmarks have concluded that our best vision-language models (e.g., CLIP) are lacking in compositionality. Given an image, these benchmarks probe a model's ability to identify its associated caption amongst a set of compositional distractors. In response, a surge of recent proposals show improvements by finetuning CLIP with distractors as hard negatives. Our investigations reveal that these improvements have, in fact, been significantly overstated -- because existing benchmarks do not probe whether finetuned vision-language models remain invariant to hard positives. By curating an evaluation dataset with 112,382 hard negatives and hard positives, we uncover that including hard positives decreases CLIP's performance by 12.9%, while humans perform effortlessly at 99%. CLIP finetuned with hard negatives results in an even larger decrease, up to 38.7%. With this finding, we then produce a 1,775,259 image-text training set with both hard negative and hard positive captions. By training with both, we see improvements on existing benchmarks while simultaneously improving performance on hard positives, indicating a more robust improvement in compositionality. Our work suggests the need for future research to rigorously test and improve CLIP's understanding of semantic relationships between related "positive" concepts. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# オーストラリアにおけるリテラシー・ナプラン改革プログラムの評価に関する政策報告 : 高校生に対するハイステークス・アセスメントの影響
A Policy Report Evaluating the National Assessment Program for Literacy and Numeracy (Naplan) Reform in Australia: The Impacts of High Stakes Assessment on Students ( http://arxiv.org/abs/2409.17959v1 ) ライセンス: Link先を確認 | Wenya Zhang, | (参考訳) オーストラリアで2008年に開始されたNAPLAN(National Assessment Program for Literacy and Numeracy)改革(National Assessment Program for Literacy and Numeracy)は、オーストラリアで最も重要かつ論争の多い改革である。
しかし、その高い特性と標準化のため、テストは様々な課題を提示している。
これらの課題には、説明責任と「マイスクール」のウェブサイトの組み合わせ、高次の認知能力を見渡すこと、生徒の不安とストレスを悪化させること、言語背景以外の英語(LBOTE)の学生に不平等を生み出すことが含まれる。
本報告は、NAPLAN改革の成果と障害を評価し、オンラインテストへの移行、コンテンツとプラットフォームの向上、公的な評価リテラシーの向上、LBOTE教育への投資などの勧告を提案する。
これらの提案は、21世紀の要求に対処する公正で包括的な教育環境を構築するために、学生の進化するニーズに適応して、標準化されたテストと真正な教育追求のバランスを取ることを目的としている。
The National Assessment Program for Literacy and Numeracy (NAPLAN) Reform in Australia, launched in 2008, has emerged as the country's most significant and contentious reform. However, due to its high-stakes nature and standardization, testing presents various challenges. These challenges include the combination of accountability with the 'My School' website, overlooking higher-order cognitive abilities, exacerbating students' anxiety and stress, and creating inequity for Language Background Other Than English (LBOTE) students. This report assesses the achievements and obstacles of the NAPLAN reform, proposing recommendations such as transitioning to online testing, enhancing content and platforms, increasing public assessment literacy, and investing more in LBOTE education. These suggestions aim to strike a balance between standardized testing and authentic educational pursuits, adapting to the evolving needs of students to create a fair, inclusive educational environment that addresses the demands of the 21st century. | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# CNCA:自動車検出器用対向カモフラージュのカスタマイズと自然生成に向けて
CNCA: Toward Customizable and Natural Generation of Adversarial Camouflage for Vehicle Detectors ( http://arxiv.org/abs/2409.17963v1 ) ライセンス: Link先を確認 | Linye Lyu, Jiawei Zhou, Daojing He, Yu Li, | (参考訳) 車両探知機に対する物理的対向カモフラージュの研究は、主に攻撃の有効性と堅牢性に焦点を当てていた。
現在最も成功した方法は、ピクセルレベルで3D車両のテクスチャを最適化することである。
しかし、これによって、人間が容易に識別できるカモフラージュ生成において、目立たしく、注意を引くパターンが生まれる。
この問題に対処するために,市販の事前学習拡散モデルを活用することにより,CNCA(Customizable and Natural Camouflage Attack)手法を提案する。
ユーザ固有のテキストプロンプトを用いて拡散モデルから最適なテクスチャ画像をサンプリングすることにより、高い攻撃性能を維持しつつ、自然かつカスタマイズ可能な逆カモフラージュを生成することができる。
デジタルおよび物理的世界とユーザスタディに関する広範な実験により,提案手法は,攻撃性能を向上しつつ,最先端のベースラインよりもはるかに自然に見えるカモフラージュを生成できることが実証された。
我々のコードは \href{https://anonymous.4open.science/r/CNCA-1D54}{https://anonymous.4open.science/r/CNCA-1D54} で入手できる。
Prior works on physical adversarial camouflage against vehicle detectors mainly focus on the effectiveness and robustness of the attack. The current most successful methods optimize 3D vehicle texture at a pixel level. However, this results in conspicuous and attention-grabbing patterns in the generated camouflage, which humans can easily identify. To address this issue, we propose a Customizable and Natural Camouflage Attack (CNCA) method by leveraging an off-the-shelf pre-trained diffusion model. By sampling the optimal texture image from the diffusion model with a user-specific text prompt, our method can generate natural and customizable adversarial camouflage while maintaining high attack performance. With extensive experiments on the digital and physical worlds and user studies, the results demonstrate that our proposed method can generate significantly more natural-looking camouflage than the state-of-the-art baselines while achieving competitive attack performance. Our code is available at \href{https://anonymous.4open.science/r/CNCA-1D54}{https://anonymous.4open.science/r/CNCA-1D54} | 翻訳日:2024-09-28 16:52:13 公開日:2024-09-26 |
# ユニタリ設計からの最適量子(テンソル積)展開器
Optimal quantum (tensor product) expanders from unitary designs ( http://arxiv.org/abs/2409.17971v1 ) ライセンス: Link先を確認 | Cécilia Lancien, | (参考訳) 本研究では,量子膨張器(Kraus演算子が少ないがスペクトルギャップが大きい量子チャネル)をユニタリ設計からどのように構築するかを検討する。
具体的には、クラウス作用素が2ドルの設計測度からサンプリングされた独立ユニタリであるランダムな量子チャネルが、(スペクトルギャップができるだけ大きいという意味で)最適な拡張器の確率が高いことを証明する。
より一般に、これらのクラウス作用素が$U^{\otimes k}$という形式の独立ユニタリで、$U$が2k$-design測度からサンプリングされた場合、対応するランダムな量子チャネルは通常、Harrow と Hastings によって導入された概念である最適$k$-copy tensor product expander (Quant. Inf. Comput. 2009)である。
In this work we investigate how quantum expanders (i.e. quantum channels with few Kraus operators but a large spectral gap) can be constructed from unitary designs. Concretely, we prove that a random quantum channel whose Kraus operators are independent unitaries sampled from a $2$-design measure is with high probability an optimal expander (in the sense that its spectral gap is as large as possible). More generally, we show that, if these Kraus operators are independent unitaries of the form $U^{\otimes k}$, with $U$ sampled from a $2k$-design measure, then the corresponding random quantum channel is typically an optimal $k$-copy tensor product expander, a concept introduced by Harrow and Hastings (Quant. Inf. Comput. 2009). | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# BEATS: BackVerify と LLM の数学的能力の最適化
適応的曖昧性に基づく効率的な木探索
BEATS: Optimizing LLM Mathematical Capabilities with BackVerify and Adaptive Disambiguate based Efficient Tree Search ( http://arxiv.org/abs/2409.17972v1 ) ライセンス: Link先を確認 | Linzhuang Sun, Hao Liang, Wentao Zhang | (参考訳) 大規模言語モデル(LLM)は、幅広いタスクやドメインで例外的なパフォーマンスを示している。
しかし、数学の厳密で論理的な性質のため、数学の問題を解くのに依然として苦労している。
従来の研究では、教師付き微調整(SFT)、プロンプトエンジニアリング、LLMの数学的問題解決能力を改善するための探索に基づく手法が用いられてきた。
これらの努力にもかかわらず、それらの性能は相変わらず最適であり、かなりの計算資源を必要としている。
この問題に対処するために,数学的問題解決能力を高める新しい手法BEATSを提案する。
提案手法では, モデルが反復的に書き直し, 一歩前進し, 前のステップに基づいて回答を生成するよう, 新たに設計されたプロンプトを利用する。
さらに, LLMを用いた新たなバック検証手法を導入し, 結果の正当性を検証した。
さらに, 探索時間を最適化し, 高い性能を実現するために, 伐採木探索を用いる。
特に,本手法はQwen2-7b-Instructのスコアを36.94から61.52に改善し,GPT4の42.5をMATHベンチマークで上回った。
Large Language Models (LLMs) have exhibited exceptional performance across a broad range of tasks and domains. However, they still encounter difficulties in solving mathematical problems due to the rigorous and logical nature of mathematics. Previous studies have employed techniques such as supervised fine-tuning (SFT), prompt engineering, and search-based methods to improve the mathematical problem-solving abilities of LLMs. Despite these efforts, their performance remains suboptimal and demands substantial computational resources. To address this issue, we propose a novel approach, BEATS, to enhance mathematical problem-solving abilities. Our method leverages newly designed prompts that guide the model to iteratively rewrite, advance by one step, and generate answers based on previous steps. Additionally, we introduce a new back-verification technique that uses LLMs to validate the correctness of the generated answers. Furthermore, we employ a pruning tree search to optimize search time while achieving strong performance. Notably, our method improves Qwen2-7b-Instruct's score from 36.94 to 61.52, outperforming GPT4's 42.5 on the MATH benchmark. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# グラディエント・進化的マルチフォーム最適化によるクロスモーダルアタック
Cross-Modality Attack Boosted by Gradient-Evolutionary Multiform Optimization ( http://arxiv.org/abs/2409.17977v1 ) ライセンス: Link先を確認 | Yunpeng Gong, Qingyuan Zeng, Dejun Xu, Zhenzhong Wang, Min Jiang, | (参考訳) 近年、敵攻撃研究が著しく進歩しているにもかかわらず、赤外線、熱、RGB画像間の敵攻撃の転送可能性など、クロスモーダルシナリオにおけるセキュリティ上の課題は見過ごされている。
異なるハードウェアデバイスによって収集されたこれらの異種画像モダリティは、実用的な応用において広く普及しており、モダリティ間の実質的な違いは、転送可能性を攻撃する上で重要な課題である。
本研究では,マルチフォームアタック(multiform attack)と呼ばれる新たなクロスモーダルアタック戦略について検討する。
本稿では,モーダル間の効率的な摂動伝達を容易にする,勾配進化に基づく2層最適化フレームワークを提案する。
最適化の第1層において、このフレームワークは画像勾配を利用して各モードにおける普遍摂動を学習し、進化的アルゴリズムを用いて、異なるモード間での転送可能性を持つ共有摂動を二次最適化によって探索する。
複数の異種データセットの広範なテストを通じて、既存の手法と比較して、マルチフォームアタックの優位性と堅牢性を示す。
この作業は、クロスモーダル攻撃の転送可能性を高めるだけでなく、クロスモーダルシステムにおけるセキュリティ脆弱性を理解するための新たな視点を提供する。
In recent years, despite significant advancements in adversarial attack research, the security challenges in cross-modal scenarios, such as the transferability of adversarial attacks between infrared, thermal, and RGB images, have been overlooked. These heterogeneous image modalities collected by different hardware devices are widely prevalent in practical applications, and the substantial differences between modalities pose significant challenges to attack transferability. In this work, we explore a novel cross-modal adversarial attack strategy, termed multiform attack. We propose a dual-layer optimization framework based on gradient-evolution, facilitating efficient perturbation transfer between modalities. In the first layer of optimization, the framework utilizes image gradients to learn universal perturbations within each modality and employs evolutionary algorithms to search for shared perturbations with transferability across different modalities through secondary optimization. Through extensive testing on multiple heterogeneous datasets, we demonstrate the superiority and robustness of Multiform Attack compared to existing techniques. This work not only enhances the transferability of cross-modal adversarial attacks but also provides a new perspective for understanding security vulnerabilities in cross-modal systems. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# HydraViT: スケーラブルなViTのためのスタックヘッド
HydraViT: Stacking Heads for a Scalable ViT ( http://arxiv.org/abs/2409.17978v1 ) ライセンス: Link先を確認 | Janek Haberer, Ali Hojjat, Olaf Landsiedel | (参考訳) ViT(Vision Transformer)のアーキテクチャ、特にMHA(Multi-head Attention)メカニズムは、相当なハードウェア要求を課している。
携帯電話のような様々な制約のあるデバイスにViTをデプロイするには、異なるサイズの複数のモデルが必要である。
しかし、このアプローチには、各必要なモデルを個別にトレーニングし、保存するといった制限がある。
本稿では,拡張性のあるViTを実現するためにアテンションヘッドを積み重ねることで,これらの制限に対処する新しいアプローチであるHydraViTを紹介する。
HydraViTは、各層に埋め込まれた寸法と、トレーニング中のMHAのアテンションヘッドの数を繰り返し変更することで、複数のサブネットを誘導する。
これによりHydraViTは、幅広いハードウェア環境にまたがって、パフォーマンスを維持しながら適応性を実現する。
実験の結果,HydraViTは最大10サブネットワークで拡張性のあるViTを実現し,幅広いリソース制約をカバーできることを示した。
HydraViTは、同じGMACで最大5 p.p.、ImageNet-1Kで同じスループットで最大7 p.p.の精度を達成する。
ソースコードはhttps://github.com/ds-kiel/HydraViT.comで公開されている。
The architecture of Vision Transformers (ViTs), particularly the Multi-head Attention (MHA) mechanism, imposes substantial hardware demands. Deploying ViTs on devices with varying constraints, such as mobile phones, requires multiple models of different sizes. However, this approach has limitations, such as training and storing each required model separately. This paper introduces HydraViT, a novel approach that addresses these limitations by stacking attention heads to achieve a scalable ViT. By repeatedly changing the size of the embedded dimensions throughout each layer and their corresponding number of attention heads in MHA during training, HydraViT induces multiple subnetworks. Thereby, HydraViT achieves adaptability across a wide spectrum of hardware environments while maintaining performance. Our experimental results demonstrate the efficacy of HydraViT in achieving a scalable ViT with up to 10 subnetworks, covering a wide range of resource constraints. HydraViT achieves up to 5 p.p. more accuracy with the same GMACs and up to 7 p.p. more accuracy with the same throughput on ImageNet-1K compared to the baselines, making it an effective solution for scenarios where hardware availability is diverse or varies over time. Source code available at https://github.com/ds-kiel/HydraViT. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 高次元量子プロトコルの形式的検証
Formal verification of higher dimensional quantum protocols ( http://arxiv.org/abs/2409.17980v1 ) ライセンス: Link先を確認 | Ittoop Vergheese Puthoor, | (参考訳) 形式的手法は、マイクロプロセッサチップ設計や生物学的システムといった複雑な技術の正しさをモデル化し、検証するために成功している。
これは量子情報処理システムを記述・解析する量子形式技術を開発する主な動機である。
先程の研究では,CQP(Communicating Quantum Processs)と呼ばれる量子プロセス計算を用いて,高次元量子システムをモデル化し記述する可能性を示した。
基本ゲートとベル状態の一般化の理論を発展させることで、我々はCQPにおけるテレポーテーションやスーパーデンス符号化のような量子キューディットプロトコルをモデル化した。
本稿では,高次元量子プロトコルの解析にCQPを用いることを実証する。
主な考え方は、2つのプロセスを定義することである。1つは実際のプロトコルをモデル化し、もう1つは仕様を表現し、それらが振る舞い的に等価であることを示す。
本稿では,CQPにおける振る舞い等価性理論を拡張して,高次元量子プロトコルを立証するための予備的な結果を示す。
Formal methods have been a successful approach for modelling and verifying the correctness of complex technologies like microprocessor chip design, biological systems and others. This is the main motivation of developing quantum formal techniques which is to describe and analyse quantum information processing systems. Our previous work demonstrates the possibility of using a quantum process calculus called Communicating Quantum Processes (CQP) to model and describe higher dimensional quantum systems. By developing the theory to generalise the fundamental gates and Bell states, we have modelled quantum qudit protocols like teleportation and superdense coding in CQP. In this paper, we demonstrate the use of CQP to analyse higher dimensional quantum protocols. The main idea is to define two processes, one modelling the real protocol and the other expressing a specification, and prove that they are behaviourally equivalent. This is a work-in-progress and we present our preliminary results in extending the theory of behavioural equivalence in CQP to verify higher dimensional quantum protocols using qudits. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# BlinkTrack: イベントとイメージによる100FPS以上の機能追跡
BlinkTrack: Feature Tracking over 100 FPS via Events and Images ( http://arxiv.org/abs/2409.17981v1 ) ライセンス: Link先を確認 | Yichen Shen, Yijin Li, Shuo Chen, Guanglin Li, Zhaoyang Huang, Hujun Bao, Zhaopeng Cui, Guofeng Zhang, | (参考訳) 特徴追跡は、動きからの構造化(SFM)、同時位置決めとマッピング(SLAM)、オブジェクト追跡、様々なコンピュータビジョンタスクにおいて重要である。
イベントカメラは、高時間分解能と非同期な変更をキャプチャする能力で知られており、特に困難な状況において、機能トラッキングの可能性に大きな注目を集めている。
しかし、イベントカメラは従来のカメラが提供するきめ細かいテクスチャ情報に欠けており、トラッキングにおけるエラーの蓄積につながっている。
そこで本稿では,RGB画像とイベントデータを統合した新しいフレームワークであるBlinkTrackを提案する。
本手法は,従来のカルマンフィルタを学習ベースのフレームワークに拡張し,イベントおよびイメージの分岐において微分可能なカルマンフィルタを利用する。
このアプローチは単一モダリティトラッキングを改善し、あいまいさを解消し、非同期データ融合をサポートする。
また、我々のモデルを評価するために、新しい合成および拡張データセットも導入する。
実験結果から,BlinkTrackは,前処理したイベントデータで100FPS,マルチモーダリティデータで80FPSを超え,既存のイベントベース手法よりも大幅に優れていた。
Feature tracking is crucial for, structure from motion (SFM), simultaneous localization and mapping (SLAM), object tracking and various computer vision tasks. Event cameras, known for their high temporal resolution and ability to capture asynchronous changes, have gained significant attention for their potential in feature tracking, especially in challenging conditions. However, event cameras lack the fine-grained texture information that conventional cameras provide, leading to error accumulation in tracking. To address this, we propose a novel framework, BlinkTrack, which integrates event data with RGB images for high-frequency feature tracking. Our method extends the traditional Kalman filter into a learning-based framework, utilizing differentiable Kalman filters in both event and image branches. This approach improves single-modality tracking, resolves ambiguities, and supports asynchronous data fusion. We also introduce new synthetic and augmented datasets to better evaluate our model. Experimental results indicate that BlinkTrack significantly outperforms existing event-based methods, exceeding 100 FPS with preprocessed event data and 80 FPS with multi-modality data. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# マルチユーザにおける分散資源配分のためのハイパーゲーム理論
意味コミュニケーション
Hypergame Theory for Decentralized Resource Allocation in Multi-user Semantic Communications ( http://arxiv.org/abs/2409.17985v1 ) ライセンス: Link先を確認 | Christo Kurisummoottil Thomas, Walid Saad | (参考訳) セマンティック・コミュニケーション(セマンティック・コミュニケーション、Semantic Communication、SC)は、無線デバイスがデータソースからのみ関連情報を送信し、コンピュータリソースに依存して欠落したデータポイントを再生する、新たな通信パラダイムである。
しかし,協調に必要となる計算と通信のオーバーヘッドのため,マルチユーザSCシステムの設計はより困難になる。
セマンティック言語を学習し、リソース割り当てを行う既存のソリューションは、マルチユーザSCに関わる計算と通信のトレードオフを捉えるのに失敗することが多い。
このギャップに対処するために,マルチユーザSCシステムにおける分散コンピューティングと通信資源割り当てのための新しいフレームワークを提案する。
エンドユーザのタスクエクスペリエンスの質を最大化するために、分散的にコミュニケーションとコンピューティングリソース(推論のための)を効率的に割り当てるという課題は、Stackelbergのハイパーゲーム理論の適用によって解決される。
第2レベルのハイパーゲームの概念を活用することで、ユーザ同士のコミュニケーションや制御戦略に関する誤解をモデル化する新たな分析式が開発されている。
さらに、学習した資源割り当てプロトコルの平衡解析は、誤認識を考慮して、ローカルなスタックルバーグ均衡への計算と通信戦略の収束を検証している。
シミュレーションの結果,提案したStackelbergハイパーゲームは,ユーザにとって高い品質のエクスペリエンスを維持しつつ,コミュニケーションや計算資源を効率的に活用することを示す。
Semantic communications (SC) is an emerging communication paradigm in which wireless devices can send only relevant information from a source of data while relying on computing resources to regenerate missing data points. However, the design of a multi-user SC system becomes more challenging because of the computing and communication overhead required for coordination. Existing solutions for learning the semantic language and performing resource allocation often fail to capture the computing and communication tradeoffs involved in multiuser SC. To address this gap, a novel framework for decentralized computing and communication resource allocation in multiuser SC systems is proposed. The challenge of efficiently allocating communication and computing resources (for reasoning) in a decentralized manner to maximize the quality of task experience for the end users is addressed through the application of Stackelberg hyper game theory. Leveraging the concept of second-level hyper games, novel analytical formulations are developed to model misperceptions of the users about each other's communication and control strategies. Further, equilibrium analysis of the learned resource allocation protocols examines the convergence of the computing and communication strategies to a local Stackelberg equilibria, considering misperceptions. Simulation results show that the proposed Stackelberg hyper game results in efficient usage of communication and computing resources while maintaining a high quality of experience for the users compared to state-of-the-art that does not account for the misperceptions. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 動的グラフ上の変圧器の超ラプラシアン符号化
Supra-Laplacian Encoding for Transformer on Dynamic Graphs ( http://arxiv.org/abs/2409.17986v1 ) ライセンス: Link先を確認 | Yannis Karmim, Marc Lafon, Raphaël Fournier S'niehotta, Nicolas Thome, | (参考訳) 完全に接続されたグラフトランスフォーマー(GT)は、表現力の欠如、オーバーシャッシング、アンダーリーチングに苦しむMessage-Passingモデルの代替として、静的グラフコミュニティで急速に注目を集めている。
しかしながら、動的コンテキストでは、複数のスナップショットですべてのノードを自己アテンションに相互接続することで、GTは構造情報と時間情報の両方を緩める。
本研究では、時空間情報を保持しつつGTアーキテクチャを活用するための新しい時空間符号化である時空間変換器(SLATE)のSupra-LAplacian符号化を導入する。
具体的には、離散時間動的グラフを多層グラフに変換し、関連する超ラプラシア行列のスペクトル特性を利用する。
第2のコントリビューションは、クロスアテンション機構によるノードのペアワイズ関係を明示的にモデル化し、動的リンク予測のための正確なエッジ表現を提供する。
SLATEは9つのデータセット上で、メッセージパッシンググラフニューラルネットワークと反復モデル(LSTMなど)と動的グラフトランスフォーマーを組み合わせることで、最先端の多くの手法より優れている。
結果の再現のためのコードと命令はオープンソースになります。
Fully connected Graph Transformers (GT) have rapidly become prominent in the static graph community as an alternative to Message-Passing models, which suffer from a lack of expressivity, oversquashing, and under-reaching. However, in a dynamic context, by interconnecting all nodes at multiple snapshots with self-attention, GT loose both structural and temporal information. In this work, we introduce Supra-LAplacian encoding for spatio-temporal TransformErs (SLATE), a new spatio-temporal encoding to leverage the GT architecture while keeping spatio-temporal information. Specifically, we transform Discrete Time Dynamic Graphs into multi-layer graphs and take advantage of the spectral properties of their associated supra-Laplacian matrix. Our second contribution explicitly model nodes' pairwise relationships with a cross-attention mechanism, providing an accurate edge representation for dynamic link prediction. SLATE outperforms numerous state-of-the-art methods based on Message-Passing Graph Neural Networks combined with recurrent models (e.g LSTM), and Dynamic Graph Transformers, on 9 datasets. Code and instructions to reproduce our results will be open-sourced. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 時空間適応型大規模言語モデルを用いた縦断的ソーシャルメディアデータからの感情集約の抽出
Extracting Affect Aggregates from Longitudinal Social Media Data with Temporal Adapters for Large Language Models ( http://arxiv.org/abs/2409.17990v1 ) ライセンス: Link先を確認 | Georg Ahnert, Max Pellert, David Garcia, Markus Strohmaier, | (参考訳) 本稿では,ソーシャルメディアデータの経時的分析ツールとして,時整列大言語モデル(LLM)を提案する。
我々は、Llama 3 8BのテンポラルアダプタをイギリスのTwitterユーザーのパネルから全タイムラインで微調整し、確立したアンケートで感情と態度の縦断的な集計を抽出する。
我々は、イギリスの代表的な調査データに対して評価を行い、いくつかの集団感情に対して、強い肯定的、有意な相関関係を見出した。
得られた推定値は、複数の訓練種子と迅速な定式化、およびラベル付きデータに基づいて訓練された伝統的な分類モデルを用いて抽出された集合的感情と整合する。
我々の知る限りでは、LLMにおける影響の分析をテンポラルアダプタを通して縦方向のセッティングに拡張する最初の試みである。
我々の研究は、ソーシャルメディアデータの長手解析への新たなアプローチを可能にする。
This paper proposes temporally aligned Large Language Models (LLMs) as a tool for longitudinal analysis of social media data. We fine-tune Temporal Adapters for Llama 3 8B on full timelines from a panel of British Twitter users, and extract longitudinal aggregates of emotions and attitudes with established questionnaires. We validate our estimates against representative British survey data and find strong positive, significant correlations for several collective emotions. The obtained estimates are robust across multiple training seeds and prompt formulations, and in line with collective emotions extracted using a traditional classification model trained on labeled data. To the best of our knowledge, this is the first work to extend the analysis of affect in LLMs to a longitudinal setting through Temporal Adapters. Our work enables new approaches towards the longitudinal analysis of social media data. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 超伝導光電子ネットワークと古典的神経力学
Relating Superconducting Optoelectronic Networks to Classical Neurodynamics ( http://arxiv.org/abs/2409.18016v1 ) ライセンス: Link先を確認 | Jeffrey M. Shainline, Bryce A. Primavera, Ryan O'Loughlin, | (参考訳) 超伝導光電子シナプス、デンドライト、ニューロンからなる回路は、数値的に不透明で正式に不透明な結合微分方程式によって記述される。
参照1は、超伝導ループニューロンの現象論的モデルにより、シナプスとデンドライトを記述するジョセフソン回路方程式を解く必要がなくなることを示した。
モデルの最初の目標は、シミュレーションに必要な時間を短縮することであったが、このモデルのさらなる利点は、基礎となる神経回路操作の透明性を高め、ループニューロンと他の物理系との接続に関する概念的明瞭さを高めたことである。
元々のモデルはジョセフソン接合ダイナミクスの処理を単純化したが、基本的にはデンドライト出力の低パスバージョンのみを考慮することで、半導体送信回路が生成したスパイクの扱いに頼り、しきい値交差を明示的にチェックし、ソマティックしきい値に達する時間ステップを個別に処理する必要があった。
ここでは、このモデルを拡張して、ソマからのスパイク処理を単純化し、また、ニューラルネットワークにおいて、スパイクイベントの下流受信者が常にローパスフィルタリングを行うという事実を活用する。
本稿では,第1および第2の現象モデルの比較を行い,追加近似の精度を定量化する。
拡張されたモデルがうまく機能する回路パラメータ空間の領域と、それがうまく機能しない領域を同定する。
いくつかの回路パラメータでは、単一のスパイクに対する下流の樹状反応と、スパイクの一致やシーケンスを表現することが可能であり、モデルが単にレートコーディングの縮小であることを示している。
支配方程式は、漏洩積分体デンドライトと神経細胞をモデル化するための神経科学の文献において、ほぼ同一であることが示されている。
The circuits comprising superconducting optoelectronic synapses, dendrites, and neurons are described by numerically cumbersome and formally opaque coupled differential equations. Reference 1 showed that a phenomenological model of superconducting loop neurons eliminates the need to solve the Josephson circuit equations that describe synapses and dendrites. The initial goal of the model was to decrease the time required for simulations, yet an additional benefit of the model was increased transparency of the underlying neural circuit operations and conceptual clarity regarding the connection of loop neurons to other physical systems. Whereas the original model simplified the treatment of the Josephson-junction dynamics, essentially by only considering low-pass versions of the dendritic outputs, the model resorted to an awkward treatment of spikes generated by semiconductor transmitter circuits that required explicitly checking for threshold crossings and distinct treatment of time steps wherein somatic threshold is reached. Here we extend that model to simplify the treatment of spikes coming from somas, again making use of the fact that in neural systems the downstream recipients of spike events almost always perform low-pass filtering. We provide comparisons between the first and second phenomenological models, quantifying the accuracy of the additional approximations. We identify regions of circuit parameter space in which the extended model works well and regions where it works poorly. For some circuit parameters it is possible to represent the downstream dendritic response to a single spike as well as coincidences or sequences of spikes, indicating the model is not simply a reduction to rate coding. The governing equations are shown to be nearly identical to those ubiquitous in the neuroscience literature for modeling leaky-integrator dendrites and neurons. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 不整合表現の移動--合成画像と実画像のギャップを埋める
Transferring disentangled representations: bridging the gap between synthetic and real images ( http://arxiv.org/abs/2409.18017v1 ) ライセンス: Link先を確認 | Jacopo Dapueto, Nicoletta Noceti, Francesca Odone, | (参考訳) データ生成メカニズムの基本構造を分離する有意義で効率的な表現を作ることは、表現学習において不可欠である。
しかし、Distangled Representation Learningは、相関した生成因子、解像度、接地真理ラベルへのアクセス制限などにより、実際の画像にその可能性を十分に示していない。
具体的には, 合成データを利用して実データに適用可能な汎用的非絡合表現を学習し, 微調整の効果と移動後の非絡合特性について検討する。
これらの問題に対処するための広範な実証的研究を行っている。
さらに,表現にエンコードする因子の質を測定するために,新たな解釈可能な介入基準を提案する。
以上の結果から, 合成データから実データへの表現の変換が可能であること, 有効であることが示唆された。
Developing meaningful and efficient representations that separate the fundamental structure of the data generation mechanism is crucial in representation learning. However, Disentangled Representation Learning has not fully shown its potential on real images, because of correlated generative factors, their resolution and limited access to ground truth labels. Specifically on the latter, we investigate the possibility of leveraging synthetic data to learn general-purpose disentangled representations applicable to real data, discussing the effect of fine-tuning and what properties of disentanglement are preserved after the transfer. We provide an extensive empirical study to address these issues. In addition, we propose a new interpretable intervention-based metric, to measure the quality of factors encoding in the representation. Our results indicate that some level of disentanglement, transferring a representation from synthetic to real data, is possible and effective. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 大規模言語モデルにおけるコード構成の硬さ-確率論的視点
Compositional Hardness of Code in Large Language Models -- A Probabilistic Perspective ( http://arxiv.org/abs/2409.18028v1 ) ライセンス: Link先を確認 | Yotam Wolf, Binyamin Rothberg, Dorin Shteyman, Amnon Shashua, | (参考訳) コード生成のような複雑な分析タスクにLLM(Big Language Model)を使用する一般的な方法は、モデルのコンテキストウィンドウ内でタスク全体に対するソリューションをサンプリングすることである。
これまでの研究で、モデルのコンテキスト内のサブタスク分解(思考の連鎖)は、そのようなタスクを解決するのに有用であることが示されている。
本研究では,LLMのマルチエージェントシステムにおいて,複数のサブタスクを同じコンテキストウィンドウ内で実行できることの限界,すなわち構成のコンテキスト内硬度を指摘する。
組成の硬さは、生成複雑性計量、すなわち少なくとも1つの正しい解をサンプリングするのに必要なLCM生成数によって定量化される。
構成問題を同じ文脈で解く際の生成複雑性と,解の長さに応じて指数関数的に増加する複数のエージェント間での分配との間には,ギャップが生じる。
我々は理論的に結果を証明し、それらを実証的に実証する。
A common practice in large language model (LLM) usage for complex analytical tasks such as code generation, is to sample a solution for the entire task within the model's context window. Previous works have shown that subtask decomposition within the model's context (chain of thought), is beneficial for solving such tasks. In this work, we point a limitation of LLMs' ability to perform several sub-tasks within the same context window - an in-context hardness of composition, pointing to an advantage for distributing a decomposed problem in a multi-agent system of LLMs. The hardness of composition is quantified by a generation complexity metric, i.e., the number of LLM generations required to sample at least one correct solution. We find a gap between the generation complexity of solving a compositional problem within the same context relative to distributing it among multiple agents, that increases exponentially with the solution's length. We prove our results theoretically and demonstrate them empirically. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# EMOVA: 生き生きとした感情を見たり、耳を傾けたり、話すことのできる言語モデル
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions ( http://arxiv.org/abs/2409.18042v1 ) ライセンス: Link先を確認 | Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu, | (参考訳) GPT-4oは、多様な感情やトーンによる声の会話を可能にするオムニモーダルモデルであり、オムニモーダル基礎モデルのマイルストーンとなっている。
しかし、大規模言語モデルにイメージ、テキスト、スピーチを認識・生成する権限を与えることは、オープンソースコミュニティでは依然として困難である。
既存の視覚言語モデルは、音声処理のための外部ツールに依存しているが、音声言語モデルは、まだ限られた、あるいは、視覚的に理解できない能力に悩まされている。
このギャップに対処するため,我々は,主要な視覚言語性能を維持しつつ,エンドツーエンドの音声機能を備えた大規模言語モデルを実現するためのEMOVA (EMotionally Omni-present Voice Assistant) を提案する。
セマンティック・アコースティック・ディコンタングルド・スピーチ・トークンーザでは、オムニモーダル・アライメントが、対応するバイモーダル・アライメント・アライメントと比較して、視覚言語や音声の能力をさらに向上させることに驚く。
さらに、フレキシブルな音声スタイル制御(例えば、感情やピッチ)のために軽量なスタイルモジュールを提案する。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成し、一方、鮮やかな感情を伴う全モードの音声対話をサポートする。
GPT-4o, an omni-modal model that enables vocal conversations with diverse emotions and tones, marks a milestone for omni-modal foundation models. However, empowering Large Language Models to perceive and generate images, texts, and speeches end-to-end with publicly available data remains challenging in the open-source community. Existing vision-language models rely on external tools for the speech processing, while speech-language models still suffer from limited or even without vision-understanding abilities. To address this gap, we propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large Language Models with end-to-end speech capabilities while maintaining the leading vision-language performance. With a semantic-acoustic disentangled speech tokenizer, we notice surprisingly that omni-modal alignment can further enhance vision-language and speech abilities compared with the corresponding bi-modal aligned counterparts. Moreover, a lightweight style module is proposed for flexible speech style controls (e.g., emotions and pitches). For the first time, EMOVA achieves state-of-the-art performance on both the vision-language and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue with vivid emotions. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 概念グラフによる視覚的データ診断とデバイアス
Visual Data Diagnosis and Debiasing with Concept Graphs ( http://arxiv.org/abs/2409.18055v1 ) ライセンス: Link先を確認 | Rwiddhi Chakraborty, Yinong Wang, Jialu Gao, Runkai Zheng, Cheng Zhang, Fernando De la Torre, | (参考訳) 今日のディープラーニングモデルの成功は、サイズと複雑さにおいて重要な広範なデータセットのキュレーションに起因している。
しかしながら、そのようなモデルはトレーニングプロセス中にデータ固有のバイアスを拾い上げることが多く、信頼性の低い予測につながります。
したがって、データセットの診断とデバイアスは、信頼性の高いモデルパフォーマンスを保証するために必要である。
本稿では,概念共起バイアスを視覚データセットで診断・緩和するための新しいフレームワークであるConBIASを提案する。
CONBIASは、視覚データセットを概念の知識グラフとして表現し、突発的な概念の綿密な分析を可能にし、データセット全体にわたる概念の不均衡を明らかにする。
さらに,これらの不均衡を緩和し,下流タスクの性能向上につながることを示す。
CONBIASによって強化されたバランスの取れた概念分布に基づくデータ拡張は、最先端の手法と比較して、複数のデータセットにわたる一般化性能を向上させる。
コードとデータを公開します。
The widespread success of deep learning models today is owed to the curation of extensive datasets significant in size and complexity. However, such models frequently pick up inherent biases in the data during the training process, leading to unreliable predictions. Diagnosing and debiasing datasets is thus a necessity to ensure reliable model performance. In this paper, we present CONBIAS, a novel framework for diagnosing and mitigating Concept co-occurrence Biases in visual datasets. CONBIAS represents visual datasets as knowledge graphs of concepts, enabling meticulous analysis of spurious concept co-occurrences to uncover concept imbalances across the whole dataset. Moreover, we show that by employing a novel clique-based concept balancing strategy, we can mitigate these imbalances, leading to enhanced performance on downstream tasks. Extensive experiments show that data augmentation based on a balanced concept distribution augmented by CONBIAS improves generalization performance across multiple datasets compared to state-of-the-art methods. We will make our code and data publicly available. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# FreeEdit:マルチモーダルインストラクションによるマスクフリー参照ベース画像編集
FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction ( http://arxiv.org/abs/2409.18071v1 ) ライセンス: Link先を確認 | Runze He, Kai Ma, Linjiang Huang, Shaofei Huang, Jialin Gao, Xiaoming Wei, Jiao Dai, Jizhong Han, Si Liu, | (参考訳) 画像編集におけるユーザ特定視覚概念の導入は、テキストベースの記述よりもユーザの意図を正確に伝達するので、非常に実践的である。
ユーザフレンドリーな言語命令に基づいて参照画像から視覚概念を正確に再現する,参照ベースの画像編集を実現するための新しいアプローチであるFreeEditを提案する。
提案手法では,マルチモーダル命令エンコーダを用いて言語命令を符号化し,編集プロセスのガイドを行う。
編集領域を見つけるという暗黙の方法は、手動の編集マスクを不要にする。
参照詳細の再構築を促進するため,Drecoupled Residual ReferAttention (DRRA)モジュールを導入する。
本モジュールは、ディテール抽出器によって抽出された微細な参照特徴を、元の自己注意に干渉することなく残像編集プロセスに統合するように設計されている。
既存のデータセットが参照ベースの画像編集タスクには適さないこと、特に参照画像を含む画像トリプレットを構築するのが難しいことを考えると、我々は新たに開発された2つの再描画方式を用いて高品質なデータセットFreeBenchをキュレートする。
FreeBenchは、編集前後のイメージ、詳細な編集命令、および、オブジェクトの追加、置換、削除などのタスクを含む、編集対象の同一性を維持する参照イメージで構成されている。
FreeBenchのフェーズドトレーニングと品質チューニングによって、FreeEditは便利な言語命令を通じて高品質なゼロショット編集を実現する。
我々は,複数のタスクタイプにまたがるFreeEditの有効性を評価するための広範囲な実験を行い,既存の手法よりも優れていることを示す。
コードは、https://freeedit.github.io/.com/で入手できる。
Introducing user-specified visual concepts in image editing is highly practical as these concepts convey the user's intent more precisely than text-based descriptions. We propose FreeEdit, a novel approach for achieving such reference-based image editing, which can accurately reproduce the visual concept from the reference image based on user-friendly language instructions. Our approach leverages the multi-modal instruction encoder to encode language instructions to guide the editing process. This implicit way of locating the editing area eliminates the need for manual editing masks. To enhance the reconstruction of reference details, we introduce the Decoupled Residual ReferAttention (DRRA) module. This module is designed to integrate fine-grained reference features extracted by a detail extractor into the image editing process in a residual way without interfering with the original self-attention. Given that existing datasets are unsuitable for reference-based image editing tasks, particularly due to the difficulty in constructing image triplets that include a reference image, we curate a high-quality dataset, FreeBench, using a newly developed twice-repainting scheme. FreeBench comprises the images before and after editing, detailed editing instructions, as well as a reference image that maintains the identity of the edited object, encompassing tasks such as object addition, replacement, and deletion. By conducting phased training on FreeBench followed by quality tuning, FreeEdit achieves high-quality zero-shot editing through convenient language instructions. We conduct extensive experiments to evaluate the effectiveness of FreeEdit across multiple task types, demonstrating its superiority over existing methods. The code will be available at: https://freeedit.github.io/. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# EfficientCrackNet:クラックセグメンテーションの軽量モデル
EfficientCrackNet: A Lightweight Model for Crack Segmentation ( http://arxiv.org/abs/2409.18099v1 ) ライセンス: Link先を確認 | Abid Hasan Zim, Aquib Iqbal, Zaid Al-Huda, Asad Malik, Minoru Kuribayash, | (参考訳) 特に舗装画像からのき裂検出は、強度不均一性、複雑なトポロジ、低コントラスト、ノイズ背景など、いくつかの固有の複雑さのために、コンピュータビジョンの領域で深刻な課題を呈している。
自動き裂検出は、建物、舗装、橋梁を含む重要なインフラの構造的整合性を維持するために不可欠である。
既存の軽量な手法は、計算の非効率性、複雑な亀裂パターン、難解な背景などの課題に直面し、現実のアプリケーションでは不正確な検出と非現実性をもたらす。
これらの制約に対処するために,畳み込みニューラルネットワーク(CNN)とトランスフォーマを組み合わせた,高精度なき裂分割のための軽量ハイブリッドモデルであるEfficientCrackNetを提案する。
EfficientCrackNetは、ディープワイド分離可能な畳み込み(DSC)レイヤとMobileViTブロックを統合して、グローバル機能とローカル機能の両方をキャプチャする。
このモデルでは、エッジ抽出法(EEM)と、事前トレーニングなしで効率的なクラックエッジ検出と、特徴抽出を強化するためにウルトラ軽量サブスペースアテンションモジュール(ULSAM)を採用している。
Crack500、DeepCrack、GAPs384の3つのベンチマークデータセットに対する大規模な実験は、EfficientCrackNetが既存の軽量モデルよりも優れたパフォーマンスを実現し、パラメータはわずか0.26M、FLOPは0.483であることを示している。
提案モデルでは, 精度と計算効率の最適バランス, 最先端の軽量モデルよりも優れ, 実世界のクラックセグメンテーションのための堅牢で適応可能なソリューションを提供する。
Crack detection, particularly from pavement images, presents a formidable challenge in the domain of computer vision due to several inherent complexities such as intensity inhomogeneity, intricate topologies, low contrast, and noisy backgrounds. Automated crack detection is crucial for maintaining the structural integrity of essential infrastructures, including buildings, pavements, and bridges. Existing lightweight methods often face challenges including computational inefficiency, complex crack patterns, and difficult backgrounds, leading to inaccurate detection and impracticality for real-world applications. To address these limitations, we propose EfficientCrackNet, a lightweight hybrid model combining Convolutional Neural Networks (CNNs) and transformers for precise crack segmentation. EfficientCrackNet integrates depthwise separable convolutions (DSC) layers and MobileViT block to capture both global and local features. The model employs an Edge Extraction Method (EEM) and for efficient crack edge detection without pretraining, and Ultra-Lightweight Subspace Attention Module (ULSAM) to enhance feature extraction. Extensive experiments on three benchmark datasets Crack500, DeepCrack, and GAPs384 demonstrate that EfficientCrackNet achieves superior performance compared to existing lightweight models, while requiring only 0.26M parameters, and 0.483 FLOPs (G). The proposed model offers an optimal balance between accuracy and computational efficiency, outperforming state-of-the-art lightweight models, and providing a robust and adaptable solution for real-world crack segmentation. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 衛星組み立て、統合、テストのためのAIによる拡張現実
AI-Powered Augmented Reality for Satellite Assembly, Integration and Test ( http://arxiv.org/abs/2409.18101v1 ) ライセンス: Link先を確認 | Alvaro Patricio, Joao Valente, Atabak Dehban, Ines Cadilha, Daniel Reis, Rodrigo Ventura, | (参考訳) 人工知能(AI)と拡張現実(AR)の統合は、精度の向上、ヒューマンエラーの最小化、クリーンルーム環境での運用効率の向上により、衛星組み立て、統合、テスト(AIT)プロセスを変換する。
本稿では,欧州宇宙機関(ESA)の人工衛星組み立てにおける技術者支援のために,リアルタイムコンピュータビジョンとARシステムを組み合わせた「衛星AITにおけるARのためのAI」の技術的記述について述べる。
Microsoft HoloLens 2をARインターフェースとして活用することで、AITワークフローにおけるオブジェクト認識と6Dポーズ推定の複雑さに対処し、コンテキスト対応の命令とリアルタイムフィードバックを提供する。
すべてのAIモデルは70%以上の精度を示し、検出モデルは95%を超える精度で、高いレベルのパフォーマンスと信頼性を示している。
この研究の重要な貢献は、ARアプリケーションにおけるAIモデルのトレーニングに合成データを効果的に利用することであり、高度にダイナミックな衛星環境で現実のデータセットを取得することの重大な課題に対処するとともに、手動の人間のアノテーションよりも最大20倍の速度で、実際のデータのアノテーションの自動アノテーションを容易にするSegmented Anything Model for Automatic Labelling(SAMAL)の作成である。
この結果は、重要な衛星組み立て作業を自動化するAI駆動ARシステムの有効性を示し、宇宙産業における将来のイノベーションの基盤を確立している。
The integration of Artificial Intelligence (AI) and Augmented Reality (AR) is set to transform satellite Assembly, Integration, and Testing (AIT) processes by enhancing precision, minimizing human error, and improving operational efficiency in cleanroom environments. This paper presents a technical description of the European Space Agency's (ESA) project "AI for AR in Satellite AIT," which combines real-time computer vision and AR systems to assist technicians during satellite assembly. Leveraging Microsoft HoloLens 2 as the AR interface, the system delivers context-aware instructions and real-time feedback, tackling the complexities of object recognition and 6D pose estimation in AIT workflows. All AI models demonstrated over 70% accuracy, with the detection model exceeding 95% accuracy, indicating a high level of performance and reliability. A key contribution of this work lies in the effective use of synthetic data for training AI models in AR applications, addressing the significant challenges of obtaining real-world datasets in highly dynamic satellite environments, as well as the creation of the Segmented Anything Model for Automatic Labelling (SAMAL), which facilitates the automatic annotation of real data, achieving speeds up to 20 times faster than manual human annotation. The findings demonstrate the efficacy of AI-driven AR systems in automating critical satellite assembly tasks, setting a foundation for future innovations in the space industry. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 記録単位の差分プライバシーをゆっくりとスケーリングする
Slowly Scaling Per-Record Differential Privacy ( http://arxiv.org/abs/2409.18118v1 ) ライセンス: Link先を確認 | Brian Finley, Anthony M Caruso, Justin C Doty, Ashwin Machanavajjhala, Mikaela R Meyer, David Pujol, William Sexton, Zachary Terner, | (参考訳) 我々は、所得データなど、多くの外部値を持つデータから統計を公開するための正式なプライバシーメカニズムを開発する。
これらのメカニズムにより、記録ごとの差分プライバシー保証が、公表される統計に対する保護されたレコードの影響で徐々に低下することを保証する。
形式的プライバシー機構は一般に、公表された統計にランダム性、すなわち「ノイズ」を加える。
ノイズの多い統計値の分布が、基礎となるデータセット内の単一のレコードの追加や削除によってほとんど変化しない場合、この統計データを見ているアタッカーは、特定のレコードが存在するか欠落しているかを確認し、レコードのプライバシを保存する。
追加や削除が統計の分布をもっと変えるような、より影響力のある記録は、通常、プライバシーを損なう。
記録ごとの差分プライバシーフレームワークは、これらの記録固有のプライバシー保証を定量化するが、既存のメカニズムにより、これらの保証は影響によって急速に(直線的または二次的に)劣化する。
これは、ある程度の影響力のある記録がある場合に受け入れられるかもしれないが、経済データに共通するように、記録の影響が広範に変化すると、不可避的に高いプライバシー損失をもたらす。
プライバシーを保証するメカニズムを開発し、その代わりに、影響に応じて対数的に遅く劣化する。
これらのメカニズムは、正確で偏見のない統計の公表を可能にし、高い影響力のある記録に対して有意義な保護を提供する。
例えば、当社のメカニズムは、非常に大規模な施設においても有意義なプライバシー保護を延長する、給与のような非有界な施設データの金額の非公開公開について検討する。
これらのメカニズムを実証的に評価し,有用性を実証する。
We develop formal privacy mechanisms for releasing statistics from data with many outlying values, such as income data. These mechanisms ensure that a per-record differential privacy guarantee degrades slowly in the protected records' influence on the statistics being released. Formal privacy mechanisms generally add randomness, or "noise," to published statistics. If a noisy statistic's distribution changes little with the addition or deletion of a single record in the underlying dataset, an attacker looking at this statistic will find it plausible that any particular record was present or absent, preserving the records' privacy. More influential records -- those whose addition or deletion would change the statistics' distribution more -- typically suffer greater privacy loss. The per-record differential privacy framework quantifies these record-specific privacy guarantees, but existing mechanisms let these guarantees degrade rapidly (linearly or quadratically) with influence. While this may be acceptable in cases with some moderately influential records, it results in unacceptably high privacy losses when records' influence varies widely, as is common in economic data. We develop mechanisms with privacy guarantees that instead degrade as slowly as logarithmically with influence. These mechanisms allow for the accurate, unbiased release of statistics, while providing meaningful protection for highly influential records. As an example, we consider the private release of sums of unbounded establishment data such as payroll, where our mechanisms extend meaningful privacy protection even to very large establishments. We evaluate these mechanisms empirically and demonstrate their utility. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# LLM4Brain:脳ビデオ理解のための大規模言語モデルのトレーニング
LLM4Brain: Training a Large Language Model for Brain Video Understanding ( http://arxiv.org/abs/2409.17987v1 ) ライセンス: Link先を確認 | Ruizhe Zheng, Lichao Sun, | (参考訳) 機能的MRI(fMRI)のような脳信号からの視覚的意味情報のデコーディングは、低信号対雑音比、データ可用性の制限、オブジェクト間の変動など、様々な課題を提起する。
近年の大規模言語モデル (LLM) の進歩は多モーダル情報処理において顕著な効果を示した。
本研究では,映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づくアプローチを提案する。
具体的には、アダプタを備えたfMRIエンコーダに微調整技術を適用し、脳の反応を映像刺激に合わせた潜在表現に変換する。
その後、これらの表現はLLMによってテキストモダリティにマッピングされる。
特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
提案手法は,様々な定量的な意味的指標を用いて良好な結果を得るとともに,地上情報と類似性が得られる。
Decoding visual-semantic information from brain signals, such as functional MRI (fMRI), across different subjects poses significant challenges, including low signal-to-noise ratio, limited data availability, and cross-subject variability. Recent advancements in large language models (LLMs) show remarkable effectiveness in processing multimodal information. In this study, we introduce an LLM-based approach for reconstructing visual-semantic information from fMRI signals elicited by video stimuli. Specifically, we employ fine-tuning techniques on an fMRI encoder equipped with adaptors to transform brain responses into latent representations aligned with the video stimuli. Subsequently, these representations are mapped to textual modality by LLM. In particular, we integrate self-supervised domain adaptation methods to enhance the alignment between visual-semantic information and brain responses. Our proposed method achieves good results using various quantitative semantic metrics, while yielding similarity with ground-truth information. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 高速・低光環境下での運動乱れ事象からの脱臭e-NeRF
Deblur e-NeRF: NeRF from Motion-Blurred Events under High-speed or Low-light Conditions ( http://arxiv.org/abs/2409.17988v1 ) ライセンス: Link先を確認 | Weng Fei Low, Gim Hee Lee, | (参考訳) イベントカメラの設計哲学における強烈なコントラストは、標準的なカメラの性能が劣る高速、高ダイナミックレンジ、低照度環境での運用に特に適している。
しかしそれでも、イベントカメラは、特にこうした困難な状況下では、多くの人が考えるものとは対照的に、ある程度の動きのぼやけに悩まされている。
これは、主に光強度に比例するイベントセンサピクセルの帯域幅が限られているためである。
したがって、イベントカメラが標準カメラよりも縁の長い状況で真に優れているようにするためには、下流のアプリケーション、特にリコンストラクションにおいてイベントの動きがぼやけていることを考慮することが不可欠である。
しかし,近年のニューラルラジアンス場(NeRF)の再構成やイベントシミュレータは,イベント運動のぼかしの完全な影響を考慮していない。
そこで本研究では,高速動作や低照度条件下で発生した動きブルイベントから,ぼやけた最小のNeRFを直接的かつ効果的に再構成する手法であるDeblur e-NeRFを提案する。
この研究のコアコンポーネントは、任意の速度と照明条件下でのイベントの動きのぼやけを考慮し、物理的に正確なピクセル帯域幅モデルである。
また,大きなテクスチャレスパッチの正規化を改善するために,新しいしきい値正規化全変動損失を導入する。
現実的および斬新なシミュレートされたシーケンスの実験は、我々の有効性を検証する。
コード、イベントシミュレータ、合成イベントデータセットがオープンソース化されます。
The stark contrast in the design philosophy of an event camera makes it particularly ideal for operating under high-speed, high dynamic range and low-light conditions, where standard cameras underperform. Nonetheless, event cameras still suffer from some amount of motion blur, especially under these challenging conditions, in contrary to what most think. This is attributed to the limited bandwidth of the event sensor pixel, which is mostly proportional to the light intensity. Thus, to ensure that event cameras can truly excel in such conditions where it has an edge over standard cameras, it is crucial to account for event motion blur in downstream applications, especially reconstruction. However, none of the recent works on reconstructing Neural Radiance Fields (NeRFs) from events, nor event simulators, have considered the full effects of event motion blur. To this end, we propose, Deblur e-NeRF, a novel method to directly and effectively reconstruct blur-minimal NeRFs from motion-blurred events generated under high-speed motion or low-light conditions. The core component of this work is a physically-accurate pixel bandwidth model proposed to account for event motion blur under arbitrary speed and lighting conditions. We also introduce a novel threshold-normalized total variation loss to improve the regularization of large textureless patches. Experiments on real and novel realistically simulated sequences verify our effectiveness. Our code, event simulator and synthetic event dataset will be open-sourced. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 高次元分類のための次元非依存学習率
問題
Dimension-independent learning rates for high-dimensional classification problems ( http://arxiv.org/abs/2409.17991v1 ) ライセンス: Link先を確認 | Andres Felipe Lerma-Pineda, Philipp Petersen, Simon Frieder, Thomas Lukasiewicz | (参考訳) RBV^2$空間における決定境界を持つ分類関数の近似と推定の問題について検討する。
RBV^2$型の関数は、正規化されたニューラルネットワーク学習問題の解法として自然に現れ、ニューラルネットワークはこれらの関数を次元性の呪いなしで近似することができる。
我々は既存の結果を修正し、各$RBV^2$関数が有界重みを持つニューラルネットワークによって近似可能であることを示す。
その後、分類関数を近似した有界重みを持つニューラルネットワークの存在を証明した。
そして、これらの境界を利用して推定率を定量化します。
最後に、決定境界に対する異なる規則性条件の影響を分析する数値的研究について述べる。
We study the problem of approximating and estimating classification functions that have their decision boundary in the $RBV^2$ space. Functions of $RBV^2$ type arise naturally as solutions of regularized neural network learning problems and neural networks can approximate these functions without the curse of dimensionality. We modify existing results to show that every $RBV^2$ function can be approximated by a neural network with bounded weights. Thereafter, we prove the existence of a neural network with bounded weights approximating a classification function. And we leverage these bounds to quantify the estimation rates. Finally, we present a numerical study that analyzes the effect of different regularity conditions on the decision boundaries. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# LoopSR: 片足ロボットの生涯政策適応のためのループ・アンド・リール
LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots ( http://arxiv.org/abs/2409.17992v1 ) ライセンス: Link先を確認 | Peilin Wu, Weiji Xie, Jiahang Cao, Hang Lai, Weinan Zhang, | (参考訳) 強化学習(Reinforcement Learning, RL)は, 実物間移動による足の移動において, 目覚ましい, 一般化可能な能力を示した。
しかし、ドメインのランダム化のような適応的な手法は、様々な環境においてポリシーをより堅牢にすることが期待されているが、No Free Lunchの定理によれば、そのような包括性は特定の環境におけるポリシーのパフォーマンスから逸脱する可能性がある。
この問題を解決するために, トランスフォーマーをベースとしたエンコーダを用いて, 実世界の軌道を潜在空間に投影し, シミュレーションで実世界の環境を復元し, さらなる改善を図るための, 生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。
実世界のダイナミクスの特徴をよりよく抽出するために,オートエンコーダアーキテクチャとコントラスト学習手法が採用されている。
連続訓練のためのシミュレーションパラメータは、デコーダから予測されたパラメータと、シミュレーション軌跡データセットから得られたパラメータとを組み合わせて導出される。
連続的なトレーニングを活用することで、LoopSRは強力なベースラインに比べて優れたデータ効率を実現し、sim-to-sim実験とsim-to-real実験の両方で優れたパフォーマンスが得られるのは限られたデータのみである。
Reinforcement Learning (RL) has shown its remarkable and generalizable capability in legged locomotion through sim-to-real transfer. However, while adaptive methods like domain randomization are expected to make policy more robust to diverse environments, such comprehensiveness potentially detracts from the policy's performance in any specific environment according to the No Free Lunch theorem, leading to a suboptimal solution once deployed in the real world. To address this issue, we propose a lifelong policy adaptation framework named LoopSR, which utilizes a transformer-based encoder to project real-world trajectories into a latent space, and accordingly reconstruct the real-world environments back in simulation for further improvement. Autoencoder architecture and contrastive learning methods are adopted to better extract the characteristics of real-world dynamics. The simulation parameters for continual training are derived by combining predicted parameters from the decoder with retrieved parameters from the simulation trajectory dataset. By leveraging the continual training, LoopSR achieves superior data efficiency compared with strong baselines, with only a limited amount of data to yield eminent performance in both sim-to-sim and sim-to-real experiments. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# InterNet: インターリーブモダリティ伝達と自己教師型ホモグラフィー予測に基づく教師なしクロスモーダルホログラフィー推定
InterNet: Unsupervised Cross-modal Homography Estimation Based on Interleaved Modality Transfer and Self-supervised Homography Prediction ( http://arxiv.org/abs/2409.17993v1 ) ライセンス: Link先を確認 | Junchen Yu, Si-Yuan Cao, Runmin Zhang, Chenghao Zhang, Jianxin Hu, Zhu Yu, Hui-liang Shen, | (参考訳) 我々は、インターネットワークと呼ばれるインターリーブモダリティ伝達と自己教師型ホモグラフィ予測に基づく、新しい教師なしクロスモーダルホモグラフィー推定フレームワークを提案する。
InterNetは、モダリティ転送と自己教師付きホモグラフィー推定を統合し、両方のコンポーネントを交互にプロモートするための革新的なインターリーブド最適化フレームワークを導入している。
モダリティ転送は、徐々にモダリティギャップを狭め、自己教師付きホモグラフィー推定を容易にし、合成モダリティ内データを完全に活用する。
自己教師付きホモグラフィー推定は、信頼性の高い予測を徐々に達成し、モダリティ伝達に対する堅牢な相互監督を提供する。
推定精度をさらに高めるため、細粒度のホモグラフィー特徴損失を定式化し、2つのコンポーネント間の接続を改善する。
さらに, モデルパラメータの削減とドメイン間一般化能力の向上を両立させるため, 比較性能を維持しつつ, 簡易かつ効果的な蒸留訓練手法を用いる。
実験の結果、InterNetは教師なしメソッドのSOTA(State-of-the-art)のパフォーマンスを実現し、MHNやLocalTransといった教師なしメソッドよりも優れています。
We propose a novel unsupervised cross-modal homography estimation framework, based on interleaved modality transfer and self-supervised homography prediction, named InterNet. InterNet integrates modality transfer and self-supervised homography estimation, introducing an innovative interleaved optimization framework to alternately promote both components. The modality transfer gradually narrows the modality gaps, facilitating the self-supervised homography estimation to fully leverage the synthetic intra-modal data. The self-supervised homography estimation progressively achieves reliable predictions, thereby providing robust cross-modal supervision for the modality transfer. To further boost the estimation accuracy, we also formulate a fine-grained homography feature loss to improve the connection between two components. Furthermore, we employ a simple yet effective distillation training technique to reduce model parameters and improve cross-domain generalization ability while maintaining comparable performance. Experiments reveal that InterNet achieves the state-of-the-art (SOTA) performance among unsupervised methods, and even outperforms many supervised methods such as MHN and LocalTrans. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# CRoP: コンテキストワイドロバストな静的人間センシングパーソナライゼーション
CRoP: Context-wise Robust Static Human-Sensing Personalization ( http://arxiv.org/abs/2409.17994v1 ) ライセンス: Link先を確認 | Sawinder Kaur, Avery Gump, Jingyu Xin, Yi Xiao, Harshit Sharma, Nina R Benway, Jonathan L Preston, Asif Salekin, | (参考訳) ディープラーニングとモノのインターネットの進歩は、多様な人間のセンシングアプリケーションに繋がった。
しかし、様々な要因や文脈の影響を受けながら、人間の知覚の異なるパターンは、自然分布シフトによるジェネリックニューラルネットワークモデルの性能に挑戦する。
これを解決するために、パーソナライゼーションは個々のユーザーに対してモデルをカスタマイズする。
しかし、ほとんどのパーソナライゼーション研究は、ユーザ内一般化性を制限する、感覚データのコンテキストにおけるユーザ内不均一性を見落としている。
この制限は、一般化可能性とパーソナライゼーションの両方を損なう限られたデータ可用性を損なう臨床応用において特に重要である。
本研究は,市販の事前学習モデルを用いた新しい静的パーソナライズ手法であるCRoPを導入し,パーソナライズと一般化を最適化するためにプルーニングを行う。
CRoPは、実際の健康ドメインの2つを含む4つの人間センシングデータセットにおいて、パーソナライズ効果とユーザ内ロバスト性に優れており、その実用的および社会的影響を強調している。
さらに、CRoPの一般化能力と設計選択を支援するために、勾配内積分析、アブレーション研究、最先端のベースラインとの比較を通じて経験的正当化を提供する。
The advancement in deep learning and internet-of-things have led to diverse human sensing applications. However, distinct patterns in human sensing, influenced by various factors or contexts, challenge generic neural network model's performance due to natural distribution shifts. To address this, personalization tailors models to individual users. Yet most personalization studies overlook intra-user heterogeneity across contexts in sensory data, limiting intra-user generalizability. This limitation is especially critical in clinical applications, where limited data availability hampers both generalizability and personalization. Notably, intra-user sensing attributes are expected to change due to external factors such as treatment progression, further complicating the challenges.This work introduces CRoP, a novel static personalization approach using an off-the-shelf pre-trained model and pruning to optimize personalization and generalization. CRoP shows superior personalization effectiveness and intra-user robustness across four human-sensing datasets, including two from real-world health domains, highlighting its practical and social impact. Additionally, to support CRoP's generalization ability and design choices, we provide empirical justification through gradient inner product analysis, ablation studies, and comparisons against state-of-the-art baselines. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 拡散を用いた共同配置と計画
Joint Localization and Planning using Diffusion ( http://arxiv.org/abs/2409.17995v1 ) ライセンス: Link先を確認 | L. Lao Beyer, S. Karaman | (参考訳) 拡散モデルは、操作や車道計画といったロボティクス問題にうまく適用されてきた。
本研究では、グローバルなローカライゼーションと経路計画を、既知のが任意の2次元環境において共同で行うことの問題点を考察し、知覚と計画の両方を含むエンドツーエンドナビゲーションへの適用について検討する。
特に,自己中心型LIDARスキャン,任意の地図,所望の目標位置が与えられたグローバル参照フレームにおいて,衝突のない経路を生成する拡散モデルを提案する。
この目的のために、SE(2)における経路空間の拡散を実装し、障害物とセンサ観測の両方に偏極過程を条件付ける方法について述べる。
本評価では,提案手法により,トレーニング環境とはかなり異なる外観のリアルマップへの一般化が可能であり,不明瞭な解を正確に記述するモデルの能力を示すとともに,実時間,エンドツーエンドのローカライズおよび計画スタックとしての利用を実証する広範囲なシミュレーション実験を行う。
Diffusion models have been successfully applied to robotics problems such as manipulation and vehicle path planning. In this work, we explore their application to end-to-end navigation -- including both perception and planning -- by considering the problem of jointly performing global localization and path planning in known but arbitrary 2D environments. In particular, we introduce a diffusion model which produces collision-free paths in a global reference frame given an egocentric LIDAR scan, an arbitrary map, and a desired goal position. To this end, we implement diffusion in the space of paths in SE(2), and describe how to condition the denoising process on both obstacles and sensor observations. In our evaluation, we show that the proposed conditioning techniques enable generalization to realistic maps of considerably different appearance than the training environment, demonstrate our model's ability to accurately describe ambiguous solutions, and run extensive simulation experiments showcasing our model's use as a real-time, end-to-end localization and planning stack. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# PhoCoLens:レンズレスのフォトリアリスティックで一貫性のある再構築
イメージング
PhoCoLens: Photorealistic and Consistent Reconstruction in Lensless Imaging ( http://arxiv.org/abs/2409.17996v1 ) ライセンス: Link先を確認 | Xin Cai, Zhiyuan You, Hailong Zhang, Wentao Liu, Jinwei Gu, Tianfan Xue | (参考訳) レンズレスカメラは、従来のレンズベースのシステムと比較して、サイズ、重量、コストにおいて大きな利点がある。
フォーカスレンズがなければ、レンズレスカメラは多重測定からシーンを復元するために計算アルゴリズムに依存している。
しかし、現在のアルゴリズムは、不正確な前方画像モデルと、高品質な画像の再構成に不十分な事前処理に苦慮している。
これらの制約を克服するために、一貫したフォトリアリスティックなレンズレス画像再構成のための新しい2段階のアプローチを導入する。
提案手法の第一段階は、カメラの視野を越えたポイントスプレッド関数(PSF)の変化に合わせて空間的に変化するデコンボリューション法を用いて、低周波コンテンツを正確に再構成することに焦点を当て、データの整合性を保証する。
第2段階は、事前訓練された拡散モデルから生成前のモデルを組み込むことにより、光現実性を高める。
第1段階で得られた低周波コンテンツを条件付けすることにより、拡散モデルは、レンズレス撮像プロセスで通常失われる高周波の詳細を効果的に再構成し、画像の忠実性も維持する。
提案手法は,PhlatCamとDiffuserCamの2種類のレンズレスシステムで実証されているように,既存の手法と比較して,データの忠実度と視覚的品質のバランスが良好である。
プロジェクトウェブサイト:https://phocolens.github.io/.com
Lensless cameras offer significant advantages in size, weight, and cost compared to traditional lens-based systems. Without a focusing lens, lensless cameras rely on computational algorithms to recover the scenes from multiplexed measurements. However, current algorithms struggle with inaccurate forward imaging models and insufficient priors to reconstruct high-quality images. To overcome these limitations, we introduce a novel two-stage approach for consistent and photorealistic lensless image reconstruction. The first stage of our approach ensures data consistency by focusing on accurately reconstructing the low-frequency content with a spatially varying deconvolution method that adjusts to changes in the Point Spread Function (PSF) across the camera's field of view. The second stage enhances photorealism by incorporating a generative prior from pre-trained diffusion models. By conditioning on the low-frequency content retrieved in the first stage, the diffusion model effectively reconstructs the high-frequency details that are typically lost in the lensless imaging process, while also maintaining image fidelity. Our method achieves a superior balance between data fidelity and visual quality compared to existing methods, as demonstrated with two popular lensless systems, PhlatCam and DiffuserCam. Project website: https://phocolens.github.io/. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 時空間カーネルを用いたガウス過程に基づく安全時変最適化
Safe Time-Varying Optimization based on Gaussian Processes with Spatio-Temporal Kernel ( http://arxiv.org/abs/2409.18000v1 ) ライセンス: Link先を確認 | Jialin Li, Marta Zagorowska, Giulia De Pasquale, Alisa Rupenyan, John Lygeros, | (参考訳) 安全を確保することは、ロボット工学やプロセス制御といったシーケンシャルな意思決定問題において重要な側面である。
基礎となるシステムの複雑さは、特に安全クリティカルなシステムが時間的に変化する場合、最適な決定を見つけることを難しくすることが多い。
そこで我々は,時空間カーネルを用いたベイズ最適化に基づく新しいアルゴリズムであるTVSafeOptを提案する。
このアルゴリズムは、明示的な変更検出を必要とせずに、時間変化のある安全な領域を安全に追跡することができる。
また、最適化問題が定常となると、アルゴリズムに最適性保証が提供される。
その結果,TVSafeOptは,安全と最適性の両方に関して,合成データ上でSafeOptと良好に比較できることがわかった。
ガス圧縮機を用いた実例実験の結果,TVSafeOptは未知の報酬関数と安全関数を持つ時間変化最適化問題を解く際に,安全性を保証することが確認された。
Ensuring safety is a key aspect in sequential decision making problems, such as robotics or process control. The complexity of the underlying systems often makes finding the optimal decision challenging, especially when the safety-critical system is time-varying. Overcoming the problem of optimizing an unknown time-varying reward subject to unknown time-varying safety constraints, we propose TVSafeOpt, a new algorithm built on Bayesian optimization with a spatio-temporal kernel. The algorithm is capable of safely tracking a time-varying safe region without the need for explicit change detection. Optimality guarantees are also provided for the algorithm when the optimization problem becomes stationary. We show that TVSafeOpt compares favorably against SafeOpt on synthetic data, both regarding safety and optimality. Evaluation on a realistic case study with gas compressors confirms that TVSafeOpt ensures safety when solving time-varying optimization problems with unknown reward and safety functions. | 翻訳日:2024-09-28 16:26:02 公開日:2024-09-26 |
# 長期検索と推論の多言語的評価
Multilingual Evaluation of Long Context Retrieval and Reasoning ( http://arxiv.org/abs/2409.18006v1 ) ライセンス: Link先を確認 | Ameeta Agrawal, Andy Dang, Sina Bagheri Nezhad, Rhitabrat Pokharel, Russell Scheinberg, | (参考訳) 最近の大規模言語モデル (LLM) は、長い文脈を扱う際、顕著な能力を示し、そのうちのいくつかは、合成検索タスクにおけるほぼ完璧なリコールを示している。
しかし、これらの評価は主に英語のテキストに焦点を合わせており、長い文脈で1つのターゲット文が関係している。
本研究は,LLMの性能が複数の目的文を隠蔽した多言語設定にどのように一般化するかを考察する。
我々は、英語、ベトナム語、インドネシア語、スワヒリ語、ソマリ語という5つの言語における検索と推論のタスクについて、いくつかの長文LLMを包括的に評価した。
これらの言語はラテン文字を共有しているが、異なる言語ファミリーとリソースレベルに属している。
分析の結果,言語間の性能差が顕著であることがわかった。
Gemini-1.5やGPT-4oのような最高のパフォーマンスモデルは、英語で約96%の精度を達成し、ソマリ語では約36%の精度を目標文で達成している。
しかし、この精度は英語では40%、ソマリでは0%にまで低下する。
以上の結果から,LLMの長文処理における課題,目的文数の増加,リソースレベルの低い言語の増加が浮き彫りになった。
Recent large language models (LLMs) demonstrate impressive capabilities in handling long contexts, some exhibiting near-perfect recall on synthetic retrieval tasks. However, these evaluations have mainly focused on English text and involved a single target sentence within lengthy contexts. Our work investigates how LLM performance generalizes to multilingual settings with multiple hidden target sentences. We comprehensively evaluate several long-context LLMs on retrieval and reasoning tasks across five languages: English, Vietnamese, Indonesian, Swahili, and Somali. These languages share the Latin script but belong to distinct language families and resource levels. Our analysis reveals a significant performance gap between languages. The best-performing models such as Gemini-1.5 and GPT-4o, achieve around 96% accuracy in English to around 36% in Somali with a single target sentence. However, this accuracy drops to 40% in English and 0% in Somali when dealing with three target sentences. Our findings highlight the challenges long-context LLMs face when processing longer contexts, an increase in the number of target sentences, or languages of lower resource levels. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# 大規模言語モデルを用いた産業自動化制御システム
Control Industrial Automation System with Large Language Models ( http://arxiv.org/abs/2409.18009v1 ) ライセンス: Link先を確認 | Yuchen Xia, Nasser Jazdi, Jize Zhang, Chaitanya Shah, Michael Weyrich, | (参考訳) 従来の産業自動化システムは、新しいプロセスに適応するために、操作と複雑なプログラミングを行う専門知識を必要とする。
大きな言語モデルは、より柔軟で使いやすくするためのインテリジェンスを提供します。
しかし、LLMsの産業環境への応用は未定である。
本稿では,産業自動化システムのエンドツーエンド制御を実現するためのLCMの統合フレームワークを提案する。
フレームワークの中核には、産業タスク用に設計されたエージェントシステム、構造化プロンプト法、LLM推論のためのリアルタイムデータを提供するイベント駆動情報モデリング機構がある。
このフレームワークは、異なるコンテキストセマンティックレベルにおけるリアルタイムイベントをLLMに供給し、情報を解釈し、生産計画を生成し、自動化システムの操作を制御する。
また、LLMのこの下流アプリケーションに微調整するための構造化データセットの作成もサポートする。
コントリビューションには、正式なシステム設計、概念実証実装、LLM微調整およびテストのためのタスク固有のデータセットを生成する方法が含まれる。
このアプローチにより、自然発生イベントに応答し、自然言語による操作や構成を容易にし、より直感的な人間と機械のインタラクションを可能にする。
デモビデオと詳細なデータはGitHubで公開しています。
Traditional industrial automation systems require specialized expertise to operate and complex reprogramming to adapt to new processes. Large language models offer the intelligence to make them more flexible and easier to use. However, LLMs' application in industrial settings is underexplored. This paper introduces a framework for integrating LLMs to achieve end-to-end control of industrial automation systems. At the core of the framework are an agent system designed for industrial tasks, a structured prompting method, and an event-driven information modeling mechanism that provides real-time data for LLM inference. The framework supplies LLMs with real-time events on different context semantic levels, allowing them to interpret the information, generate production plans, and control operations on the automation system. It also supports structured dataset creation for fine-tuning on this downstream application of LLMs. Our contribution includes a formal system design, proof-of-concept implementation, and a method for generating task-specific datasets for LLM fine-tuning and testing. This approach enables a more adaptive automation system that can respond to spontaneous events, while allowing easier operation and configuration through natural language for more intuitive human-machine interaction. We provide demo videos and detailed data on GitHub: https://github.com/YuchenXia/LLM4IAS | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# 有限確率データを用いた双線形システムの間接的データ駆動制御のエンドツーエンド保証
End-to-end guarantees for indirect data-driven control of bilinear systems with finite stochastic data ( http://arxiv.org/abs/2409.18010v1 ) ライセンス: Link先を確認 | Nicolas Chatzikiriakos, Robin Strässer, Frank Allgöwer, Andrea Iannelli, | (参考訳) 本稿では,安定性を保証した双線形システムの間接的データ駆動制御のためのエンドツーエンドアルゴリズムを提案する。
収集したi.d.データが確率的雑音の影響を受ける場合について考察し、統計的学習理論からのツールを活用して有限標本識別誤差境界を導出する。
この目的のために,データ収集フェーズにおける制御入力の特定の選択により,線形およびアフィン識別問題の集合を解くことにより,双線形識別問題を解く。
本研究では,各行列上のデータ依存有限標本識別誤差および楕円体境界について,制御に好適なデータ依存有限標本同定誤差について述べる。
さらに、導出された識別誤差境界の構造を頑健なコントローラ設計に統合し、指数関数的に安定な閉ループを得る。
広範にわたる数値的な研究により、制御器設計と導出された識別誤差境界との相互作用を示す。
さらに、Koopman演算子理論を通じて、一般非線形システムの間接的データ駆動制御に対する我々の結果の接続をアピールし、この設定において我々の結果がどのように適用されるかについて議論する。
In this paper we propose an end-to-end algorithm for indirect data-driven control for bilinear systems with stability guarantees. We consider the case where the collected i.i.d. data is affected by probabilistic noise with possibly unbounded support and leverage tools from statistical learning theory to derive finite sample identification error bounds. To this end, we solve the bilinear identification problem by solving a set of linear and affine identification problems, by a particular choice of a control input during the data collection phase. We provide a priori as well as data-dependent finite sample identification error bounds on the individual matrices as well as ellipsoidal bounds, both of which are structurally suitable for control. Further, we integrate the structure of the derived identification error bounds in a robust controller design to obtain an exponentially stable closed-loop. By means of an extensive numerical study we showcase the interplay between the controller design and the derived identification error bounds. Moreover, we note appealing connections of our results to indirect data-driven control of general nonlinear systems through Koopman operator theory and discuss how our results may be applied in this setup. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# セル埋め込みグラフの時空間学習
Spatiotemporal Learning on Cell-embedded Graphs ( http://arxiv.org/abs/2409.18013v1 ) ライセンス: Link先を確認 | Yuan Mi, Hao Sun, | (参考訳) 物理系のデータ駆動シミュレーションは、最近多くのニューラルモデルが開発されている重要な注目を集めている。
特に、メッシュベースのグラフニューラルネットワーク(GNN)は、任意の幾何学的領域にわたる時空間ダイナミクスを予測する上で、大きな可能性を示している。
しかし、GNNの既存のノードエッジメッセージパッシング機構は、モデルの表現学習能力を制限している。
本稿では,セル埋め込み型GNNモデル(別名CeGNN)を提案する。
具体的には、ノードエッジメッセージパッシングプロセスに学習可能なセル属性を導入し、局所的特徴の空間的依存性をよりよく把握する。
このような戦略は、局所的なアグリゲーションスキームを1階目(例えば、エッジからノード)から高階目(例えば、ボリュームからエッジへ、そしてノードへ)にアップグレードし、メッセージパッシングにおけるボリューム情報を活用する。
一方,CeGNNの性能を向上し,潜伏した特徴を基本関数として扱うことにより,過度なスムース性問題を軽減するために,新たな機能強化ブロックが設計された。
各種PDEシステムと1つの実世界のデータセットに関する広範な実験により、CeGNNは他のベースラインモデルと比較して優れた性能を達成し、特に複数のPDEシステムにおいて最大1桁の予測誤差を低減した。
Data-driven simulation of physical systems has recently kindled significant attention, where many neural models have been developed. In particular, mesh-based graph neural networks (GNNs) have demonstrated significant potential in predicting spatiotemporal dynamics across arbitrary geometric domains. However, the existing node-edge message passing mechanism in GNNs limits the model's representation learning ability. In this paper, we proposed a cell-embedded GNN model (aka CeGNN) to learn spatiotemporal dynamics with lifted performance. Specifically, we introduce a learnable cell attribution to the node-edge message passing process, which better captures the spatial dependency of regional features. Such a strategy essentially upgrades the local aggregation scheme from the first order (e.g., from edge to node) to a higher order (e.g., from volume to edge and then to node), which takes advantage of volumetric information in message passing. Meanwhile, a novel feature-enhanced block is designed to further improve the performance of CeGNN and relieve the over-smoothness problem, via treating the latent features as basis functions. The extensive experiments on various PDE systems and one real-world dataset demonstrate that CeGNN achieves superior performance compared with other baseline models, particularly reducing the prediction error with up to 1 orders of magnitude on several PDE systems. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# Role-RL: Reinforcement LearningによるLLMのオンライン長期処理とその最適役割
Role-RL: Online Long-Context Processing with Role Reinforcement Learning for Distinct LLMs in Their Optimal Roles ( http://arxiv.org/abs/2409.18014v1 ) ライセンス: Link先を確認 | Lewei He, Tianyu Shi, Pengran Huang, Bingzhi Chen, Qianglong Chen, Jiahui Pan, | (参考訳) 長いコンテキスト処理を持つ大規模言語モデル(LLM)は、実装の複雑さ、訓練効率、データの分散性のために、依然として難しい。
この問題に対処するために、オンライン長文処理(OLP)と呼ばれる新しいパラダイムが、無制限のドキュメントを処理する際に提案される。
さらに, 優れた性能, 安価な価格, 短応答遅延を目標とした爆発的成長の中で, 多数のLDMから最も適したLSMを選択しようとすると, ジレンマが発生することが多かった。
また,OLPパイプライン内の各役割において,実際の性能に応じて異なるLLMを自動展開する役割強化学習(Role-RL)を開発した。
OLP-MINIデータセットを用いて大規模な実験を行い,Role-RLフレームワークを用いたOPPが平均リコール率93.2%,LLMコスト79.4%のOLPベンチマークを達成した。
コードとデータセットは、https://anonymous.4open.science/r/Role-RLで公開されている。
Large language models (LLMs) with long-context processing are still challenging because of their implementation complexity, training efficiency and data sparsity. To address this issue, a new paradigm named Online Long-context Processing (OLP) is proposed when we process a document of unlimited length, which typically occurs in the information reception and organization of diverse streaming media such as automated news reporting, live e-commerce, and viral short videos. Moreover, a dilemma was often encountered when we tried to select the most suitable LLM from a large number of LLMs amidst explosive growth aiming for outstanding performance, affordable prices, and short response delays. In view of this, we also develop Role Reinforcement Learning (Role-RL) to automatically deploy different LLMs in their respective roles within the OLP pipeline according to their actual performance. Extensive experiments are conducted on our OLP-MINI dataset and it is found that OLP with Role-RL framework achieves OLP benchmark with an average recall rate of 93.2% and the LLM cost saved by 79.4%. The code and dataset are publicly available at: https://anonymous.4open.science/r/Role-RL. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# DARE:ロバストネス評価による多様な視覚的質問応答
DARE: Diverse Visual Question Answering with Robustness Evaluation ( http://arxiv.org/abs/2409.18023v1 ) ライセンス: Link先を確認 | Hannah Sterz, Jonas Pfeiffer, Ivan Vulić, | (参考訳) 視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な能力を拡張し、マルチモーダルな視覚テキスト入力から学習し、処理することができる。
現代のVLMは、多くの標準的な画像分類や画像テキストマッチングタスクでよく機能するが、カウントや空間推論といった重要な視覚言語(VL)推論能力に苦戦している。
さらに、命令や評価プロトコルの小さなバリエーションに対して非常に脆弱な場合もありますが、既存のベンチマークではその堅牢性(あるいはそれの欠如)を評価することができません。
包括的ロバストネス評価を伴うVLシナリオの課題に対処するため, DARE, Diverse Visual Question Answering with Robustness Evaluation, 慎重に作成, キュレートされた多重選択VQAベンチマークを紹介する。
DAREは、VLMのパフォーマンスを5つの多様なカテゴリで評価し、プロンプト、回答オプションのサブセット、出力フォーマット、正しい回答の数に基づいて、4つのロバストネス指向の評価を含む。
現状のVLMは,多くのカテゴリにおいて問題に悩まされており,テストされたロバストネス評価において常にピーク性能を達成できないことが報告されている。
オプションのサブセットにおける最悪のケースパフォーマンスは、標準ケースのパフォーマンスよりも最大で34%低い。
LLaVA 1.6 や Idefics2 のようなオープンソース VLM の堅牢性は GPT-4 や Gemini のようなクローズドソースモデルと一致しないが、後者でさえ異なるバリエーションに対して非常に脆弱である。
Vision Language Models (VLMs) extend remarkable capabilities of text-only large language models and vision-only models, and are able to learn from and process multi-modal vision-text input. While modern VLMs perform well on a number of standard image classification and image-text matching tasks, they still struggle with a number of crucial vision-language (VL) reasoning abilities such as counting and spatial reasoning. Moreover, while they might be very brittle to small variations in instructions and/or evaluation protocols, existing benchmarks fail to evaluate their robustness (or rather the lack of it). In order to couple challenging VL scenarios with comprehensive robustness evaluation, we introduce DARE, Diverse Visual Question Answering with Robustness Evaluation, a carefully created and curated multiple-choice VQA benchmark. DARE evaluates VLM performance on five diverse categories and includes four robustness-oriented evaluations based on the variations of: prompts, the subsets of answer options, the output format and the number of correct answers. Among a spectrum of other findings, we report that state-of-the-art VLMs still struggle with questions in most categories and are unable to consistently deliver their peak performance across the tested robustness evaluations. The worst case performance across the subsets of options is up to 34% below the performance in the standard case. The robustness of the open-source VLMs such as LLaVA 1.6 and Idefics2 cannot match the closed-source models such as GPT-4 and Gemini, but even the latter remain very brittle to different variations. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# AI安全のためのマシン・アンラーニングの敵対的展望
An Adversarial Perspective on Machine Unlearning for AI Safety ( http://arxiv.org/abs/2409.18025v1 ) ライセンス: Link先を確認 | Jakub {\L}ucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tram\`er, Javier Rando | (参考訳) 大きな言語モデルは、有害な知識に関する質問を拒否するために微調整されているが、これらの保護はしばしばバイパスされる。
アンラーニング手法は、モデルから有害な能力を完全に取り除き、敵に近づかないようにすることを目的としている。
この研究は、非学習と従来の訓練後の安全性の基本的な相違に敵対的な観点から挑戦する。
既存のjailbreakメソッドは、これまで未学習に対して効果がないと報告されていたが、慎重に適用した場合に成功できることを実証する。
さらに、最も未学習と思われる能力を回復する様々な適応手法を開発した。
例えば、アクティベーション空間における10の非関連例の微調整や特定の方向の除去は、最先端の未学習手法であるRMUで編集されたモデルに対して最も有害な能力を回復できることを示す。
我々の研究は、現在の未学習アプローチの堅牢性に挑戦し、安全性トレーニングよりも彼らの優位性に疑問を投げかけている。
Large language models are finetuned to refuse questions about hazardous knowledge, but these protections can often be bypassed. Unlearning methods aim at completely removing hazardous capabilities from models and make them inaccessible to adversaries. This work challenges the fundamental differences between unlearning and traditional safety post-training from an adversarial perspective. We demonstrate that existing jailbreak methods, previously reported as ineffective against unlearning, can be successful when applied carefully. Furthermore, we develop a variety of adaptive methods that recover most supposedly unlearned capabilities. For instance, we show that finetuning on 10 unrelated examples or removing specific directions in the activation space can recover most hazardous capabilities for models edited with RMU, a state-of-the-art unlearning method. Our findings challenge the robustness of current unlearning approaches and question their advantages over safety training. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# ReliOcc:不確実性学習による信頼性の高いセマンティック職業予測を目指して
ReliOcc: Towards Reliable Semantic Occupancy Prediction via Uncertainty Learning ( http://arxiv.org/abs/2409.18026v1 ) ライセンス: Link先を確認 | Song Wang, Zhongdao Wang, Jiawei Yu, Wentong Li, Bailan Feng, Junbo Chen, Jianke Zhu, | (参考訳) 視覚中心のセマンティック占有予測は、低コストセンサーからの正確で信頼性の高い予測を必要とする自動運転において重要な役割を果たす。
LiDARとの精度ギャップを著しく狭めたが、カメラのセマンティック占有率を予測するための信頼性を探る研究は、まだ少ない。
本稿では,信頼性の観点から,既存のセマンティック占有予測モデルを総合的に評価する。
精度の観点からは、カメラベースモデルとLiDARとの段階的なアライメントにもかかわらず、重大な信頼性のギャップは持続する。
この問題に対処するため,カメラによる占有ネットワークの信頼性向上を目的としたReliOccを提案する。
ReliOccは既存のモデルのプラグイン・アンド・プレイ方式を提供しており、個々のボクセルからのハイブリッド不確実性とサンプリングベースノイズと相対ボクセルを混合学習によって統合する。
さらに、オフラインモードにおけるモデルの信頼性をさらに高めるために、不確実性を考慮した校正戦略が考案された。
様々な条件下での大規模な実験により、ReliOccは幾何予測と意味予測の両方の精度を維持しながらモデルの信頼性を著しく向上することが示された。
重要なこととして,本提案手法は,センサ故障に対する堅牢性や,推論中のドメインノイズの欠如を示す。
Vision-centric semantic occupancy prediction plays a crucial role in autonomous driving, which requires accurate and reliable predictions from low-cost sensors. Although having notably narrowed the accuracy gap with LiDAR, there is still few research effort to explore the reliability in predicting semantic occupancy from camera. In this paper, we conduct a comprehensive evaluation of existing semantic occupancy prediction models from a reliability perspective for the first time. Despite the gradual alignment of camera-based models with LiDAR in term of accuracy, a significant reliability gap persists. To addresses this concern, we propose ReliOcc, a method designed to enhance the reliability of camera-based occupancy networks. ReliOcc provides a plug-and-play scheme for existing models, which integrates hybrid uncertainty from individual voxels with sampling-based noise and relative voxels through mix-up learning. Besides, an uncertainty-aware calibration strategy is devised to further enhance model reliability in offline mode. Extensive experiments under various settings demonstrate that ReliOcc significantly enhances model reliability while maintaining the accuracy of both geometric and semantic predictions. Importantly, our proposed approach exhibits robustness to sensor failures and out of domain noises during inference. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# FlowBench: 複雑なフローシミュレーションのための大規模ベンチマーク
測地
FlowBench: A Large Scale Benchmark for Flow Simulation over Complex Geometries ( http://arxiv.org/abs/2409.18032v1 ) ライセンス: Link先を確認 | Ronak Tali, Ali Rabeh, Cheng-Hau Yang, Mehdi Shadkhah, Samundra Karki, Abhisek Upadhyaya, Suriya Dhakshinamoorthy, Marjan Saadati, Soumik Sarkar, Adarsh Krishnamurthy, Chinmay Hegde, Aditya Balu, Baskar Ganapathysubramanian | (参考訳) 任意の形状の流体の流れをシミュレートすることは、様々な工学的問題を解決する鍵となる。
しかし、複雑な地形をまたいだ流れ物理のシミュレーションは数値的に困難であり、特に従来のPDE解法を用いる場合、計算資源が集中的に行われている。
機械学習手法は、高速で適応可能なPDEソルバを作成する魅力的な機会を提供する。
しかし、そのような手法の性能を測定するためのベンチマークデータセットは、特に複雑な測地を横断する流れ物理学では不十分である。
FlowBenchは10K以上のサンプルを持つニューラルシミュレータ用のデータセットで、現在利用可能なフロー物理データセットよりも大きい。
FlowBenchは、複雑なジオメトリにわたるフローシミュレーションデータ(\textit{parametric vs. non-parametric})、様々なフロー条件(\textit{Reynolds number and Grashoff number})、様々なフロー現象(\textit{steady vs. transient; forced vs. free convection})、および2Dと3Dの双方にまたがるフローシミュレーションデータを含んでいる。
FlowBenchには10K以上のデータサンプルが含まれており、各サンプルは複雑なジオメトリにおける輸送現象をモデル化するために設計されたよく検証されたシミュレーターフレームワークを用いて、完全に解決された直接数値シミュレーションの結果である。
各試料には3つの異なる解像度の速度、圧力、温度場データが含まれており、工学的関連性(リフトとドラッグの係数やヌッセルト数など)のいくつかの要約統計的特徴がある。
% マスクと各形状の符号付き距離場を含む。
FlowBenchは、複雑な幾何学、結合フロー現象、そして、現在および将来のニューラルPDEソルバの性能に関するデータ十分性の間の相互作用を評価することができると期待している。
我々は、ニューラルネットワークPDEソルバの性能のランク付けを支援するために、いくつかの評価指標を列挙する。
本稿では,FNO,CNO,WNO,DeepONetなどのベースライン手法の性能をベンチマークする。
Simulating fluid flow around arbitrary shapes is key to solving various engineering problems. However, simulating flow physics across complex geometries remains numerically challenging and computationally resource-intensive, particularly when using conventional PDE solvers. Machine learning methods offer attractive opportunities to create fast and adaptable PDE solvers. However, benchmark datasets to measure the performance of such methods are scarce, especially for flow physics across complex geometries. We introduce FlowBench, a dataset for neural simulators with over 10K samples, which is currently larger than any publicly available flow physics dataset. FlowBench contains flow simulation data across complex geometries (\textit{parametric vs. non-parametric}), spanning a range of flow conditions (\textit{Reynolds number and Grashoff number}), capturing a diverse array of flow phenomena (\textit{steady vs. transient; forced vs. free convection}), and for both 2D and 3D. FlowBench contains over 10K data samples, with each sample the outcome of a fully resolved, direct numerical simulation using a well-validated simulator framework designed for modeling transport phenomena in complex geometries. For each sample, we include velocity, pressure, and temperature field data at 3 different resolutions and several summary statistics features of engineering relevance (such as coefficients of lift and drag, and Nusselt numbers). %Additionally, we include masks and signed distance fields for each shape. We envision that FlowBench will enable evaluating the interplay between complex geometry, coupled flow phenomena, and data sufficiency on the performance of current, and future, neural PDE solvers. We enumerate several evaluation metrics to help rank order the performance of neural PDE solvers. We benchmark the performance of several baseline methods including FNO, CNO, WNO, and DeepONet. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# 自然言語処理を用いた説得文中のパワーワードの自動検出と解析
Automated Detection and Analysis of Power Words in Persuasive Text Using Natural Language Processing ( http://arxiv.org/abs/2409.18033v1 ) ライセンス: Link先を確認 | Sahil Garje, | (参考訳) 力強い言葉は強い感情的な反応を引き起こし、読者の行動に大きな影響を与え、マーケティング、政治、動機づけなどの分野において重要な役割を果たす言葉である。
本研究では,Pythonのカスタム辞書とTextBlobライブラリを用いた説得文中のパワーワードの自動検出と解析手法を提案する。
与えられたテキスト中のパワーワードの存在と頻度を識別することにより、感情や読者エンゲージメントに対するパワーワードの影響を分類し分析することを目指している。
本研究は、様々な領域にまたがる多様なデータセットを調査し、パワーワードの有効性についての洞察を提供し、コンテンツクリエーター、広告主、政策立案者に実践的な応用を提供する。
Power words are terms that evoke strong emotional responses and significantly influence readers' behavior, playing a crucial role in fields like marketing, politics, and motivational writing. This study proposes a methodology for the automated detection and analysis of power words in persuasive text using a custom lexicon and the TextBlob library in Python. By identifying the presence and frequency of power words within a given text, we aim to classify and analyze their impact on sentiment and reader engagement. This research examines diverse datasets across various domains to provide insights into the effectiveness of power words, offering practical applications for content creators, advertisers, and policymakers. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# HARMONIC: 説明型認知ロボットのためのフレームワーク
HARMONIC: A Framework for Explanatory Cognitive Robots ( http://arxiv.org/abs/2409.18037v1 ) ライセンス: Link先を確認 | Sanjay Oruganti, Sergei Nirenburg, Marjorie McShane, Jesse English, Michael K. Roberts, Christian Arndt, | (参考訳) 本稿では、汎用ロボットを複雑な意思決定、自然なコミュニケーション、人間レベルの説明が可能な信頼できるチームメイトに変換する認知ロボットを実装するためのフレームワークであるHARMONICを提案する。
このフレームワークは、高レベルの意思決定のための戦略的(認知的)層と低レベルの制御と実行のための戦術的(ロボット)層との相互運用性をサポートする。
本稿では,HARMONICを模擬UGVとドローンにデプロイし,マルチロボット検索・検索作業に携わるフレームワークのコア機能と初期実装について述べる。
We present HARMONIC, a framework for implementing cognitive robots that transforms general-purpose robots into trusted teammates capable of complex decision-making, natural communication and human-level explanation. The framework supports interoperability between a strategic (cognitive) layer for high-level decision-making and a tactical (robot) layer for low-level control and execution. We describe the core features of the framework and our initial implementation, in which HARMONIC was deployed on a simulated UGV and drone involved in a multi-robot search and retrieval task. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# Ecosystem-Agnostic Standardization of Quantum Runtime Architecture:Accelerating Utility in Quantum Computing
Ecosystem-Agnostic Standardization of Quantum Runtime Architecture: Accelerating Utility in Quantum Computing ( http://arxiv.org/abs/2409.18039v1 ) ライセンス: Link先を確認 | Markiian Tsymbalista, Ihor Katernyak, | (参考訳) フォールトトレランスは、多くの企業や研究組織が、現在の不完全な量子コンピュータを有用な量子ユーティリティ(QU: Quantum Utility)にするために競争を挑む長期的な目標である。
主にAI技術によって駆動されるソフトウェア最適化アプローチを活用することで、これを実現することを約束しているようだ。
この積極的な研究は量子コンピューティング最適化ミドルウェア(QCOM)のすべてのレイヤをカバーするもので、実際の量子ハードウェア(QH)上での実行を必要とする。
テクノロジ領域の初期段階と、大小両方のプロプライエタリな戦略のため、量子ワークロードを実行するための一般的なランタイムは、プログラミングモデルやスケジューリング、キューなどハードウェアアクセスパターンの柔軟性に欠ける。
これらの問題は、GPU(Graphical Processing Unit)スーパーコンピュータと量子中間表現(Quantum Intermediate Representation, QIR)を、量子および分散リソースにわたるリアルタイム計算の中心に配置する、新たなハイブリッドOSモデルによってさらに悪化する。
オープンソースコミュニティが推進する、広く採用されているランタイムプラットフォーム(RP)は、量子処理ユニット(QPU)、GPU、制御ハードウェア、外部計算リソース間の分散的な動作に容易にデプロイでき、プログラミングと構成モデルの観点から必要な柔軟性を提供する必要がある。
Fault tolerance is a long-term objective driving many companies and research organizations to compete in making current, imperfect quantum computers useful - Quantum Utility (QU). It looks promising to achieve this by leveraging software optimization approaches primarily driven by AI techniques. This aggressive research covers all layers of Quantum Computing Optimization Middleware (QCOM) and requires execution on real quantum hardware (QH). Due to the nascent nature of the technology domain and the proprietary strategies of both large and small players, popular runtimes for executing quantum workloads lack flexibility in programming models, scheduling, and hardware access patterns, including queuing, which creates roadblocks for researchers and slows innovation. These problems are further exacerbated by emerging hybrid operating models that place Graphical Processing Unit (GPU) supercomputing and Quantum Intermediate Representation (QIR) at the heart of real-time computations across quantum and distributed resources. There is a need for a widely adopted runtime platform (RP) driven by the open-source community that can be easily deployed to work in a distributed manner between Quantum Processing Unit (QPU), GPU, control hardware, external compute resources and provide required flexibility in terms of programming & configuration models. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# 直接音声翻訳における事前学習の役割の解明
Unveiling the Role of Pretraining in Direct Speech Translation ( http://arxiv.org/abs/2409.18044v1 ) ライセンス: Link先を確認 | Belen Alastruey, Gerard I. Gállego, Marta R. Costa-jussà, | (参考訳) 直接音声からテキストへの翻訳システムは、データ不足の重要な欠点に遭遇する。
一般的な解決策は、エンコーダを自動音声認識で事前訓練することで、トレーニングプロセスの効率を損なう。
本研究では,事前学習エンコーダを用いたシステムのトレーニング力学,従来の手法,スクラッチからトレーニングしたシステムを比較した。
学習を通して、ランダムに初期化されたモデルは、その予測のために音声入力からの情報を組み込むのに苦労していることを観察する。
したがって、この問題は、直接音声翻訳のためのエンコーダを効果的に訓練することの難しさに起因していると仮定する。
スクラッチからトレーニングされたモデルは、音響とセマンティックモデリングを同時に学ぶ必要があるが、事前訓練されたモデルは、後者に集中できる。
これらの知見に基づき、トレーニングの初期の段階からの情報を統合するために、デコーダのクロスアテンションの微妙な変更を提案する。
この変更により、スクラッチからトレーニングされたモデルは、トレーニング時間を短縮しつつ、事前トレーニングされたモデルに匹敵するパフォーマンスを達成できることが示される。
Direct speech-to-text translation systems encounter an important drawback in data scarcity. A common solution consists on pretraining the encoder on automatic speech recognition, hence losing efficiency in the training process. In this study, we compare the training dynamics of a system using a pretrained encoder, the conventional approach, and one trained from scratch. We observe that, throughout the training, the randomly initialized model struggles to incorporate information from the speech inputs for its predictions. Hence, we hypothesize that this issue stems from the difficulty of effectively training an encoder for direct speech translation. While a model trained from scratch needs to learn acoustic and semantic modeling simultaneously, a pretrained one can just focus on the latter. Based on these findings, we propose a subtle change in the decoder cross-attention to integrate source information from earlier steps in training. We show that with this change, the model trained from scratch can achieve comparable performance to the pretrained one, while reducing the training time. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# IFCap:イメージライクな検索と周波数ベースのエンティティフィルタリング
ゼロショットキャプション
IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot Captioning ( http://arxiv.org/abs/2409.18046v1 ) ライセンス: Link先を確認 | Soeun Lee, Si-Woo Kim, Taewhan Kim, Dong-Jin Kim | (参考訳) 画像キャプションの最近の進歩は、ペア画像テキストデータの限界を克服するために、テキストのみの訓練方法を模索している。
しかし、既存のテキストのみのトレーニング手法は、トレーニング中のテキストデータの使用と推論時の画像の使用とのモダリティギャップを無視することが多い。
この問題に対処するために,テキスト特徴と視覚的関連特徴を整合させてモダリティギャップを緩和する,Image-like Retrievalという新しいアプローチを提案する。
本手法は,検索したキャプションを入力特徴と統合したFusion Moduleを設計することにより,生成されたキャプションの精度をさらに向上する。
さらに、周波数ベースのエンティティフィルタリング技術を導入し、キャプションの品質を大幅に改善する。
これらのメソッドを統一されたフレームワークに統合し、IFCap ($\textbf{I}$mage-like Retrieval と $\textbf{F}$requency-based Entity Filtering for Zero-shot $\textbf{Cap}$tioning と呼ぶ。
画像キャプションと動画キャプションの両面で,テキストのみのトレーニングによるゼロショットキャプションに比べて,最先端の手法よりも優れていた。
Recent advancements in image captioning have explored text-only training methods to overcome the limitations of paired image-text data. However, existing text-only training methods often overlook the modality gap between using text data during training and employing images during inference. To address this issue, we propose a novel approach called Image-like Retrieval, which aligns text features with visually relevant features to mitigate the modality gap. Our method further enhances the accuracy of generated captions by designing a Fusion Module that integrates retrieved captions with input features. Additionally, we introduce a Frequency-based Entity Filtering technique that significantly improves caption quality. We integrate these methods into a unified framework, which we refer to as IFCap ($\textbf{I}$mage-like Retrieval and $\textbf{F}$requency-based Entity Filtering for Zero-shot $\textbf{Cap}$tioning). Through extensive experimentation, our straightforward yet powerful approach has demonstrated its efficacy, outperforming the state-of-the-art methods by a significant margin in both image captioning and video captioning compared to zero-shot captioning based on text-only training. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# HARMONIC:人間-ロボットチームにおける認知と制御のコラボレーション
HARMONIC: Cognitive and Control Collaboration in Human-Robotic Teams ( http://arxiv.org/abs/2409.18047v1 ) ライセンス: Link先を確認 | Sanjay Oruganti, Sergei Nirenburg, Marjorie McShane, Jesse English, Michael K. Roberts, Christian Arndt, | (参考訳) 本稿では,マルチロボット計画と協調のための新しいアプローチを提案する。
メタ認知,自然言語コミュニケーション,説明可能性を備えたロボットチームにおいて,ロボットの認知戦略を実証する。
このシステムは、チーム全体で認知と制御機能を柔軟に統合するHARMONICアーキテクチャを使って実現されている。
異種ロボット(UGVとドローン)と人間による共同探索作業を含むシミュレーション実験により,本手法の評価を行った。
複雑で現実的なシナリオの処理、異なる能力を持つロボット間の効果的なアクション調整、自然な人間とロボットのコミュニケーションについて詳述する。
この研究は、ロボットが計画、目標、態度を判断し、行動や決定を説明する能力が、現実的な人間ロボットチームにとって必須の前提であることを示している。
This paper presents a novel approach to multi-robot planning and collaboration. We demonstrate a cognitive strategy for robots in human-robot teams that incorporates metacognition, natural language communication, and explainability. The system is embodied using the HARMONIC architecture that flexibly integrates cognitive and control capabilities across the team. We evaluate our approach through simulation experiments involving a joint search task by a team of heterogeneous robots (a UGV and a drone) and a human. We detail the system's handling of complex, real-world scenarios, effective action coordination between robots with different capabilities, and natural human-robot communication. This work demonstrates that the robots' ability to reason about plans, goals, and attitudes, and to provide explanations for actions and decisions are essential prerequisites for realistic human-robot teaming. | 翻訳日:2024-09-27 22:26:48 公開日:2024-09-26 |
# 次世代ソフトウェアエンジニアリング - AI支援ビッグデータ
Next-Gen Software Engineering: AI-Assisted Big Models ( http://arxiv.org/abs/2409.18048v1 ) ライセンス: Link先を確認 | Ina K. Schieferdecker, | (参考訳) モデル駆動ソフトウェア工学(MDSE)の有効性は複雑なソフトウェアにおいて実証されてきたが、モデル開発と保守に関する必要な努力とMDSEに必要な特定のモデリング能力のために広く採用されていない。
同時に、人工知能(AI)メソッド、特に機械学習(ML)メソッドは、オープンソースのコーディングプラットフォームでアクセス可能な巨大なコードベースに適用した場合、かなりの能力を発揮している。
いわゆるBig Codeは、経験的ソフトウェアエンジニアリングの大幅な進歩の基盤を提供すると同時に、コーディングプロセスの自動化や、AIの使用によるソフトウェア品質の改善も提供する。
本研究の目的は、これら2つの重要なソフトウェア工学領域、すなわちSEにおけるモデルとAIの合成を容易にすることである。
本稿では,AI支援ソフトウェア工学の現状について概説する。
上記の考察を踏まえると、ソフトウェア開発の文脈において両方のアプローチに固有の利点を活かすことを目的として、AIによるSEにおけるビッグデータのビジョンが述べられている。
最後にMDSEにおけるペアモデリングの新しいパラダイムを提案する。
The effectiveness of model-driven software engineering (MDSE) has been demonstrated in the context of complex software; however, it has not been widely adopted due to the requisite efforts associated with model development and maintenance, as well as the specific modelling competencies required for MDSE. Concurrently, artificial intelligence (AI) methods, particularly machine learning (ML) methods, have demonstrated considerable abilities when applied to the huge code bases accessible on open-source coding platforms. The so-called big code provides the basis for significant advances in empirical software engineering, as well as in the automation of coding processes and improvements in software quality with the use of AI. The objective of this paper is to facilitate a synthesis between these two significant domains of software engineering (SE), namely models and AI in SE. The paper provides an overview of the current status of AI-assisted software engineering. In light of the aforementioned considerations, a vision of AI-assisted Big Models in SE is put forth, with the aim of capitalising on the advantages inherent to both approaches in the context of software development. Finally, the new paradigm of pair modelling in MDSE is proposed. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# Revisit Anything: Image Segment Retrievalによる視覚的位置認識
Revisit Anything: Visual Place Recognition via Image Segment Retrieval ( http://arxiv.org/abs/2409.18049v1 ) ライセンス: Link先を確認 | Kartik Garg, Sai Shubodh Puligilla, Shishir Kolathaya, Madhava Krishna, Sourav Garg | (参考訳) 再配置された場所を正確に認識することは、エンボディードエージェントがローカライズし、ナビゲートするのに不可欠である。
これは、カメラの視点やシーンの外観が強いにもかかわらず、視覚的な表現を区別する必要がある。
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
これは、異なるカメラ視点から捉えた同じ場所の2つの画像のマッチングにおいて、基本的な課題である:「重複するものの類似性は、重複しないものの相似性によって支配される」。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
本稿では,イメージを「意味のある」エンティティ(物や物)に分解するために,オープンセットのイメージセグメンテーションを提案する。
これにより、SuperSegmentと呼ばれるセグメントと隣接するセグメントを接続する複数の重なり合うサブグラフの集合として、新しい画像表現を作成することができる。
さらに,これらのスーパーセグメンツをコンパクトなベクトル表現に効率的に符号化するために,特徴集合の因子化表現を提案する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
我々のセグメントベースのアプローチは、SegVLADと呼ばれ、さまざまなベンチマークデータセットの選択に基づいて、新しい最先端の認識を定めながら、汎用およびタスク特化イメージエンコーダにも適用できます。
最後に、視覚的位置認識とオブジェクトゴールナビゲーションという2つの異なる研究領域を橋渡しするオブジェクトインスタンス検索タスクにおいて、目標オブジェクトの認識という共通の目的を通じて、オブジェクトインスタンス検索タスクにおいて、"何でも再検討する"方法の可能性を実証する。
ソースコード:https://github.com/AnyLoc/Revisit-Anything
Accurately recognizing a revisited place is crucial for embodied agents to localize and navigate. This requires visual representations to be distinct, despite strong variations in camera viewpoint and scene appearance. Existing visual place recognition pipelines encode the "whole" image and search for matches. This poses a fundamental challenge in matching two images of the same place captured from different camera viewpoints: "the similarity of what overlaps can be dominated by the dissimilarity of what does not overlap". We address this by encoding and searching for "image segments" instead of the whole images. We propose to use open-set image segmentation to decompose an image into `meaningful' entities (i.e., things and stuff). This enables us to create a novel image representation as a collection of multiple overlapping subgraphs connecting a segment with its neighboring segments, dubbed SuperSegment. Furthermore, to efficiently encode these SuperSegments into compact vector representations, we propose a novel factorized representation of feature aggregation. We show that retrieving these partial representations leads to significantly higher recognition recall than the typical whole image based retrieval. Our segments-based approach, dubbed SegVLAD, sets a new state-of-the-art in place recognition on a diverse selection of benchmark datasets, while being applicable to both generic and task-specialized image encoders. Finally, we demonstrate the potential of our method to ``revisit anything'' by evaluating our method on an object instance retrieval task, which bridges the two disparate areas of research: visual place recognition and object-goal navigation, through their common aim of recognizing goal objects specific to a place. Source code: https://github.com/AnyLoc/Revisit-Anything. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# 複数の計画ホライズンを用いた逆強化学習
Inverse Reinforcement Learning with Multiple Planning Horizons ( http://arxiv.org/abs/2409.18051v1 ) ライセンス: Link先を確認 | Jiayu Yao, Weiwei Pan, Finale Doshi-Velez, Barbara E Engelhardt, | (参考訳) 本研究では、専門家が共有報酬関数の下で計画している逆強化学習(IRL)問題について検討する。
割引係数の知識がなければ、報酬関数はより大きな実現可能な解集合を持ち、既存のIRLアプローチでは報酬関数の特定が困難になる。
この課題を克服するために、専門家のポリシーを再構築するエージェント固有の割引要素を持つグローバルマルチエージェント報酬関数を学習できるアルゴリズムを開発する。
報奨関数の実現可能な解空間と両アルゴリズムの割引係数を特徴付けるとともに,学習した報奨関数を複数の領域にわたって一般化可能であることを示す。
In this work, we study an inverse reinforcement learning (IRL) problem where the experts are planning under a shared reward function but with different, unknown planning horizons. Without the knowledge of discount factors, the reward function has a larger feasible solution set, which makes it harder for existing IRL approaches to identify a reward function. To overcome this challenge, we develop algorithms that can learn a global multi-agent reward function with agent-specific discount factors that reconstruct the expert policies. We characterize the feasible solution space of the reward function and discount factors for both algorithms and demonstrate the generalizability of the learned reward function across multiple domains. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# 解説
Explaining Explaining ( http://arxiv.org/abs/2409.18052v1 ) ライセンス: Link先を確認 | Sergei Nirenburg, Marjorie McShane, Kenneth W. Goodman, Sanjay Oruganti, | (参考訳) 高度なAIシステムに自信を持つ人々にとって、説明は鍵となる。
しかしながら、現在のAIのほぼすべてを占める機械学習ベースのシステムは、通常はブラックボックスであるため、説明できない。
説明可能なAI(XAI)ムーブメントは、この問題を"説明"を再定義することによってヘッジする。
人間中心で説明可能なAI(HCXAI)ムーブメントは、ユーザの説明指向のニーズを特定するが、機械学習へのコミットメントのため、それらを満たすことはできない。
クリティカルドメインで運用する現実の人々が必要とする説明の種別を達成するためには、AIにどのようにアプローチするかを再考する必要がある。
本稿では、機械学習によって得られたデータによって補完される知識ベースのインフラを応用した認知エージェント開発のためのハイブリッドアプローチについて述べる。
これらのエージェントは、人間ロボットチームの決定と行動の最終的な責任を負う人間のアシスタントとして機能する。
シミュレーションロボットのチームが人間に割り当てられた探索タスクで協調するデモシステムの、内部パネルを用いたエージェントの説明可能性について述べる。
Explanation is key to people having confidence in high-stakes AI systems. However, machine-learning-based systems - which account for almost all current AI - can't explain because they are usually black boxes. The explainable AI (XAI) movement hedges this problem by redefining "explanation". The human-centered explainable AI (HCXAI) movement identifies the explanation-oriented needs of users but can't fulfill them because of its commitment to machine learning. In order to achieve the kinds of explanations needed by real people operating in critical domains, we must rethink how to approach AI. We describe a hybrid approach to developing cognitive agents that uses a knowledge-based infrastructure supplemented by data obtained through machine learning when applicable. These agents will serve as assistants to humans who will bear ultimate responsibility for the decisions and actions of the human-robot team. We illustrate the explanatory potential of such agents using the under-the-hood panels of a demonstration system in which a team of simulated robots collaborates on a search task assigned by a human. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# DualAD: 自律運転における推論のための2層計画
DualAD: Dual-Layer Planning for Reasoning in Autonomous Driving ( http://arxiv.org/abs/2409.18053v1 ) ライセンス: Link先を確認 | Dingrui Wang, Marc Kaufeld, Johannes Betz, | (参考訳) 運転中の人間の推論を模倣する新しい自動運転フレームワークであるDualADを提案する。
DualADは2つのレイヤで構成されている。下層にあるルールベースのモーションプランナは最小の推論を必要とするルーチン駆動タスクを処理し、上層はルールベースのテキストエンコーダで、運転シナリオを絶対状態からテキスト記述に変換する。
このテキストは、大きな言語モデル(LLM)によって処理され、駆動決定を行う。
上層は潜在的な危険が検出されたときに下層の決定に介入し、臨界時の人間の推論を模倣する。
クローズドループ実験は、ゼロショット事前訓練モデルを用いたデュアラドが、推論能力に欠けるルールベースのモーションプランナーを著しく上回っていることを示した。
また,本実験では,テキストエンコーダの有効性を強調し,モデルのシナリオ理解を大幅に強化する。
さらに、統合されたDualADモデルは強力なLLMで改善され、フレームワークのさらなる拡張の可能性を示している。
コードとベンチマークを公開しています。
We present a novel autonomous driving framework, DualAD, designed to imitate human reasoning during driving. DualAD comprises two layers: a rule-based motion planner at the bottom layer that handles routine driving tasks requiring minimal reasoning, and an upper layer featuring a rule-based text encoder that converts driving scenarios from absolute states into text description. This text is then processed by a large language model (LLM) to make driving decisions. The upper layer intervenes in the bottom layer's decisions when potential danger is detected, mimicking human reasoning in critical situations. Closed-loop experiments demonstrate that DualAD, using a zero-shot pre-trained model, significantly outperforms rule-based motion planners that lack reasoning abilities. Our experiments also highlight the effectiveness of the text encoder, which considerably enhances the model's scenario understanding. Additionally, the integrated DualAD model improves with stronger LLMs, indicating the framework's potential for further enhancement. We make code and benchmarks publicly available. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# LightAvatar: ダイナミック・ニューラル・ライトフィールドとしての高効率ヘッドアバター
LightAvatar: Efficient Head Avatar as Dynamic Neural Light Field ( http://arxiv.org/abs/2409.18057v1 ) ライセンス: Link先を確認 | Huan Wang, Feitong Tan, Ziqian Bai, Yinda Zhang, Shichen Liu, Qiangeng Xu, Menglei Chai, Anish Prabhu, Rohit Pandey, Sean Fanello, Zeng Huang, Yun Fu, | (参考訳) 近年の研究では、パラメトリックモデル上にニューラルラジアンス場(NeRF)がSOTA品質に達し、モノクロビデオからフォトリアリスティックヘッドアバターを構築することが示されている。
しかし、NeRFベースのアバターの1つの大きな制限は、NeRFの高密度点サンプリングによるレンダリング速度が遅いことである。
ニューラル光場(NeLF)に基づく最初の頭部アバターモデルであるLightAvatarを紹介する。
LightAvatarは3DMMパラメータから画像をレンダリングし、メッシュやボリュームレンダリングを使わずに、単一のネットワークフォワードパスを介してカメラがポーズする。
提案手法は概念上は魅力的だが、リアルタイムの効率性とトレーニングの安定性に重大な課題をもたらす。
そこで我々は,NeLFモデルの適切な表現を得るための専用ネットワーク設計を導入し,低FLOPの予算を維持する。
一方,プレトレーニングされたアバターモデルを教師として利用して,豊富な擬似データを合成する蒸留ベースのトレーニング戦略を取り入れた。
実データにおける嵌合誤差を補正し、モデルがより良く学習できるように整合フィールドネットワークを導入する。
広汎な実験により,提案手法は,コンシューマグレードのGPU (RTX3090) 上で174.1 FPS (512x512 分解能) を最適化することなく,定量的あるいは定性的に新しいSOTA画質を実現することが可能であることが示唆された。
Recent works have shown that neural radiance fields (NeRFs) on top of parametric models have reached SOTA quality to build photorealistic head avatars from a monocular video. However, one major limitation of the NeRF-based avatars is the slow rendering speed due to the dense point sampling of NeRF, preventing them from broader utility on resource-constrained devices. We introduce LightAvatar, the first head avatar model based on neural light fields (NeLFs). LightAvatar renders an image from 3DMM parameters and a camera pose via a single network forward pass, without using mesh or volume rendering. The proposed approach, while being conceptually appealing, poses a significant challenge towards real-time efficiency and training stability. To resolve them, we introduce dedicated network designs to obtain proper representations for the NeLF model and maintain a low FLOPs budget. Meanwhile, we tap into a distillation-based training strategy that uses a pretrained avatar model as teacher to synthesize abundant pseudo data for training. A warping field network is introduced to correct the fitting error in the real data so that the model can learn better. Extensive experiments suggest that our method can achieve new SOTA image quality quantitatively or qualitatively, while being significantly faster than the counterparts, reporting 174.1 FPS (512x512 resolution) on a consumer-grade GPU (RTX3090) with no customized optimization. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# アプリ開発中に大きな言語モデルでAlt-textでUIアイコンを推測する
Infering Alt-text For UI Icons With Large Language Models During App Development ( http://arxiv.org/abs/2409.18060v1 ) ライセンス: Link先を確認 | Sabrina Haque, Christoph Csallner, | (参考訳) モバイルアプリケーションにおけるアクセシビリティの確保は、特に画面リーダーに依存している視覚障害者にとって、依然として大きな課題である。
ユーザインターフェースアイコンはナビゲーションとインタラクションに不可欠であり、意味のあるalt-textが欠如していることが多いため、効果的な使用の障壁が生じる。
アルトテキストを生成するための従来のディープラーニングアプローチは、広範なデータセットを必要とし、アイコンタイプの多様性と不均衡に苦労する。
最新のVision Language Models (VLM) には完全なUI画面が必要で、これはアプリ開発の反復的なフェーズにおいて実用的ではない。
これらの問題に対処するため,我々はLarge Language Models (LLMs) を用いて,部分的なUIデータを持つモバイルUIアイコンに対する情報的アルトテキストを自律的に生成する手法を提案する。
クラス、リソースID、バウンダリ、OCR検出されたテキスト、親と兄弟ノードからのコンテキスト情報を含むアイコンコンテキストを組み込むことで、約1.4kのアイコンからなる小さなデータセット上で、既製のLCMを微調整し、IconDescを生成する。
経験的評価とユーザスタディでは、IconDescは関連するalt-textの生成において大幅な改善を示す。
これにより、IconDescは開発者にとって貴重なツールとなり、迅速なイテレーションとUIアクセシビリティの向上を支援します。
Ensuring accessibility in mobile applications remains a significant challenge, particularly for visually impaired users who rely on screen readers. User interface icons are essential for navigation and interaction and often lack meaningful alt-text, creating barriers to effective use. Traditional deep learning approaches for generating alt-text require extensive datasets and struggle with the diversity and imbalance of icon types. More recent Vision Language Models (VLMs) require complete UI screens, which can be impractical during the iterative phases of app development. To address these issues, we introduce a novel method using Large Language Models (LLMs) to autonomously generate informative alt-text for mobile UI icons with partial UI data. By incorporating icon context, that include class, resource ID, bounds, OCR-detected text, and contextual information from parent and sibling nodes, we fine-tune an off-the-shelf LLM on a small dataset of approximately 1.4k icons, yielding IconDesc. In an empirical evaluation and a user study IconDesc demonstrates significant improvements in generating relevant alt-text. This ability makes IconDesc an invaluable tool for developers, aiding in the rapid iteration and enhancement of UI accessibility. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# 統計物理学と連続学習のための最適プロトコル
制御理論
Optimal Protocols for Continual Learning via Statistical Physics and Control Theory ( http://arxiv.org/abs/2409.18061v1 ) ライセンス: Link先を確認 | Francesco Mori, Stefano Sarao Mannelli, Francesca Mignacco | (参考訳) ニューラルネットワークは、複数のタスクを逐次学習する際に破滅的な忘れに苦しむことが多い。
近年の理論的研究は、事前定義されたトレーニングプロトコルの下での合成フレームワークにおける学習曲線の分析によってこの問題に対処している。
しかし、これらのプロトコルはヒューリスティックスに依存しており、その最適性を評価する確固たる理論基盤が欠如していた。
本稿では,このギャップを,統計的物理手法を用いて導出したトレーニング力学の正確な方程式と最適制御法を組み合わせて埋める。
本稿では,学習継続学習とマルチタスク問題に対する教師学生モデルに適用し,タスク選択プロトコルの学習効率を最大化しつつ,忘れを最小化する手法を提案する。
我々の理論的分析は、破滅的な忘れを緩和するための非自明で解釈可能な戦略を提供し、最適な学習プロトコルが、忘れに対するタスク類似性の影響など、確立された効果をいかに調節するかに光を当てる。
最後に,実世界のデータに関する理論的知見を検証した。
Artificial neural networks often struggle with catastrophic forgetting when learning multiple tasks sequentially, as training on new tasks degrades the performance on previously learned ones. Recent theoretical work has addressed this issue by analysing learning curves in synthetic frameworks under predefined training protocols. However, these protocols relied on heuristics and lacked a solid theoretical foundation assessing their optimality. In this paper, we fill this gap combining exact equations for training dynamics, derived using statistical physics techniques, with optimal control methods. We apply this approach to teacher-student models for continual learning and multi-task problems, obtaining a theory for task-selection protocols maximising performance while minimising forgetting. Our theoretical analysis offers non-trivial yet interpretable strategies for mitigating catastrophic forgetting, shedding light on how optimal learning protocols can modulate established effects, such as the influence of task similarity on forgetting. Finally, we validate our theoretical findings on real-world data. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# 時間変化ディフューザによる低光数非侵襲イメージング
Low Photon Number Non-Invasive Imaging Through Time-Varying Diffusers ( http://arxiv.org/abs/2409.18072v1 ) ライセンス: Link先を確認 | Adrian Makowski, Wojciech Zwolinski, Pawel Szczypkowski, Bernard Gorzkowski, Sylvain Gigan, Radek Lapkiewicz, | (参考訳) 散乱は光学イメージングにおいて重要な課題である。
顕微鏡では、試料の深度が上昇するのを防ぐため、画像品質の劣化が進行する。
試料の厚さが大きくなると、通過可能な光子の数が減少し、信号が減少し、鮮明な画像が得られなくなる。
イメージングは、時間とともに変化する生物学的組織のような動的散乱体によってさらに困難になる。
ダイナミックディフューザの裏側に隠された蛍光体の非侵襲イメージングを実証する。
我々の再構成では、異なるディフューザ実現のために記録された画像のスタックを使用し、個々のカメラフレームが小さな光子数を含む場合でも機能する。
Scattering poses a significant challenge in optical imaging. In microscopy, it leads to progressive degradation of image quality preventing sample examination at increasing depths. As the thickness of the sample increases, the number of photons that can successfully pass through it decreases, leading to a reduced signal and preventing us from obtaining clear images. Imaging becomes even more difficult with dynamic scatterers like biological tissues that change over time. We demonstrate non-invasive imaging of fluorescent objects hidden behind dynamic diffusers. Our reconstruction uses a stack of images recorded for different diffuser realizations and works even when individual camera frames contain small photon numbers. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# 自然言語の指示に先立って人の意図を推測する
Infer Human's Intentions Before Following Natural Language Instructions ( http://arxiv.org/abs/2409.18073v1 ) ライセンス: Link先を確認 | Yanming Wan, Yue Wu, Yiping Wang, Jiayuan Mao, Natasha Jaques | (参考訳) AIエージェントが人間に役に立つためには、自然言語の指示に従って、人間の環境における日々の協調作業を完成させるべきである。
しかし、実際の人間の指示は、人間の話者が隠れた目標や意図について十分な事前知識を前提としているため、本質的に曖昧さを持っている。
標準的な言語基盤と計画手法は、人間の内的目標を、環境の中で部分的に観察可能な要素としてモデル化しないため、そのような曖昧さに対処できない。
そこで我々は,協調的実施タスクにおける自然言語教育の改善を目的とした,社会・身体的推論を用いたフォローインストラクション(Follow Instructions with Social and Embodied Reasoning,FISER)を提案する。
我々のフレームワークは、中間的推論ステップとして、人間の目標と意図を明確に推論する。
我々はTransformerベースのモデルのセットを実装し、それを挑戦的なベンチマークであるHandMeThatで評価する。
行動計画を立てる前に、社会的推論を用いて人間の意図を明示的に推測することが、純粋にエンドツーエンドのアプローチを超えることを実証的に実証する。
また、私たちの実装と強力なベースライン(Chain of Thoughtなど)を比較した結果、FISERは調査中の社会的推論タスクにおいて、より優れたパフォーマンスを提供し、HandMeThatの最先端に到達していることがわかった。
For AI agents to be helpful to humans, they should be able to follow natural language instructions to complete everyday cooperative tasks in human environments. However, real human instructions inherently possess ambiguity, because the human speakers assume sufficient prior knowledge about their hidden goals and intentions. Standard language grounding and planning methods fail to address such ambiguities because they do not model human internal goals as additional partially observable factors in the environment. We propose a new framework, Follow Instructions with Social and Embodied Reasoning (FISER), aiming for better natural language instruction following in collaborative embodied tasks. Our framework makes explicit inferences about human goals and intentions as intermediate reasoning steps. We implement a set of Transformer-based models and evaluate them over a challenging benchmark, HandMeThat. We empirically demonstrate that using social reasoning to explicitly infer human intentions before making action plans surpasses purely end-to-end approaches. We also compare our implementation with strong baselines, including Chain of Thought prompting on the largest available pre-trained language models, and find that FISER provides better performance on the embodied social reasoning tasks under investigation, reaching the state-of-the-art on HandMeThat. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# SKT:ロボットガーメントマニピュレーションのための状態認識キーポイント軌道と視覚言語モデルの統合
SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation ( http://arxiv.org/abs/2409.18082v1 ) ライセンス: Link先を確認 | Xin Li, Siyuan Huang, Qiaojun Yu, Zhengkai Jiang, Ce Hao, Yimeng Zhu, Hongsheng Li, Peng Gao, Cewu Lu, | (参考訳) 衣服の操作の自動化は、衣服の多様性と変形性のために、補助ロボットにとって重要な課題となっている。
伝統的なアプローチは一般的に、スケーラビリティと適応性を制限する、各衣服タイプごとに別々のモデルを必要とする。
これとは対照的に,視覚言語モデル(VLM)を用いて,様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
視覚情報と意味情報の両方を解釈することにより、ロボットは単一のモデルで異なる衣服状態を管理することができる。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から,VLM法はキーポイント検出精度とタスク成功率を大幅に向上させ,ロボット服用操作の柔軟性と汎用性を実現した。
さらに、この研究は、VLMが単一のフレームワークに様々な衣服操作タスクを統合する可能性を強調し、将来のホームオートメーションやアシストロボティクスにおける幅広い応用の道を開く。
Automating garment manipulation poses a significant challenge for assistive robotics due to the diverse and deformable nature of garments. Traditional approaches typically require separate models for each garment type, which limits scalability and adaptability. In contrast, this paper presents a unified approach using vision-language models (VLMs) to improve keypoint prediction across various garment categories. By interpreting both visual and semantic information, our model enables robots to manage different garment states with a single model. We created a large-scale synthetic dataset using advanced simulation techniques, allowing scalable training without extensive real-world data. Experimental results indicate that the VLM-based method significantly enhances keypoint detection accuracy and task success rates, providing a more flexible and general solution for robotic garment manipulation. In addition, this research also underscores the potential of VLMs to unify various garment manipulation tasks within a single framework, paving the way for broader applications in home automation and assistive robotics for future. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# 安定した動画ポートレイト
Stable Video Portraits ( http://arxiv.org/abs/2409.18083v1 ) ライセンス: Link先を確認 | Mirela Ostrek, Justus Thies, | (参考訳) 生成的AIとテキスト・ツー・イメージの手法の分野での急速な進歩は、今日のコンピュータ生成画像との相互作用や知覚の方法を変えている。
並行して、3次元形態モデル(3DMM)を用いた3次元顔再構成にも多くの進歩があった。
本稿では,3DMM(3D)を介して制御される2Dの事前学習(2D)を利用した,対話面のフォトリアリスティックな映像を出力するハイブリッド2D/3D生成方式について述べる。
具体的には、時間的3DMMシーケンスを条件付けとして提供し、時間的復調手順を導入することで、ビデオモデルに持ち上げる一般的な2D安定拡散モデルの人固有の微調整を導入する。
出力として、3DMMに基づく制御、すなわち人固有のアバターを持つ人の時間的に滑らかな画像を生成する。
この人物特有のアバターの顔の外観は、テスト時に微調整することなく、テキスト定義された有名人に編集、変形することができる。
本手法は定量的に定性的に解析し,最先端のモノクラーヘッドアバター法より優れていることを示す。
Rapid advances in the field of generative AI and text-to-image methods in particular have transformed the way we interact with and perceive computer-generated imagery today. In parallel, much progress has been made in 3D face reconstruction, using 3D Morphable Models (3DMM). In this paper, we present SVP, a novel hybrid 2D/3D generation method that outputs photorealistic videos of talking faces leveraging a large pre-trained text-to-image prior (2D), controlled via a 3DMM (3D). Specifically, we introduce a person-specific fine-tuning of a general 2D stable diffusion model which we lift to a video model by providing temporal 3DMM sequences as conditioning and by introducing a temporal denoising procedure. As an output, this model generates temporally smooth imagery of a person with 3DMM-based controls, i.e., a person-specific avatar. The facial appearance of this person-specific avatar can be edited and morphed to text-defined celebrities, without any fine-tuning at test time. The method is analyzed quantitatively and qualitatively, and we show that our method outperforms state-of-the-art monocular head avatar methods. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# GSON:大規模マルチモーダルモデルを用いたグループ型ソーシャルナビゲーションフレームワーク
GSON: A Group-based Social Navigation Framework with Large Multimodal Model ( http://arxiv.org/abs/2409.18084v1 ) ライセンス: Link先を確認 | Shangyi Luo, Ji Zhu, Peng Sun, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang, | (参考訳) 人間中心の環境におけるサービスロボットや自動運転車の数が増えるにつれ、その要件は単なる目的地への移動以上のものとなる。
また、動的な社会的文脈を考慮に入れ、共有空間における他人への尊敬と慰めを確実にし、認識と計画に重大な課題をもたらす必要がある。
本稿では,LMM(Large Multimodal Model)の視覚的推論能力を評価することで,移動ロボットが周囲の社会的グループを知覚し,活用するためのグループベースのソーシャルナビゲーションフレームワークGSONを提案する。
認識のために、歩行者間の社会的関係をゼロショットで抽出する視覚的プロンプト技術を適用し、その結果を頑健な歩行者検出・追跡パイプラインと組み合わせることで、LMMの低推論速度の問題を軽減する。
認識結果から、現在の社会構造を混乱させないよう設計されている。
我々は,グローバルパス計画とローカルモーションプランニングの橋渡しとして,社会構造に基づく中間レベルプランナを採用し,グローバルコンテキストと応答性を維持する。
複雑な社会構造理解と推論を含む実世界の移動ロボットナビゲーションタスクに対して,提案手法の有効性を検証した。
実験により,これらのシナリオにおけるシステムの有効性を,いくつかのベースラインと比較した。
As the number of service robots and autonomous vehicles in human-centered environments grows, their requirements go beyond simply navigating to a destination. They must also take into account dynamic social contexts and ensure respect and comfort for others in shared spaces, which poses significant challenges for perception and planning. In this paper, we present a group-based social navigation framework GSON to enable mobile robots to perceive and exploit the social group of their surroundings by leveling the visual reasoning capability of the Large Multimodal Model (LMM). For perception, we apply visual prompting techniques to zero-shot extract the social relationship among pedestrians and combine the result with a robust pedestrian detection and tracking pipeline to alleviate the problem of low inference speed of the LMM. Given the perception result, the planning system is designed to avoid disrupting the current social structure. We adopt a social structure-based mid-level planner as a bridge between global path planning and local motion planning to preserve the global context and reactive response. The proposed method is validated on real-world mobile robot navigation tasks involving complex social structure understanding and reasoning. Experimental results demonstrate the effectiveness of the system in these scenarios compared with several baselines. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# コンベヤベルト磁気光学的分子トラップ
Conveyor-belt magneto-optical trapping of molecules ( http://arxiv.org/abs/2409.18090v1 ) ライセンス: Link先を確認 | Grace K. Li, Christian Hallas, John M. Doyle, | (参考訳) レーザー冷却は、量子科学と精密測定のための超低温原子や分子を製造するために用いられる。
分子は、振動や回転する内部自由度のために、原子よりも冷却することが難しい。
分子の回転は、磁気光学的トラップ(MOT)にタイプII遷移(F \geq F'$)を使用する。
これらの遷移に典型的な赤色の偏光周波数が適用されると、サブドップラー加熱が誘導され、その結果、I型MOTが原子でよく用いられるよりも高温で分子雲のサイズが大きくなる。
タイプIIのMOTを改善するため、Jarvis et al PRL 120, 083201 (2018) は赤のMOTを用いて初期冷却および捕獲後に適用できる青のMOTを提案した。
これはうまく実装され(Burau et al PRL 130, 193401 (2023), Jorapur et al PRL 132, 163403 (2024), Li et al PRL 132, 233402 (2024))、より低温で密度の高い分子サンプルを実現した。
つい最近、Haras et al arXiv:2404.03636 (2024) は分子雲をさらに強く圧縮する「1+2」構成の青いMOTを実証した。
ここでは,これを観測した圧縮の基盤となるコンベヤベルト機構を理論的に記述し,特徴付ける。
確率的シュリンガー方程式(SSE)と光ブロッホ方程式(OBE)の両方を用いてコンベヤベルト機構の数値シミュレーションを行う。
コンベアベルトMOT特性は, レーザーパラメータ, g因子, 分子系の構造と関係する。
Laser cooling is used to produce ultracold atoms and molecules for quantum science and precision measurement applications. Molecules are more challenging to cool than atoms due to their vibrational and rotational internal degrees of freedom. Molecular rotations lead to the use of type-II transitions ($F \geq F'$) for magneto-optical trapping (MOT). When typical red detuned light frequencies are applied to these transitions, sub-Doppler heating is induced, resulting in higher temperatures and larger molecular cloud sizes than realized with the type-I MOTs most often used with atoms. To improve type-II MOTs, Jarvis et al. PRL 120, 083201 (2018) proposed a blue-detuned MOT to be applied after initial cooling and capture with a red-detuned MOT. This was successfully implemented (Burau et al. PRL 130, 193401 (2023), Jorapur et al. PRL 132, 163403 (2024), Li et al. PRL 132, 233402 (2024)), realizing colder and denser molecular samples. Very recently, Hallas et al. arXiv:2404.03636 (2024) demonstrated a blue-detuned MOT with a "1+2" configuration that resulted in even stronger compression of the molecular cloud. Here, we describe and characterize theoretically the conveyor-belt mechanism that underlies this observed enhanced compression. We perform numerical simulations of the conveyor-belt mechanism using both stochastic Schr\"odinger equation (SSE) and optical Bloch equation (OBE) approaches. We investigate the conveyor-belt MOT characteristics in relation to laser parameters, g-factors, and the structure of the molecular system. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# DiffSSC: Denoising Diffusion Probabilistic Modelを用いた意味的LiDARスキャン補完
DiffSSC: Semantic LiDAR Scan Completion using Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2409.18092v1 ) ライセンス: Link先を確認 | Helin Cao, Sven Behnke, | (参考訳) 知覚システムは、複数のセンサーと対応するコンピュータビジョンアルゴリズムを組み込んだ自律運転において重要な役割を果たす。
3D LiDARセンサーは、車両の周囲の粗い点雲を捉えるために広く使われている。
しかし、これらのシステムは、これらの点雲の空白さと意味論の欠如により、隠蔽された領域と風景の隙間を知覚するのに苦労している。
これらの課題に対処するため、SSC(Semantic Scene Completion)は、より完全なシーン表現を目指して、生のLiDAR測定を与えられたシーンにおける観測されていない幾何学と意味を共同で予測する。
画像生成および超解像タスクにおける拡散モデルの有望な結果に基づいて、各点と意味空間における拡散過程を個別に導入し、SSCへの拡張を提案する。
生成を制御するため,条件付き入力として意味的LiDAR点雲を用い,局所的およびグローバルな正規化損失を設計し,デノナイジングプロセスの安定化を図る。
我々は、自律運転データセットに対する我々のアプローチを評価し、そのアプローチは、SSCの最先端技術よりも優れています。
Perception systems play a crucial role in autonomous driving, incorporating multiple sensors and corresponding computer vision algorithms. 3D LiDAR sensors are widely used to capture sparse point clouds of the vehicle's surroundings. However, such systems struggle to perceive occluded areas and gaps in the scene due to the sparsity of these point clouds and their lack of semantics. To address these challenges, Semantic Scene Completion (SSC) jointly predicts unobserved geometry and semantics in the scene given raw LiDAR measurements, aiming for a more complete scene representation. Building on promising results of diffusion models in image generation and super-resolution tasks, we propose their extension to SSC by implementing the noising and denoising diffusion processes in the point and semantic spaces individually. To control the generation, we employ semantic LiDAR point clouds as conditional input and design local and global regularization losses to stabilize the denoising process. We evaluate our approach on autonomous driving datasets and our approach outperforms the state-of-the-art for SSC. | 翻訳日:2024-09-27 21:38:28 公開日:2024-09-26 |
# 心臓血管磁気共鳴シネに対する自己教師付きプレトレーニング
セグメンテーション
Self-supervised Pretraining for Cardiovascular Magnetic Resonance Cine Segmentation ( http://arxiv.org/abs/2409.18100v1 ) ライセンス: Link先を確認 | Rob A. J. de Mooij, Josien P. W. Pluim, Cian M. Scannell | (参考訳) 自己教師付きプレトレーニング(SSP)は、大きなラベルのないデータセットから学習する上で有望な結果を示しており、したがって、自動心臓血管磁気共鳴(CMR)短軸シネセグメンテーションに有用である。
しかし, セグメンテーションにおけるSSPの有用性の相反する報告は, CMRへのSSPの適用を困難にしている。
そこで本研究では,CMRシネセグメンテーションにおけるSSP法の評価を目的とした。
この目的のために,SSP法(SimCLR,位置コントラスト学習,DINO,マスク画像モデリング(MIM))を用いて,296名(906182Dスライス)の短軸シネスタックを使用した。
種々の被験者のサブセットを用いて,SSP法ごとに2次元モデルの微調整を行い,スクラッチから2次元ベースラインモデルを訓練した。
3次元Dice類似度係数 (DSC) を用いて, 被験者140名を対象に, 微調整モデルとベースラインを比較した。
SSP法では, ベースライン (DSC=0.89) と比較して, 教師付き微調整サブセットが最大であった。
10人の被験者(231個の2Dスライス)のみが指導訓練を受けられる場合、MIM(DSC = 0.86)を使用したSSPは、スクラッチ(DSC = 0.82)のトレーニングよりも改善される。
本研究では,ラベル付きトレーニングデータが少ない場合,SSPはCMRシネセグメンテーションに有用であるが,十分なラベル付きデータが存在する場合,最先端のディープラーニング手法には役に立たないことを示した。
また,SSP法の選択も重要である。
コードは、https://github.com/q-cardIA/ssp-cmr-cine-segmentationで公開されている。
Self-supervised pretraining (SSP) has shown promising results in learning from large unlabeled datasets and, thus, could be useful for automated cardiovascular magnetic resonance (CMR) short-axis cine segmentation. However, inconsistent reports of the benefits of SSP for segmentation have made it difficult to apply SSP to CMR. Therefore, this study aimed to evaluate SSP methods for CMR cine segmentation. To this end, short-axis cine stacks of 296 subjects (90618 2D slices) were used for unlabeled pretraining with four SSP methods; SimCLR, positional contrastive learning, DINO, and masked image modeling (MIM). Subsets of varying numbers of subjects were used for supervised fine-tuning of 2D models for each SSP method, as well as to train a 2D baseline model from scratch. The fine-tuned models were compared to the baseline using the 3D Dice similarity coefficient (DSC) in a test dataset of 140 subjects. The SSP methods showed no performance gains with the largest supervised fine-tuning subset compared to the baseline (DSC = 0.89). When only 10 subjects (231 2D slices) are available for supervised training, SSP using MIM (DSC = 0.86) improves over training from scratch (DSC = 0.82). This study found that SSP is valuable for CMR cine segmentation when labeled training data is scarce, but does not aid state-of-the-art deep learning methods when ample labeled data is available. Moreover, the choice of SSP method is important. The code is publicly available at: https://github.com/q-cardIA/ssp-cmr-cine-segmentation | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# MALPOLON: 深部種分布モデリングのためのフレームワーク
MALPOLON: A Framework for Deep Species Distribution Modeling ( http://arxiv.org/abs/2409.18102v1 ) ライセンス: Link先を確認 | Theo Larcher, Lukas Picek, Benjamin Deneu, Titouan Lorieul, Maximilien Servajean, Alexis Joly | (参考訳) 本稿では, ディープSDMフレームワークであるMALPOLONについて述べる。
Pythonで書かれ、PyTorchライブラリ上に構築されたこのフレームワークは、ディープラーニングアプローチのテストに関心がある一般的なPython言語スキル(例えば、生態学者)しか持たないユーザを対象に、ディープ種の分散モデルのトレーニングと推論を容易にすることを目的としている。
より高度なユーザは、既存のクラスをオーバーライドし、プレスボタンの例を利用して、カスタムまたは提供された生および処理済みのデータセットを使用して、複数の分類タスクでニューラルネットワークをトレーニングすることで、フレームワークのモジュール化の恩恵を受けることができる。
フレームワークはGitHubとPyPiでオープンソースとして公開されている。
MALPOLONは、簡単なインストール、YAMLベースの構成、並列コンピューティング、マルチGPU利用、ベンチマークのためのベースラインと基礎モデル、および広範なチュートリアル/ドキュメントを提供し、生態学者や研究者のアクセシビリティとパフォーマンスのスケーラビリティの向上を目指している。
This paper describes a deep-SDM framework, MALPOLON. Written in Python and built upon the PyTorch library, this framework aims to facilitate training and inferences of deep species distribution models (deep-SDM) and sharing for users with only general Python language skills (e.g., modeling ecologists) who are interested in testing deep learning approaches to build new SDMs. More advanced users can also benefit from the framework's modularity to run more specific experiments by overriding existing classes while taking advantage of press-button examples to train neural networks on multiple classification tasks using custom or provided raw and pre-processed datasets. The framework is open-sourced on GitHub and PyPi along with extensive documentation and examples of use in various scenarios. MALPOLON offers straightforward installation, YAML-based configuration, parallel computing, multi-GPU utilization, baseline and foundational models for benchmarking, and extensive tutorials/documentation, aiming to enhance accessibility and performance scalability for ecologists and researchers. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# Rhinosを発見せずにRhinosを見つける - マルチモーダルによるアクティブラーニング
南アフリカのRhino Habitatsの画像
Find Rhinos without Finding Rhinos: Active Learning with Multimodal Imagery of South African Rhino Habitats ( http://arxiv.org/abs/2409.18104v1 ) ライセンス: Link先を確認 | Lucia Gordon, Nikhil Behari, Samuel Collier, Elizabeth Bondi-Kelly, Jackson A. Killian, Catherine Ressijac, Peter Boucher, Andrew Davies, Milind Tambe | (参考訳) 地球のカリスマ性巨大動物相の多くは、アフリカにおける密猟の危機により絶滅の危険にさらされている、特にサイによって危険にさらされている。
サイの動きのモニタリングは保護に不可欠であるが、サイが解離しやすいため、残念ながら難しいことが証明されている。
そこで本研究では,サイを追尾する代わりに,サイの空間行動に関する情報を提供する「ミドルデン」と呼ばれる共同排便場所のマッピング手法を提案する。
本稿では,受動的かつアクティブな学習環境において,リモートセンシングされたサーマル,RGB,LiDAR画像を用いて,サイのミッドデン位置の初回マッピングを行う。
既存のアクティブラーニング手法は,データセットの過度なクラス不均衡により性能が低下しているため,ラベルが94%少ないパッシブラーニングモデルと競合する性能を達成するために,ランク付け手法とマルチモーダリティを用いたアクティブラーニングシステムであるMultimodalを設計する。
したがって、同様のサイズのデータセットで使用する場合、ラベル付けの時間は76時間以上節約できる。
私たちのミッドデンマップでは、サイのミドルデンがランダムに風景中に分散するのではなく、クラスタ化されていることがわかりました。
その結果、レンジャーは国連目標15.7に従って、高い中規模密度の地域を標的として、密猟対策を強化すべきである。
Much of Earth's charismatic megafauna is endangered by human activities, particularly the rhino, which is at risk of extinction due to the poaching crisis in Africa. Monitoring rhinos' movement is crucial to their protection but has unfortunately proven difficult because rhinos are elusive. Therefore, instead of tracking rhinos, we propose the novel approach of mapping communal defecation sites, called middens, which give information about rhinos' spatial behavior valuable to anti-poaching, management, and reintroduction efforts. This paper provides the first-ever mapping of rhino midden locations by building classifiers to detect them using remotely sensed thermal, RGB, and LiDAR imagery in passive and active learning settings. As existing active learning methods perform poorly due to the extreme class imbalance in our dataset, we design MultimodAL, an active learning system employing a ranking technique and multimodality to achieve competitive performance with passive learning models with 94% fewer labels. Our methods could therefore save over 76 hours in labeling time when used on a similarly-sized dataset. Unexpectedly, our midden map reveals that rhino middens are not randomly distributed throughout the landscape; rather, they are clustered. Consequently, rangers should be targeted at areas with high midden densities to strengthen anti-poaching efforts, in line with UN Target 15.7. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# 多様な視点を捉えるためのオープンワールド評価
Open-World Evaluation for Retrieving Diverse Perspectives ( http://arxiv.org/abs/2409.18110v1 ) ライセンス: Link先を確認 | Hung-Ting Chen, Eunsol Choi, | (参考訳) 複雑で論争の多い質問(例えば、ChatGPTは善よりも害を受けるのか?
調査質問や討論ウェブサイトを参考に,各事例は質問と質問に関連した多様な視点から構成される。
このデータに基づいて、コーパスとペアのレトリバーを評価し、多様な視点を含む文書セットをサーフェスする。
我々のフレーミングは、そのドキュメントの関連性にあるほとんどの検索タスクから分岐しており、単純な文字列マッチングと参照によって決定できない。
代わりに、検索した文書に視点があるかどうかを判断する言語モデルに基づく自動評価器を構築する。
これにより、3種類のコーパス(ウィキペディア、ウェブスナップショット、コーパス、検索エンジンからの検索ページで構築したコーパス)を検索器と組み合わせて評価することができる。
多様な文書の検索は依然として困難であり、既存の検索者からの出力は33.74%のサンプルで全ての視点をカバーしている。
さらに,クエリ拡張と多様性を重視したリグレードアプローチの影響について検討し,検索者のサイコファンシーを分析した。
そこで我々は,複雑なクエリを扱う検索の多様性に関する今後の研究の基盤を構築した。
We study retrieving a set of documents that covers various perspectives on a complex and contentious question (e.g., will ChatGPT do more harm than good?). We curate a Benchmark for Retrieval Diversity for Subjective questions (BERDS), where each example consists of a question and diverse perspectives associated with the question, sourced from survey questions and debate websites. On this data, retrievers paired with a corpus are evaluated to surface a document set that contains diverse perspectives. Our framing diverges from most retrieval tasks in that document relevancy cannot be decided by simple string matches to references. Instead, we build a language model based automatic evaluator that decides whether each retrieved document contains a perspective. This allows us to evaluate the performance of three different types of corpus (Wikipedia, web snapshot, and corpus constructed on the fly with retrieved pages from the search engine) paired with retrievers. Retrieving diverse documents remains challenging, with the outputs from existing retrievers covering all perspectives on only 33.74% of the examples. We further study the impact of query expansion and diversity-focused reranking approaches and analyze retriever sycophancy. Together, we lay the foundation for future studies in retrieval diversity handling complex queries. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# E.T. Bench: オープンなイベントレベルビデオランゲージ理解を目指して
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding ( http://arxiv.org/abs/2409.18111v1 ) ライセンス: Link先を確認 | Ye Liu, Zongyang Ma, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen, | (参考訳) ビデオ大言語モデル(ビデオ-LLM)の最近の進歩は、汎用的なビデオ理解において、その大きな可能性を実証している。
これらのモデルの重要性を検証するために、異なるシナリオでそれらの能力を診断するために、多くのベンチマークが提案されている。
しかし、既存のベンチマークでは、単にビデオレベルの質問回答を通じてモデルを評価するだけで、きめ細かいイベントレベルの評価とタスクの多様性が欠如している。
このギャップを埋めるために、オープンなイベントレベルのビデオ理解のための大規模かつ高品質なベンチマークであるE.T. Bench(Event-Level & Time-Sensitive Video Understanding Benchmark)を紹介します。
E.T. Benchは3段階のタスク分類で分類され、12タスク以下の7.3Kサンプルと8ドメイン以下の7Kビデオ(総長さ251.4h)を包含し、包括的な評価を提供している。
提案手法は,映像の文脈長,不適切な時間表現,マルチイベントトレーニングデータの欠如など,粗い(映像レベル)理解のための最先端モデルを用いて,映像中の関心事のグラウンド化に苦しむ8つの画像-LLMと12個のビデオ-LLMをベンチマークで広範囲に評価した。
これらの問題に焦点をあて、より詳細なイベントレベルの理解に適した命令チューニングデータセットE.T. Instruct 164Kとともに、強力なベースラインモデルE.T. Chatを提案する。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
Recent advances in Video Large Language Models (Video-LLMs) have demonstrated their great potential in general-purpose video understanding. To verify the significance of these models, a number of benchmarks have been proposed to diagnose their capabilities in different scenarios. However, existing benchmarks merely evaluate models through video-level question-answering, lacking fine-grained event-level assessment and task diversity. To fill this gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark), a large-scale and high-quality benchmark for open-ended event-level video understanding. Categorized within a 3-level task taxonomy, E.T. Bench encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length) under 8 domains, providing comprehensive evaluations. We extensively evaluated 8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that state-of-the-art models for coarse-level (video-level) understanding struggle to solve our fine-grained tasks, e.g., grounding event-of-interests within videos, largely due to the short video context length, improper time representations, and lack of multi-event training data. Focusing on these issues, we further propose a strong baseline model, E.T. Chat, together with an instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained event-level understanding. Our simple but effective solution demonstrates superior performance in multiple scenarios. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# (SPT-)射影的非可逆対称性からのLSM定理
(SPT-)LSM theorems from projective non-invertible symmetries ( http://arxiv.org/abs/2409.18113v1 ) ライセンス: Link先を確認 | Salvatore D. Pace, Ho Tat Lam, Ömer M. Aksoy, | (参考訳) 射影対称性は量子格子モデルにおいてユビキタスであり、位相図や絡み合い構造を制約するために利用することができる。
本稿では,非可逆対称性と格子変換によって形成される射影代数の群値量子XYモデルにおける帰結について検討する。
このモデルは有限群$G$で指定され、射影的$\mathsf{Rep}(G)\times Z(G)$と翻訳対称性を楽しむ。
可逆対称性について、そのような射影代数はリーブ・シュルツ・マティス(LSM)異常を暗示する。
しかし、これは一般に非可逆対称性には当てはまらないので、LSM異常の存在に対して$G$の条件を導出する。
この条件が満たされていない場合、任意の特異かつギャップ付き基底状態が、必ずしも非自明な絡み合いを持つ非可逆弱対称性保護位相状態(SPT)であることを証明する。
射影性はまた、$\mathsf{Rep}(G)\times Z(G)$ sub-symmetries をゲージした後の双対対称性にも影響し、非アベル的かつ非可逆な双極子対称性や非可逆変換をもたらす。
我々は解析をSymTFTで補完するが、そこでは射影が変換によって非自明にリッチ化された位相順序となる。
論文を通して、我々は、$\mathsf{Rep}(G)$対称性を持ち、その対称性の欠陥を格子に挿入する技術を開発し、他の非可逆対称性に適用する。
Projective symmetries are ubiquitous in quantum lattice models and can be leveraged to constrain their phase diagram and entanglement structure. In this paper, we investigate the consequences of projective algebras formed by non-invertible symmetries and lattice translations in a generalized $1+1$D quantum XY model based on group-valued qudits. This model is specified by a finite group $G$ and enjoys a projective $\mathsf{Rep}(G)\times Z(G)$ and translation symmetry, where symmetry operators obey a projective algebra in the presence of symmetry defects. For invertible symmetries, such projective algebras imply Lieb-Schultz-Mattis (LSM) anomalies. However, this is not generally true for non-invertible symmetries, and we derive a condition on $G$ for the existence of an LSM anomaly. When this condition is not met, we prove that any unique and gapped ground state is necessarily a non-invertible weak symmetry protected topological (SPT) state with non-trivial entanglement, for which we construct an example fixed-point Hamiltonian. The projectivity also affects the dual symmetries after gauging $\mathsf{Rep}(G)\times Z(G)$ sub-symmetries, giving rise to non-Abelian and non-invertible dipole symmetries, as well as non-invertible translations. We complement our analysis with the SymTFT, where the projectivity causes it to be a topological order non-trivially enriched by translations. Throughout the paper, we develop techniques for gauging $\mathsf{Rep}(G)$ symmetry and inserting its symmetry defects on the lattice, which are applicable to other non-invertible symmetries. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# EdgeRunner: アーティスティックメッシュ生成のための自動回帰自動エンコーダ
EdgeRunner: Auto-regressive Auto-encoder for Artistic Mesh Generation ( http://arxiv.org/abs/2409.18114v1 ) ライセンス: Link先を確認 | Jiaxiang Tang, Zhaoshuo Li, Zekun Hao, Xian Liu, Gang Zeng, Ming-Yu Liu, Qinsheng Zhang, | (参考訳) 現在の自己回帰メッシュ生成手法は、不完全性、詳細性の不十分、一般化の不十分といった問題に悩まされている。
本稿では,最大4,000面の高品質な3Dメッシュを空間分解能512^3$で生成できる自動回帰型オートエンコーダ(ArAE)モデルを提案する。
本稿では, 3次元メッシュを1次元トークンシーケンスに効率よく圧縮し, トレーニング効率を大幅に向上させる新しいメッシュトークン化アルゴリズムを提案する。
さらに,変数長の三角形メッシュを固定長の潜在空間に圧縮し,より一般化した潜在拡散モデルのトレーニングを可能にする。
大規模な実験は、ポイントクラウドとイメージコンディショニングされたメッシュ生成タスクの両方において、我々のモデルの優れた品質、多様性、一般化能力を示す。
Current auto-regressive mesh generation methods suffer from issues such as incompleteness, insufficient detail, and poor generalization. In this paper, we propose an Auto-regressive Auto-encoder (ArAE) model capable of generating high-quality 3D meshes with up to 4,000 faces at a spatial resolution of $512^3$. We introduce a novel mesh tokenization algorithm that efficiently compresses triangular meshes into 1D token sequences, significantly enhancing training efficiency. Furthermore, our model compresses variable-length triangular meshes into a fixed-length latent space, enabling training latent diffusion models for better generalization. Extensive experiments demonstrate the superior quality, diversity, and generalization capabilities of our model in both point cloud and image-conditioned mesh generation tasks. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# コントラスト言語画像のためのマルチビューとマルチスケールアライメント
マンモグラフィにおけるプレトレーニング
Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography ( http://arxiv.org/abs/2409.18119v1 ) ライセンス: Link先を確認 | Yuexi Du, John Onofrey, Nicha C. Dvornek | (参考訳) 対照的に、CLIP(Contrastive Language- Image Pre-Training)は医療画像解析において有望であるが、かなりのデータと計算資源を必要とする。
これらの制限により、医療画像における既存のCLIP応用は主に、豊富な画像レポートデータを持つ胸部X線のようなモダリティに焦点を当て、他の多くの重要なモダリティが未発見のまま残されている。
本稿では,マンモグラフィーへの完全CLIPモデルの最初の適応について提案する。これは,データ不足のラベル付け,低関心領域の高解像度画像,データ不均衡による重要な課題である。
われわれはまず,マンモグラフィーの多視点性を活用した特別監視フレームワークを開発する。
さらに,高解像度画像の詳細な特徴に焦点を合わせるために,対称な局所アライメントモジュールを設計する。
最後に,データ制限に対処するために,医学知識を事前学習した大規模言語モデルに対して,パラメータ効率のよい微調整手法を取り入れた。
我々のマルチビュー・マルチスケールアライメント(MaMA)法は,2つの大きな実世界のマンモグラフィーデータセットであるEMBEDとRSNA-Mammoの3つのタスクに対して,最大のベースラインに比べて52%のモデルサイズで,最先端のベースラインよりも優れている。
Contrastive Language-Image Pre-training (CLIP) shows promise in medical image analysis but requires substantial data and computational resources. Due to these restrictions, existing CLIP applications in medical imaging focus mainly on modalities like chest X-rays that have abundant image-report data available, leaving many other important modalities under-explored. Here, we propose the first adaptation of the full CLIP model to mammography, which presents significant challenges due to labeled data scarcity, high-resolution images with small regions of interest, and data imbalance. We first develop a specialized supervision framework for mammography that leverages its multi-view nature. Furthermore, we design a symmetric local alignment module to better focus on detailed features in high-resolution images. Lastly, we incorporate a parameter-efficient fine-tuning approach for large language models pre-trained with medical knowledge to address data limitations. Our multi-view and multi-scale alignment (MaMA) method outperforms state-of-the-art baselines for three different tasks on two large real-world mammography datasets, EMBED and RSNA-Mammo, with only 52% model size compared with the largest baseline. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# EvMAPPER:イベントカメラ搭載の高高度オーソマッピング
EvMAPPER: High Altitude Orthomapping with Event Cameras ( http://arxiv.org/abs/2409.18120v1 ) ライセンス: Link先を確認 | Fernando Cladera, Kenneth Chaney, M. Ani Hsieh, Camillo J. Taylor, Vijay Kumar, | (参考訳) 従来、無人航空機(UAV)はCMOSベースのカメラを使って下の世界の画像を収集していた。
UAVの最も成功した応用の1つは、より大きな地図を開発するために一連の画像が統合される、オルソモザイク(ortomosaics)またはオルソマップを生成することである。
しかし、グローバルシャッターやローリングシャッターを備えたCMOSベースのカメラを使用することで、直交マップは難易度の高い光条件、動きのぼやけ、カメラの下に独立して動く物体の高速な動きに対して脆弱である。
イベントカメラは、これらの問題に敏感ではない。
この研究は、イベントカメラを用いた最初のオルソモザイク的アプローチを導入している。
CMOSカメラのみに頼っている既存の手法とは対照的に、直射日光や日没後の光条件においてもマップ生成が可能となる。
Traditionally, unmanned aerial vehicles (UAVs) rely on CMOS-based cameras to collect images about the world below. One of the most successful applications of UAVs is to generate orthomosaics or orthomaps, in which a series of images are integrated together to develop a larger map. However, the use of CMOS-based cameras with global or rolling shutters mean that orthomaps are vulnerable to challenging light conditions, motion blur, and high-speed motion of independently moving objects under the camera. Event cameras are less sensitive to these issues, as their pixels are able to trigger asynchronously on brightness changes. This work introduces the first orthomosaic approach using event cameras. In contrast to existing methods relying only on CMOS cameras, our approach enables map generation even in challenging light conditions, including direct sunlight and after sunset. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# モノクロ4D再構成による人工物体の操作を模倣するロボット「Do」
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction ( http://arxiv.org/abs/2409.18121v1 ) ライセンス: Link先を確認 | Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa, | (参考訳) 人間は、他の人を見ることで新しい物体を操ることを学ぶことができ、ロボットにそのようなデモから学ぶ能力を与えることで、新しい行動を特定する自然なインターフェイスを可能にする。
この研究は,1つの静的多視点オブジェクトスキャンを与えられた1つの単分子RGB人間の実演から,音声による物体操作を模倣するロボットシーロボットDo(RSRD)を開発した。
まず,4次元微分可能部品モデル (4D-DPM) を提案する。
この分析・バイ・シンセプション手法は、幾何正規化器を用いて1つのビデオから3次元運動を復元する反復最適化において、部分中心の特徴場を用いる。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
デモを部分中心の軌道として表現することで、RSRDは、手の動きを再現しようとするのではなく、ロボット自身の形態的限界を考慮して、デモの意図した動作を複製することに焦点を当てる。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
RSRDの各フェーズは平均87%の成功率を達成し、90回の試験でエンド・ツー・エンドの成功率は60%である。
特に、これは、大規模な事前訓練されたビジョンモデルから抽出された機能フィールドのみを使用して実現されている。
プロジェクトページ:https://robot-see-robot-do.github.io
Humans can learn to manipulate new objects by simply watching others; providing robots with the ability to learn from such demonstrations would enable a natural interface specifying new behaviors. This work develops Robot See Robot Do (RSRD), a method for imitating articulated object manipulation from a single monocular RGB human demonstration given a single static multi-view object scan. We first propose 4D Differentiable Part Models (4D-DPM), a method for recovering 3D part motion from a monocular video with differentiable rendering. This analysis-by-synthesis approach uses part-centric feature fields in an iterative optimization which enables the use of geometric regularizers to recover 3D motions from only a single video. Given this 4D reconstruction, the robot replicates object trajectories by planning bimanual arm motions that induce the demonstrated object part motion. By representing demonstrations as part-centric trajectories, RSRD focuses on replicating the demonstration's intended behavior while considering the robot's own morphological limits, rather than attempting to reproduce the hand's motion. We evaluate 4D-DPM's 3D tracking accuracy on ground truth annotated 3D part trajectories and RSRD's physical execution performance on 9 objects across 10 trials each on a bimanual YuMi robot. Each phase of RSRD achieves an average of 87% success rate, for a total end-to-end success rate of 60% across 90 trials. Notably, this is accomplished using only feature fields distilled from large pretrained vision models -- without any task-specific training, fine-tuning, dataset collection, or annotation. Project page: https://robot-see-robot-do.github.io | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# Lotus: 高品質デンス予測のための拡散ベースビジュアルファウンデーションモデル
Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction ( http://arxiv.org/abs/2409.18124v1 ) ライセンス: Link先を確認 | Jing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Liu, Bingbing Liu, Ying-Cong Chen, | (参考訳) 事前訓練されたテキスト・ツー・イメージ拡散モデルの視覚的先行性を活用することは、密集予測タスクにおけるゼロショット一般化を強化するための有望なソリューションを提供する。
しかし、既存の手法はしばしば元の拡散定式化を非批判的に利用するが、これは密度予測と画像生成の根本的な違いのために最適ではないかもしれない。
本稿では,高密度予測のための拡散定式化の体系的解析を行い,品質と効率の両面に着目した。
また,ノイズの予測を学習する画像生成のパラメータ化タイプは,高密度な予測には有害であり,マルチステップのノイズ生成/デノナイズ拡散プロセスも不要であり,最適化が困難であることがわかった。
これらの知見に基づき,拡散に基づく視覚基盤モデルであるLotusを導入し,高密度予測のための簡易かつ効果的な適応プロトコルを提案する。
特にLotusは、ノイズではなくアノテーションを直接予測するように訓練されており、有害な分散を避けることができる。
また,拡散過程を1ステップの手順に再構成し,最適化を簡素化し,推論速度を大幅に向上させる。
さらに,より正確できめ細かい予測が可能なディテール・レザーバという新しいチューニング戦略を導入する。
トレーニングデータやモデルのキャパシティをスケールアップすることなく、Lotusは、ゼロショットの深さでSoTAのパフォーマンスを達成し、さまざまなデータセットにわたって正常に見積もる。
また、既存の拡散ベースの手法の数百倍の速度で効率を大幅に向上させる。
Leveraging the visual priors of pre-trained text-to-image diffusion models offers a promising solution to enhance zero-shot generalization in dense prediction tasks. However, existing methods often uncritically use the original diffusion formulation, which may not be optimal due to the fundamental differences between dense prediction and image generation. In this paper, we provide a systemic analysis of the diffusion formulation for the dense prediction, focusing on both quality and efficiency. And we find that the original parameterization type for image generation, which learns to predict noise, is harmful for dense prediction; the multi-step noising/denoising diffusion process is also unnecessary and challenging to optimize. Based on these insights, we introduce Lotus, a diffusion-based visual foundation model with a simple yet effective adaptation protocol for dense prediction. Specifically, Lotus is trained to directly predict annotations instead of noise, thereby avoiding harmful variance. We also reformulate the diffusion process into a single-step procedure, simplifying optimization and significantly boosting inference speed. Additionally, we introduce a novel tuning strategy called detail preserver, which achieves more accurate and fine-grained predictions. Without scaling up the training data or model capacity, Lotus achieves SoTA performance in zero-shot depth and normal estimation across various datasets. It also significantly enhances efficiency, being hundreds of times faster than most existing diffusion-based methods. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# LLaVA-3D:3D認識によるLMMの簡易かつ効果的な活用方法
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness ( http://arxiv.org/abs/2409.18125v1 ) ライセンス: Link先を確認 | Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu, | (参考訳) 大規模マルチモーダルモデル(LMM)の最近の進歩は、2次元視覚理解タスクの能力を大幅に向上させ、画像やビデオの効果的処理と理解を可能にしている。
しかし、3次元シーン理解のための3次元認識型LMMの開発は、大規模な3次元視覚言語データセットと強力な3次元エンコーダの欠如によって妨げられている。
本稿では,LLaVA-3Dというシンプルなフレームワークを提案する。
LLaVA3DはLLaVAからの強い2次元理解を生かし、LLaVAを2次元理解能力を損なうことなく3次元のシーン理解に効果的に適用する。
これを実現するために,2次元CLIPパッチ機能と対応する3次元空間の位置を接続するシンプルな3Dパッチを用いた。
3次元パッチを2次元LMMに統合し,共同で2次元と3次元の視覚言語による指導チューニングを行うことで,2次元画像理解と3次元シーン理解の両面に統一的なアーキテクチャを構築する。
実験結果から,LLaVA-3Dは既存の3次元LMMよりも3.5倍の速度で収束することが示された。
さらに、LLaVA-3Dは、様々な3Dタスクにまたがる最先端のパフォーマンスを達成するだけでなく、LLaVAと同等の2D画像理解とビジョン言語会話能力を維持している。
Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced their proficiency in 2D visual understanding tasks, enabling them to effectively process and understand images and videos. However, the development of LMMs with 3D-awareness for 3D scene understanding has been hindered by the lack of large-scale 3D vision-language datasets and powerful 3D encoders. In this paper, we introduce a simple yet effective framework called LLaVA-3D. Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D efficiently adapts LLaVA for 3D scene understanding without compromising 2D understanding capabilities. To achieve this, we employ a simple yet effective representation, 3D Patch, which connects 2D CLIP patch features with their corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs and employing joint 2D and 3D vision-language instruction tuning, we establish a unified architecture for both 2D image understanding and 3D scene understanding. Experimental results show that LLaVA-3D converges 3.5x faster than existing 3D LMMs when trained on 3D vision-language datasets. Moreover, LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks but also maintains comparable 2D image understanding and vision-language conversation capabilities with LLaVA. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# EgoLM: 自我中心運動の多モード言語モデル
EgoLM: Multi-Modal Language Model of Egocentric Motions ( http://arxiv.org/abs/2409.18127v1 ) ライセンス: Link先を確認 | Fangzhou Hong, Vladimir Guzov, Hyo Jin Kim, Yuting Ye, Richard Newcombe, Ziwei Liu, Lingni Ma, | (参考訳) ウェアラブルデバイスが普及するにつれ、コンテキストAIを開発するためには、エゴセントリックな学習が不可欠となる。
本研究では,マルチモーダル入力,例えば,エゴセントリックビデオやモーションセンサから,エゴセントリックな動きを追跡し,理解する多機能なフレームワークであるEgoLMを提案する。
EgoLMは、単一のモダリティ条件下では不適切なエゴモーション追跡と理解の曖昧さのために、リッチなコンテキストを利用する。
汎用的でマルチモーダルなフレームワークを実現するために,我々は,多言語モデル(LLM)を用いて,自我中心運動と自然言語の連立分布をモデル化する。
マルチモーダルセンサ入力を符号化し、言語モデルのジョイント潜在空間に投影し、それぞれにエゴモーショントラッキングや理解のための動作生成やテキスト生成を促す。
大規模マルチモーダル・ヒューマン・モーション・データセットの大規模な実験は、普遍的な自我中心学習のための一般モデルとしてのEgoLMの有効性を検証した。
As the prevalence of wearable devices, learning egocentric motions becomes essential to develop contextual AI. In this work, we present EgoLM, a versatile framework that tracks and understands egocentric motions from multi-modal inputs, e.g., egocentric videos and motion sensors. EgoLM exploits rich contexts for the disambiguation of egomotion tracking and understanding, which are ill-posed under single modality conditions. To facilitate the versatile and multi-modal framework, our key insight is to model the joint distribution of egocentric motions and natural languages using large language models (LLM). Multi-modal sensor inputs are encoded and projected to the joint latent space of language models, and used to prompt motion generation or text generation for egomotion tracking or understanding, respectively. Extensive experiments on large-scale multi-modal human motion dataset validate the effectiveness of EgoLM as a generalist model for universal egocentric learning. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# FlowTurbo:Velocity Refinerを用いたリアルタイムフローベース画像生成を目指して
FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner ( http://arxiv.org/abs/2409.18128v1 ) ライセンス: Link先を確認 | Wenliang Zhao, Minglei Shi, Xumin Yu, Jie Zhou, Jiwen Lu, | (参考訳) 視覚生成における拡散モデルの成功に基づいて、フローベースモデルは、視覚的品質と推論速度の両方において、競争力またはより良いパフォーマンスを達成した別の顕著な生成モデルのファミリーとして再燃する。
フローマッチングを通して速度場を学習することにより、フローベースモデルはよりストレートなサンプリング軌道を生成する傾向にあり、サンプリング過程において有利である。
しかし, 高速サンプリング装置が十分に開発されている拡散モデルとは異なり, フローベース生成モデルの効率的なサンプリングはめったに行われていない。
本稿では,フローベースモデルのサンプリングを高速化しつつ,サンプリング品質を向上するFlowTurboというフレームワークを提案する。
第一の観察は,フローベースモデルにおける速度予測器の出力がサンプリング中に安定になり,軽量な速度補正器による速度推定が可能となることである。
さらに、擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し、推論時間をさらに短縮する。
FlowTurboはマルチステップサンプリングパラダイムを変更しないため、画像編集やインペイントなど、さまざまなタスクに効果的に適用することができる。
FlowTurboを異なるフローベースモデルに統合することにより、クラス条件生成では53.1%$\sim$58.3%、テキスト画像生成では29.8%$\sim$38.5%の加速比が得られる。
FlowTurboは100 (ms / img)のImageNetで2.12、38 (ms / img)のFIDで38 (ms / img)のFIDに達し、リアルタイム画像生成を実現し、新しい最先端技術を確立する。
コードはhttps://github.com/shiml20/FlowTurbo.comで入手できる。
Building on the success of diffusion models in visual generation, flow-based models reemerge as another prominent family of generative models that have achieved competitive or better performance in terms of both visual quality and inference speed. By learning the velocity field through flow-matching, flow-based models tend to produce a straighter sampling trajectory, which is advantageous during the sampling process. However, unlike diffusion models for which fast samplers are well-developed, efficient sampling of flow-based generative models has been rarely explored. In this paper, we propose a framework called FlowTurbo to accelerate the sampling of flow-based models while still enhancing the sampling quality. Our primary observation is that the velocity predictor's outputs in the flow-based models will become stable during the sampling, enabling the estimation of velocity via a lightweight velocity refiner. Additionally, we introduce several techniques including a pseudo corrector and sample-aware compilation to further reduce inference time. Since FlowTurbo does not change the multi-step sampling paradigm, it can be effectively applied for various tasks such as image editing, inpainting, etc. By integrating FlowTurbo into different flow-based models, we obtain an acceleration ratio of 53.1%$\sim$58.3% on class-conditional generation and 29.8%$\sim$38.5% on text-to-image generation. Notably, FlowTurbo reaches an FID of 2.12 on ImageNet with 100 (ms / img) and FID of 3.93 with 38 (ms / img), achieving the real-time image generation and establishing the new state-of-the-art. Code is available at https://github.com/shiml20/FlowTurbo. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |
# Hubbard および $t$-$J$ モデルにおける競合ストライプとペア形成の双対起源
Two-dopant origin of competing stripe and pair formation in Hubbard and $t$-$J$ models ( http://arxiv.org/abs/2409.18131v1 ) ライセンス: Link先を確認 | Tizian Blatz, Ulrich Schollwöck, Fabian Grusdt, Annabelle Bohrdt, | (参考訳) 2次元ハバードモデルの物理を理解することは、高いT_\mathrm{c}$銅酸化物超伝導体の完全な理解を達成するための重要なステップであると考えられている。
近年では、有限ドーピングにおける大規模数値シミュレーションや、個々の電荷キャリアの物理を捉えることができる微視的理論が進歩している。
本研究では, 密度行列再正規化群アルゴリズムを用いて, 円筒系における単対のドーパントについて検討する。
スピン領域の壁を伴って, (next-)nearest-neighborペアと, シリンダーの両側にドーパントのストライプ状の形状を特徴とする密結合型構成を, スピン環境に結合する2つの共存電荷配置を, 異なる方法で同定した。
このように、有限ドーピングにおけるモデルの位相の中心となるストライプ次数と一様ペアリングの相互作用が、単対レベルでの起源を持つことを示す。
ハバードと関連する$t$-$J$モデルを補間することにより、通常、$t$-$J$ハミルトニアンから省略される3サイトホッピング項を通して、2つのモデルのペアリング特性の相違を定量的に理解することができる。
この用語は、隣り合う隣り合う次のトンネルの$t'$と密接に関連している。
Understanding the physics of the two-dimensional Hubbard model is widely believed to be a key step in achieving a full understanding of high-$T_\mathrm{c}$ cuprate superconductors. In recent years, progress has been made by large-scale numerical simulations at finite doping and, on the other hand, by microscopic theories able to capture the physics of individual charge carriers. In this work, we study single pairs of dopants in a cylindrical system using the density-matrix renormalization group algorithm. We identify two coexisting charge configurations that couple to the spin environment in different ways: A tightly bound configuration featuring (next-)nearest-neighbor pairs and a stripe-like configuration of dopants on opposite sides of the cylinder, accompanied by a spin domain wall. Thus, we establish that the interplay between stripe order and uniform pairing, central to the models' phases at finite doping, has its origin at the single-pair level. By interpolating between the Hubbard and the related $t$-$J$ model, we are able to quantitatively understand discrepancies in the pairing properties of the two models through the three-site hopping term usually omitted from the $t$-$J$ Hamiltonian. This term is closely related to a next-nearest-neighbor tunneling $t'$, which we observe to upset the balance between the competing stripe and pair states on the two-dopant level. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-26 |